華為云春節(jié)前夕遭連續(xù)偷襲!密謀3個(gè)月,專(zhuān)挑凌晨斷網(wǎng)
1個(gè)月發(fā)動(dòng)組合攻擊20余次
楊凈 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
“把上海、廣州兩個(gè)站點(diǎn)網(wǎng)絡(luò)全斷掉!”
“趁他們晚飯不注意的時(shí)候,注入攻擊!”
“還要在凌晨3點(diǎn)大家睡覺(jué)的時(shí)候,再攻擊一波!”
……
這是華為云最近破獲的一次“陰謀”,時(shí)間就在春節(jié)前夕。
之所以這波攻擊不容小覷,是因?yàn)槿绻幹\一旦得逞,華為云內(nèi)部系統(tǒng)的運(yùn)行將面臨嚴(yán)重的后果。
1個(gè)月發(fā)動(dòng)組合攻擊20余次
攻擊者的計(jì)劃,在3個(gè)月前就已經(jīng)開(kāi)始。
經(jīng)過(guò)密謀協(xié)商,他們決定在春節(jié)前后“干票大的”,近1個(gè)月來(lái)發(fā)動(dòng)組合攻擊20余次。
動(dòng)機(jī)很簡(jiǎn)單:春節(jié)期間,各種短視頻、社交媒體,包括自拍軟件等應(yīng)用流量激增,理論上是多數(shù)云服務(wù)廠(chǎng)商流量最高、最易出故障的時(shí)候。
一旦攻擊成功,就會(huì)有大量互聯(lián)網(wǎng)服務(wù)出現(xiàn)不穩(wěn)定、甚至影響更大的情況。
尤其像除夕搶紅包這類(lèi)活動(dòng),8點(diǎn)到凌晨1點(diǎn)正是流量峰值期,故障多一秒鐘用戶(hù)都無(wú)法忍受。
所幸,這次攻擊結(jié)果并未達(dá)到目的。
華為云反應(yīng)非常迅速,將排查問(wèn)題的時(shí)間限制在3分鐘內(nèi)、并利用5分鐘進(jìn)行修復(fù),最終在8分鐘內(nèi)就處理好了系統(tǒng)故障,全程沒(méi)有影響到云上業(yè)務(wù)的運(yùn)行。
不免讓人好奇,為何華為云會(huì)任由這些攻擊反復(fù)發(fā)動(dòng)?
畢竟對(duì)于華為云來(lái)說(shuō),這群攻擊者已經(jīng)不是“初次來(lái)犯”。
手段從人為攻擊到利用系統(tǒng)“自動(dòng)”攻擊,類(lèi)型從斷網(wǎng)、故障注入到各種最新的攻擊“武器”,都被他們嘗試過(guò)。
但即使面對(duì)未知攻擊,華為云卻依舊能迅速處理。
不止這類(lèi)春節(jié)前夕的攻擊,面對(duì)各種類(lèi)型的攻擊,他們都能及時(shí)察覺(jué)系統(tǒng)異常、迅速定位并解決問(wèn)題,將整個(gè)過(guò)程壓縮到10分鐘內(nèi)。
而這又是為何?
隨時(shí)待命的“特戰(zhàn)隊(duì)”
原來(lái),這個(gè)秘密謀劃三個(gè)月、攻擊華為云上千次的攻擊者團(tuán)隊(duì),竟是華為云內(nèi)部的一支“秘密團(tuán)隊(duì)”,名曰“藍(lán)軍”。
他們不停地設(shè)計(jì)最新的攻擊彈藥,隨時(shí)對(duì)華為云系統(tǒng)進(jìn)行突襲。
至于作為防御方的紅軍團(tuán)隊(duì),則是隨時(shí)處于待命狀態(tài),一旦察覺(jué)藍(lán)軍攻擊便第一時(shí)間進(jìn)行修復(fù)。
兩個(gè)團(tuán)隊(duì)之間沒(méi)有任何溝通,什么時(shí)候觸發(fā)攻擊也不可知。
除了人為攻擊,藍(lán)軍甚至還用上了混沌工程,系統(tǒng)會(huì)隨機(jī)、自動(dòng)地去攻擊紅軍維護(hù)的系統(tǒng),近一年攻擊總數(shù)多達(dá)2000+次。
而在這類(lèi)攻擊背后,所有的動(dòng)作都只有一個(gè)目的——
提升華為云系統(tǒng)的穩(wěn)定性和應(yīng)急能力。
即使在春節(jié),系統(tǒng)的維護(hù)和防御也不會(huì)停止:華為云專(zhuān)門(mén)成立了一支“特戰(zhàn)隊(duì)”。
“特戰(zhàn)隊(duì)”的規(guī)模上百人,都是已經(jīng)應(yīng)對(duì)過(guò)無(wú)數(shù)次攻擊、“身經(jīng)百戰(zhàn)”的全棧工程師。
從現(xiàn)在一直到元宵節(jié),“特戰(zhàn)隊(duì)”隊(duì)員們按三班倒的形式,7×24小時(shí)全職投入春節(jié)運(yùn)維保障。
這樣一來(lái),即使攻擊者想“趁虛而入”,從流程上來(lái)說(shuō)也不會(huì)太過(guò)輕松。
但這還僅僅是解答了第一個(gè)疑問(wèn)。
為何華為云面臨攻擊,能迅速穩(wěn)定地處理整個(gè)流程?
故障率保持在0.01%以?xún)?nèi)
可以說(shuō),這次藍(lán)軍的攻擊,正好撞在了早有準(zhǔn)備的紅軍“槍口”上。
早在三個(gè)月前也就是11月5日,紅軍就已經(jīng)開(kāi)始排查系統(tǒng)風(fēng)險(xiǎn),并通過(guò)流量預(yù)估來(lái)進(jìn)一步降低故障發(fā)生率。
事實(shí)上,這已經(jīng)不是傳統(tǒng)意義上的運(yùn)維團(tuán)隊(duì)了。
無(wú)論是日常排除風(fēng)險(xiǎn)故障、維持系統(tǒng)穩(wěn)定的紅軍,還是春節(jié)值守的“特戰(zhàn)隊(duì)”,都來(lái)自華為云內(nèi)部一只“訓(xùn)練有素”的團(tuán)隊(duì)——SRE。
SRE這個(gè)概念,最早定義是“用軟件工程的方法從事運(yùn)維活動(dòng)”。在華為云這里還要更精細(xì)一點(diǎn),誕生出了“確定性”的方法論,來(lái)達(dá)成“高可用”的目標(biāo)。
一言以蔽之,就是在設(shè)計(jì)產(chǎn)品時(shí)就考慮高可用的架構(gòu)、并將風(fēng)險(xiǎn)控制做到動(dòng)態(tài)清零、再加上智能化運(yùn)維平臺(tái),來(lái)控制不確定性的風(fēng)險(xiǎn),達(dá)成確定性的風(fēng)控質(zhì)量。
SRE團(tuán)隊(duì)自主研發(fā)了一個(gè)智能運(yùn)維平臺(tái),用數(shù)據(jù)驅(qū)動(dòng)的方法,將運(yùn)維過(guò)程變得標(biāo)準(zhǔn)化、自動(dòng)化。具體而言,這個(gè)平臺(tái)不僅能實(shí)時(shí)記錄運(yùn)維數(shù)據(jù),還能度量全流程各個(gè)環(huán)節(jié)的質(zhì)量,真正做到縮短問(wèn)題發(fā)現(xiàn)、故障定位和修復(fù)的時(shí)間。
如今,平臺(tái)的監(jiān)控指標(biāo)數(shù)量已經(jīng)達(dá)到160億/小時(shí),運(yùn)維系統(tǒng)用戶(hù)數(shù)達(dá)到10000+,變更頻率每分鐘2次,兼顧智能運(yùn)維和日志記錄等功能。
在智能運(yùn)維平臺(tái)以外,SRE團(tuán)隊(duì)還會(huì)借助流量預(yù)估等工作,來(lái)進(jìn)一步提升系統(tǒng)的可用性,降低風(fēng)險(xiǎn)發(fā)生的概率。
具體來(lái)說(shuō),是通過(guò)特定的算法模型,結(jié)合指標(biāo)對(duì)資源使用情況進(jìn)行預(yù)估。
在華為云背后,有一個(gè)博士軍團(tuán),其中有專(zhuān)門(mén)的算法創(chuàng)新實(shí)驗(yàn)室,研究人員會(huì)協(xié)助流量預(yù)估人員進(jìn)行算法調(diào)優(yōu),像近期實(shí)驗(yàn)室一篇關(guān)于用強(qiáng)化學(xué)習(xí)求解虛擬機(jī)調(diào)度問(wèn)題的論文,已經(jīng)被頂級(jí)期刊Pattern Recognition接收。
同時(shí),還會(huì)借助云操作系統(tǒng)和全域調(diào)度等技術(shù),高效“壓榨”并分配有限的流量資源,包括采用“瑤光”智慧云腦,負(fù)責(zé)整個(gè)云的資源分配、部署、調(diào)動(dòng)和供給,以及結(jié)合全域調(diào)度等技術(shù),進(jìn)一步精細(xì)化資源的利用效率等。
目前,華為云系統(tǒng)的故障發(fā)生率也被壓制在0.01%以下,即一年故障發(fā)生的時(shí)間保持在53分鐘以?xún)?nèi)。
數(shù)字世界的春節(jié)保衛(wèi)戰(zhàn)
事實(shí)上,華為云今年投入春節(jié)保衛(wèi)戰(zhàn)的人力,前后已經(jīng)接近1000人。
其中整個(gè)SRE團(tuán)隊(duì)幾百人,更是一直處于“全員在線(xiàn)”的備戰(zhàn)狀態(tài)。
某種程度上,他們與傳統(tǒng)行業(yè)里的員工一樣,是保障我們生活便利的春節(jié)值守人。
只不過(guò)維度從線(xiàn)下的物理世界轉(zhuǎn)變到了線(xiàn)上的數(shù)字世界。
在運(yùn)維行業(yè)干了20多年的張智認(rèn)為,春節(jié)的味道其實(shí)并沒(méi)有變,只是換了個(gè)地方過(guò)年。
△華為云SRE專(zhuān)家張智
以前春節(jié)主要是在物理世界,但現(xiàn)在數(shù)字世界的春節(jié)可能比物理世界更熱鬧。現(xiàn)在我在數(shù)字世界上,也可以跟朋友一起過(guò)春節(jié)、搶紅包、刷視頻。
見(jiàn)證過(guò)不少同行災(zāi)難發(fā)生的他,認(rèn)為這份值守不可或缺:
你不知道風(fēng)險(xiǎn)什么時(shí)候會(huì)發(fā)生。但SRE可以真正降低遇到風(fēng)險(xiǎn)的可能性。
從其他崗位轉(zhuǎn)到SRE的石勝兵,雖然調(diào)侃了一下這個(gè)身份在春節(jié)中的特殊性:
△華為云SRE專(zhuān)家石勝兵
SRE算是華為云背后的角色。我們其實(shí)很少在像春節(jié)這樣的節(jié)日中“露面”,因?yàn)檎娉霈F(xiàn)的時(shí)候,往往都“不是一些好事”。
但這份工作卻讓他感受到“新的春天”:
我在華為工作了二十年,來(lái)這個(gè)團(tuán)隊(duì)一年半。原以為上個(gè)崗位就是職業(yè)生涯的最后一個(gè),現(xiàn)在感覺(jué)新的春天到來(lái)。
一方面體現(xiàn)在SRE本身,它是華為云最年輕的團(tuán)隊(duì)。
另一方面,隨著行業(yè)快速成長(zhǎng),年輕的SRE正成為云服務(wù)質(zhì)量保障的中堅(jiān)力量。
其實(shí)這種對(duì)數(shù)字生活的保障,也并非孤例。
平時(shí)出行的電子公交卡、一鍵打車(chē),吃飯時(shí)的數(shù)字支付、生病時(shí)的在線(xiàn)預(yù)約,再到網(wǎng)購(gòu)和線(xiàn)上游戲聚會(huì),回想起來(lái)我們已經(jīng)離不開(kāi)數(shù)字化的生活。
而若再往前看一些,從最早提出的“智慧地球”,到后來(lái)AI發(fā)展帶起的“全真互聯(lián)網(wǎng)”,再到現(xiàn)在的“元宇宙”,行業(yè)熱詞一直與數(shù)字世界息息相關(guān)。
具體到技術(shù)上,包括這幾年“數(shù)字人”的爆發(fā)、隨著AI發(fā)展再度被帶起來(lái)的XR設(shè)備也在說(shuō)明,我們的生活確實(shí)正不知不覺(jué)地與數(shù)字世界發(fā)生融合。
在數(shù)字世界中,云服務(wù)反而從一種新興的技術(shù),成為了不可或缺的基礎(chǔ)設(shè)施。
換而言之,我們的一切互聯(lián)網(wǎng)服務(wù)和數(shù)字產(chǎn)品,最終都由云帶來(lái),并運(yùn)行在云上,甚至我們?cè)诔蔀閿?shù)字虛擬世界的一份子時(shí),本身也會(huì)被加載到云中。
傳統(tǒng)物理世界的水電、橋路和房子,被還原到數(shù)字世界中去后,也不過(guò)是存儲(chǔ)在云上的一些數(shù)據(jù)。
在這種趨勢(shì)之下,云服務(wù)的穩(wěn)定性就變得和數(shù)字世界中的基建穩(wěn)定性一樣重要,反映到春節(jié)中則更是如此。
如今的特殊時(shí)期,我們反而比以往更依賴(lài)于數(shù)字春節(jié)的保障。
而這一次,華為云的攻防演練和紅藍(lán)對(duì)抗披露,不僅是一次先進(jìn)經(jīng)驗(yàn)和機(jī)制的分享,更提醒我們關(guān)注日益依賴(lài)的「數(shù)字世界的基礎(chǔ)設(shè)施」。
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06