華為云春節(jié)前夕遭連續(xù)偷襲!密謀3個月,專挑凌晨斷網(wǎng)
1個月發(fā)動組合攻擊20余次
楊凈 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
“把上海、廣州兩個站點(diǎn)網(wǎng)絡(luò)全斷掉!”
“趁他們晚飯不注意的時候,注入攻擊!”
“還要在凌晨3點(diǎn)大家睡覺的時候,再攻擊一波!”
……
這是華為云最近破獲的一次“陰謀”,時間就在春節(jié)前夕。
之所以這波攻擊不容小覷,是因為如果陰謀一旦得逞,華為云內(nèi)部系統(tǒng)的運(yùn)行將面臨嚴(yán)重的后果。
1個月發(fā)動組合攻擊20余次
攻擊者的計劃,在3個月前就已經(jīng)開始。
經(jīng)過密謀協(xié)商,他們決定在春節(jié)前后“干票大的”,近1個月來發(fā)動組合攻擊20余次。
動機(jī)很簡單:春節(jié)期間,各種短視頻、社交媒體,包括自拍軟件等應(yīng)用流量激增,理論上是多數(shù)云服務(wù)廠商流量最高、最易出故障的時候。
一旦攻擊成功,就會有大量互聯(lián)網(wǎng)服務(wù)出現(xiàn)不穩(wěn)定、甚至影響更大的情況。
尤其像除夕搶紅包這類活動,8點(diǎn)到凌晨1點(diǎn)正是流量峰值期,故障多一秒鐘用戶都無法忍受。
所幸,這次攻擊結(jié)果并未達(dá)到目的。
華為云反應(yīng)非常迅速,將排查問題的時間限制在3分鐘內(nèi)、并利用5分鐘進(jìn)行修復(fù),最終在8分鐘內(nèi)就處理好了系統(tǒng)故障,全程沒有影響到云上業(yè)務(wù)的運(yùn)行。
不免讓人好奇,為何華為云會任由這些攻擊反復(fù)發(fā)動?
畢竟對于華為云來說,這群攻擊者已經(jīng)不是“初次來犯”。
手段從人為攻擊到利用系統(tǒng)“自動”攻擊,類型從斷網(wǎng)、故障注入到各種最新的攻擊“武器”,都被他們嘗試過。
但即使面對未知攻擊,華為云卻依舊能迅速處理。
不止這類春節(jié)前夕的攻擊,面對各種類型的攻擊,他們都能及時察覺系統(tǒng)異常、迅速定位并解決問題,將整個過程壓縮到10分鐘內(nèi)。
而這又是為何?
隨時待命的“特戰(zhàn)隊”
原來,這個秘密謀劃三個月、攻擊華為云上千次的攻擊者團(tuán)隊,竟是華為云內(nèi)部的一支“秘密團(tuán)隊”,名曰“藍(lán)軍”。
他們不停地設(shè)計最新的攻擊彈藥,隨時對華為云系統(tǒng)進(jìn)行突襲。
至于作為防御方的紅軍團(tuán)隊,則是隨時處于待命狀態(tài),一旦察覺藍(lán)軍攻擊便第一時間進(jìn)行修復(fù)。
兩個團(tuán)隊之間沒有任何溝通,什么時候觸發(fā)攻擊也不可知。
除了人為攻擊,藍(lán)軍甚至還用上了混沌工程,系統(tǒng)會隨機(jī)、自動地去攻擊紅軍維護(hù)的系統(tǒng),近一年攻擊總數(shù)多達(dá)2000+次。
而在這類攻擊背后,所有的動作都只有一個目的——
提升華為云系統(tǒng)的穩(wěn)定性和應(yīng)急能力。
即使在春節(jié),系統(tǒng)的維護(hù)和防御也不會停止:華為云專門成立了一支“特戰(zhàn)隊”。
“特戰(zhàn)隊”的規(guī)模上百人,都是已經(jīng)應(yīng)對過無數(shù)次攻擊、“身經(jīng)百戰(zhàn)”的全棧工程師。
從現(xiàn)在一直到元宵節(jié),“特戰(zhàn)隊”隊員們按三班倒的形式,7×24小時全職投入春節(jié)運(yùn)維保障。
這樣一來,即使攻擊者想“趁虛而入”,從流程上來說也不會太過輕松。
但這還僅僅是解答了第一個疑問。
為何華為云面臨攻擊,能迅速穩(wěn)定地處理整個流程?
故障率保持在0.01%以內(nèi)
可以說,這次藍(lán)軍的攻擊,正好撞在了早有準(zhǔn)備的紅軍“槍口”上。
早在三個月前也就是11月5日,紅軍就已經(jīng)開始排查系統(tǒng)風(fēng)險,并通過流量預(yù)估來進(jìn)一步降低故障發(fā)生率。
事實(shí)上,這已經(jīng)不是傳統(tǒng)意義上的運(yùn)維團(tuán)隊了。
無論是日常排除風(fēng)險故障、維持系統(tǒng)穩(wěn)定的紅軍,還是春節(jié)值守的“特戰(zhàn)隊”,都來自華為云內(nèi)部一只“訓(xùn)練有素”的團(tuán)隊——SRE。
SRE這個概念,最早定義是“用軟件工程的方法從事運(yùn)維活動”。在華為云這里還要更精細(xì)一點(diǎn),誕生出了“確定性”的方法論,來達(dá)成“高可用”的目標(biāo)。
一言以蔽之,就是在設(shè)計產(chǎn)品時就考慮高可用的架構(gòu)、并將風(fēng)險控制做到動態(tài)清零、再加上智能化運(yùn)維平臺,來控制不確定性的風(fēng)險,達(dá)成確定性的風(fēng)控質(zhì)量。
SRE團(tuán)隊自主研發(fā)了一個智能運(yùn)維平臺,用數(shù)據(jù)驅(qū)動的方法,將運(yùn)維過程變得標(biāo)準(zhǔn)化、自動化。具體而言,這個平臺不僅能實(shí)時記錄運(yùn)維數(shù)據(jù),還能度量全流程各個環(huán)節(jié)的質(zhì)量,真正做到縮短問題發(fā)現(xiàn)、故障定位和修復(fù)的時間。
如今,平臺的監(jiān)控指標(biāo)數(shù)量已經(jīng)達(dá)到160億/小時,運(yùn)維系統(tǒng)用戶數(shù)達(dá)到10000+,變更頻率每分鐘2次,兼顧智能運(yùn)維和日志記錄等功能。
在智能運(yùn)維平臺以外,SRE團(tuán)隊還會借助流量預(yù)估等工作,來進(jìn)一步提升系統(tǒng)的可用性,降低風(fēng)險發(fā)生的概率。
具體來說,是通過特定的算法模型,結(jié)合指標(biāo)對資源使用情況進(jìn)行預(yù)估。
在華為云背后,有一個博士軍團(tuán),其中有專門的算法創(chuàng)新實(shí)驗室,研究人員會協(xié)助流量預(yù)估人員進(jìn)行算法調(diào)優(yōu),像近期實(shí)驗室一篇關(guān)于用強(qiáng)化學(xué)習(xí)求解虛擬機(jī)調(diào)度問題的論文,已經(jīng)被頂級期刊Pattern Recognition接收。
同時,還會借助云操作系統(tǒng)和全域調(diào)度等技術(shù),高效“壓榨”并分配有限的流量資源,包括采用“瑤光”智慧云腦,負(fù)責(zé)整個云的資源分配、部署、調(diào)動和供給,以及結(jié)合全域調(diào)度等技術(shù),進(jìn)一步精細(xì)化資源的利用效率等。
目前,華為云系統(tǒng)的故障發(fā)生率也被壓制在0.01%以下,即一年故障發(fā)生的時間保持在53分鐘以內(nèi)。
數(shù)字世界的春節(jié)保衛(wèi)戰(zhàn)
事實(shí)上,華為云今年投入春節(jié)保衛(wèi)戰(zhàn)的人力,前后已經(jīng)接近1000人。
其中整個SRE團(tuán)隊幾百人,更是一直處于“全員在線”的備戰(zhàn)狀態(tài)。
某種程度上,他們與傳統(tǒng)行業(yè)里的員工一樣,是保障我們生活便利的春節(jié)值守人。
只不過維度從線下的物理世界轉(zhuǎn)變到了線上的數(shù)字世界。
在運(yùn)維行業(yè)干了20多年的張智認(rèn)為,春節(jié)的味道其實(shí)并沒有變,只是換了個地方過年。
△華為云SRE專家張智
以前春節(jié)主要是在物理世界,但現(xiàn)在數(shù)字世界的春節(jié)可能比物理世界更熱鬧?,F(xiàn)在我在數(shù)字世界上,也可以跟朋友一起過春節(jié)、搶紅包、刷視頻。
見證過不少同行災(zāi)難發(fā)生的他,認(rèn)為這份值守不可或缺:
你不知道風(fēng)險什么時候會發(fā)生。但SRE可以真正降低遇到風(fēng)險的可能性。
從其他崗位轉(zhuǎn)到SRE的石勝兵,雖然調(diào)侃了一下這個身份在春節(jié)中的特殊性:
△華為云SRE專家石勝兵
SRE算是華為云背后的角色。我們其實(shí)很少在像春節(jié)這樣的節(jié)日中“露面”,因為真出現(xiàn)的時候,往往都“不是一些好事”。
但這份工作卻讓他感受到“新的春天”:
我在華為工作了二十年,來這個團(tuán)隊一年半。原以為上個崗位就是職業(yè)生涯的最后一個,現(xiàn)在感覺新的春天到來。
一方面體現(xiàn)在SRE本身,它是華為云最年輕的團(tuán)隊。
另一方面,隨著行業(yè)快速成長,年輕的SRE正成為云服務(wù)質(zhì)量保障的中堅力量。
其實(shí)這種對數(shù)字生活的保障,也并非孤例。
平時出行的電子公交卡、一鍵打車,吃飯時的數(shù)字支付、生病時的在線預(yù)約,再到網(wǎng)購和線上游戲聚會,回想起來我們已經(jīng)離不開數(shù)字化的生活。
而若再往前看一些,從最早提出的“智慧地球”,到后來AI發(fā)展帶起的“全真互聯(lián)網(wǎng)”,再到現(xiàn)在的“元宇宙”,行業(yè)熱詞一直與數(shù)字世界息息相關(guān)。
具體到技術(shù)上,包括這幾年“數(shù)字人”的爆發(fā)、隨著AI發(fā)展再度被帶起來的XR設(shè)備也在說明,我們的生活確實(shí)正不知不覺地與數(shù)字世界發(fā)生融合。
在數(shù)字世界中,云服務(wù)反而從一種新興的技術(shù),成為了不可或缺的基礎(chǔ)設(shè)施。
換而言之,我們的一切互聯(lián)網(wǎng)服務(wù)和數(shù)字產(chǎn)品,最終都由云帶來,并運(yùn)行在云上,甚至我們在成為數(shù)字虛擬世界的一份子時,本身也會被加載到云中。
傳統(tǒng)物理世界的水電、橋路和房子,被還原到數(shù)字世界中去后,也不過是存儲在云上的一些數(shù)據(jù)。
在這種趨勢之下,云服務(wù)的穩(wěn)定性就變得和數(shù)字世界中的基建穩(wěn)定性一樣重要,反映到春節(jié)中則更是如此。
如今的特殊時期,我們反而比以往更依賴于數(shù)字春節(jié)的保障。
而這一次,華為云的攻防演練和紅藍(lán)對抗披露,不僅是一次先進(jìn)經(jīng)驗和機(jī)制的分享,更提醒我們關(guān)注日益依賴的「數(shù)字世界的基礎(chǔ)設(shè)施」。
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06