雙11背后的技術(shù)力量,阿里云神龍治愈云計(jì)算阿克琉斯之踵
邊策 發(fā)自 凹非寺
量子位 出品 | 公眾號(hào) QbitAI
導(dǎo)語:自計(jì)算機(jī)誕生以來,計(jì)算性能一直是科技產(chǎn)業(yè)發(fā)展的標(biāo)尺。過去數(shù)十年提升芯片制造工藝、堆疊核數(shù)是性能演進(jìn)的標(biāo)準(zhǔn)路線,摩爾定律約束下性能增長曲線幾近完美。
近幾年,云計(jì)算成為企業(yè)獲取算力的主要來源,但云帶來便利的同時(shí)也帶來了巨大的性能損耗,鮮為人知的是,一場(chǎng)云計(jì)算企業(yè)主導(dǎo)的計(jì)算革命正在到來。
剛剛結(jié)束的天貓雙11期間,阿里巴巴集團(tuán)CTO張建鋒向業(yè)界釋放了一個(gè)重磅信號(hào):今年雙11核心系統(tǒng)100%上云,而阿里云自研神龍服務(wù)器為各個(gè)環(huán)節(jié)提供了最強(qiáng)的算力底座,并成功扛住了54.4萬筆/秒的訂單創(chuàng)建峰值。
△ 阿里巴巴集團(tuán)CTO張建鋒
更早些時(shí)候,坊間傳聞國內(nèi)云計(jì)算頭號(hào)玩家阿里云正在秘密準(zhǔn)備新“殺手锏”,推動(dòng)下一代云計(jì)算的技術(shù)升級(jí)——“阿里平頭哥正在研發(fā)一款專用SoC芯片,該SoC芯片將用于阿里云神龍服務(wù)器(X-Dragon Cloud Server)的核心組件MOC卡。”
9月的杭州云棲大會(huì)上,這則消息幾乎得到證實(shí),平頭哥在研發(fā)新芯片板上釘釘,但背后更深層的意義在于已經(jīng)服役一年多的神龍架構(gòu)。
近幾個(gè)月,神龍橫空出世,頻頻出現(xiàn)在大眾視野并非偶然。
作為2017年誕生的“新物種”,神龍開創(chuàng)了云計(jì)算時(shí)代的新計(jì)算范式,在全球率先攻克了計(jì)算資源和性能損耗的 “頑疾”。
云計(jì)算性能復(fù)興之路
2007年亞馬遜AWS推出EC2云服務(wù)被認(rèn)為是云計(jì)算行業(yè)的開端,這種用集中分配計(jì)算資源的方式給企業(yè)帶來了極大的便利,如今已被廣大企業(yè)接受。
但光鮮亮麗的外表之下,其本身也存在諸多自打娘胎里的頑疾。
首先,云計(jì)算用戶對(duì)硬件的需求千差萬別,用戶并不直接接觸云端的硬件,而是通過虛擬機(jī)的方式搭建云。在這個(gè)過程中,不可能避免的出現(xiàn)性能損失、軟件不兼容的問題。
虛擬化會(huì)如同黑洞般吸收走一部分機(jī)器的性能,云端的彈性能力是犧牲性能和資源來換取的,這是云計(jì)算與生俱來的缺點(diǎn):
例如,一臺(tái)96核的服務(wù)器上運(yùn)行云服務(wù)器,可能需要占用8核32G來抵消虛擬化的開銷,留給用戶使用的只剩88核和剩余內(nèi)存,造成了算力的極大浪費(fèi)。
不僅如此,在同一服務(wù)器上的云服務(wù)器之間資源調(diào)度無法做到完全的隔離,存在資源搶占的情況,因此其性能也不穩(wěn)定。
多種因素交織作用下,云計(jì)算的技術(shù)瓶頸與行業(yè)需求的鴻溝在不斷擴(kuò)大,面對(duì)這一歷史性難題,整個(gè)產(chǎn)業(yè)鏈均束手無策。
盡管云廠商、芯片商、虛擬化廠商都在試圖嘗試新的方法,例如英特爾等芯片商提供了硬件級(jí)別的虛擬化支持,虛擬化技術(shù)本身也從Xen演進(jìn)到了KVM,但由于軟件廠商、硬件廠商、系統(tǒng)集成商各層之間依舊是割裂的模式,都未能在根本上解決問題。
2015年,阿里云已經(jīng)躍升為中國云計(jì)算市場(chǎng)份額最高的云服務(wù)商。在服務(wù)廣大中小企業(yè)的同時(shí),也開始支撐阿里巴巴集團(tuán)業(yè)務(wù),但在這一規(guī)模下,該問題被放大了N倍,例如在雙11中,要提供同等規(guī)模的性能,可能需要調(diào)用過去數(shù)倍的服務(wù)器,整體服務(wù)質(zhì)量也受到不同程度影響。
這對(duì)于任何一家云廠商和云上企業(yè)而言,都是無法接受的。
2016年,阿里云將損耗降到了3%,這一數(shù)字已經(jīng)達(dá)到當(dāng)時(shí)技術(shù)能力的極限,未來可優(yōu)化空間的極為有限。
但對(duì)阿里而言,這只是云上性能復(fù)興之路的開始。
阿里云思變:“治愈”云計(jì)算的阿克琉斯之踵
2010年,BAT三位大佬論劍云計(jì)算的事情廣為人知,也是國內(nèi)云計(jì)算產(chǎn)業(yè)的一個(gè)標(biāo)志性節(jié)點(diǎn)。
但在阿里內(nèi)部,還有一場(chǎng)討論同樣值得被銘記。2016年雙11技術(shù)復(fù)盤會(huì)上,阿里巴巴集團(tuán)CTO張建鋒(行癲)首次對(duì)虛擬化性能損耗難題發(fā)出靈魂拷問,明確要把虛擬機(jī)性能損耗降到0。
在當(dāng)時(shí)看來,這樣的目標(biāo)就像是在挑戰(zhàn)能量守定律,即便在學(xué)術(shù)界也沒有相關(guān)研究。但這次始于技術(shù)層面的碰撞陰差陽錯(cuò)為云計(jì)算產(chǎn)業(yè)下一個(gè)十年的演進(jìn)路線定下了基調(diào)。
如果延續(xù)傳統(tǒng)技術(shù)路線,即僅針對(duì)軟件層面做優(yōu)化,0損耗的目標(biāo)幾乎是天方夜譚。于是大家決定開辟一條全新的路徑,提出軟硬結(jié)合的思路:通過專用芯片來解決虛擬化開銷。
事實(shí)證明,這一決定無比正確,阿里云技術(shù)人描繪的這張藍(lán)圖最終演變成了今天的神龍。
2017年9月,推出了第一代神龍架構(gòu),兼具虛擬機(jī)的彈性和物理機(jī)的高性能兩大優(yōu)點(diǎn),在整個(gè)行業(yè)里首次以軟硬結(jié)合的設(shè)計(jì)方式實(shí)現(xiàn)了性能的0損耗;無獨(dú)有偶,兩個(gè)月后大洋彼岸的AWS也推出了類似產(chǎn)品。
在眾廠商沉迷于價(jià)格戰(zhàn)之際,兩家世界頂級(jí)云廠商打破了平靜,率先邁進(jìn)下一代技術(shù),足以證明云計(jì)算架構(gòu)升級(jí)已是必然趨勢(shì)。
這是一次前無古人的技術(shù)探索,阿里云奔跑在了行業(yè)最前線。如何實(shí)現(xiàn)?需要什么樣的人才?……這些都是需要重新審視的。
為此,阿里云專門組建了一支軟硬一體化的研發(fā)團(tuán)隊(duì),最終打造了一套完整的技術(shù)體系,涵蓋自研“X-Dragon虛擬化芯片”、“X-Dragon Hypervisor系統(tǒng)軟件”以及“X-Dragon服務(wù)器硬件架構(gòu)”,其創(chuàng)新之處在于實(shí)現(xiàn)了軟硬件的深度結(jié)合,通過專用芯片來抵消虛擬化技術(shù)帶來的性能損耗問題,完全發(fā)揮處理器和內(nèi)存的性能。
簡單來說,新架構(gòu)對(duì)于云計(jì)算客戶而言有四大優(yōu)點(diǎn):
- 具有和普通物理機(jī)無差別的高計(jì)算性能;
- 安全物理隔離;
- 分鐘級(jí)別的交付能力;
- 與阿里云其他產(chǎn)品全部互通兼容。
軟硬結(jié)合的神龍架構(gòu)兼具性能和靈活性,而這種性能不僅僅作用于單臺(tái)服務(wù)器,對(duì)大規(guī)模集群的優(yōu)化也創(chuàng)造了前所未有的提升。例如,基于這一架構(gòu)的異構(gòu)計(jì)算集群,可對(duì)集群內(nèi)每一顆GPU工作負(fù)載進(jìn)行優(yōu)化和加速,從而最大限度發(fā)揮芯片的計(jì)算性能。
以ImageNet競(jìng)賽的128萬張圖片的數(shù)據(jù)集為例,用普通計(jì)算資源訓(xùn)練ResNet-50模型,如要達(dá)到75%的精度需要數(shù)天甚至一周的時(shí)間,而使用神龍異構(gòu)超算集群產(chǎn)品,模型訓(xùn)練可以縮短到幾分鐘,大大提升AI算法研發(fā)效率,加速業(yè)務(wù)創(chuàng)新。
毫不夸張的說,神龍架構(gòu)的誕生,解決了十幾年來一直都存在性能和資源損耗的歷史難題,成功治愈云計(jì)算的“阿克琉斯之踵”。
云上算力的新底座
在今年的杭州云棲大會(huì)上,阿里云智能基礎(chǔ)產(chǎn)品事業(yè)部總經(jīng)理蔣江偉宣布該架構(gòu)已經(jīng)升級(jí)到第三代,實(shí)現(xiàn)了裸金屬服務(wù)器、ECS 虛擬機(jī)等計(jì)算平臺(tái)的架構(gòu)統(tǒng)一,這意味著企業(yè)可以更加便捷獲得高質(zhì)量的彈性資源。
阿里云官方表示,在IOPS、PPS等關(guān)鍵指標(biāo)上,新一代神龍架構(gòu)可提升5倍性能,同時(shí)具備 “硬件級(jí)隔離”能力,保障性能的穩(wěn)定性。
經(jīng)過兩年多的迭代演進(jìn)過程中,已經(jīng)得到了實(shí)踐驗(yàn)證。最為明顯的就是,阿里巴巴集團(tuán)自己就在淘寶、天貓、菜鳥等核心業(yè)務(wù)上采用了神龍架構(gòu),并且?guī)砹舜蠓侍嵘?/p>
與此同時(shí),在各行各業(yè)也開花結(jié)果:一方面云上企業(yè)能夠享受到更強(qiáng)大的計(jì)算性能,另一方面此前拒絕上云的企業(yè),也在將上云戰(zhàn)略重新提上日程。
上汽作為神龍架構(gòu)的第一個(gè)外部用戶,實(shí)現(xiàn)了計(jì)算效率25%的提升;吉利汽車也通過神龍將效率提升40%以上,類似使用該架構(gòu)的還有曠視科技等AI企業(yè)……
從整個(gè)IT行業(yè)來看,芯片是當(dāng)之無愧的算力源泉,阿里巴巴旗下半導(dǎo)體公司平頭哥就在近幾個(gè)月連續(xù)發(fā)布多款芯片類產(chǎn)品,但在上云的大趨勢(shì)下,以神龍代表的新一代計(jì)算架構(gòu)無疑是讓算力發(fā)揮到極致的最佳平臺(tái)。
正如圖靈獎(jiǎng)得主、加州伯克利大學(xué)計(jì)算機(jī)科學(xué)教授David Patterson所言:“隨著摩爾定律的終結(jié),為了獲得更快性能的計(jì)算機(jī),唯一方法就是改進(jìn)計(jì)算機(jī)的設(shè)計(jì)或‘架構(gòu)’?!?/p>