全球最強智算來了:12000000000000000000(別數(shù)了18個0)FLOPS!
來自河北張北縣的“選手”
金磊 夢晨 假裝發(fā)自 張北縣
量子位 | 公眾號 QbitAI
“全球最強智算”王座,剛剛易主。
來自中國河北省張北縣的“中國選手”,一舉擊敗谷歌。
而其所憑借的算力值,每秒浮點運算次數(shù)已經(jīng)高達12EFLOPS(百億億次)。
相比之下,谷歌單集群算力峰值是9EFLOPS,特斯拉也僅有1.9EFLOPS。
那么張北縣的這個“速度”,到底有多快?
舉個例子。
以前要訓練一個自動駕駛的模型,大概需要花費的時間是7天。
而在“全球最強算力”加持之下,這個時間直接縮短到了1小時之內(nèi),整整提速了將近170倍!
智算,即為人工智能專門提供的AI算力。這個“全球最強智算”的廬山真面目,正是來自位于河北省張北縣的阿里云飛天智算平臺所啟用的張北智算中心。
而且這個智算中心不僅是在AI算力上取得第一這么簡單,據(jù)了解,這個智算中心還“解鎖”了如下能力:
- 千卡并行效率達90%以上,計算資源利用率可提升3倍
- 最高可將存儲IO性能提升10倍,將系統(tǒng)時延顯著降低90%
- 最多可提升AI訓練效率11倍,推理效率6倍
- PUE最低降至1.09,建設占地面積節(jié)省90%
而且這些AI算力,正在帶來一個更加智能化的日常。
如此智算都用在了哪里?
首先就是剛才提到的自動駕駛。
此前,阿里云便和小鵬汽車打造了中國最大的自動駕駛智算中心“扶搖”。
而這也是國內(nèi)第一個投入實際運營的,專為自動駕駛服務的超大智能算力集群。
也正如其名,“扶搖”之意,是指阿里云提供的超大算力和AI研發(fā)工具鏈,能讓小鵬汽車的自動駕駛技術的迭代效率“直上九天”。
總體而言,“扶搖”具備兩大特征。
首先就是以超大規(guī)模GPU算力作為AI模型迭代的基礎。
這是因為自動駕駛、或者說智能汽車上的核心功能,其實都是AI,是大規(guī)模的深度學習算法。
而無論是訓練,還是測試這樣的模型,扮演主角的不再是傳統(tǒng)CPU的邏輯推理能力,而是以AI加速器為主的浮點計算能力,GPU則是當前AI加速器的主流。
其次,便是提供了針對自動駕駛應用特征的計算集群、性能加速軟件和AI大數(shù)據(jù)一體式平臺,使得模型訓練速度、GPU資源利用率和算法研發(fā)效能都大大提升。
據(jù)了解,目前已經(jīng)建成交付的扶搖智算中心,總算力達到600PFLOPS,即每秒進行6×1017次浮點運算。
整體計算效率上,扶搖實現(xiàn)了算力的線性擴展。存儲吞吐比業(yè)界20GB/s的普遍水準提升了40倍,數(shù)據(jù)傳輸能力相當于從送快遞的微型面包車,換成了20多米長的40噸集裝箱重卡。
這也就是自動駕駛核心模型訓練時間,能夠由7天縮短至1小時內(nèi)的主要原因。
而自動駕駛,只是飛天智算中心應用的場景之一。
在科研領域,也早已處于“上崗”狀態(tài)。
北京大學化學與分子工程學院便利用阿里云的智能算力,將靶向藥研究數(shù)據(jù)集計算效率提升了100倍。
此前算法依賴的是單機式算力,受限于軟硬件的限制,往往系統(tǒng)整體性能偏低,無法滿足快速增長的算力需求。而通過集群進行并行計算,能讓算力規(guī)模不再成為掣肘。
不過有一說一,算力這個東西,其實通過自行購買GPU搭建集群的方式便可以獲取,而且此前行業(yè)內(nèi)普遍的做法也是如此。
那么為什么諸多領域現(xiàn)在都開始時興采用智算中心了呢?
這是因為近年來,不論是自動駕駛、元宇宙,亦或是生命科學天文學,各類科研和產(chǎn)業(yè)應用的發(fā)展,都越發(fā)具備數(shù)智驅動的趨勢,這種情況下算的更快往往就是核心優(yōu)勢,算力成為了絕對的生產(chǎn)力。
基于如此現(xiàn)狀,智能計算可以提供更加多元化的算力服務,逐漸成為了主流選擇。
但智能計算不同于通用型計算,需要海量數(shù)據(jù)對AI模型進行訓練,算力往往在模型參數(shù)更新、數(shù)據(jù)遷移等環(huán)節(jié)被消耗,千卡以上規(guī)模僅有40%的有效算力輸出,甚至出現(xiàn)計算卡越多,總體性能越差的情況。
這便導致了規(guī)模化的算力的獲取困難,不僅硬件成本昂貴,而且還需要專業(yè)的技術從系統(tǒng)架構、軟件等方面進行深度重構和優(yōu)化,自建智算中心,成本和時間便成為了最大的敵人。
以自動駕駛為例,復雜路況下的復雜決策能力,包括識別紅綠燈、路口、行車車輛等等,其實已經(jīng)進入L3-L4級范圍。
按照如此迭代速度,未來3-5年,自動駕駛研發(fā)很快會進入較為成熟的L4級甚至是L5級,迭代所需算力規(guī)模也會快速上升到只有“智算中心”才能滿足。
算力需求的指數(shù)級膨脹,造成目前自動駕駛玩家的“算力”焦慮越來越嚴重。
因此,當下自動駕駛對于智算中心的需求,其實是為保持持續(xù)的技術領先優(yōu)勢做儲備。
而飛天智算中心便在拿下全球第一速度之外,還規(guī)避了諸多傳統(tǒng)高性能計算固有的疑難雜癥。
為了解開這些疑難,阿里連頂會最佳論文都沒少拿。
“全球最強”背后的一套功法
秘密就藏在背后的飛天智算平臺:
一個可以持續(xù)進化的智能算力系統(tǒng)。
換句話說,做智算中心不能僅考慮基礎設施和硬件,也要考慮其上運行的軟件平臺、算法和服務。
這其中最重要的是做到軟硬一體,通過“打磨”讓軟件和硬件在一個平臺中真正相互融合。
首先,要做到單集群12EFLOPS的算力峰值,僅靠單塊芯片無法完成,就需要考慮并行效率的問題。
如果在一臺普通電腦里裝兩張相同的游戲顯卡,大概只能獲得75%的性能,也就是花了兩份錢只享受到一份半的效果。
類似的問題在智算中心也存在,而且更嚴重。因為要用到上千張GPU做并行計算,算力輸出最低往往僅有40%左右?;ㄒ磺Х莸腻X,只享受四百份的效果,虧大了。
那么在飛天智算平臺,千卡并行的效率可以做到多少呢?
90%。
要做到這一點,最關鍵的就是減少非計算部分的開銷——上圖里的阿里云靈駿智能計算就是干這事的。
此外,還需要分布式并行計算框架、混合精度、數(shù)據(jù)通信的優(yōu)化、I/O的優(yōu)化等,都需要在業(yè)務實踐中反復打磨、相互配合才能做到極致的優(yōu)化。
除了GPU之外,構建如此大規(guī)模算力也少不了異構計算。
飛天智算平臺適配多種芯片架構,支持X86、ARM、GPU、NPU等多種處理器混合部署和統(tǒng)一調(diào)度。
據(jù)靈駿產(chǎn)品研發(fā)負責人曹政透露,為了支持國產(chǎn)化芯片的生態(tài)發(fā)展,在云服務的領域他們甚至做到了比廠商更好的性能調(diào)優(yōu)。
那么,這種“打磨”的能力從何而來?
源于阿里多年的業(yè)務實踐。
拿淘寶來說,商品搜索、智能客服、千人千面的個性化推薦等,平均每天需要處理10億張圖像、120萬小時視頻、55萬小時語音和5000億句自然語言。
每逢618、雙11大促,更是要面對峰值負載的考驗,多年來已沉淀出適應實際需求的技術體系和最佳工程實踐。
在AI開發(fā)層,阿里云還有兩個殺手锏:PAI-EPL和PAI-Blade。
前者能夠支撐萬億級參數(shù)的大模型訓練,提供了包括數(shù)據(jù)并行、模型并行、流水并行在內(nèi)的豐富的分布式訓練能力。
在內(nèi)部測試中,PAI-EPL只用了512張 GPU就完成了M6萬億模型的訓練,大幅降低了超大模型訓練的成本,將訓練效率提升了11倍以上。
PAI-Blade則為用戶提供了一站式的通用推理優(yōu)化工具,對算法模型進行量化、剪枝、稀疏化、蒸餾等操作,盡量避免用戶改模型代碼,可將推理效率提升6倍以上,極大地方便用戶使用。
這些綜合技術整合到一起,就成了飛天智算平臺軟硬一體能力的來源。
除了智算中心自身軟硬件之外,其上運行的算法和智能服務也是飛天智算平臺中的重要能力。
全鏈路AI開發(fā)工具與大數(shù)據(jù)服務,包括阿里云大數(shù)據(jù)+AI一體化產(chǎn)品體系,集合了機器學習平臺PAI、大數(shù)據(jù)開發(fā)與治理平臺DataWorks、MaxCompute、Hologres、Flink等計算引擎實現(xiàn)架構統(tǒng)一。
如此一來,可適用于多種AI場景的計算和開發(fā)需求,包括科學研究、精準醫(yī)學、氣象預報、數(shù)字孿生、自動駕駛等多種場景。最多可提升AI訓練效率11倍,推理效率6倍。
另外說到智能算法也別忘了達摩院。據(jù)介紹,達摩院開源的M6大模型從誕生之初就與飛天智算平臺一起生長,相互配合起來更能發(fā)揮出彼此的實力。
最后,綠色低碳也是飛天智算中心的優(yōu)勢之一。
對于大型算力中心來說,衡量綠色化程度的一個重要指標是能源利用效率(PUE, Power Usage Effectiveness)。
根據(jù)《2021年中國數(shù)據(jù)中心市場報告》,2021年全國數(shù)據(jù)中心平均PUE為1.49,華北地區(qū)平均約為1.40。
這意味著IT設備每消耗1度電,就有額外的0.9度電用于散熱、供配電系統(tǒng)本身的消耗、照明等其他用途。
而張北智算中心采用了行業(yè)獨有的單相浸沒式液冷解決方案,將服務器泡在特殊冷卻液里,PUE最低可以達到1.09,行業(yè)領先。
此外,AI調(diào)溫和模塊化設計等都起到了關鍵作用。
不僅如此,智算中心選址在張北還可以利用起當?shù)爻渥愕墓夥惋L電資源,做到100%使用清潔能源。
不過為了克服光伏和風力發(fā)電不穩(wěn)定的問題,也需要更強大的供配電技術來保障。
如何評價全球智算王座易主?
縱向看時間。
兩年前,阿里首次公開自研AI集群細節(jié),那篇論文還被計算機體系結構頂級會議HPCA 2020收錄。
不過在多年來一直參與平臺建設的曹政看來,當年團隊把注意力單純的集中在了技術上。
如今升級擴展到智算平臺,除了規(guī)模擴大,技術進化以外,還更看重產(chǎn)品、服務,看重智算平臺能否真正順滑的與生產(chǎn)流程相結合。
橫向看對比。
建設大規(guī)模智能算力有幾類玩家,云計算公司、AI算法公司、硬件公司。
阿里在其中是一種比較特別的存在,既有自研云計算技術體系,又有內(nèi)部AI業(yè)務的大量實踐,最近又開始涉足自研芯片。
如此打造出來的智算平臺高度自主可控,既能以此為藍本不斷復制出新的智算中心,又能在服務不同行業(yè)時低成本遷移。
如專為小鵬汽車定制打造的烏蘭察布智算中心便是很好的例證。
如果把目光拉遠,更大的圖景在于數(shù)字化升級、智能化轉型。
這些年來,智算中心的服務對象從大型技術公司、AI算法初創(chuàng)公司,逐漸擴展到自動駕駛、AI for Science等交叉行業(yè)。
隨著智能化轉型逐漸深入,不久的將來還要服務于農(nóng)業(yè)、制造業(yè)、能源、物流這些離IT技術更遠的行業(yè),而越是這樣的行業(yè)就越是需要端到端的解決方案。
從這一點來看,強調(diào)“打磨”、“順滑”的飛天智算平臺,再一次“幸運地”引領了時代趨勢。
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08