起底華為計算戰(zhàn)略:十五年研發(fā)下苦功,三年連發(fā)10芯加速,目前2萬工程師奮戰(zhàn)
乾明 發(fā)自 上海
量子位 報道 | 公眾號 QbitAI
每一次華為新動作,點贊有之,質(zhì)疑亦隨之。
9月18日剛在全聯(lián)接大會上發(fā)布的“全球最快AI產(chǎn)品”就是這樣。
但在現(xiàn)場、在華為內(nèi)部來看,這只不過是“華為計算戰(zhàn)略”艱苦奮斗的開花結(jié)果,只是這盤芯片和計算力大棋局里關(guān)鍵一子。
△ 華為Cloud & AI產(chǎn)品與服務(wù)總裁侯金龍
而且相比Atlas(古希臘神話里的“大力神”),實際不到三年時間里,華為已經(jīng)發(fā)布了10款商用芯片:
鯤鵬916、920;麒麟970、980、810、990、990 5G;昇騰310、910;鴻鵠818。
按外泄的規(guī)劃,接下來的兩年內(nèi),至少有6款芯片發(fā)布落地。
無論是計算領(lǐng)域,還是半導(dǎo)體行業(yè),如此陣仗,勢頭都異常猛烈。
所以背后原因究竟是什么?華為又究竟想做什么?
計算戰(zhàn)略發(fā)布后,是時候?qū)@盤大棋來次完整起底,揭秘華為在計算背后的種種規(guī)劃與布局。
15年苦功夫,目前投入2萬名工程師
圍繞計算這個產(chǎn)業(yè)投資,十幾年前已經(jīng)開始了。
其中最具標(biāo)志性的事件是2004年4月,旗下芯片公司海思半導(dǎo)體成立。
??華為Cloud & AI產(chǎn)品與服務(wù)總裁侯金龍透露了這背后的投入:
從2004年開始投資研發(fā)第一顆嵌入式處理芯片,目前投入超過2萬名工程師,形成了以“鯤鵬+昇騰”為核心的基礎(chǔ)芯片族。
基礎(chǔ)芯片族帶來的意義非常直接。華為成為了業(yè)界唯一同時擁有計算架構(gòu)中“CPU,NPU,存儲控制,網(wǎng)絡(luò)互連,智能管理”5大關(guān)鍵芯片的廠商。
但俱往矣。
從產(chǎn)品發(fā)布的節(jié)奏來看,華為對芯片投資的力度還在快速加強,迭代也越來越快。
華為投資芯片的策略,此前也有曝光,總結(jié)起來就是三個關(guān)鍵詞:量產(chǎn)一代、研發(fā)一代、規(guī)劃一代。
以鯤鵬系列處理器為例,從2007年走到現(xiàn)在已歷時12年,現(xiàn)在是第三代芯片。
現(xiàn)在華為釋放出的最新信號是:鯤鵬+昇騰會長期演進,按照每年推出一代的節(jié)奏來提升競爭力。
這也是華為在不到3年內(nèi)推出10款芯片的直接推動力量之一。
當(dāng)然,上述種種努力和產(chǎn)品,只是果,細究“因”,則是華為對于行業(yè)變遷趨勢的核心判斷。
華為芯的機會:趨勢變遷下的2萬億市場
在華為看來,當(dāng)前的計算產(chǎn)業(yè)正在發(fā)生深刻的變化,尤其是整個社會向智能時代的邁進,這帶來了變革與挑戰(zhàn),也帶來了機會。
全聯(lián)接大會上,胡厚崑援引了Gartner的數(shù)據(jù)——全球計算產(chǎn)業(yè)總空間為兩萬億美元。在他看來,這是一片大藍海,華為將堅定在計算領(lǐng)域的投入,并推進落地。
侯金龍進一步闡釋四大趨勢,也可以說是華為投資芯片進入這一藍海的主要切入點:
首先,數(shù)據(jù)中心不夠用了
對于數(shù)據(jù)中心來說,以前其承擔(dān)的職能更多的是存、但未來更重要的是算,數(shù)據(jù)中心正在逐步演變?yōu)橛嬎阒行摹?/p>
最直接的體現(xiàn)就是,大規(guī)模數(shù)據(jù)中心中服務(wù)器越來越多。就以華為云的數(shù)據(jù)中心為例,有60%都是用于計算的服務(wù)器。
可以說,計算正在成為數(shù)據(jù)中心的主體,這就是華為推動鯤鵬系列芯片的重要原因之一,也是鯤鵬芯片的使用場景。
與此同時,整個行業(yè)對AI算力需求也越來越大,而且來得更加洶涌,從2012年到2018年,AI算力消耗幾乎增長了30萬倍。
現(xiàn)在每年的增長超過10倍,到2025年,AI算力將會占據(jù)數(shù)據(jù)中心算力的80%以上。
正是在如此算力需求下,華為推出了昇騰910以及Altas 900等AI計算產(chǎn)品。
其次,端邊芯片與中心芯片還有大差距
在華為看來,Arm在生態(tài)上的優(yōu)勢會逐漸向數(shù)據(jù)中心延伸。對于華為來說,這是挑戰(zhàn),也是機會。
現(xiàn)場,侯金龍也分享了一組數(shù)據(jù):
2018年,Arm處理器出貨量230億片,主要用于端和邊,數(shù)據(jù)中心側(cè)只有3000萬片,這是數(shù)百倍的差距。
每年十幾億部手機都是Arm結(jié)構(gòu)的,2019年華為智能手機總的算力,將是今年全球數(shù)據(jù)中心新增算力的2倍,而且手機上的幾百萬應(yīng)用都是基于Arm生態(tài)。
以前基于Arm的技術(shù),之所以不能在數(shù)據(jù)中心使用,核心的限制是性能。
但解決問題導(dǎo)向,華為現(xiàn)已找到對策。
其今年發(fā)布的鯤鵬920是兼容Arm,多核、高并發(fā),把四顆核心并入了一顆核心,其性能超過業(yè)內(nèi)通用CPU 20%的性能。
而且現(xiàn)在的計算,可以讓簡單的計算在終端進行,復(fù)雜的計算可以在云上進。
如果繼續(xù)用X86架構(gòu)在云上計算終端的任務(wù),效率就會降低40%,反之如果運用Arm架構(gòu),則提升40%。
第三,計算該綠
高性能的計算雖然更有效率,但背后也有大量的碳排放。
美國馬薩諸塞大學(xué)阿姆赫斯特分校做過研究,訓(xùn)練一個單一AI模型,會產(chǎn)生180噸的碳排放。
這相當(dāng)于普通汽車整個服役期排放量的3倍,平均地球人30年日常生活的碳排放。
算力與效率背后,也需要對能源與環(huán)境更友好。從芯片層面上來看,要在更小的功耗下實現(xiàn)更高的性能。
在這方面,華為的底氣很足。
侯金龍說,華為的Atlas 900 AI訓(xùn)練集群,算力達到256 PFLOPS只需要16個機柜。
要實現(xiàn)這樣的算力,如果用CPU需要6195個機柜, 用GPU需要208個機柜,而NPU如昇騰只要128個機柜。
這背后,主要歸功于昇騰架構(gòu)對深度學(xué)習(xí)業(yè)務(wù)的優(yōu)化。
此外,經(jīng)過華為系統(tǒng)級優(yōu)化,如板級液冷、柜級密閉絕熱等,整個集群的功耗從4萬kW降到736kW,降低50多倍。
最后,摩爾定律放緩已成事實
經(jīng)過數(shù)十年的快速迭代發(fā)展,高速的摩爾定律已經(jīng)難以實現(xiàn)。
過去5年,通用CPU的發(fā)展遇到了許多技術(shù)瓶頸,單核性能平均每年提升不足10%,摩爾定律放緩已經(jīng)成為事實。
想要進一步實現(xiàn)提高技術(shù)能力,在晶體管上打主意太難了,需要尋找其他路徑。
這也是華為將基礎(chǔ)研究作為整體計算戰(zhàn)略關(guān)鍵組成部分的原因,最具代表性的成果,就是華為自研的達芬奇架構(gòu)。
未來,華為的目標(biāo)是通過一系列的技術(shù)創(chuàng)新,打破能效墻、打破散熱墻、打破優(yōu)化墻、 打破內(nèi)存墻、打破高速IO墻,進一步釋放計算潛能。
總之,在華為看來,計算產(chǎn)業(yè)已進入架構(gòu)創(chuàng)新的黃金時代,充裕、高性能、多樣性、綠色、觸手可及?的算力將是智能社會發(fā)展的動力。
這需要更高性能的芯片做支撐,但僅僅依靠芯片還不夠。
在整個華為計算戰(zhàn)略中,芯片只是一部分。
解讀華為計算戰(zhàn)略:硬件開放與軟件開源
整體來看,華為計算圖景可以歸為“一云兩翼雙引擎+開放的生態(tài)”。
其中一云,是華為云。
這是華為計算的核心輸出途徑——芯片不直接對外銷售,以云服務(wù)和部件的形式面向客戶,優(yōu)先支持合作伙伴發(fā)展整機。
雙引擎是指“鯤鵬”與“昇騰”。基于此打造芯片簇,構(gòu)筑異構(gòu)的計算,是華為計算戰(zhàn)略的基礎(chǔ)也是主要動力來源。
兩翼則是智能計算業(yè)務(wù)、智能數(shù)據(jù)與存儲業(yè)務(wù),是計算的商業(yè)模式和直接應(yīng)用場景。
開放的生態(tài),則是整個華為計算戰(zhàn)略的“點睛之筆”,也是今年華為全聯(lián)接大會的重頭戲。
這一方面,主要分為硬件開放和軟件開源兩大部分,目標(biāo)是使能廣大的合作伙伴, 形成一個開放的產(chǎn)業(yè)生態(tài)。
硬件開放
如何落地?具體到商業(yè)模式上,是基于芯片等對外提供主板/SSD/網(wǎng)卡/RAID卡/Atlas模組和板卡,優(yōu)先支持合作伙伴發(fā)展服務(wù)器和PC等計算產(chǎn)品,以及自己的品牌。
華為也在全聯(lián)接大會上表示,其TaiShan服務(wù)器以及華為終端的PC機,聚焦做高端和內(nèi)部配套,條件成熟時,將停止TaiShan服務(wù)器的銷售業(yè)務(wù)。
在全聯(lián)接大會上,除了Altas,華為也發(fā)布了以下硬件新品:
鯤鵬主板,用于快速開發(fā)服務(wù)器和臺式機產(chǎn)品。采用 xPU高速互聯(lián)、多合一SoC、100GE高速I/O等關(guān)鍵技術(shù),不僅搭載鯤鵬處理器,還內(nèi)置BMC芯片、BIOS軟件。與此同時,華為也將開放主板接口規(guī)范和設(shè)備管理規(guī)范。
通用服務(wù)器TaiShan系列 ,號稱“最強算力”的通用服務(wù)器。具備至少64核、8個內(nèi)存通道、PCIe 4.0、多合一SoC、xPU高速互聯(lián)、100GE高速I/O等六個特征。
而且,面向數(shù)據(jù)中心分布式演進需求以及邊緣計算需求,華為還提供了存儲密集型、計算密集型、邊緣計算等多款服務(wù)器產(chǎn)品。
Atlas全系列產(chǎn)品,覆蓋云、邊、端全場景,面向訓(xùn)練和推理提供強勁算力。主要基于昇騰910和310 AI處理器,華為推出Atlas 900、AI訓(xùn)練服務(wù)器 Atlas 800、和AI訓(xùn)練卡Atlas 300。
其中,Atlas 800在4U空間集成了8顆昇騰910 AI處理器,可提供2 PFLOPS的超強算力,算力密度是業(yè)界同類產(chǎn)品的2.5倍,內(nèi)置32個硬件解碼器,每秒可完成16384張1080P圖片解碼,可以與訓(xùn)練并行處理。
△8個Atlas 800組成的機柜,內(nèi)置64顆昇騰910芯片,Atlas 900訓(xùn)練集群最少由16個機柜組成。
Atlas 300可提供256 TFLOPS的算力,是當(dāng)前業(yè)界主流訓(xùn)練卡的2倍,每秒訓(xùn)練的圖片數(shù)量從965張?zhí)嵘?802張??蓪崿F(xiàn)梯度參數(shù)和數(shù)據(jù)集并行傳輸,最高可降低70%的梯度同步時延。
此外,華為也發(fā)布了112款基于鯤鵬和昇騰的云服務(wù),包括69款基于鯤 鵬的云服務(wù)和43款基于昇騰的云服務(wù),讓客戶和合作伙伴們能 更容易的獲取鯤鵬和昇騰的算力。
華為介紹稱,基于昇騰的圖像搜索服務(wù)、內(nèi)容審核服務(wù),價格下調(diào)70%。
軟件開源
軟件開源,與硬件開放相伴而生,是開放硬件能力的放大器。
繼8月23日華為宣布開源AI計算框架MindSpore、8月31日放出方舟編譯器框架代碼之后,全聯(lián)接大會上華為又放出多個軟件開源計劃:
2019年12月31日開源服務(wù)器操作系統(tǒng),2020年6月開源可覆蓋企業(yè)70%以上的數(shù)據(jù)庫業(yè)務(wù)場景的GaussDB OLTP單機版數(shù)據(jù)庫。
之后,華為將支持基于 openEuler的合作伙伴發(fā)行商業(yè)版操作系統(tǒng),支持各行業(yè)主流應(yīng)用和軟件開發(fā)商把軟件和應(yīng)用遷移到基于openEuler的操作系統(tǒng) 上。
而且,華為也將與深之度、中標(biāo)麒麟、天津麒麟、中移蘇研、普華等伙伴計劃聯(lián)合推出openEuler開源社區(qū) (http://openEuler.org)。
怎么理解華為有所為,有所不為?
伴隨著華為計算戰(zhàn)略的披露,“華為有所為,有所不為”也屢次被擺到臺面上。
到底怎么理解華為有所為,有所不為?
侯金龍也進一步給出了解釋,華為的聚焦點是重點投資計算架構(gòu)創(chuàng)新,處理器的研發(fā),以及華為云。
在這之外,華為不做應(yīng)用,但免費支持主流應(yīng)用和軟件的遷移。
更能體現(xiàn)這一態(tài)度的是華為對開發(fā)者的支持。
侯金龍表示,開發(fā)者是產(chǎn)業(yè)的靈魂,未來5年培養(yǎng)500萬開發(fā)者,將投入15 億美金用于發(fā)展產(chǎn)業(yè)生態(tài)。
那么,華為到底想要做什么?
胡厚崑也在采訪中給出了答案:面向智能時代,華為想要做的是成為數(shù)字世界的“底座”。
如此愿景,你怎么看?