清微智能CTO歐陽鵬:架構(gòu)創(chuàng)新是通往高性能計(jì)算芯片必由之路|量子位·視點(diǎn)分享回顧
量子位·視點(diǎn):分享最新技術(shù)理論與產(chǎn)業(yè)實(shí)踐
視點(diǎn) 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
這幾年,如果問哪個(gè)行業(yè)最熱?無疑是芯片。
宏觀層面,我們看到了國外的限制打壓,國內(nèi)政策的扶持,整個(gè)芯片產(chǎn)業(yè)的沸騰。芯片對于高新技術(shù)、前沿科技發(fā)展的重要性不言而喻。
而在微觀層面,中國芯片產(chǎn)業(yè)一直在不斷進(jìn)行技術(shù)嘗試。面臨數(shù)據(jù)爆炸的大算力時(shí)代,傳統(tǒng)芯片架構(gòu)的計(jì)算瓶頸有待突破,而在前沿架構(gòu)的探索上,中外公司不約而同地選擇了數(shù)據(jù)流驅(qū)動的可重構(gòu)架構(gòu)。
那么,可重構(gòu)計(jì)算架構(gòu)為何能夠成為應(yīng)對大算力時(shí)代的最佳技術(shù)路線?又是如何兼顧高能效比、軟硬件靈活可重構(gòu)與可擴(kuò)展性的?目前該架構(gòu)的落地難點(diǎn)在哪里、落地情況如何呢?
圍繞可重構(gòu)計(jì)算架構(gòu)芯片的探索、創(chuàng)新與商業(yè)落地等,清微智能聯(lián)合創(chuàng)始人兼CTO歐陽鵬在「量子位·視點(diǎn)」直播中分享了他的從業(yè)經(jīng)驗(yàn)和觀點(diǎn)。
以下根據(jù)分享內(nèi)容進(jìn)行整理:
今天和大家分享的題目是可重構(gòu)計(jì)算架構(gòu)(CGRA)創(chuàng)新實(shí)現(xiàn)計(jì)算性能突破。
我從幾個(gè)方面來展開今天的介紹:首先是清微智能公司的發(fā)展情況,包括發(fā)展?fàn)顟B(tài)、軟硬件產(chǎn)品等;其次是算力大爆炸的時(shí)代背景下帶來的挑戰(zhàn);再者是現(xiàn)在的技術(shù)路線,以及主流的產(chǎn)品架構(gòu)存在的問題;第四是清微智能如何在這種環(huán)境和挑戰(zhàn)之下,通過創(chuàng)新突破實(shí)現(xiàn)產(chǎn)品性能的提升;第五是對未來技術(shù)的展望,包括發(fā)展趨勢、發(fā)展方向等。
全球首家也是出貨量最大的可重構(gòu)芯片企業(yè)
清微智能在可重構(gòu)計(jì)算技術(shù)研究方面已有16年歷史。2006年,我們在清華大學(xué)成立了可重構(gòu)計(jì)算實(shí)驗(yàn)室,開展可重構(gòu)計(jì)算相關(guān)的研究,16年間已培養(yǎng)了超過300名的碩士、博士和博士后。在該領(lǐng)域不斷探索、突破,沉淀了三百個(gè)專利和論文,先后獲得國家技術(shù)發(fā)明二等獎,國家專利金獎以及國際競賽冠軍。
基于多年的積累,2018年清微智能成立,正式開啟商業(yè)化道路。2020年,清微獲得了中國電子學(xué)會技術(shù)發(fā)明一等獎,2021年和2022連續(xù)入選國際電子信息領(lǐng)域的“時(shí)代周刊”EE Times的全球半導(dǎo)體公司“Silicon 100”榜單,2022年入選麻省理工評選的全球50家最聰明公司(MIT TR50)。經(jīng)過四年的商業(yè)落地,目前已經(jīng)有十款型號的芯片形成規(guī)模銷售,頭部客戶包括了???、國網(wǎng)、商湯、阿里等,技術(shù)經(jīng)受了市場考驗(yàn)。清微智能的可重構(gòu)芯片是完全發(fā)源于本土、掌握自主核心技術(shù)、完全自主可控的技術(shù)體系,清微智能是全球可重構(gòu)芯片領(lǐng)導(dǎo)企業(yè)。
人工智能的發(fā)展對芯片算力提出更大挑戰(zhàn)
當(dāng)前人工智能發(fā)展非常迅速,對算力產(chǎn)生需求巨大,可以說我們已經(jīng)進(jìn)入算力爆炸時(shí)代。作為智能算力的提供者,芯片企業(yè)應(yīng)該怎么來應(yīng)對呢?
我們先來看看在這個(gè)時(shí)代,都有哪些特點(diǎn)?具體來說,人工智能對算力需求呈爆發(fā)式增長,來源于是網(wǎng)絡(luò)模型參數(shù)量、計(jì)算量的不斷增加。到2025年,模型參數(shù)量將達(dá)到萬億級別,支撐從圖像視頻處理、自然語言處理、到自動駕駛、通用智能,甚至元宇宙等的發(fā)展。模型的發(fā)展進(jìn)一步推動對各種智算中心的建設(shè)需求,現(xiàn)在有26座城市都在開建計(jì)算中心,算力都是P級以上的規(guī)模。2022年8月,美國總統(tǒng)拜登簽署《芯片與科學(xué)法案》,計(jì)劃在未來 5 年內(nèi)投資 2800 億美元,甚至以搭建Z(十萬億億)級高算力平臺作為目標(biāo)。
這樣的算力需求對芯片底層提出非常嚴(yán)峻的挑戰(zhàn)。如果用最主流的GPU產(chǎn)品,會帶來巨大的計(jì)算能耗以及投入成本,無法滿足大模型發(fā)展帶來的“算力黑洞”。
舉個(gè)例子,比如像open AI GPT,只需要3張英偉達(dá)的A100訓(xùn)練三天,但使用單卡,就需要訓(xùn)練366年。像GPT-3模型,則需要1024張80GB的顯卡,訓(xùn)練一個(gè)月,訓(xùn)練成本超過1200萬美金。如果訓(xùn)練北京智源研究院的“悟道”模型,整個(gè)花費(fèi)也是達(dá)數(shù)千萬美元。圖1所示:我們可以看到以GPT-3為界,左邊這個(gè)圖里模型到了GPT-3以后,switch transform、悟道、阿里M6等等都是千億到萬億的模型參數(shù)計(jì)算量。
△圖1 AI 大模型
而從另外一個(gè)維度看,能夠提升芯片性能的,無非就是制程和架構(gòu)。圖2是展示了基于浪潮8卡AI服務(wù)器做MLperf性能數(shù)據(jù),計(jì)算性能已經(jīng)超過了摩爾定律發(fā)展,這意味著架構(gòu)創(chuàng)新起了非常大的作用。隨著時(shí)間的推移,芯片架構(gòu)創(chuàng)新對性能提升的影響會越來越大。性能的提升跟摩爾定律的“剪刀差”會越來越明顯。
△圖2 架構(gòu)創(chuàng)新推動作用超過摩爾定律
架構(gòu)創(chuàng)新是必由之路
所以,架構(gòu)的突破和創(chuàng)新,目前來看是算力大爆炸時(shí)代唯一解決辦法。
我們來看現(xiàn)有的一些技術(shù)架構(gòu)路線。如圖3,圖里分為左邊和右邊兩個(gè)技術(shù)方向,右邊是紅色的箭頭,表示是更加共享存儲,而相反的越往左邊則是更加的數(shù)據(jù)流或者是空域計(jì)算能力越強(qiáng)。
△圖3 主流技術(shù)路線對比
這代表當(dāng)前兩個(gè)技術(shù)方向:一條代表著可以更加共享存儲,通過不斷提高工藝制程,利用先進(jìn)HBM存儲,提高晶體管密度把單芯片性能做高;另一條則是對制程要求不高,通過數(shù)據(jù)流驅(qū)動架構(gòu)來提高性能以及多機(jī)多卡的線性度,除了清微,國外的像Sambanova、tenstorrent也是走的這條路線。以共享存儲方式為代表的GPU計(jì)算架構(gòu),在單卡上,通過高工藝能夠提高性能,但也存在一些問題,問題分為三個(gè)方面。
第一,核心SM架構(gòu)本質(zhì)上還是指令集驅(qū)動的,所以沒法把大量的資源用在計(jì)算上,尤其像AI這類流式運(yùn)算,需要大量的指令,頻繁調(diào)度來保證精確的計(jì)算。
第二,由于共享存儲,其內(nèi)部有不同的緩存結(jié)構(gòu),也就存在不同級的延遲。同時(shí),在多個(gè)服務(wù)器之間,還需要網(wǎng)卡、交換機(jī)進(jìn)行連接。這樣的話,通過增加卡的數(shù)量,性能并不一定是線性增長的,因?yàn)闀芯W(wǎng)絡(luò)的延遲,通信的延遲。
第三點(diǎn)是成本,這其實(shí)是大的算力中心,包括數(shù)據(jù)中心,需要去關(guān)注的點(diǎn)?,F(xiàn)有的一些方案,采用2.5D HBM存儲,以a100為例,它的成本中HBM超過50%,非常昂貴。另外,基于這種技術(shù)方案建大的計(jì)算集群的時(shí),需要網(wǎng)卡,分層交換機(jī)等,這部分成本非常高,也接近總成本50%。
要實(shí)現(xiàn)一個(gè)數(shù)據(jù)中心的可持續(xù)發(fā)展,必須要去考慮如何實(shí)現(xiàn)線性算力增長,同時(shí)降低芯片和系統(tǒng)單位算力的能耗和成本。
再一個(gè),剛才提到了現(xiàn)在主流的GPU產(chǎn)品,都是以2D/2.5D方式來做存儲集成,比如HBM, 能夠提供一個(gè)1-2TB/s的帶寬。但是我們看AI本身的計(jì)算,尤其像訓(xùn)練,對帶寬的要求非常高,至少5TB/s以上。要把性能充分發(fā)揮出來,2D和2.5D存儲集成提供的帶寬是遠(yuǎn)遠(yuǎn)不夠的。如下圖4展示,受限于互聯(lián)端口的數(shù)量,帶寬無法做到更高。
△圖4 目前2D、2.5D存儲集成方案存制約性能的提高
數(shù)據(jù)流驅(qū)動的可重構(gòu)計(jì)算架構(gòu)天然適應(yīng)大算力計(jì)算
因此,需要一個(gè)新的計(jì)算范式,或者一些新思路來解決這些問題,解決計(jì)算單元效率的問題,我們從三個(gè)方面來考慮:
第一個(gè)是計(jì)算范式上,能不能把更多的計(jì)算資源用在計(jì)算上,不要去做太多的控制,很多的應(yīng)用場景它不需要太多的控制。如果我把90%的資源都用在計(jì)算上,那肯定能夠提高計(jì)算效率。
第二,通信墻的問題。更多的算法,更多的更大的模型,意味著大量的通信,通信有時(shí)延,并成為算力增長的短板。要考慮的就是:如何讓這個(gè)多卡之間能夠?qū)崿F(xiàn)線性增長,同時(shí)能夠去掉包括交換機(jī)、網(wǎng)絡(luò)在內(nèi)的非核心計(jì)算設(shè)備的成本?
第三,無論是2D還是2.5D,都是在解決帶寬的問題,如何突破現(xiàn)有方案,讓存儲和計(jì)算更加耦合和緊密,進(jìn)而提高帶寬。
那我們是如何來思考這個(gè)問題呢?
首先第一點(diǎn),將寶貴的應(yīng)用資源盡可能的集中于計(jì)算。
傳統(tǒng)的CPU、GPU,都是指令驅(qū)動的,需要逐條逐條取指譯碼,需要有精確的控制。這樣大量的資源用在控制上,用在頻繁的訪存上。我們采用了一個(gè)數(shù)據(jù)驅(qū)動的動態(tài)重構(gòu)的空間模式:里面有大量的計(jì)算資源,能夠靈活地組織成不同的計(jì)算通道,大幅減少控制開銷,將90%的基本資源用在計(jì)算上來提高計(jì)算效率。
第二就是讓數(shù)據(jù)盡量在計(jì)算單位中流動,減少大量的訪外存開銷。傳統(tǒng)GPU采用共享存儲,無論是采用GDDR還是HBM,來實(shí)現(xiàn)共享同步,包括多卡之間也是如此。新的方式就是讓數(shù)據(jù)在計(jì)算單元之間傳導(dǎo),不需要頻繁的去跟外面存儲器交換,減少訪存的代價(jià)。這里包含兩個(gè)層面:一個(gè)數(shù)據(jù)流動發(fā)生在計(jì)算單元之間,這是一種微觀的傳輸。二是數(shù)據(jù)流動發(fā)生在芯片與芯片之間,直接實(shí)現(xiàn)數(shù)據(jù)傳輸。
第三點(diǎn),提高數(shù)據(jù)流可拓展的軟硬件能力??鐂erver、跨機(jī)架直接連接,打破芯片邊界。我們一直說GPU很強(qiáng),但是他要擴(kuò)展更大的集群,還是需要找交換機(jī),我們叫數(shù)據(jù)交換設(shè)備。那能不能把交換設(shè)備給摒棄掉?直接在芯片與芯片之間就實(shí)現(xiàn)互聯(lián),整體是一個(gè)數(shù)據(jù)的模式,去支持這個(gè)應(yīng)用。同時(shí),每一個(gè)數(shù)據(jù)流它是可配置的,來提高編程維度,提高靈活性。這樣,從芯片內(nèi)和芯片間都是拉平了。從邏輯上,對開發(fā)者來說,一臺機(jī)器和十臺機(jī)器,面對的都是同樣的編程模式,因?yàn)榈讓拥募軜?gòu)上它是拉平。所以說,通過這種方式來實(shí)現(xiàn)芯片與芯片的直通,保證數(shù)據(jù)流能夠突破芯片的邊界,進(jìn)一步去減少訪存代價(jià)。
第四,通過數(shù)據(jù)流的方式在芯片內(nèi)和芯片間流動起來。在單芯片上省去昂貴HBM,通過局部存儲提供大帶寬。同時(shí),通過多芯片之間的直聯(lián),省掉昂貴的交換機(jī)。我們上面說過,GPU產(chǎn)品是通過交換機(jī),網(wǎng)卡來實(shí)現(xiàn)互聯(lián),成本非常高。如果通過芯片內(nèi)外直接互聯(lián),整個(gè)都是數(shù)據(jù)流,就可以省掉昂貴的存儲器、交換機(jī)的成本。
第五點(diǎn),采用3D存儲方式解耦先進(jìn)存儲。考慮讓存儲和計(jì)算挨得更近。清微是通過一種叫3D 存儲集成的方式實(shí)現(xiàn)。如圖5,這種集成方式天然適配數(shù)據(jù)流計(jì)算方案,因?yàn)樗谴怪边B接,不需要每個(gè)PE去訪問整個(gè)空間,每個(gè)PE可以擁有自己獨(dú)立的存儲量和帶寬。通過面與面的集成,減少計(jì)算單元與存儲單元連線距離,增加信號密度,減少搬運(yùn)功耗,可以在節(jié)省一半功耗的情況下達(dá)到同樣的性能,相比傳統(tǒng)集成方式,帶寬可以提高十倍。
△圖5 可重構(gòu)分布式計(jì)算與3D DRAM 天然結(jié)合
上面這些正是我們在做的事情。清微云端芯片TX8項(xiàng)目在2021年就已經(jīng)啟動,匯集了一批來自蘋果,海思,英偉達(dá),SUN,Intel, AMD,平頭哥等公司,具備豐富服務(wù)器芯片和AI芯片軟硬件經(jīng)驗(yàn)的技術(shù)骨干,團(tuán)隊(duì)正在快速推進(jìn)工程落地,產(chǎn)品預(yù)計(jì)在明年年底上市。我們希望通過這種更合理、更可行的可重構(gòu)計(jì)算架構(gòu)方式,來滿足算力爆炸時(shí)代對芯片的需求,解決目前方案中存在的一些問題。
全球可重構(gòu)計(jì)算路線發(fā)展情況
可重構(gòu)計(jì)算這個(gè)技術(shù)出現(xiàn)還是比較早。1991年,國際學(xué)術(shù)界開啟可重構(gòu)芯片研究(A Novel ASIC Design Approach Based on a New Machine Paradigm)。歷經(jīng)10余年探索和發(fā)展,其算力和通用性的完美平衡獲得廣泛認(rèn)可。
2003年,歐洲宇航防務(wù)集團(tuán)(EADS) 率先在衛(wèi)星上采用可重構(gòu)計(jì)算芯片。2017年,美國發(fā)布“電子復(fù)興計(jì)劃”,將可重構(gòu)計(jì)算技術(shù)列為美國未來三十年的戰(zhàn)略技術(shù)。2019年,賽靈思推出包含CGRA架構(gòu)芯片的Versal系列產(chǎn)品,面向高端智能駕駛,算力達(dá)到128TOPS。2020年,SambaNova基于可重構(gòu)數(shù)據(jù)流架構(gòu)(RDA)推出了高性能計(jì)算的DataScale平臺,獲得Intel和Google的聯(lián)合投資,實(shí)現(xiàn)“軟件定義硬件”,部署到了美國阿貢國家實(shí)驗(yàn)室,美國能源部旗下國家核安全管理局,勞倫斯利國家實(shí)驗(yàn)室,洛斯阿拉莫斯國家實(shí)驗(yàn)室,用于藥物分析,核安全計(jì)算、人工智能等高性能計(jì)算場景。2021年英特爾的自動駕駛子公司 Mobileye宣布下一代L4 SoC中包含粗粒度可重構(gòu)陣列 (CGRA) 內(nèi)核。2022年,瑞薩推出能夠處理多個(gè)攝像頭圖像數(shù)據(jù)的全新可重構(gòu)芯片RZ/V2MA,并為視覺AI應(yīng)用帶來新水平的高精度圖像識別能力。
國際產(chǎn)業(yè)界和學(xué)術(shù)界已形成共識,可重構(gòu)架構(gòu)芯片具備廣泛的通用計(jì)算能力,可以應(yīng)用在非常多的場景。面對日益增長的算力需求,兼顧靈活性和高算力特點(diǎn),可重構(gòu)計(jì)算技術(shù)是解決通用高算力需求的必由之路。
未來,可重構(gòu)芯片定位為數(shù)據(jù)密集型計(jì)算的核心載體,形成“CGRA+”的異構(gòu)開放生態(tài)。這個(gè)是必然趨勢。英特爾主打CPU,然后收購Altera,加上自研GPU,形成了一個(gè)CPU+GPU+FPGA異構(gòu)產(chǎn)品形態(tài)。AMD基于x86 CPU,收購賽靈思FPGA,賽靈思同步已經(jīng)切入CGRA, 同時(shí)收購ATI GPU,形成了一個(gè)CPU+FPGA+CGRA+GPU的生態(tài)。英偉達(dá),曾經(jīng)試圖去收購ARM,但沒有成功,但是也可以反映出它整個(gè)的技術(shù)路線,希望形成一個(gè)CPU+GPU的生態(tài)。清微不會去做通用的生態(tài),而是做計(jì)算生態(tài),它往前發(fā)展,是一個(gè)CGRA+CPU的生態(tài),我們的CPU可以是x86架構(gòu)的,可以是ARM架構(gòu),還可以是RISC-V架構(gòu),開放兼容。
最后,我想說說清微智能未來的發(fā)展規(guī)劃。清微現(xiàn)實(shí)從端側(cè)入手,正在向云側(cè)延伸,打造“CGRA+”的生態(tài)。如圖6所示,從橫坐標(biāo)和縱坐標(biāo)兩個(gè)維度發(fā)展,橫向是軟件生態(tài),不斷地從單點(diǎn)產(chǎn)品切入,完善整個(gè)應(yīng)用場景,到完善整個(gè)生態(tài)??v向是基于CGRA技術(shù)體系,不斷內(nèi)生和外延,吸納單點(diǎn)技術(shù),實(shí)現(xiàn)軟硬件通用處理器平臺。
△圖6 清微未來十年技術(shù)發(fā)展規(guī)劃
關(guān)于「量子位·視點(diǎn)」
量子位發(fā)起的CEO/CTO系列分享活動,不定期邀請前沿科技領(lǐng)域創(chuàng)業(yè)公司CEO/CTO,分享企業(yè)最新戰(zhàn)略、最新技術(shù)、最新產(chǎn)品,與廣大從業(yè)者、愛好者探討前沿技術(shù)理論與產(chǎn)業(yè)實(shí)踐。歡迎大家多多關(guān)注 ~
- 超詳細(xì)!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠(yuǎn)發(fā)布CASIVIBOT,以九年積累開啟AOI與機(jī)器人協(xié)同的品質(zhì)檢測新時(shí)代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機(jī)器人全產(chǎn)業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16