特斯拉Dojo超算最新細(xì)節(jié)大公開!涉及指令集結(jié)構(gòu)、數(shù)據(jù)格式,還有系統(tǒng)網(wǎng)絡(luò)
來自硅谷芯片技術(shù)研討會(huì)HOT CHIPS
鄧思邈 發(fā)自 副駕寺
智能車參考 | 公眾號(hào) AI4Auto
特斯拉備受關(guān)注的Dojo超算指令集結(jié)構(gòu)細(xì)節(jié)史上首次大公開!
而且還大秀了一把Dojo的數(shù)據(jù)格式、系統(tǒng)網(wǎng)絡(luò),以及軟件系統(tǒng)繞行死節(jié)點(diǎn)的能力。
關(guān)于特斯拉自研的AI芯片D1,更多細(xì)節(jié)也被披露。
一切來自剛剛舉辦的硅谷芯片技術(shù)研討會(huì)HOT CHIPS,聽特斯拉硬件工程師Emil Talpes怎么說。
特斯拉Dojo超算
所謂Dojo,是特斯拉自研的超級(jí)計(jì)算機(jī),能夠利用海量的視頻數(shù)據(jù),做“無人監(jiān)管”的標(biāo)注和訓(xùn)練。
它有高度可擴(kuò)展且完全靈活的分布式系統(tǒng),能夠訓(xùn)練神經(jīng)網(wǎng)絡(luò),還能適應(yīng)新的算法和應(yīng)用。
不僅如此,還能從頭開始構(gòu)建大系統(tǒng),而不是從現(xiàn)有的小系統(tǒng)演變而來。
每個(gè)Dojo ExaPod集成了120個(gè)訓(xùn)練模塊,內(nèi)置3000個(gè)D1芯片,擁有超過100萬個(gè)訓(xùn)練節(jié)點(diǎn),算力達(dá)到1.1EFLOP*(每秒千萬億次浮點(diǎn)運(yùn)算)。
微架構(gòu)方面,每個(gè)Dojo節(jié)點(diǎn)都有一個(gè)內(nèi)核,是一臺(tái)具有CPU專用內(nèi)存和 I/O接口的成熟計(jì)算機(jī)。
這很重要,因?yàn)槊總€(gè)內(nèi)核都可以做到獨(dú)立處理,而不依賴于共享緩存或寄存器文件。
每個(gè)內(nèi)核擁有一個(gè)1.25MB的SRAM,這是主存儲(chǔ)器。這種SRAM能以400GB/秒的速度加載,并以270GB/秒的速度存儲(chǔ)。
芯片有明確的指令,可以將數(shù)據(jù)移入或移出Dojo超算中其他內(nèi)核的外部SRAM存儲(chǔ)器。
嵌入SRAM中的是列表解析器引擎(list parser engine),諸如此類的引擎可以將信息一起發(fā)送到其他節(jié)點(diǎn)或從其他節(jié)點(diǎn)獲取信息,無需像其他CPU架構(gòu)一樣。
至于通信接口,每個(gè)節(jié)點(diǎn)都與2D網(wǎng)格相連,在節(jié)點(diǎn)邊界處每周期有八個(gè)數(shù)據(jù)包。而且每個(gè)節(jié)點(diǎn)都有獨(dú)立的網(wǎng)絡(luò)連接,能與相鄰節(jié)點(diǎn)進(jìn)行無縫連接。
關(guān)于Dojo的指令集,它支持64位標(biāo)量指令和64B SIMD指令,能夠處理從本地到遠(yuǎn)程內(nèi)存?zhèn)鬏敂?shù)據(jù)的原語(yǔ)(primitives),并支持信號(hào)量(semaphore)和屏障約束( barrier constraints)。
特斯拉自研AI芯片新進(jìn)展
數(shù)據(jù)格式對(duì)AI來說至關(guān)重要,特別是芯片所支持的數(shù)據(jù)格式。
特斯拉借助Dojo超算來研究業(yè)界常見的芯片,例如FP32、FP16和BFP16。
FP32格式比AI訓(xùn)練應(yīng)用的許多部分所需的精度和范圍更廣,IEEE指定的FP16格式?jīng)]有覆蓋神經(jīng)網(wǎng)絡(luò)中的所有處理層。
相反,谷歌Brain團(tuán)隊(duì)創(chuàng)建的Bfloat格式應(yīng)用范圍更廣,但精度更低。
特斯拉不僅提出了用于較低精度和更高矢量處理的8位FP8格式,還提出了一組可配置的8位和16位格式,Dojo超算可以在尾數(shù)的精度附近滑動(dòng),以涵蓋更廣泛的范圍和精度。
在給定時(shí)間內(nèi),特斯拉最多可以使用16種不同的矢量格式,但每個(gè)64B數(shù)據(jù)包必須屬于同一類型。
特斯拉自研的D1芯片,是Dojo ExaPod的核心。
由臺(tái)積電制造,采用7納米制造工藝,擁有500億個(gè)晶體管,芯片面積為645mm2,小于英偉達(dá)的A100(826 mm2)和AMD Arcturus(750 mm2)。
每個(gè)芯片有354個(gè)Dojo處理節(jié)點(diǎn)和440MB的靜態(tài)隨機(jī)存儲(chǔ)器。
D1芯片測(cè)試完成后,隨即被封裝到5×5的Dojo訓(xùn)練瓦片(Tile)上。
這些瓦片每邊有4.5TB/s的帶寬,每個(gè)模組還有15kW的散熱能力的封蓋,減掉給40個(gè)I/O的散熱,也就是說每個(gè)芯片的散熱能力接近600W。
瓦片也包含了所有的液冷散熱和機(jī)械封裝,這和Cerebras公司推出的WES-2芯片的封裝理念類似。
演講最后結(jié)束時(shí),特斯拉工程師Emil Talpes表達(dá)了如下觀點(diǎn):
我們最終的目標(biāo)是追求可擴(kuò)展性。我們已經(jīng)不再?gòu)?qiáng)調(diào)CPU中常見的幾種機(jī)制,像是一致性、虛擬內(nèi)存、全局查找目錄。只因?yàn)楫?dāng)我們擴(kuò)展到非常大的系統(tǒng)時(shí),這些機(jī)制并不能很好地隨之?dāng)U展。
相反,在整個(gè)網(wǎng)格中我們依靠的是那種快速、分散的SRAM存儲(chǔ),這樣能夠得到更高數(shù)量級(jí)的互連速度支持。
- Hinton能重新坐下了,什么時(shí)候開始的?2025-08-03
- 知乎聚集AI大咖深度對(duì)話,許華哲解析具身智能三大失敗模式2025-05-26
- 趣丸科技賈朔:AI音樂迎來應(yīng)用元年,五年內(nèi)將重構(gòu)產(chǎn)業(yè)格局|中國(guó)AIGC產(chǎn)業(yè)峰會(huì)2025-04-18
- 生數(shù)科技副總裁:多模態(tài)技術(shù)定將催生全新內(nèi)容平臺(tái),實(shí)現(xiàn)完全個(gè)性化、實(shí)時(shí)可控、可交互|中國(guó)AIGC產(chǎn)業(yè)峰會(huì)2025-04-18