谷歌TPU訓(xùn)練BERT只要23秒,華為AI芯片達(dá)國(guó)際領(lǐng)先水平,MLPerf v0.7出爐
昇騰910性能超英偉達(dá)V100
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
今天,人工智能行業(yè)權(quán)威“跑分”MLPerf訓(xùn)練v0.7出爐,這是該跑分推出以來(lái)第三次放榜。
英偉達(dá)剛發(fā)布的A100 GPU、谷歌即將推出的TPUv4,兩個(gè)冤家的AI芯片性能孰強(qiáng)孰弱,在這份榜單里都能看到。
除了兩家AI巨頭相爭(zhēng),此次也是中國(guó)芯片首次在榜單中亮相,來(lái)自華為的昇騰910芯片實(shí)測(cè)成績(jī)曝光,性能一度超越了英偉達(dá)同類產(chǎn)品。
MLPerf測(cè)試內(nèi)容
隨著AI技術(shù)的進(jìn)步,今年的測(cè)試基準(zhǔn)進(jìn)一步加大了難度。
MLPerf訓(xùn)練測(cè)試基準(zhǔn)包括圖像分類、翻譯、推薦系統(tǒng)和圍棋等8個(gè)機(jī)器學(xué)習(xí)任務(wù)中,最終結(jié)果是這8項(xiàng)任務(wù)的訓(xùn)練時(shí)間,速度越快則性能越強(qiáng)。
具體的8項(xiàng)任務(wù)內(nèi)容如下:
其中后三項(xiàng)是新加入或重新制定的標(biāo)準(zhǔn):
1、BERT:用Wikipedia語(yǔ)料庫(kù)訓(xùn)練BERT,這是首次將BERT引入MLPerf測(cè)試基準(zhǔn)。
2、DLRM:用Criteo AI Lab的Terabyte點(diǎn)擊率數(shù)據(jù)集訓(xùn)練的深度學(xué)習(xí)推薦模型(DLRM),廣泛用于在線購(gòu)物推薦、搜索結(jié)果和社交媒體內(nèi)容排序。
3、Mini-Go:之前的MLPerf v0.5和v0.6也有訓(xùn)練圍棋的強(qiáng)化學(xué)習(xí)任務(wù),但卻是迷你棋盤(pán),此次v0.7將棋盤(pán)擴(kuò)大為19×19全尺寸,這更能反映研究成果。
了解過(guò)測(cè)試內(nèi)容后,我們來(lái)看看各家的跑分成績(jī)。
BERT訓(xùn)練刷新紀(jì)錄
今年英偉達(dá)和谷歌兩家公司都拿出了自己最強(qiáng)的硬件參與競(jìng)爭(zhēng)。
英偉達(dá)方面,他們打破了16項(xiàng)AI訓(xùn)練測(cè)試紀(jì)錄,而谷歌則表示,自己在全部8項(xiàng)任務(wù)中有6項(xiàng)獲得了最高成績(jī)。
得益于兩家的激烈競(jìng)爭(zhēng),AI訓(xùn)練速度有了飛速發(fā)展。有一些在5年前還需要訓(xùn)練3周的任務(wù),現(xiàn)在只需不到1分鐘即可完成,幾乎是一年提高一個(gè)數(shù)量級(jí)。
令人印象最深刻的還是BERT,這個(gè)NLP模型在剛推出時(shí)需要訓(xùn)練3天時(shí)間。
去年,谷歌用1024塊TPUv3將訓(xùn)練時(shí)間縮短到76分鐘,英偉達(dá)又用1472個(gè)V100 GPU將訓(xùn)練時(shí)間進(jìn)一步減少到53分鐘。
在最新的MLPerf中,英偉達(dá)只花了49秒就完成了BERT的訓(xùn)練,他們用了一臺(tái)包含2048個(gè)A100 GPU的超級(jí)計(jì)算機(jī)SuperPOD。
作為對(duì)比,英偉達(dá)還表示,谷歌用16個(gè)TPUv3訓(xùn)練了56.7分鐘才完成。(看看,我們才用了不到1分鐘!)
然而,實(shí)際上谷歌比他們的速度更快,谷歌的一個(gè)研究項(xiàng)目使用了4096塊TPU芯片,在訓(xùn)練BERT上獲得了絕對(duì)最高的成績(jī)——23秒!
需要注意的是,這次訓(xùn)練BERT的數(shù)據(jù)集和去年并不相同,但是把BERT訓(xùn)練時(shí)間縮短到半分鐘內(nèi)已經(jīng)足夠驚人。
谷歌聲稱,快速訓(xùn)練BERT用的是世界上最快的機(jī)器學(xué)習(xí)訓(xùn)練超算,其內(nèi)部有4096個(gè)TPU v3芯片和數(shù)百個(gè)CPU主機(jī),所有芯片都通過(guò)超快速、超大規(guī)模的定制互連進(jìn)行連接,可提供430PFLOP的峰值性能。
這臺(tái)超算在4項(xiàng)任務(wù)中都把訓(xùn)練時(shí)間縮到半分鐘內(nèi)。
華為芯片首次亮相
另外,在訓(xùn)練芯片榜單上,我們首次看到了國(guó)產(chǎn)芯片的身影。
中科院深圳先進(jìn)技術(shù)研究所提供了華為昇騰910的測(cè)試成績(jī),雖然僅測(cè)試了ResNet-50一項(xiàng),但是相同規(guī)模的情況下,其速度已經(jīng)超過(guò)了英偉達(dá)的V100 GPU。
同樣使用128個(gè)至強(qiáng)白金CPU和512個(gè)AI加速芯片,昇騰910在ImageNet任務(wù)中,訓(xùn)練ResNet-50只需1.59分鐘,而英偉達(dá)V100需要2.35分鐘。
華為昇騰910不僅可以運(yùn)行自研的MindSpore框架,也能運(yùn)行谷歌的TensorFlow框架。兩者性能差距很小,后者的訓(xùn)練時(shí)間為1.53分鐘,比在MindSpore框架上運(yùn)行時(shí)間稍短。
不過(guò),從這份榜單中可以看出,國(guó)產(chǎn)AI芯片任重道遠(yuǎn),英偉達(dá)仍在商業(yè)領(lǐng)域占據(jù)主導(dǎo)地位。
參與測(cè)試的多家公司使用的均是英偉達(dá)GPU,不久前推出的A100 GPU也迅速得到商用。戴爾、阿里、富士通、騰訊、浪潮,甚至連谷歌自己,都是英偉達(dá)的客戶。
而且臺(tái)積電將停止為華為代工芯片,使華為自研AI芯片的未來(lái)蒙上了一層陰影。
谷歌TPUv4泄露
此次MLPerf跑分還泄露了谷歌新一代TPU的性能指標(biāo)。
相比兩年前的TPUv3,谷歌的TPUv4帶來(lái)平均2.7倍的性能提升。
更可怕的是,谷歌23秒訓(xùn)練完BERT使用的是TPUv3,而使用256塊TPUv4訓(xùn)練BERT的時(shí)間是1.82分鐘。
至于更大規(guī)模的TPUv4計(jì)算集群會(huì)帶來(lái)怎樣恐怖的成績(jī),或許只能等谷歌正式發(fā)布后才能知曉。
關(guān)于MLPerf
MLPerf是業(yè)內(nèi)首套衡量機(jī)器學(xué)習(xí)軟硬件性能的通用基準(zhǔn),由圖靈獎(jiǎng)得主David Patterson聯(lián)合谷歌和幾所著名高校于2018年發(fā)起。
MLPerf基準(zhǔn)聯(lián)盟現(xiàn)有83家成員,包括谷歌、英偉達(dá)、微軟、Facebook、阿里巴巴等73家企業(yè)和斯坦福、哈佛、多倫多大學(xué)等10所高校。
2018年,MLPerf發(fā)布了首個(gè)AI訓(xùn)練測(cè)試基準(zhǔn)v0.5,v0.7是第三個(gè)AI訓(xùn)練跑分榜單。去年,該組織還發(fā)布過(guò)AI推理測(cè)試基準(zhǔn)v0.5,國(guó)產(chǎn)芯片阿里含光800曾獲得多項(xiàng)第一。
榜單地址:
https://mlperf.org/training-results-0-7
參考鏈接:
https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer
https://blogs.nvidia.com/blog/2020/07/29/mlperf-training-benchmark-records/
- 腦機(jī)接口走向現(xiàn)實(shí),11張PPT看懂中國(guó)腦機(jī)接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫(kù)2021-08-10
- 張朝陽(yáng)開(kāi)課手推E=mc2,李永樂(lè)現(xiàn)場(chǎng)狂做筆記2022-03-11
- 阿里數(shù)學(xué)競(jìng)賽可以報(bào)名了!獎(jiǎng)金增加到400萬(wàn)元,題目面向大眾公開(kāi)征集2022-03-14
- 英偉達(dá)遭黑客最后通牒:今天必須開(kāi)源GPU驅(qū)動(dòng),否則公布1TB機(jī)密數(shù)據(jù)2022-03-05