英偉達(dá)A100深度學(xué)習(xí)性能實(shí)測(cè):訓(xùn)練速度可達(dá)V100的3.5倍
實(shí)測(cè)性能究竟有沒得達(dá)到宣稱
子豪 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
英偉達(dá)最新發(fā)布的基于新架構(gòu)的A100加速計(jì)算卡,其官網(wǎng)宣傳:
自動(dòng)混合精度和FP16,可以為A100帶來2倍的性能提升;
而且,在不更改代碼的情況下,具有TF32的A100與英偉達(dá)Volta相比,性能能夠高出20倍。
那么,A100與V100相比,究竟如何?最近Lambda網(wǎng)站真的把它倆的訓(xùn)練速度對(duì)比了一番。
硬件參數(shù)對(duì)比
△ 英偉達(dá)A100 GPU
相比V100,A100的單精度浮點(diǎn)計(jì)算能力,從15.7TFLOPS提升至19.5TFLOPS;而雙精度浮點(diǎn)運(yùn)算從7.8TFLOPS提升至9.7TFLOPS。
在英偉達(dá)的公開信息中,列出了A100與V100的參數(shù)對(duì)比:
在BERT深度學(xué)習(xí)訓(xùn)練中,二者的速度對(duì)比:
在其他訓(xùn)練模型下,A100是否能有同樣出色的表現(xiàn)?
測(cè)試結(jié)果如何?
二者均選擇適用于NVLink的產(chǎn)品進(jìn)行測(cè)試,在32位精度下,采用PyTorch訓(xùn)練。
對(duì)于A100,32位是指FP32+TF32;對(duì)于V100,指的是FP32。
測(cè)試分為兩部分:卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度、語言模型訓(xùn)練速度。
卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度
測(cè)試者將一塊V100的32位的訓(xùn)練速度歸一化,對(duì)比了不同數(shù)量GPU的訓(xùn)練速度。
將結(jié)果在SSD、ResNet-50和Mask RCNN上取平均值。(原始數(shù)據(jù)可通過文末鏈接查看)
得到結(jié)果:
例如:
- 1塊A100 VS 1塊V100,進(jìn)行32位訓(xùn)練:前者速度是后者的2.17倍;
- 4塊V100 VS 1塊V100,進(jìn)行32位訓(xùn)練:前者速度是后者的3.88倍;
- 8塊A100的混合精度訓(xùn)練 VS 1塊V100的32位訓(xùn)練:前者速度是后者的20.35倍。
語言模型訓(xùn)練速度
與上面的對(duì)比方法相同。
將結(jié)果在Transformer-XL base、Transformer-XL large、Tacotron 2和ERT-base SQuAD上取平均值。(原始數(shù)據(jù)可通過文末鏈接查看)
得到結(jié)果:
例如:
- 1塊A100 VS 1塊V100,進(jìn)行32位訓(xùn)練:前者速度是后者的3.39倍;
- 4塊V100的混合精度訓(xùn)練 VS 1塊V100的32位訓(xùn)練:前者速度是后者的7.97倍;
- 8塊A100的混合精度訓(xùn)練 VS 1塊V100的32位訓(xùn)練:前者速度是后者的42.60倍。
結(jié)論
- 在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中:
1塊A100的訓(xùn)練速度是1塊V100的2.2倍;
使用混合精度時(shí),前者則是后者的1.6倍。
- 在語言模型訓(xùn)練中:
1塊A100的訓(xùn)練速度是1一塊V100的3.4倍;
使用混合精度時(shí),前者則是后者的2.6倍。
其中,分別用8塊A100與8塊V100,進(jìn)行32位訓(xùn)練:前者速度能夠達(dá)到后者的3.5倍;
看來,針對(duì)不同模式下的深度學(xué)習(xí)訓(xùn)練,英偉達(dá)A100都有著相當(dāng)不錯(cuò)的效率。
“前所未有的規(guī)?!币约啊绑@人的性能”,所言不虛。
原文鏈接:
https://lambdalabs.com/blog/NVIDIA-a100-vs-v100-benchmarks/
測(cè)試原始數(shù)據(jù):
https://lambdalabs.com/gpu-benchmarks