MLPerf排名榜刷新:相同GPU配置訓(xùn)練BERT,飛槳用分布式計(jì)算拿下世界第一
飛槳是怎么做到的?
允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
北京時(shí)間11月10日,全球權(quán)威AI訓(xùn)練性能基準(zhǔn)測(cè)試MLPerf Training v2.1結(jié)果正式公布[1]。百度使用飛槳框架提交的8機(jī)64卡配置下的BERT模型訓(xùn)練性能,位列同等GPU配置下世界第一。端到端訓(xùn)練時(shí)間和訓(xùn)練吞吐兩個(gè)指標(biāo)均超越NVIDIA高度優(yōu)化的NGC PyTorch框架。
MLPerf是全球影響力最廣的AI性能基準(zhǔn)測(cè)試之一[2],飛槳本次奪魁,進(jìn)一步體現(xiàn)了飛槳框架在分布式訓(xùn)練性能上的領(lǐng)先優(yōu)勢(shì)。
飛槳在MLPerf Training中的表現(xiàn)成績(jī)
在今年6月30日發(fā)布的v2.0榜單里[3],百度飛槳在8卡NVIDIA GPU(400W功耗,80G顯存)配置下,BERT模型訓(xùn)練性能排名第一,比其他提交結(jié)果快5%~11%不等,展示了飛槳領(lǐng)先的單機(jī)多卡并行訓(xùn)練性能優(yōu)勢(shì)。
在v2.0優(yōu)異性能的基礎(chǔ)上,飛槳在v2.1中提交的多機(jī)性能結(jié)果,進(jìn)一步印證了分布式訓(xùn)練的極致性能表現(xiàn)。圖1展示了v2.1中8機(jī)64卡NVIDIA GPU(400W功耗,80G顯存)配置下BERT模型的所有訓(xùn)練性能數(shù)據(jù)(共4組),百度飛槳的端到端訓(xùn)練收斂時(shí)間比其它提交結(jié)果快1%~20%不等;圖2展示了圖1各組提交數(shù)據(jù)的吞吐對(duì)比,百度飛槳的訓(xùn)練吞吐比其他提交結(jié)果快2%~12%不等。
△圖1:MLPerf Training v2.1 BERT模型,端到端訓(xùn)練收斂時(shí)間排名(8機(jī)64卡GPU)[1]
△圖2:MLPerf Training v2.1 BERT模型,所有提交結(jié)果吞吐比較(8機(jī)64卡GPU)[1]
飛槳分布式訓(xùn)練核心技術(shù)解析及在MLPerf中的應(yīng)用
飛槳在MLPerf基準(zhǔn)測(cè)試中取得的優(yōu)異成績(jī),得益于飛槳框架在分布式訓(xùn)練核心技術(shù)上的持續(xù)探索和創(chuàng)新:
高加速比的混合并行技術(shù)
針對(duì)大規(guī)模稠密參數(shù)模型高效訓(xùn)練問題,飛槳在業(yè)內(nèi)首創(chuàng)4D混合并行訓(xùn)練策略。MLPerf BERT模型訓(xùn)練任務(wù)基于飛槳的混合并行策略,在單機(jī)8卡場(chǎng)景實(shí)現(xiàn)了超線性加速,在8機(jī)64卡相對(duì)于單機(jī)的擴(kuò)展效率達(dá)到了94%。
端到端自適應(yīng)分布式訓(xùn)練技術(shù)
針對(duì)分布式訓(xùn)練調(diào)優(yōu)困難的問題,飛槳提出了端到端自適應(yīng)分布式訓(xùn)練架構(gòu)。對(duì)于MLPerf BERT模型訓(xùn)練任務(wù),根據(jù)集群通信拓?fù)涮攸c(diǎn)并結(jié)合NCCL SHARP協(xié)議,使用全局通信與分層次通信結(jié)合的方式降低整體通信耗時(shí),有效提升模型訓(xùn)練性能。
高效的異構(gòu)設(shè)備負(fù)載均衡技術(shù)
針對(duì)分布式訓(xùn)練經(jīng)常出現(xiàn)的負(fù)載不均、數(shù)據(jù)加載速度瓶頸等問題,飛槳提出了異構(gòu)設(shè)備混合負(fù)載均衡的方案,根據(jù)不同設(shè)備的算力特點(diǎn),高效地進(jìn)行負(fù)載均衡設(shè)計(jì)。
MLPerf BERT模型訓(xùn)練任務(wù)通過使用GPU高帶寬通信,解決模型訓(xùn)練啟動(dòng)時(shí)的數(shù)據(jù)加載慢問題;通過CPU異構(gòu)設(shè)備通信,實(shí)現(xiàn)模型訓(xùn)練過程與數(shù)據(jù)負(fù)載均衡間的重疊,提高模型訓(xùn)練效率。
此外,飛槳在基礎(chǔ)訓(xùn)練性能上持續(xù)不斷優(yōu)化,為分布式訓(xùn)練性能提升打下堅(jiān)實(shí)基礎(chǔ)。
比如,飛槳高可復(fù)用算子庫PHI保證了算子層的極致性能[4],高效數(shù)據(jù)讀取模塊提供了高速數(shù)據(jù)加載的重要方式,統(tǒng)一的IR Pass Library與神經(jīng)網(wǎng)絡(luò)編譯器CINN結(jié)合形成一體化的編譯優(yōu)化架構(gòu),執(zhí)行調(diào)度極致優(yōu)化降低框架開銷,硬件感知全流程自動(dòng)調(diào)優(yōu)可達(dá)媲美專家級(jí)優(yōu)化效果[5]等。
源自產(chǎn)業(yè)實(shí)踐飛槳分布式技術(shù)助力大模型落地
作為產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),飛槳的分布式訓(xùn)練技術(shù)在實(shí)踐中不斷創(chuàng)新,并結(jié)合應(yīng)用反饋持續(xù)優(yōu)化。結(jié)合計(jì)算機(jī)視覺、自然語言處理、科學(xué)計(jì)算等領(lǐng)域的應(yīng)用,飛槳研發(fā)了異構(gòu)硬件下的低存儲(chǔ)和高性能訓(xùn)練技術(shù),相繼發(fā)布了業(yè)界首個(gè)通用異構(gòu)參數(shù)服務(wù)器架構(gòu)、4D混合并行訓(xùn)練策略、端到端自適應(yīng)分布式訓(xùn)練架構(gòu)等多項(xiàng)領(lǐng)先技術(shù)成果。
飛槳大規(guī)模分布式訓(xùn)練技術(shù),支持了百度大模型領(lǐng)域技術(shù)快速迭代持續(xù)領(lǐng)先。例如,百度發(fā)布了全球首個(gè)知識(shí)增強(qiáng)千億大模型“鵬城-百度·文心”、全球首個(gè)百億參數(shù)中英文對(duì)話預(yù)訓(xùn)練生成模型PLATO-XL、全球規(guī)模最大中文跨模態(tài)生成模型ERNIE-VILG、業(yè)界規(guī)模最大的多任務(wù)統(tǒng)一視覺大模型VIMER-UFO。
此外,飛槳分布式技術(shù)還在國(guó)產(chǎn)硬件集群上將AlphaFold2千萬級(jí)別蛋白initial training階段從7天壓縮到2.6天。目前,文心已發(fā)布20多個(gè)大模型,覆蓋自然語言處理、計(jì)算機(jī)視覺、跨模態(tài)、生物計(jì)算等領(lǐng)域,賦能工業(yè)、能源、城市、金融等千行百業(yè)。
結(jié)語
繼在MLPerf Training v2.0獲得了BERT模型單機(jī)訓(xùn)練性能世界第一后,飛槳在MLPerf Training v2.1的8機(jī)64卡配置下分布式訓(xùn)練性能再度折桂。成績(jī)的背后,不僅是飛槳分布式框架的持續(xù)創(chuàng)新突破,也伴隨著硬件生態(tài)的蓬勃發(fā)展。
飛槳硬件生態(tài)伙伴體系歷經(jīng)“共聚”、“共研”、“共創(chuàng)”三大階段,目前已攜手超過30家硬件廠商深度融合優(yōu)化。飛槳與NVIDIA、Intel、瑞芯微、Arm等多家伙伴廠商合作,結(jié)合自有軟硬件基礎(chǔ)開發(fā)棧特色,針對(duì)不同應(yīng)用場(chǎng)景和產(chǎn)品,在共同推出飛槳生態(tài)發(fā)行版、建設(shè)開源開放模型庫、開發(fā)課程與培訓(xùn)內(nèi)容等方面開展合作。
比如,NVIDIA與飛槳合作推出了NGC飛槳鏡像,自2022年5月26日上線以來每月更新,持續(xù)不斷地將NVIDIA CUDA最新軟件棧與飛槳框架深度集成。NVIDIA與百度飛槳聯(lián)合打造了深度學(xué)習(xí)優(yōu)化與部署課程,預(yù)計(jì)12月中旬在百度飛槳人工智能學(xué)習(xí)與實(shí)訓(xùn)社區(qū)(AI Studio)及NVIDIA 深度學(xué)習(xí)培訓(xùn)中心?(DLI)?同步上線。
未來,飛槳將繼續(xù)在軟硬協(xié)同性能優(yōu)化和大規(guī)模分布式訓(xùn)練技術(shù)等方向持續(xù)創(chuàng)新,為廣大用戶提供廣泛適配、性能優(yōu)異的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)。
參考文獻(xiàn):
[1] MLPerf Training v2.1 Results
https://mlcommons.org/en/training-normal-21/
[2] THE NEXT PLATFORM
https://www.nextplatform.com/2021/08/10/why-the-mlperf-benchmark-is-good-for-ai-and-good-for-you/
[3] MLPerf Training v2.0 Results
https://mlcommons.org/en/training-normal-20/
[4] 飛槳框架v2.3發(fā)布高可復(fù)用算子庫PHI!重構(gòu)開發(fā)范式,降本增效
https://www.paddlepaddle.org.cn/support/news?action=detail&id=2994
[5] 飛槳框架v2.3一鍵開啟全自動(dòng)性能優(yōu)化,媲美專家級(jí)優(yōu)化效果
https://www.paddlepaddle.org.cn/support/news?action=detail&id=3079
- 商湯林達(dá)華萬字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08