1.75萬億參數(shù)、在國產(chǎn)超算上訓(xùn)練,剛剛智源發(fā)布了全球最大預(yù)訓(xùn)練模型“悟道2.0”
還有虛擬大學(xué)生“華智冰”,要上清華計(jì)算機(jī)系
邊策 夢晨 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
中國的AI內(nèi)行頂級(jí)盛會(huì)——2021北京智源大會(huì)又來了。
每年的智源大會(huì)參會(huì)陣容都非常豪華,今年也不例外,包括Yoshua Bengio、David Patterson兩位圖靈獎(jiǎng)得主在內(nèi)的200多位學(xué)者將一起對AI的技術(shù)和應(yīng)用進(jìn)行深度探討。
Bengio更是帶來了他的System2深度學(xué)習(xí)理論最新進(jìn)展。
但是在今年的智源大會(huì)上,最重磅的“明星”卻不是這些學(xué)者。
因?yàn)槿蜃畲蟮念A(yù)訓(xùn)練模型的紀(jì)錄,被中國團(tuán)隊(duì)刷新了。
真正的主角是它!
全球最大預(yù)訓(xùn)練模型“悟道2.0”發(fā)布
就在剛剛,北京智源人工智能研究院發(fā)布了“悟道2.0”,達(dá)到1.75萬億參數(shù),超過之前由谷歌發(fā)布的Switch Transformer,成為全球最大的預(yù)訓(xùn)練模型。
今年3月22日,智源才發(fā)布了“悟道1.0”,這是由智源研究院學(xué)術(shù)副院長、清華大學(xué)教授唐杰領(lǐng)銜,來自北大、清華、中科院等單位的100余位AI科學(xué)家團(tuán)隊(duì)聯(lián)合攻關(guān)完成。
2個(gè)多月后,悟道進(jìn)化到2.0,模型規(guī)模爆發(fā)級(jí)增?,而參數(shù)越大,意味著越強(qiáng)的通???智能潛能。
“悟道2.0”不僅僅是個(gè)語言模型,它是一個(gè)全能選手,一統(tǒng)文本和視覺兩大領(lǐng)域,在問答、繪畫、作詩、視頻等任務(wù)中正在逼近圖靈測試。
“悟道2.0”一舉在世界公認(rèn)的9項(xiàng)Benchmark上獲得了第一的成績。
尤其值得?提是,這個(gè)世界最?萬億模型,完全基于國產(chǎn)超算平臺(tái)打造,其基礎(chǔ)算法是在中國的神威超算上完成模型訓(xùn)練。
對于AI研究者和企業(yè)來說,最重要的是,“悟道2.0”和GPT-3小批量付費(fèi)使用的模式不同,將向AI社區(qū)和企業(yè)公開預(yù)測模型,并從今天起公開API,所有人都可以免費(fèi)申請使用。
悟道背后
那么,為什么新?代“全球最?”預(yù)訓(xùn)練模型,會(huì)出現(xiàn)在智源“悟道”攻關(guān)團(tuán)隊(duì)?
智源之所以能打造出1.75億參數(shù)“悟道2.0”,是因?yàn)閾碛虚_創(chuàng)性的FastMoE,打破了分布式訓(xùn)練的瓶頸,這是實(shí)現(xiàn)“萬億模型”基?的關(guān)鍵。
過往,由于谷歌萬億模型的核?技術(shù)MoE和其昂貴的硬件強(qiáng)綁定,絕?多數(shù)??法得到使?用與研究機(jī)會(huì)。
MoE是?個(gè)在神經(jīng)?絡(luò)中引?若?專家?絡(luò)的技術(shù),能直接推動(dòng)預(yù)訓(xùn)練模型經(jīng)從億級(jí)參數(shù)到萬億級(jí)參數(shù)的跨越,但離不開對谷歌分布式訓(xùn)練框架mesh-tensorflow和定制硬件TPU的依賴。
FastMoE打破了這?限制,作為?個(gè)支持PyTorch框架的MoE系統(tǒng),它簡單易?、靈活、?性能,并針對神威架構(gòu)進(jìn)行了優(yōu)化,可在國產(chǎn)超算上完成訓(xùn)練。
另外,還有兩項(xiàng)技術(shù)賦予了悟道更為強(qiáng)大的能力。
一是最大的英文通用預(yù)訓(xùn)練模型GLM 2.0。此前,GLM首次打破BERT和GPT壁壘,開創(chuàng)性地以單?模型兼容所有主流架構(gòu)。新一代模型以100億參數(shù)量, ?以匹敵微軟170億參數(shù)的Turing-NLG模型,在LAMABADA填空測試中表現(xiàn)更優(yōu)。
二是世界最大中文多模態(tài)生成模型CogView,參數(shù)量達(dá)40億,可直接從中文文字生成圖像,在MS COCO文本生成圖像任務(wù)權(quán)威指標(biāo)FID上,CogView打敗OpenAI今年年初發(fā)布的130億參數(shù)的DALL·E,獲得世界第一。
CogView已經(jīng)和阿里達(dá)摩院合作,將這項(xiàng)技術(shù)用于服裝設(shè)計(jì)領(lǐng)域。
針對小樣本學(xué)習(xí)系統(tǒng),智源悟道團(tuán)隊(duì)提出了微調(diào)方法P-Tuning,極大縮小了少樣本與全監(jiān)督學(xué)習(xí)條件下微調(diào)性能的差距。
在訓(xùn)練大規(guī)模預(yù)訓(xùn)練模型時(shí),要消耗大量的算力資源和時(shí)間,為了提升其產(chǎn)業(yè)的普適性和易用性,悟道團(tuán)隊(duì)搭建了?效預(yù)訓(xùn)練框架CPM-2:一個(gè)在編碼、模型、訓(xùn)練、微調(diào)、推理AI全鏈路上的高效框架。
最后,唐杰教授還公布了全新數(shù)據(jù)集WuDaoCorpora,這是目前全球最大的中文文本數(shù)據(jù)集(3TB)、多模態(tài)數(shù)據(jù)集(90TB)和中文對話數(shù)據(jù)集(181G)。
悟出了什么?
智源并不只滿足于技術(shù)上的突破,還要以大模型為起點(diǎn),打造未來AI平臺(tái)。
悟道要成為像“電網(wǎng)”一樣的基礎(chǔ)設(shè)施,為AI在產(chǎn)業(yè)上的應(yīng)用提供源源不斷的動(dòng)力。
大會(huì)現(xiàn)場舉行了與美團(tuán)、??、快手、搜狗、360、寒武紀(jì)、好未來、新華社等21家企業(yè)進(jìn)行戰(zhàn)略合作的簽約儀式。
聯(lián)合從行業(yè)龍頭到中小創(chuàng)新企業(yè),共同組建“悟道大模型技術(shù)創(chuàng)新生態(tài)聯(lián)盟”,以模型研發(fā)和應(yīng)用促進(jìn)產(chǎn)業(yè)聚集。
如在與新華社的合作中,將大模型應(yīng)用于新聞智能化轉(zhuǎn)型。悟道能夠進(jìn)行新聞內(nèi)容處理、圖?生成、傳播優(yōu)化等,還具備接近?類的圖?創(chuàng)意能力,可以作詩、 問答、創(chuàng)意寫作。
其中,最讓人期待的是“悟道”與“小冰”的夢幻聯(lián)動(dòng),這兩個(gè)AI今天一起打造了虛擬大學(xué)生“華智冰”。
華智冰同學(xué)使用悟道大模型已經(jīng)掌握了寫詩、繪畫、作曲等技能,接下來還要拜唐杰教授為師,進(jìn)入清華唐杰實(shí)驗(yàn)室學(xué)習(xí),增進(jìn)自己的能力。
AI內(nèi)行頂會(huì)還有啥?
智源大會(huì)將連續(xù)召開3天,接下來兩天還會(huì)有超過20場專題論壇和數(shù)不清的精彩講座。
講者當(dāng)中既有學(xué)術(shù)大咖,如宋曉冬教授、2017年圖靈獎(jiǎng)得主David Patterson,也有冉冉升起的學(xué)術(shù)新星,如太極圖形創(chuàng)始?胡淵鳴……
想在線觀看的話,微信掃描下方二維碼就可直達(dá):
智源大會(huì)完整日程:
https://2021.baai.ac.cn/schedule
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
點(diǎn)這里??關(guān)注我,記得標(biāo)星哦~

量子位
英偉達(dá)CV公開課免費(fèi)報(bào)名!
6月2日/下周三第2期直播中,英偉達(dá)專家將實(shí)戰(zhàn)演示如何快速搭建面部情感識(shí)別系統(tǒng),帶大家低門檻、高效率學(xué)習(xí)AI模型的搭建、訓(xùn)練與部署。歡迎掃碼報(bào)名~
p.s. 報(bào)名后還可入群獲取其他課程回放、課程PPT、源代碼哦~
一鍵三連「分享」、「點(diǎn)贊」和「在看」
科技前沿進(jìn)展日日相見~