中英文最大AI模型世界紀(jì)錄產(chǎn)生,大模型競(jìng)賽新階段來(lái)了
最大AI單體模型紀(jì)錄半個(gè)月被刷新兩次
邊策?發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
超大AI模型訓(xùn)練成本太高h(yuǎn)old不住?連市值萬(wàn)億的公司都開始尋求合作了。
本周,英偉達(dá)與微軟聯(lián)合發(fā)布了5300億參數(shù)的“威震天-圖靈”(Megatron-Turing),成為迄今為止全球最大AI單體模型。
僅僅在半個(gè)月前,國(guó)內(nèi)的浪潮發(fā)布了2500億參數(shù)的中文AI巨量模型“源1.0”。
不到一個(gè)月的時(shí)間里,最大英文和中文AI單體模型的紀(jì)錄分別被刷新。
而值得注意的是:
技術(shù)發(fā)展如此之快,“威震天-圖靈”和“源1.0”還是沒有達(dá)到指數(shù)規(guī)律的預(yù)期。
要知道,從2018年開始,NLP模型參數(shù)近乎以每年一個(gè)數(shù)量級(jí)的速度在增長(zhǎng)。
△?近年來(lái)NLP模型參數(shù)呈指數(shù)級(jí)上漲(圖片來(lái)自微軟)
而GPT-3出現(xiàn)后,雖然有Switch Transformer等萬(wàn)億參數(shù)混合模型出現(xiàn),但單體模型增長(zhǎng)速度已經(jīng)明顯放緩。
無(wú)論是國(guó)外的“威震天-圖靈”,還是國(guó)內(nèi)的“源1.0”,其規(guī)模和GPT-3沒有數(shù)量級(jí)上的差異。即便“威震天-圖靈”和“源1.0”都用上了各自最強(qiáng)大的硬件集群。
單體模型是發(fā)展遇到瓶頸了么?
超大模型的三個(gè)模式
回答這個(gè)疑問,首先得梳理一下近年來(lái)出現(xiàn)的超大規(guī)模NLP模型。
如果從模型的開發(fā)者來(lái)看,超大規(guī)模NLP模型的研發(fā)隨時(shí)間發(fā)展逐漸形成了三種模式。
一、以研究機(jī)構(gòu)為主導(dǎo)
無(wú)論是開發(fā)ELMo的Allen研究所、還是開發(fā)GPT-2的OpenAI(當(dāng)時(shí)還未引入微軟投資)都不是以盈利為目標(biāo)。
且這一階段的超大NLP模型都是開源的,得到了開源社區(qū)的各種復(fù)現(xiàn)與改進(jìn)。
ELMo有超過40個(gè)非官方實(shí)現(xiàn),GPT-2也被國(guó)內(nèi)開發(fā)者引入,用于中文處理。
二、科技企業(yè)巨頭主導(dǎo)
由于模型越來(lái)越大,訓(xùn)練過程中硬件的優(yōu)化變得尤為重要。
從2019年下半年開始,各家分別開發(fā)出大規(guī)模并行訓(xùn)練、模型擴(kuò)展技術(shù),以期開發(fā)出更大的NLP模型。英偉達(dá)Megatron-LM、谷歌T5、微軟Turing-NLG相繼出現(xiàn)。
今年國(guó)內(nèi)科技公司也開始了類似研究,中文AI模型“源1.0”便是國(guó)內(nèi)硬件公司的一次突破——
成就中文領(lǐng)域最大NLP模型,更一度刷新參數(shù)最多的大模型紀(jì)錄。
“源1.0”不僅有高達(dá)5TB的全球最大中文高質(zhì)量數(shù)據(jù)集,在總計(jì)算量和訓(xùn)練效率優(yōu)化上都是空前的。
三、巨頭與研究機(jī)構(gòu)或巨頭之間相互合作
擁有技術(shù)的OpenAI由于難以承受高昂成本,引入了微軟10億美元投資。依靠海量的硬件與數(shù)據(jù)集資源,1750億參數(shù)的GPT-3于去年問世。
但是,今年萬(wàn)億參數(shù)模型的GPT-4并沒有如期出現(xiàn),反而是微軟與英偉達(dá)聯(lián)手,推出了“威震天-圖靈”。
我們?cè)侔涯抗夥呕氐絿?guó)內(nèi)。
“威震天-圖靈”發(fā)布之前,國(guó)內(nèi)外涌現(xiàn)了了不少超大AI單體模型,國(guó)內(nèi)就有阿里達(dá)摩院PLUG、“源1.0”等。
像英偉達(dá)、微軟、谷歌、華為、浪潮等公司加入,一方面是為AI研究提供大量的算力支持,另一方面是因?yàn)樗麄冊(cè)诖笠?guī)模并行計(jì)算上具有豐富的經(jīng)驗(yàn)。
當(dāng)AI模型參數(shù)與日俱增,達(dá)到千億量級(jí),訓(xùn)練模型的可行性面臨兩大挑戰(zhàn):
1、即使是最強(qiáng)大的GPU,也不再可能將模型參數(shù)擬合到單卡的顯存中;
2、如果不特別注意優(yōu)化算法、軟件和硬件堆棧,那么超大計(jì)算會(huì)讓訓(xùn)練時(shí)長(zhǎng)變得不切實(shí)際。
而現(xiàn)有的三大并行策略在計(jì)算效率方面存在妥協(xié),難以做到魚與熊掌兼得。
英偉達(dá)與微軟合體正是為此,同樣面對(duì)該問題,浪潮在“源1.0”中也用了前沿的技術(shù)路徑解決訓(xùn)練效率問題。
從“源1.0”的arXiv論文中,我們可以窺見這種提高計(jì)算效率的方法。
在對(duì)源的大規(guī)模分布式訓(xùn)練中,浪潮采用了張量并行、流水線并行和數(shù)據(jù)并行的三維并行策略。
“威震天-圖靈”和“源1.0”一樣,在張量并行策略中,模型的層在節(jié)點(diǎn)內(nèi)的設(shè)備之間進(jìn)行劃分。
流水線并行將模型的層序列在多個(gè)節(jié)點(diǎn)之間進(jìn)行分割,以解決存儲(chǔ)空間不足的問題。
另外還有數(shù)據(jù)并行策略,將全局批次規(guī)模按照流水線分組進(jìn)行分割。
三家公司運(yùn)用各自的技術(shù),將最先進(jìn)的GPU與尖端的分布式學(xué)習(xí)軟件堆棧進(jìn)行融合,實(shí)現(xiàn)了前所未有的訓(xùn)練效率,最終分別打造出英文領(lǐng)域和中文領(lǐng)域的最大AI單體模型。
訓(xùn)練超大規(guī)模自然語(yǔ)言模型成本升高,技術(shù)上殊途同歸,形成研究機(jī)構(gòu)與科技巨頭協(xié)同發(fā)展,三種探索模式并駕齊驅(qū)的局面。
中英AI模型互有勝負(fù)
訓(xùn)練成本趨高,技術(shù)趨同,為何各家公司還是選擇獨(dú)自研究,不尋求合作?
我們從GPT-3身上或許可見一斑。
去年發(fā)布的GPT-3不僅未開源,甚至連API都是限量提供,由于獲得微軟的投資,今后GPT-3將由微軟獨(dú)享知識(shí)產(chǎn)權(quán),其他企業(yè)或個(gè)人想使用完整功能只能望洋興嘆。
訓(xùn)練成本奇高、道德倫理問題以及為了保證行業(yè)領(lǐng)先地位,讓微軟不敢下放技術(shù)。其他科技公司也不可能將自己的命運(yùn)交給微軟,只能選擇獨(dú)自開發(fā)。
尤其對(duì)于中國(guó)用戶來(lái)說(shuō),以上一批超大模型都不是用中文數(shù)據(jù)集訓(xùn)練,無(wú)法使用在中文語(yǔ)境中。
中文語(yǔ)言的訓(xùn)練也比英文更難。英文由單詞組成,具有天然的分詞屬性。
而中文需要對(duì)句子首先進(jìn)行分詞處理,如“南京市長(zhǎng)江大橋”, 南京市|長(zhǎng)江|大橋、南京|市長(zhǎng)|江大橋,錯(cuò)誤的分詞會(huì)讓AI產(chǎn)生歧義。
相比于英文有空格作為分隔符,中文分詞缺乏統(tǒng)一標(biāo)準(zhǔn),同樣一個(gè)詞匯在不同語(yǔ)境、不同句子中的含義可能會(huì)相差甚遠(yuǎn),加上各種網(wǎng)絡(luò)新詞匯參差不齊、中英文混合詞匯等情況,要打造出一款出色的中文語(yǔ)言模型需要付出更多努力。
所以國(guó)內(nèi)公司更積極研究中文模型也就不難理解了。
即便難度更高,國(guó)內(nèi)公司還一度處于全球領(lǐng)先,比如數(shù)據(jù)集和訓(xùn)練效率方面。
據(jù)浪潮論文透露,“源1.0”硬件上使用了2128塊GPU,浪潮共搜集了850TB數(shù)據(jù),最終清洗得到5TB高質(zhì)量中文數(shù)據(jù)集。
其文字?jǐn)?shù)據(jù)體積多于“威震天-圖靈”(835GB),而且中文信息熵大大高于英文,信息量其實(shí)更大。
在訓(xùn)練效率方面,“源1.0”訓(xùn)練用了16天,“圖靈威-震天”用了一個(gè)多月,前者數(shù)據(jù)量是后者3倍有余,耗時(shí)卻只有后者一半——
其專注中文,關(guān)注效率努力也可見一斑。
大模型你來(lái)我往間能看出,發(fā)展已走入百花齊放互不相讓的階段,這給我們帶來(lái)新的思考:AI巨量模型既然不“閉門造車”,那如何走向合作?
多方合作可能才是未來(lái)
表面上“威震天-圖靈”(Megatron-Turing NLG)是第一次由兩家科技巨頭合作推出超大AI模型。
其背后,雙方不僅組成了“超豪華”硬件陣容,在算法上也有融合。強(qiáng)強(qiáng)聯(lián)合成為超大AI模型落地的一種新方式,
國(guó)外巨頭開啟先例,那么國(guó)內(nèi)公司的現(xiàn)狀又是如何呢?其實(shí)有機(jī)構(gòu)已經(jīng)邁出合作的第一步。
諸如浪潮的“源1.0”,和當(dāng)初的“威震天”一樣,也是由硬件廠商主導(dǎo)開發(fā)的超大規(guī)模自然語(yǔ)言模型。
浪潮透露,實(shí)際上9月28日的發(fā)布會(huì)上,他們邀請(qǐng)了國(guó)內(nèi)的學(xué)者和數(shù)家科技公司共同探討未來(lái)“源1.0”合作的可能性。
在產(chǎn)業(yè)界,浪潮早就提出了“元腦計(jì)劃”的生態(tài)聯(lián)盟,“源1.0”未來(lái)將向元腦生態(tài)社區(qū)內(nèi)所有開發(fā)者開放API,所有加入生態(tài)的AI技術(shù)公司都可以利用“源1.0”進(jìn)行二次開發(fā),從而制造出更強(qiáng)大的功能。
國(guó)內(nèi)超大規(guī)模自然語(yǔ)言模型合作的時(shí)代正在開啟。
合作開發(fā)巨量模型能帶來(lái)什么?李飛飛等知名學(xué)者已經(jīng)給出答案:當(dāng)數(shù)據(jù)規(guī)模和參數(shù)規(guī)模大到一定程度時(shí),量變最終能產(chǎn)生質(zhì)變,GPT-3就是先例。
如今大模型越來(lái)越多,但未來(lái)關(guān)鍵還在于如何縱橫捭闔,打造屬于一套開放合作體系,讓所有技術(shù)公司群策群力。
而AI巨量模型在這樣的生態(tài)體系下會(huì)帶來(lái)怎樣的變化,在“源1.0”等一大批模型開放后,應(yīng)該很快就能看見。
參考鏈接:
[1]https://arxiv.org/abs/2110.04725
[2]https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/
[3]https://mp.weixin.qq.com/s/0SE3rv3MdDzbqwAVFtSe8Q