全球最大AI巨量模型,參數(shù)2457億煉丹16天專注中文,打造者絕對讓你意外
16天讀完2000億詞中文
曉查 夢晨 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
一個比GPT-3還大的AI模型,如果把近5年中文互聯(lián)網(wǎng)能爬取到的內(nèi)容看了個遍,會怎么樣?
能學(xué)會日語。
我們把日語詞匯“氣持”的中文含義告訴它,它能熟練運用“氣持”造句。
也許你沒見過“氣持”這個詞,但你大概聽過它的發(fā)音“kimochi”(手動狗頭)
|
|
|
|
|
|
|
|
|
開發(fā)它的工程師還告訴我們,如果把“yyds”的意思是“永遠(yuǎn)的神,用于夸張地贊嘆某人某事很厲害”輸進(jìn)去,也可以達(dá)到相同效果。
也就是說,如果網(wǎng)絡(luò)上誕生什么新的詞匯,這個AI學(xué)會它只需一句話。
而且這個AI看完全部內(nèi)容只用了16天。
它就是全球最大規(guī)模AI巨量模型“源1.0”,帶著2457億參數(shù)和最大高質(zhì)量中文數(shù)據(jù)集來了,突如其來。
在過去4個月里,有一群浪潮工程師,他們把近5年互聯(lián)網(wǎng)內(nèi)容濃縮成2000億詞,讓AI在16天內(nèi)讀完,終于煉成了“源1.0”。
除了“學(xué)習(xí)日語”,諸如知識問答:
問:大李杜是李白杜甫,小李杜是李商隱和誰?
源1.0答:杜牧
甚至和女朋友吵架(doge):
輸入:我好心問你吃了飯沒,你又罵我
源1.0回答:我又沒罵你,你自己對號入座
這些現(xiàn)代社交基本技能,“源1.0”不在話下。
更厲害的是“源1.0”擁有的2000億詞是“人類高質(zhì)量中文數(shù)據(jù)集”,這是什么概念呢?
假如一個“讀書狂魔”一個月能讀10本20萬字小說,那么他需要讀1萬年才能看完整個語料庫,而且還是剔除99%數(shù)據(jù)后的高質(zhì)量文本。
去年GPT-3橫空出世效果驚人,除了1750億的參數(shù)規(guī)模,還有就是570GB的英文語料庫。
而“源1.0”的參數(shù)量比GPT-3多出40%,語料庫總體積達(dá)到5000GB,是GPT-3的近10倍。
|
|
|
|
|
|
|
|
|
|
|
|
業(yè)內(nèi)人士指出,5TB這樣的數(shù)據(jù)體量在中文互聯(lián)網(wǎng)資源上,應(yīng)該已經(jīng)做到了極致。
有了“人類高質(zhì)量中文數(shù)據(jù)集”,“源1.0”通過圖靈測試證明了自己能搞定中文,而且整體效果比GPT-3處理英文更佳。
“源1.0”生成的文本,只有不到半數(shù)能被人正確識別為AI生成,僅詩歌“騙過”人類的概率較低。
畢竟是處理古文,對于主要學(xué)習(xí)網(wǎng)絡(luò)中文資源的AI來說,是有點超綱了。
這樣一個AI,訓(xùn)練起來一定花費了很多算力吧?
的確,源1.0在浪潮計算集群上“火力全開”訓(xùn)練了16天,能在CLUE上成功“霸榜”也就毫無意外了。
在零樣本學(xué)習(xí)榜單中,“源1.0”超越業(yè)界最佳成績18.3%,在文獻(xiàn)分類、新聞分類,商品分類、原生中文推理、成語閱讀理解填空、名詞代詞關(guān)系6項任務(wù)中獲得冠軍。
(注:第一名是人類)
在小樣本學(xué)習(xí)的文獻(xiàn)分類、商品分類、文獻(xiàn)摘要識別、名詞代詞關(guān)系等4項任務(wù)獲得冠軍。在成語閱讀理解填空項目中,源1.0的表現(xiàn)已超越人類得分。
但是要讓大模型效果好,不是光靠堆算力和數(shù)據(jù)就能堆出來的,還需要解決巨量模型訓(xùn)練不穩(wěn)定等諸多技術(shù)難題。
至于背后更多技術(shù)細(xì)節(jié),浪潮透露,他們近期會將研究論文發(fā)布在arxiv上。
作為一家提供服務(wù)器、數(shù)據(jù)存儲相關(guān)業(yè)務(wù)的公司,浪潮為何也開始加入“煉大模型”隊伍了?這讓人感到意外,也許真的是時候轉(zhuǎn)變老觀念了。
“源1.0”誕生靠什么?
在不少人的觀念里,超大規(guī)模NLP模型的前沿基本由互聯(lián)網(wǎng)軟件公司把持。
但實際上,很多超大模型已經(jīng)是“三位一體”——算力、數(shù)據(jù)、算法都來自一家——的研究方式了。
OpenAI的研究已表明,算力、數(shù)據(jù)量、參數(shù)量的增加都會降低模型訓(xùn)練的損失。
而且三者之中的任何一個因素都是獨立的,優(yōu)化模型性能需要三者協(xié)力。
浪潮的硬件底子有能力把算力、數(shù)據(jù)都推到了極致。
連續(xù)16天訓(xùn)練
“源1.0”整個訓(xùn)練過程中,消耗算力約4630PFLOPS-day,這是什么概念呢?比去年GPT-3還多12.5%。
但訓(xùn)練模型不是簡單的插入GPU板卡,在大規(guī)模并行計算中的硬件優(yōu)化更考驗?zāi)芰Α?/p>
憑借多年大型服務(wù)器上的經(jīng)驗,多年前,浪潮就推出了深度學(xué)習(xí)并行計算框架Caffe-MPI,后來又推出了TensorFlow-Opt。
這些框架針對大型服務(wù)器進(jìn)行優(yōu)化,在多GPU場景下性能損失很少。
人類高質(zhì)量數(shù)據(jù)集
僅僅有強大算力是遠(yuǎn)遠(yuǎn)不夠的,當(dāng)今的AI技術(shù)重度依賴于數(shù)據(jù)。
做中文自然語言模型,面臨的第一道障礙就是語料庫。
當(dāng)今全球互聯(lián)網(wǎng)仍然以英文資源為主。以維基百科為例,英文維基共有638萬詞條,而中文僅123萬,還不到前者的1/6。
再加上互聯(lián)網(wǎng)上充斥著大量低質(zhì)量文本,比如廣告、最近流行的廢話梗,要是都讓AI學(xué)了去恐怕會學(xué)成“智障”。
浪潮此次抓取了2017至2021年所有中文網(wǎng)頁內(nèi)容、新聞、百科以及電子書。
為了剔除絕大多數(shù)的低質(zhì)量文本,浪潮開發(fā)高性能分布式數(shù)據(jù)清洗軟件,耗時近一個月,終于得到5TB的全球最大高質(zhì)量中文數(shù)據(jù)集。
最大單一模型
另外,“源1.0”還創(chuàng)下另一項之最:全球最大單體AI模型。如何理解?
浪潮信息副總裁、AI&HPC產(chǎn)品線總經(jīng)理劉軍表示:
具體來講就是說單體特別大叫巨量模型,現(xiàn)在最典型巨量模型是GPT-3,有1750億參數(shù),浪潮“源1.0”是2457億,不管在中國還是在全球都是最大規(guī)模的。
與單體模型對應(yīng)的是混合模型。
混合模型是專家模型的一個混合、集合。它是由多個小模型混合起來的,中間通過開關(guān)機制來工作,每一個小模型大約在100億參數(shù)左右。
如果要做比喻的話單體模型就是珠穆朗瑪峰,而混合模型就是一群小山。
研究單體模型如同去攀珠穆朗瑪峰,這種巨量模型的在科學(xué)和產(chǎn)業(yè)中價值是非常大的。
“會當(dāng)凌絕頂,一覽眾山小。”
單體模型能見所未見,從訓(xùn)練中產(chǎn)生更高層次的知識。這也是“源1.0”為何無需微調(diào)就能在零樣本和少樣本任務(wù)中取得不俗成績。因為單體模型的“思維”在訓(xùn)練中得到升級。
當(dāng)然,訓(xùn)練單體模型付出的代價也更高。
為提升計算效率,浪潮通過優(yōu)化大模型結(jié)構(gòu)、節(jié)點內(nèi)張量并行等算力協(xié)同優(yōu)化的方式大大提升計算效率,取得了當(dāng)前業(yè)界一流的計算性能。
浪潮的深度學(xué)習(xí)訓(xùn)練集群管理軟件AIStation、集群并行計算深度學(xué)習(xí)框架Caffe-MPI、TensorFlow-Opt等在其中發(fā)揮了重要作用。
“源1.0”能做什么?
浪潮花費巨大精力將AI巨量模型煉出來,能做什么?
從CLUE榜單的成績中可以看出,“源1.0”最擅長的是少樣本學(xué)習(xí)和零樣本學(xué)習(xí),特別是在文本分類、閱讀理解和推理方面的一系列的任務(wù)上都獲得冠軍。
不過真正落地應(yīng)用時考驗的還是AI模型的綜合實力,就像一個人走出學(xué)校來到工作崗位,這時分科目的考試分?jǐn)?shù)不再重要,最終看的是如何把學(xué)習(xí)到的知識用起來,去解決真正的問題。
以智能客服為例,這種與人類一對一交流的場景就對AI模型能力的要求極高。
從最基本的理解用戶意圖并給出正確答案,到多輪對話中保持上下文的連貫性,最后還要讓AI能識別用戶的情緒變化,在對話中滿足用戶在情感上的需求。
如果換成手機上的智能助手,還要求AI在長時間對話中保持身份的一致性,不能出現(xiàn)前后矛盾。
對話之外,還有商業(yè)和法律上的長文檔的閱讀理解、生成摘要,新聞和小說等文本生成輔助創(chuàng)作,都是巨量模型的用武之地。
被問及為何將模型命名為“源”時,劉軍的解釋是:
希望巨量模型成為整個產(chǎn)業(yè)AI化的創(chuàng)新源頭。
浪潮為何要做“源1.0”?
一家傳統(tǒng)觀念中的服務(wù)器和IT服務(wù)廠商,為何突然做出超大語言模型?
浪潮此舉似乎令人意外。
但是梳理浪潮近年來的發(fā)展軌跡,可以說是“蓄謀已久”了。
在基礎(chǔ)算力方面,浪潮在全國各地建立智算中心,作為AI基礎(chǔ)設(shè)施。
在基礎(chǔ)軟件方面平臺方面,浪潮有AIStation開發(fā)訓(xùn)練平臺,還先后推出深度學(xué)習(xí)并行計算框架Caffe-MPI、TensorFlow-Opt、全球首個FPGA高效AI計算開源框架TF2等等。
同時,浪潮還提供大數(shù)據(jù)服務(wù)云海Insight。
算力、軟件平臺、大數(shù)據(jù)能力聚齊,不足的就只剩算法。
浪潮其實早已加碼AI算法的研究,多年前低調(diào)成立了人工智能研究院,終于補上了最后一塊拼圖。
最終,人工智能研究院的研發(fā)團(tuán)隊,歷時4個月打造出2457億參數(shù)中文模型“源1.0”。
“源1.0”的發(fā)布,意味著 “算力、數(shù)據(jù)、算法”三位一體的時代已經(jīng)到來,我們不能再將AI公司看成三要素中的一環(huán),浪潮已經(jīng)成為一家“全棧式”AI企業(yè)。
從去年GPT-3出現(xiàn)以來,人們已經(jīng)看到NLP將大規(guī)模落地的前景。
但問題在于,中國有能力開發(fā)出中文AI巨量模型的公司屈指可數(shù),大大限制NLP的應(yīng)用。
去年OpenAI發(fā)布的GPT-3現(xiàn)在也只是少量開放API,處于供不應(yīng)求狀態(tài)。超大NLP模型效果驚人,卻難“接地氣”。
OpenAI的解決方法是:將AI開放給有能力的開發(fā)者,由他們二次開發(fā),再提供給用戶。
例如GitHub用GPT-3開發(fā)出自動編程工具Copilot,再將插件提供給其他公司,用于提升程序員效率。
△?利用GPT-3自動補全代碼
不同于GPT-3商用思路,源1.0未來將定向免費開放API。2019年,浪潮推出了“元腦生態(tài)計劃”,生態(tài)中的參與者有兩類,一類是擅長做技術(shù)的“左手伙伴”,另一類是具有業(yè)務(wù)落地能力的“右手伙伴”。
發(fā)布“源1.0”巨量模型后,浪潮的下一步是向元腦生態(tài)社區(qū)內(nèi)所有開發(fā)者開放API。
左手伙伴進(jìn)行二次開發(fā),右手伙伴再利用二次開發(fā)技術(shù)應(yīng)用于產(chǎn)業(yè)。
有了“源1.0”的開放API,左手伙伴開發(fā)出單打獨斗時靠小模型難以實現(xiàn)的功能,再交由右手伙伴落地實施。
且隨著NLP推理需要的運算資源越來越大,“源1.0”與浪潮智算中心的云端算力結(jié)合,才能開發(fā)出更多類似于Copilot等以前無法部署的AI應(yīng)用。
10年前,沒人會料到AI算力和模型的發(fā)展速度如此之快。
2012年AlexNet刷新ImageNet模型,打開了計算機視覺落地的時代,如今任何一臺手機都可以輕松運行各類圖像識別、后處理AI任務(wù)。
去年GPT-3的出現(xiàn),開啟了NLP超大模型落地時代。至于它什么時候能用在手機上,劉軍說:“樂觀估計在5年以內(nèi)?!?/p>
在過去兩年,我們已經(jīng)零星看到了小型NLP模型在手機上的應(yīng)用。例如谷歌在手機上實現(xiàn)離線的語音識別,即使沒有手機沒有信號、沒有WiFi。
現(xiàn)在,手機AI離線翻譯開始逐步上線,但由于手機算力以及模型體積原因,離線翻譯的效果還遠(yuǎn)遠(yuǎn)比不上在線翻譯。
但NLP應(yīng)用遭遇到算力瓶頸,由于算力資源寶貴,基于GPT-3的代碼補全工具Copilot現(xiàn)在只能處于小規(guī)模試用階段。
AI寫小說、與人對話、輔助編程現(xiàn)在就已經(jīng)充滿了想象空間,待算力資源、超大NLP模型普及,未來還有哪些應(yīng)用現(xiàn)在真的難以想象。
斯坦福大學(xué)李飛飛教授等知名學(xué)者近期在一篇闡述預(yù)訓(xùn)練模型的機遇與風(fēng)險的論文中表示,這類巨量模型的意義在于突現(xiàn)(Emergence)和均質(zhì)(Homogenization)。
李飛飛所說的“突現(xiàn)”是指,當(dāng)數(shù)據(jù)規(guī)模和參數(shù)規(guī)模大到一定程度時,量變最終能產(chǎn)生質(zhì)變,完成更高難度的任務(wù)。
現(xiàn)在2457億參數(shù)、5TB數(shù)據(jù)集訓(xùn)練出來的“源1.0”是通往質(zhì)變路上的一次必然的嘗試。
“均質(zhì)”是指,AI有了小樣本和零樣本學(xué)習(xí)的泛化能力,不經(jīng)過微調(diào)就能直接用于之前沒見過的新任務(wù),讓語言AI具備舉一反三的通識能力。
而且這種通識,讓預(yù)訓(xùn)練模型不必在經(jīng)過復(fù)雜的“微調(diào)”過程,一家訓(xùn)練完成,便可開放給各行各業(yè)使用,進(jìn)一步降低AI應(yīng)用門檻。
我們不知道未來AI巨量模型的質(zhì)變會帶來什么“殺手級應(yīng)用”,但至少有一些科技公司正在朝著質(zhì)變的道路上探索,“源1.0”就是這樣一種嘗試。