全球最大AI巨量模型,參數2457億煉丹16天專注中文,打造者絕對讓你意外
16天讀完2000億詞中文
曉查 夢晨 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
一個比GPT-3還大的AI模型,如果把近5年中文互聯(lián)網能爬取到的內容看了個遍,會怎么樣?
能學會日語。
我們把日語詞匯“氣持”的中文含義告訴它,它能熟練運用“氣持”造句。
也許你沒見過“氣持”這個詞,但你大概聽過它的發(fā)音“kimochi”(手動狗頭)
|
|
|
|
|
|
|
|
|
開發(fā)它的工程師還告訴我們,如果把“yyds”的意思是“永遠的神,用于夸張地贊嘆某人某事很厲害”輸進去,也可以達到相同效果。
也就是說,如果網絡上誕生什么新的詞匯,這個AI學會它只需一句話。
而且這個AI看完全部內容只用了16天。
它就是全球最大規(guī)模AI巨量模型“源1.0”,帶著2457億參數和最大高質量中文數據集來了,突如其來。
在過去4個月里,有一群浪潮工程師,他們把近5年互聯(lián)網內容濃縮成2000億詞,讓AI在16天內讀完,終于煉成了“源1.0”。
除了“學習日語”,諸如知識問答:
問:大李杜是李白杜甫,小李杜是李商隱和誰?
源1.0答:杜牧
甚至和女朋友吵架(doge):
輸入:我好心問你吃了飯沒,你又罵我
源1.0回答:我又沒罵你,你自己對號入座
這些現(xiàn)代社交基本技能,“源1.0”不在話下。
更厲害的是“源1.0”擁有的2000億詞是“人類高質量中文數據集”,這是什么概念呢?
假如一個“讀書狂魔”一個月能讀10本20萬字小說,那么他需要讀1萬年才能看完整個語料庫,而且還是剔除99%數據后的高質量文本。
去年GPT-3橫空出世效果驚人,除了1750億的參數規(guī)模,還有就是570GB的英文語料庫。
而“源1.0”的參數量比GPT-3多出40%,語料庫總體積達到5000GB,是GPT-3的近10倍。
|
|
|
|
|
|
|
|
|
|
|
|
業(yè)內人士指出,5TB這樣的數據體量在中文互聯(lián)網資源上,應該已經做到了極致。
有了“人類高質量中文數據集”,“源1.0”通過圖靈測試證明了自己能搞定中文,而且整體效果比GPT-3處理英文更佳。
“源1.0”生成的文本,只有不到半數能被人正確識別為AI生成,僅詩歌“騙過”人類的概率較低。
畢竟是處理古文,對于主要學習網絡中文資源的AI來說,是有點超綱了。
這樣一個AI,訓練起來一定花費了很多算力吧?
的確,源1.0在浪潮計算集群上“火力全開”訓練了16天,能在CLUE上成功“霸榜”也就毫無意外了。
在零樣本學習榜單中,“源1.0”超越業(yè)界最佳成績18.3%,在文獻分類、新聞分類,商品分類、原生中文推理、成語閱讀理解填空、名詞代詞關系6項任務中獲得冠軍。
(注:第一名是人類)
在小樣本學習的文獻分類、商品分類、文獻摘要識別、名詞代詞關系等4項任務獲得冠軍。在成語閱讀理解填空項目中,源1.0的表現(xiàn)已超越人類得分。
但是要讓大模型效果好,不是光靠堆算力和數據就能堆出來的,還需要解決巨量模型訓練不穩(wěn)定等諸多技術難題。
至于背后更多技術細節(jié),浪潮透露,他們近期會將研究論文發(fā)布在arxiv上。
作為一家提供服務器、數據存儲相關業(yè)務的公司,浪潮為何也開始加入“煉大模型”隊伍了?這讓人感到意外,也許真的是時候轉變老觀念了。
“源1.0”誕生靠什么?
在不少人的觀念里,超大規(guī)模NLP模型的前沿基本由互聯(lián)網軟件公司把持。
但實際上,很多超大模型已經是“三位一體”——算力、數據、算法都來自一家——的研究方式了。
OpenAI的研究已表明,算力、數據量、參數量的增加都會降低模型訓練的損失。
而且三者之中的任何一個因素都是獨立的,優(yōu)化模型性能需要三者協(xié)力。
浪潮的硬件底子有能力把算力、數據都推到了極致。
連續(xù)16天訓練
“源1.0”整個訓練過程中,消耗算力約4630PFLOPS-day,這是什么概念呢?比去年GPT-3還多12.5%。
但訓練模型不是簡單的插入GPU板卡,在大規(guī)模并行計算中的硬件優(yōu)化更考驗能力。
憑借多年大型服務器上的經驗,多年前,浪潮就推出了深度學習并行計算框架Caffe-MPI,后來又推出了TensorFlow-Opt。
這些框架針對大型服務器進行優(yōu)化,在多GPU場景下性能損失很少。
人類高質量數據集
僅僅有強大算力是遠遠不夠的,當今的AI技術重度依賴于數據。
做中文自然語言模型,面臨的第一道障礙就是語料庫。
當今全球互聯(lián)網仍然以英文資源為主。以維基百科為例,英文維基共有638萬詞條,而中文僅123萬,還不到前者的1/6。
再加上互聯(lián)網上充斥著大量低質量文本,比如廣告、最近流行的廢話梗,要是都讓AI學了去恐怕會學成“智障”。
浪潮此次抓取了2017至2021年所有中文網頁內容、新聞、百科以及電子書。
為了剔除絕大多數的低質量文本,浪潮開發(fā)高性能分布式數據清洗軟件,耗時近一個月,終于得到5TB的全球最大高質量中文數據集。
最大單一模型
另外,“源1.0”還創(chuàng)下另一項之最:全球最大單體AI模型。如何理解?
浪潮信息副總裁、AI&HPC產品線總經理劉軍表示:
具體來講就是說單體特別大叫巨量模型,現(xiàn)在最典型巨量模型是GPT-3,有1750億參數,浪潮“源1.0”是2457億,不管在中國還是在全球都是最大規(guī)模的。
與單體模型對應的是混合模型。
混合模型是專家模型的一個混合、集合。它是由多個小模型混合起來的,中間通過開關機制來工作,每一個小模型大約在100億參數左右。
如果要做比喻的話單體模型就是珠穆朗瑪峰,而混合模型就是一群小山。
研究單體模型如同去攀珠穆朗瑪峰,這種巨量模型的在科學和產業(yè)中價值是非常大的。
“會當凌絕頂,一覽眾山小?!?/p>
單體模型能見所未見,從訓練中產生更高層次的知識。這也是“源1.0”為何無需微調就能在零樣本和少樣本任務中取得不俗成績。因為單體模型的“思維”在訓練中得到升級。
當然,訓練單體模型付出的代價也更高。
為提升計算效率,浪潮通過優(yōu)化大模型結構、節(jié)點內張量并行等算力協(xié)同優(yōu)化的方式大大提升計算效率,取得了當前業(yè)界一流的計算性能。
浪潮的深度學習訓練集群管理軟件AIStation、集群并行計算深度學習框架Caffe-MPI、TensorFlow-Opt等在其中發(fā)揮了重要作用。
“源1.0”能做什么?
浪潮花費巨大精力將AI巨量模型煉出來,能做什么?
從CLUE榜單的成績中可以看出,“源1.0”最擅長的是少樣本學習和零樣本學習,特別是在文本分類、閱讀理解和推理方面的一系列的任務上都獲得冠軍。
不過真正落地應用時考驗的還是AI模型的綜合實力,就像一個人走出學校來到工作崗位,這時分科目的考試分數不再重要,最終看的是如何把學習到的知識用起來,去解決真正的問題。
以智能客服為例,這種與人類一對一交流的場景就對AI模型能力的要求極高。
從最基本的理解用戶意圖并給出正確答案,到多輪對話中保持上下文的連貫性,最后還要讓AI能識別用戶的情緒變化,在對話中滿足用戶在情感上的需求。
如果換成手機上的智能助手,還要求AI在長時間對話中保持身份的一致性,不能出現(xiàn)前后矛盾。
對話之外,還有商業(yè)和法律上的長文檔的閱讀理解、生成摘要,新聞和小說等文本生成輔助創(chuàng)作,都是巨量模型的用武之地。
被問及為何將模型命名為“源”時,劉軍的解釋是:
希望巨量模型成為整個產業(yè)AI化的創(chuàng)新源頭。
浪潮為何要做“源1.0”?
一家傳統(tǒng)觀念中的服務器和IT服務廠商,為何突然做出超大語言模型?
浪潮此舉似乎令人意外。
但是梳理浪潮近年來的發(fā)展軌跡,可以說是“蓄謀已久”了。
在基礎算力方面,浪潮在全國各地建立智算中心,作為AI基礎設施。
在基礎軟件方面平臺方面,浪潮有AIStation開發(fā)訓練平臺,還先后推出深度學習并行計算框架Caffe-MPI、TensorFlow-Opt、全球首個FPGA高效AI計算開源框架TF2等等。
同時,浪潮還提供大數據服務云海Insight。
算力、軟件平臺、大數據能力聚齊,不足的就只剩算法。
浪潮其實早已加碼AI算法的研究,多年前低調成立了人工智能研究院,終于補上了最后一塊拼圖。
最終,人工智能研究院的研發(fā)團隊,歷時4個月打造出2457億參數中文模型“源1.0”。
“源1.0”的發(fā)布,意味著 “算力、數據、算法”三位一體的時代已經到來,我們不能再將AI公司看成三要素中的一環(huán),浪潮已經成為一家“全棧式”AI企業(yè)。
從去年GPT-3出現(xiàn)以來,人們已經看到NLP將大規(guī)模落地的前景。
但問題在于,中國有能力開發(fā)出中文AI巨量模型的公司屈指可數,大大限制NLP的應用。
去年OpenAI發(fā)布的GPT-3現(xiàn)在也只是少量開放API,處于供不應求狀態(tài)。超大NLP模型效果驚人,卻難“接地氣”。
OpenAI的解決方法是:將AI開放給有能力的開發(fā)者,由他們二次開發(fā),再提供給用戶。
例如GitHub用GPT-3開發(fā)出自動編程工具Copilot,再將插件提供給其他公司,用于提升程序員效率。
△?利用GPT-3自動補全代碼
不同于GPT-3商用思路,源1.0未來將定向免費開放API。2019年,浪潮推出了“元腦生態(tài)計劃”,生態(tài)中的參與者有兩類,一類是擅長做技術的“左手伙伴”,另一類是具有業(yè)務落地能力的“右手伙伴”。
發(fā)布“源1.0”巨量模型后,浪潮的下一步是向元腦生態(tài)社區(qū)內所有開發(fā)者開放API。
左手伙伴進行二次開發(fā),右手伙伴再利用二次開發(fā)技術應用于產業(yè)。
有了“源1.0”的開放API,左手伙伴開發(fā)出單打獨斗時靠小模型難以實現(xiàn)的功能,再交由右手伙伴落地實施。
且隨著NLP推理需要的運算資源越來越大,“源1.0”與浪潮智算中心的云端算力結合,才能開發(fā)出更多類似于Copilot等以前無法部署的AI應用。
10年前,沒人會料到AI算力和模型的發(fā)展速度如此之快。
2012年AlexNet刷新ImageNet模型,打開了計算機視覺落地的時代,如今任何一臺手機都可以輕松運行各類圖像識別、后處理AI任務。
去年GPT-3的出現(xiàn),開啟了NLP超大模型落地時代。至于它什么時候能用在手機上,劉軍說:“樂觀估計在5年以內。”
在過去兩年,我們已經零星看到了小型NLP模型在手機上的應用。例如谷歌在手機上實現(xiàn)離線的語音識別,即使沒有手機沒有信號、沒有WiFi。
現(xiàn)在,手機AI離線翻譯開始逐步上線,但由于手機算力以及模型體積原因,離線翻譯的效果還遠遠比不上在線翻譯。
但NLP應用遭遇到算力瓶頸,由于算力資源寶貴,基于GPT-3的代碼補全工具Copilot現(xiàn)在只能處于小規(guī)模試用階段。
AI寫小說、與人對話、輔助編程現(xiàn)在就已經充滿了想象空間,待算力資源、超大NLP模型普及,未來還有哪些應用現(xiàn)在真的難以想象。
斯坦福大學李飛飛教授等知名學者近期在一篇闡述預訓練模型的機遇與風險的論文中表示,這類巨量模型的意義在于突現(xiàn)(Emergence)和均質(Homogenization)。
李飛飛所說的“突現(xiàn)”是指,當數據規(guī)模和參數規(guī)模大到一定程度時,量變最終能產生質變,完成更高難度的任務。
現(xiàn)在2457億參數、5TB數據集訓練出來的“源1.0”是通往質變路上的一次必然的嘗試。
“均質”是指,AI有了小樣本和零樣本學習的泛化能力,不經過微調就能直接用于之前沒見過的新任務,讓語言AI具備舉一反三的通識能力。
而且這種通識,讓預訓練模型不必在經過復雜的“微調”過程,一家訓練完成,便可開放給各行各業(yè)使用,進一步降低AI應用門檻。
我們不知道未來AI巨量模型的質變會帶來什么“殺手級應用”,但至少有一些科技公司正在朝著質變的道路上探索,“源1.0”就是這樣一種嘗試。
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數據2022-03-05