北大95后「AI蘿莉」回來了,一次中8篇頂會論文的她,現(xiàn)在達(dá)摩院開源7大NLP模型
“論文大戶”來到工業(yè)界,她發(fā)現(xiàn)復(fù)雜的技巧并不實(shí)用,簡單有效的模型才是最贊的。
夢晨 博雯 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
曾有一位北大碩士生,在校期間一次性在國際頂會ACL中標(biāo)8篇論文,其中2篇一作,還登上了知乎熱搜。
在那次熱搜之后,這位“論文大戶”似乎逐漸銷聲匿跡。
今天,她帶著阿里達(dá)摩院深度語言模型體系AliceMind回來了。
這位被外界稱為“AI蘿莉”的羅福莉,就負(fù)責(zé)這次AliceMind中7個模型的開源。
她的經(jīng)歷說起來有點(diǎn)“傳奇”。
上大學(xué)之前沒怎么接觸過電腦,卻誤打誤撞進(jìn)了北師大計算機(jī)專業(yè)。
剛?cè)雽W(xué)時因沒有基礎(chǔ)成績墊底,靠著努力躍升到前一、二名。
大三時進(jìn)入北大語言計算實(shí)驗(yàn)室實(shí)習(xí),選擇了NLP作為自己的科研方向,在3個月內(nèi)自學(xué)Python并投出一篇頂會論文(非一作)。
保研進(jìn)入北大,碩士兩年間在國際頂會上發(fā)表了超過20篇論文。
但她出人意料地沒有選擇繼續(xù)讀博,而是在2020年畢業(yè)之后就加入了阿里達(dá)摩院,想做點(diǎn)實(shí)在的研究。
進(jìn)入工業(yè)界這兩年,她發(fā)的論文明顯減少了。
在讀書的時候,周圍的評價機(jī)制都是非常在意你的論文數(shù)量。但是到工業(yè)界,我現(xiàn)在已經(jīng)不追求數(shù)量了,主要是追求做這個工作是不是真的有落地價值,是不是在這個領(lǐng)域有一些影響力。
她在達(dá)摩院主導(dǎo)開發(fā)了跨語言預(yù)訓(xùn)練模型VECO,成為AliceMind八大模型之一。這次AliceMind集體開源,她挑起了大梁。
簡單的才是最贊的
羅福莉在業(yè)界工作這一年,與在學(xué)術(shù)界時相比心態(tài)上有了很大的轉(zhuǎn)變:
在學(xué)校的時候總是追求提出一個很復(fù)雜的模型,大家看不懂,論文評審人也看不懂,但是到工業(yè)界的時候就會發(fā)現(xiàn)一眼就能看懂并且還有效的模型才是最贊的。
這也是她所在的達(dá)摩院深度語言模型團(tuán)隊的思路,他們打造的AliceMind八大模型先后登頂了GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO六大NLP權(quán)威榜單。
AliceMind中Alice的含義其實(shí)很簡單,就是Alibaba’s?Collection of?Encoder-decoders。
其中的模型也像這個名字一樣樸實(shí),都是從實(shí)際業(yè)務(wù)需要出發(fā),在Encoder-decoder的基礎(chǔ)上進(jìn)行創(chuàng)新和改進(jìn)。
通用語言模型StructBERT,在BERT的基礎(chǔ)上增加了詞級別和句級別的兩個新目標(biāo)函數(shù),相當(dāng)于讓AI掌握了“漢字序順不響影讀閱”這個能力。
這是因?yàn)閳F(tuán)隊在阿里的業(yè)務(wù)中發(fā)現(xiàn),用戶在電商、娛樂產(chǎn)品等輕松地使用場景時,經(jīng)常出現(xiàn)語法、語序不正確等現(xiàn)象。
這就需要讓語言模型在面對語序錯亂、語法不規(guī)范的詞句時,仍能準(zhǔn)確理解并給出正確的表達(dá)和回應(yīng)。
AliceMind剛剛還再次登頂了多模態(tài)權(quán)威榜單VQA Challenge 2021。
VQA Challenge的比賽任務(wù)類似看圖問答,給定一張圖像和關(guān)于圖像的自然語言問題,AI需要提供準(zhǔn)確的自然語言答案。
對此,AliceMind的多模態(tài)模型StructVBERT,在通用模型StructBERT的基礎(chǔ)上,同時引入文本和圖像模態(tài)。
利用更高效的視覺特征和創(chuàng)新的交叉注意力機(jī)制,在統(tǒng)一的多模態(tài)語義空間進(jìn)行聯(lián)合建模。
除了跨模態(tài),羅福莉主導(dǎo)的跨語言模型VECO也被頂會ACL2021錄用。
VECO中也引入了交叉注意力機(jī)制,改變了以往跨語言信息在隱藏層中自動建模的不穩(wěn)定性,而是“顯式”地完成。
VECO的另一項創(chuàng)新是在預(yù)訓(xùn)練的過程中,充分學(xué)習(xí)用于語言理解(NLU)和生成(NLG)任務(wù),并讓二者互相學(xué)習(xí)提高彼此。
如今羅福莉再回顧VECO這個工作,也有一些感慨:
如果是兩年前還在學(xué)校的我,會覺得這好簡單,我可以加上很多的花式技巧。但是到了工業(yè)界要考慮到架構(gòu)在不同業(yè)務(wù)場景下的通用性,只好犧牲一些復(fù)雜有趣的模型設(shè)計。
AliceMind中的生成式語言模型PALM,則是將預(yù)訓(xùn)練目標(biāo)從重構(gòu)輸入文本,改成了預(yù)測后續(xù)文本。
這樣一個改動就促使模型對輸入文本進(jìn)行更深入地理解,在問答生成、文本復(fù)述、回復(fù)生成、文本摘要等任務(wù)上都取得了更好的效果。
還有結(jié)構(gòu)化語言模型StructuralLM、機(jī)器閱讀理解模型UED和知識驅(qū)動的語言模型LatticeBERT,都在各自的領(lǐng)域取得了明顯地優(yōu)勢。
除了此次開源的7個模型,AliceMind中還包括了超大規(guī)模中文理解和生成統(tǒng)一模型PLUG。
AliceMind中的模型,看起來有一個共同特點(diǎn),就是擅長”跨界“。
從跨語言、跨模態(tài)到語言理解和生成的統(tǒng)一,都是基于Transformer架構(gòu)將不同地輸入在一個更大的編碼空間上統(tǒng)一建模。
羅福莉補(bǔ)充道:
AliceMind的這種將Transformer作為統(tǒng)一模型架構(gòu)的解決方案已經(jīng)比較成熟,但要做到更好“跨界”,接下來努力的方向是解決不同類型或粒度輸入的深度融合和匹配問題。
從基礎(chǔ)模型擴(kuò)展出能力多樣的模型,再把它們在實(shí)際業(yè)務(wù)中結(jié)合使用,讓AliceMind成了業(yè)界能力最全面的深度語言模型體系。
那么AliceMind都用到了哪些地方?
落地是個系統(tǒng)化的工程
AliceMind已經(jīng)上線到阿里內(nèi)部的NLP平臺,可以提供給不同部門的業(yè)務(wù)使用。
在官方網(wǎng)站上也提供了Demo,比如這個基于PLUG模型的語言生成模塊。
輸入紅樓夢選段:
就能生成一段續(xù)寫:
而像這樣可供大家試玩的Demo還有幾十個。
不過這些官網(wǎng)上的服務(wù)并非都是由AliceMind提供技術(shù)支持,很多都只是這一體系啟發(fā)下的小模型。
那么這次開源的幾大核心目前都在哪里打工呢?
應(yīng)用最廣泛的,就是電商。
尤其是阿里巴巴擁有跨境電商業(yè)務(wù)的部門,就是多語言模型VECO的直接受益者。
VECO是AliceMind體系中的8大模型之一,用于多語言理解和跨語種的文本嵌入、分類,掌握了100多種語言。
阿里內(nèi)部基于AliceMind的翻譯平臺日調(diào)用量約10億次,創(chuàng)造了數(shù)億美元的國際跨境貿(mào)易和其他國際業(yè)務(wù)商業(yè)價值。
就像達(dá)摩院深度語言模型團(tuán)隊負(fù)責(zé)人黃松芳所說“語言模型落地是個系統(tǒng)化的工程”:
語言模型從訓(xùn)練、微調(diào)到蒸餾、壓縮,到整個部署上線都在平臺上面完成,上線之后跟業(yè)務(wù)方的系統(tǒng)連在一起,能夠直接嵌到他們的業(yè)務(wù)邏輯、業(yè)務(wù)系統(tǒng)里面去。
我們更熟悉的淘寶拍照識圖、天貓精靈智能音箱中也有AliceMind的貢獻(xiàn)。
目前,AliceMind已經(jīng)在阿里內(nèi)部數(shù)十個核心業(yè)務(wù)落地,日均調(diào)用50億次,活躍場景超過200個。
在阿里之外,醫(yī)療領(lǐng)域尤其是癌癥治療上,AliceMind同樣出力不少。
作為一個具有自主學(xué)習(xí)能力的深度學(xué)習(xí)語言模型體系,AliceMind應(yīng)用在搜索引擎上時會有一個重排機(jī)制。
以具體某一類醫(yī)學(xué)文獻(xiàn)為目標(biāo),AliceMind在粗排先撈了一批相關(guān)文本后,還會再次結(jié)合文章類型、引用圖譜等信息,進(jìn)行不斷地重排。
同時將抽取獲得的信息與已知的結(jié)構(gòu)化知識做融合,構(gòu)建知識體系,最終得到最高質(zhì)量的臨床文獻(xiàn)。
在最近16支世界知名團(tuán)隊參加的精準(zhǔn)醫(yī)學(xué)國際評測中,憑借這一精準(zhǔn)醫(yī)學(xué)搜索引擎,阿里團(tuán)隊在兩項臨床證據(jù)質(zhì)量評估上均取得第一:
這樣高精度的專業(yè)醫(yī)學(xué)搜索引擎能夠在疾病治療時,為臨床醫(yī)生做提供高質(zhì)量的臨床決策輔助。
法律領(lǐng)域也有AliceMind的出沒。
浙江省高級人民法院就與達(dá)摩院合作,實(shí)現(xiàn)了從立案到裁判文書生成的全流程智能化審判系統(tǒng)。
而在這一試點(diǎn)單位中,AI對法官工作量的分擔(dān)使當(dāng)庭宣判率提升至90%,結(jié)案時間也從平均40天縮短到50分鐘。
現(xiàn)在,基于AliceMind的AliNLP平臺日均累計調(diào)用量超過數(shù)萬億次,每天有超過每天有超過1000個業(yè)務(wù)方使用。
電商、教育、醫(yī)療、能源,通信、法律、內(nèi)容搜索、城市大腦……越來越多的領(lǐng)域在AliceMind的加入下變得更加便利,更加智能。
開源之后要做什么?
現(xiàn)在,預(yù)訓(xùn)練語言模型目前在NLP領(lǐng)域以及整個學(xué)習(xí)界都非常熱門,超大規(guī)模參數(shù)的模型已成為一種趨勢。
對此,達(dá)摩院深度語言模型團(tuán)隊的負(fù)責(zé)人,也是AliceMind的總負(fù)責(zé)人黃松芳表示:
我們這邊其實(shí)不會一味地追求大,而是非常強(qiáng)調(diào)它的落地。
一個語言模型從研究開發(fā)到投入實(shí)際應(yīng)用,不是一家企業(yè)就能做到的。
還需要整個社區(qū)的開發(fā)者都參與,才有可能將學(xué)術(shù)論文中的公式算法用到大家的生活便利上。
達(dá)摩院希望通過開源,能降低業(yè)界研究和創(chuàng)新應(yīng)用的門檻,使語言AI進(jìn)入大工業(yè)時代。
下一步,AliceMind打算與語言學(xué)、神經(jīng)科學(xué)等跨學(xué)科的單位加強(qiáng)合作,將語言AI擴(kuò)展到更大的應(yīng)用中。
開源地址:
https://github.com/alibaba/AliceMind
AliceMind官網(wǎng):
https://nlp.aliyun.com/portal#/alice
相關(guān)論文:
通用預(yù)訓(xùn)練模型StructBERT:
https://arxiv.org/abs/1908.04577
多語言預(yù)訓(xùn)練模型VECO:
https://arxiv.org/abs/2010.16046
生成式預(yù)訓(xùn)練模型PALM:
https://arxiv.org/abs/2004.07159
多模態(tài)預(yù)訓(xùn)練模型E2E-VLP:
https://arxiv.org/abs/2106.01804
結(jié)構(gòu)化預(yù)訓(xùn)練模型StructuralLM:
https://arxiv.org/abs/2105.11210
閱讀理解模型:
https://ojs.aaai.org/index.php/AAAI/article/view/16584
融合知識的預(yù)訓(xùn)練模型Lattice-BERT:
https://arxiv.org/abs/2104.07204
參考鏈接:
[1]https://mp.weixin.qq.com/s/LTVVOOhezUN96MRLrqKCAQ
[2]https://mp.weixin.qq.com/s/PW0wZbts6ZpbKZSHyp8aVw
- 有道智能學(xué)習(xí)燈發(fā)布,通過“桌面學(xué)習(xí)分析引擎”實(shí)現(xiàn)全球最快指尖查詞2022-04-08
- 科學(xué)證明:狗勾真的懂你有多累,聽到聲音0.25秒后就知道你是誰,對人比對狗更親近2022-04-14
- 在M1芯片上跑原生Linux:編譯速度比macOS還快40%2022-04-05
- 小學(xué)生們在B站講算法,網(wǎng)友:我只會阿巴阿巴2022-03-28