拯救“沒常識”的GPT-3得靠它了,交大ACM班校友提出“Voken” 無監(jiān)督學(xué)習(xí) | EMNLP 2020
讓BERT學(xué)會“看圖說話”
曉查 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
縱使地表最強語言模型GPT-3學(xué)習(xí)了30億個單詞的英文維基百科,但是依然會犯低級錯誤。
如果你問它:太陽有幾只眼睛?
GPT-3會說“有一只”,不會意識到這個問題本身就是錯誤的。
因為僅受文本的訓(xùn)練很難讓AI具備常識。
而人類靠“聽說讀寫”全方位來學(xué)習(xí)一門語言,小時候還會有“看圖說話”之類的訓(xùn)練??梢娬Z言能力的形成絕不只能靠單調(diào)的語料庫來解決。
因此北卡羅來納大學(xué)教堂山分校(UNC Chapel Hill)的研究人員設(shè)計了一種新技術(shù)——Vokenization——來改變純語言模型學(xué)習(xí)能力不足的現(xiàn)狀。
用圖像和語言聯(lián)合訓(xùn)練AI并不是什么新鮮事,但這一次他們使用了無監(jiān)督方法擴展了有限的圖像資源,對于視覺語言模型來說是一項重要突破。
該論文已經(jīng)被EMNLP 2020收錄,相關(guān)代碼也已經(jīng)開源。
解決圖片數(shù)據(jù)集不足問題
要讓AI像人類一樣從“圖片卡”學(xué)習(xí)語言并非易事。
因為圖像數(shù)據(jù)集和純文字語料庫之間,無論是大小還是分布上,都存在著巨大的差異。
例如,下面的圖片在視覺語言數(shù)據(jù)集中被描述為:“一只橘貓坐在一個準(zhǔn)備打包的行李箱里?!?/p>
用這樣的數(shù)據(jù)集訓(xùn)練,可以教會AI模型如何從動詞介詞中識別對象以及它們之間的關(guān)系。
但手工編寫句子的工作量是巨大的,大部分圖像數(shù)據(jù)集只會用“貓”這一個詞來描述圖片。只有用無監(jiān)督方法才能讓AI學(xué)習(xí)到更大的數(shù)據(jù)集。
GPT-3可以通過無監(jiān)督學(xué)習(xí)進行訓(xùn)練,這個過程不需要人工數(shù)據(jù)標(biāo)注,訓(xùn)練數(shù)據(jù)集可以做到非常大。而目標(biāo)識別算法雖然能讓AI從現(xiàn)實中學(xué)到更多知識,卻存在著樣本數(shù)量太少的問題。
比如,COCO數(shù)據(jù)集僅有150萬個已標(biāo)記的目標(biāo)實例、700萬個單詞,而英文維基百科語料庫有近30億個單詞。
從token到voken
Vokenization解決了這個問題,它使用無監(jiān)督學(xué)習(xí)方法將樣本數(shù)量較少的COCO數(shù)據(jù)集擴展到英文維基百科的大小。
研究NLP的人都知道,用于訓(xùn)練語言模型的單詞稱為token,作者將圖像問題中的每個token相關(guān)的圖像稱為“voken”。
論文作者不從語言數(shù)據(jù)集開始,并使用無監(jiān)督學(xué)習(xí)來將每個單詞與相關(guān)圖像進行匹配,這是一個高度可擴展的過程。
Transformer是人們首次引入無監(jiān)督學(xué)習(xí)用于NLP,它根據(jù)單詞上下文創(chuàng)建每個單詞的嵌入。比如“貓”一詞的嵌入表明,它經(jīng)常在“喵”和“橘色”兩詞附近使用,而很少和“樹皮”或“藍(lán)色”這樣的詞一起使用。
有一種平行技術(shù)也可以用于圖像的“上下文”,它能列出了貓在床上而不是樹上出現(xiàn)的頻率,并創(chuàng)建了嵌入該上下文信息的“貓”。
研究人員在COCO上同時使用兩種嵌入技術(shù)。他們將圖像轉(zhuǎn)換為視覺嵌入,將文字描述轉(zhuǎn)換為單詞嵌入。
在特征空間中,相近的單詞嵌入其對應(yīng)的視覺嵌入也離得更近。一旦將所有視覺嵌入進行比較并相互關(guān)聯(lián),就很容易將圖像與單詞進行匹配。
當(dāng)一個詞在不同語境中含義完全不同時,這很有用。Vokenization技術(shù)通過為每個單詞實例找到不同的voken成功地解決了這一問題。
比如contact這個單詞,當(dāng)它在左邊這幅圖中出現(xiàn)的時候表示“聯(lián)系人”,而在右邊這幅圖中出現(xiàn)時表示“接觸”。
經(jīng)過這種處理方式,算法找到了英文維基百科40%的token對應(yīng)的voken。雖然沒有找全,但是token總共有個30億個??!即使只有40%也大大擴展了數(shù)據(jù)集。
利用這個數(shù)據(jù)集,研究人員重新訓(xùn)練了BERT,在GLUE、SQuAD和SWAG等測試標(biāo)準(zhǔn)上,均優(yōu)于純文本訓(xùn)練的結(jié)果。
NLP初創(chuàng)公司Hugging Face的聯(lián)合創(chuàng)始人Thomas Wolf認(rèn)為,他們的工作是使無監(jiān)督學(xué)習(xí)適用于視覺語言模型的一項重要的概念突破,有助于大大推動NLP技術(shù)的發(fā)展。
作者簡介
這篇論文的第一作者是譚昊,本科畢業(yè)于上海交大ACM班,現(xiàn)正在北卡羅來納大學(xué)教堂山分校攻讀博士學(xué)位。
△ 譚昊(圖片來自彭博)
譚昊曾獲得2019~2020彭博數(shù)據(jù)科學(xué)博士獎學(xué)金,他以一作身份發(fā)表的論文分別被AAAI、NAACL 、ACL、EMNLP、IJCAI等頂會收錄。
譚昊的導(dǎo)師Mohit Bansal教授是本文的通訊作者,他還是北卡大學(xué)教堂山分校MURGe實驗室主任。
△ Mohit Bansal(圖片來自UNC官網(wǎng))
論文地址:
https://arxiv.org/abs/2010.06775
代碼地址:
https://github.com/airsplay/vokenization
第三方解讀:
https://www.youtube.com/watch?v=4T1u3Z2DaZA&ab_channel=DeepLearningExplainer