把BERT拉下神壇!ACL論文只靠一個(gè)“Not”,就把AI閱讀理解驟降到盲猜水平
BERT根本不會推理
魚羊 栗子 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
有一篇中選了ACL的論文,打擊了以BERT為首的眾多閱讀理解模型。
研究人員認(rèn)為,包括BERT在內(nèi),許多模型的成功都是建立在虛假的線索上。
團(tuán)隊(duì)用了去年誕生的觀點(diǎn)推理理解任務(wù)?(ARCT) 考驗(yàn)了BERT。
結(jié)果發(fā)現(xiàn),只要做個(gè)對抗數(shù)據(jù)集,準(zhǔn)確率就從77%降到53%,幾乎等同于隨機(jī)猜。
預(yù)告一下,這里的對抗并不是把o變成0、把I變成1的小伎倆。
實(shí)驗(yàn)說明,BERT是依靠數(shù)據(jù)集里“虛假的統(tǒng)計(jì)學(xué)線索?(Spurious Statistical Cues) ”來推理的。
也就是說,它并不能真正分析出句子之間的邏輯關(guān)系。
碎成渣渣
那么,BERT到底是敗在了一項(xiàng)怎樣的任務(wù)上?
觀點(diǎn)推理理解任務(wù)?(ARCT) ,是Habernal和小伙伴們提出的閱讀理解任務(wù),考察的是語言模型的推理能力,中選了NAACL 2018。
一個(gè)觀點(diǎn),包含前提 (Premise) ,和主張 (Claim) 。
除此之外,觀點(diǎn)又有它的原因 (Reasoning) ,以及它的佐證 (Warrant) 。
在ARCT里面,AI要根據(jù)一個(gè)給定的觀點(diǎn),在兩個(gè)選項(xiàng)里,找出正確的佐證。
兩個(gè)佐證句十分接近,得出的主張卻是完全相反。
原始的ARCT數(shù)據(jù)集里,一共有2000個(gè)觀點(diǎn),配以它們的佐證。
原本,BERT在這個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)良,77%的最好成績,只比未經(jīng)訓(xùn)練的人類 (79.8%) 低不到3個(gè)百分點(diǎn)。
中位數(shù),也在70%以上。
可這樣就能說明BERT擁有推理能力了么?
為了研究BERT的選擇是如何做出的,團(tuán)隊(duì)觀察了AI眼中容易分類的那些數(shù)據(jù)點(diǎn)。
結(jié)果發(fā)現(xiàn),BERT是利用了一些線索詞來判斷,特別是“Not”這個(gè)詞。
在兩個(gè)選項(xiàng)里面,如果選擇帶有“Not”的佐證句,就有61%的概率是對的。
并且,在所有正確答案里,有64%的佐證句都包含了“Not”。
這是最強(qiáng)大的一個(gè)線索詞,但它和答案之間是虛假關(guān)系 (Spurious Relationship) ,并不是在邏輯上相關(guān)的。
除此之外,其他的線索詞還包括了“Is”“Do”“Are”等等。
為了證明“Not”這樣的線索詞,對AI的推理真的有影響,團(tuán)隊(duì)做了一個(gè)對抗數(shù)據(jù)集。
具體方法是,給觀點(diǎn)的主張?(Claim) 加上一個(gè)“Not”來否定;
原因 (Reasoning) 不變;
把佐證 (Warrant) 的兩個(gè)選項(xiàng),對錯(cuò)標(biāo)簽反過來填。就是把錯(cuò)誤答案和正確答案對調(diào)。
拿修改過的數(shù)據(jù)集,再去考BERT。它的成績就降到了盲猜水平:
研究人員覺得,將來再評估AI的閱讀理解能力,也應(yīng)該采納這樣的方法,如此才能測出語言模型的推理到底有多魯棒。
前情:BERT有多神
在NLP領(lǐng)域,沒有人不知道BERT的大名。
BERT由谷歌推出,堪稱2018年最火的NLP模型,甚至被稱為NLP新時(shí)代的開端。
甫一亮相,BERT就在11項(xiàng)NLP任務(wù)上都取得了最頂尖的成績,將GLUE基準(zhǔn)提升7.6%,將MultiNLI的準(zhǔn)確率提升5.6%。
哪怕是在XLNet等后來者的沖擊之下,BERT在SQuAD2.0排行榜上仍處于霸榜的地位,前10名中有6位都是BERT的變體。其中第一名BERT + DAE + AoA的表現(xiàn)甚至超過了人類。
“不只一個(gè)數(shù)據(jù)集有問題”
這篇論文的結(jié)論給了NLP模型們當(dāng)胸一擊。
BERT的秘密被揭穿,網(wǎng)友們紛紛表示這是非常值得深入探討的一個(gè)議題。
作者本人在Reddit評論區(qū)補(bǔ)充說:
我們每隔幾個(gè)月就會聽到有關(guān)NLP的新進(jìn)展,更新、更好的模型層出不窮。但當(dāng)有人實(shí)際用數(shù)據(jù)集測試時(shí),會發(fā)現(xiàn)這些模型并沒有真正學(xué)習(xí)到什么。優(yōu)化模型的競賽該放緩腳步了,我們更應(yīng)該仔細(xì)研究研究數(shù)據(jù)集,看看它們是否真的有意義。
作者還說,他并不否認(rèn)BERT和其他新模型的價(jià)值,但是并不相信一些Benchmark。
有人直接貼出了另一篇ACL論文,說這兩項(xiàng)研究得出的結(jié)論幾乎一毛一樣。
https://arxiv.org/abs/1902.01007
只不過,數(shù)據(jù)集不一樣了。
這篇論文里BERT是在多類型語言推理數(shù)據(jù)集 (MNLI) 上訓(xùn)練的,而測試集則是研究團(tuán)隊(duì)自制的HANS數(shù)據(jù)集:
利用一些簡單的句子變換,就能讓AI做出錯(cuò)誤的判斷。
于是,BERT在這個(gè)新數(shù)據(jù)集上又撲街了。
也就是說,不止ARCT一個(gè)數(shù)據(jù)集,作為常用基準(zhǔn)的MNLI也有類似的缺陷。
不過,也有人對主角論文的結(jié)論存疑:
這篇文章提出的觀點(diǎn)過于籠統(tǒng),只討論了BERT的ARCT性能。
既然論文想說明,那些新的NLP模型通常什么意義都沒學(xué)明白,就應(yīng)該對更多基準(zhǔn)進(jìn)行測試。
顯然我們用來判斷模型表現(xiàn)的基準(zhǔn)與人類判斷不完全相關(guān),但問題是目前并沒有更好的判斷標(biāo)準(zhǔn)。
傳送門
論文地址:https://arxiv.org/abs/1907.07355
— 完 —