替換一下同義詞,AI就把句子意思弄反了|華人研究者揭示NLP模型脆弱性
賴可 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
騙過(guò)AI如此簡(jiǎn)單。
換了一個(gè)同義詞,自然語(yǔ)言處理模型就讀不對(duì)句子的意思了。
麻省理工和香港大學(xué)的研究生們開(kāi)發(fā)了一個(gè)算法,讓AI在文本分類和推理問(wèn)題上的正確率從80%下降到10%。
測(cè)試原理
這個(gè)模型的名字叫Textfooler,通過(guò)生經(jīng)過(guò)微調(diào)的句子,來(lái)對(duì)自然語(yǔ)言文本分類和推理進(jìn)行攻擊。
比如在著名的分類任務(wù)影評(píng)判斷中,AI的任務(wù)是去判斷一句影評(píng)是肯定性的還是否定性的。
像這句:
The characters, cast in impossibly?contrived situations, are?totally?estranged from reality.(劇中的人物,被安排在不可能情境之中,與現(xiàn)實(shí)完全脫節(jié)。)
Textfooler模型生成的對(duì)應(yīng)句子是:
The characters, cast in impossibly?engineered circumstances, are?fully?estranged from reality.
將contrived situation改為了engineered circumstance,totally 改為fully。
結(jié)果AI將第一個(gè)句子標(biāo)記為“負(fù)面”,第二個(gè)句子標(biāo)記為“正面“。
在推理任務(wù)中,AI需要判斷在一個(gè)句子和情境之間的關(guān)系,是蘊(yùn)含,中立,還是矛盾。
比如給定一個(gè)前提:
Two small boys in blue soccer uniforms use a wooden set of steps to wash their hands.
兩個(gè)穿著藍(lán)色足球服的小男孩借助一套木制的臺(tái)階洗手。
需要判斷這句話“The boys are in band uniforms.”(男孩們穿著樂(lè)隊(duì)制服)和前提的關(guān)系。
AI會(huì)把這個(gè)句子判斷為”矛盾”。
當(dāng)把uniforms這個(gè)單詞改為garments以后:The boys are in band garments。
AI 就會(huì)把句子判斷為“蘊(yùn)含”。
此外,研究團(tuán)隊(duì)還請(qǐng)人類被試閱讀這些句子,以確認(rèn)它新生成的句子和原句接近。
他們從進(jìn)行實(shí)驗(yàn)的兩個(gè)數(shù)據(jù)集MR dataset和WordLSTM中各挑100個(gè)例子,請(qǐng)被試行進(jìn)行打分。相似為1,有歧義為0.5,不同為0,最后得到的分?jǐn)?shù)分別為0.91和0.86。
這說(shuō)明,調(diào)整后的句子對(duì)人類閱讀影響很小。
各模型測(cè)試結(jié)果
研究團(tuán)隊(duì)使用了三個(gè)模型,七個(gè)數(shù)據(jù)集來(lái)進(jìn)行測(cè)試。
三個(gè)模型為:BERT,WordCNN,WordLSTM。
數(shù)據(jù)集:
△5個(gè)為分類數(shù)據(jù)集,2個(gè)為蘊(yùn)含推理數(shù)據(jù)集
分類任務(wù)的測(cè)試結(jié)果如下:
所有的模型的原來(lái)的精確度都在78%以上,像BERT則表現(xiàn)更優(yōu)秀,在兩個(gè)數(shù)據(jù)集上都能達(dá)到97%的精確度。
但是經(jīng)過(guò)Textfooler的攻擊,精確度全部降到了20%以下。
再來(lái)蘊(yùn)含推理任務(wù)表現(xiàn)如何:
精確度從原來(lái)的80%降到了10%以下。
在實(shí)際應(yīng)用中可能產(chǎn)生影響
處理文本的AI越來(lái)越多地被用來(lái)判斷應(yīng)聘者,評(píng)估醫(yī)療報(bào)銷,處理法律文件。因此,研究者認(rèn)為,AI的這一缺陷要引起重視。
如果用于金融或醫(yī)療保健中的自動(dòng)化系統(tǒng),即使是文本上微小變化,也可能造成很多麻煩。
加州大學(xué)歐文分校的助理教授Sameer Singh說(shuō),這個(gè)調(diào)整文本的方法“確實(shí)非常有效地為AI系統(tǒng)生成了良好的對(duì)手” 。
但是他又表示,這個(gè)方法在實(shí)踐中很難實(shí)施,因?yàn)樗婕胺磸?fù)探測(cè)AI系統(tǒng),這可能會(huì)引起懷疑。
加州大學(xué)伯克利分校的教授Dawn Song專門研究AI和安全性。她說(shuō),這一研究是不斷發(fā)展的工作的一部分,該工作表明如何欺騙語(yǔ)言算法,并且各種商業(yè)系統(tǒng)可能容易受到某種形式的攻擊。
看來(lái),想讀懂人話,AI還需繼續(xù)努力呀。
研究團(tuán)隊(duì)
這項(xiàng)研究由清華大學(xué)、香港大學(xué)、新加坡科技研究院的研究員共同完成。通訊作者有兩位:
△Di Jin
Di Jin,本科畢業(yè)于清華大學(xué)計(jì)算機(jī)學(xué)院。2020年獲得MIT計(jì)算機(jī)科學(xué)博士學(xué)位。目前是MIT的計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的助理研究員。
△金致靜
金致靜,高中畢業(yè)于上海華東師大二附,本科畢業(yè)于香港大學(xué),目前正在申請(qǐng)博士學(xué)位。已經(jīng)在頂級(jí)會(huì)議NAACL,EMNLP,AAHPM,AAAI上發(fā)表了4篇NLP論文。
github地址:
https://github.com/jind11/TextFooler
論文地址:
https://arxiv.org/pdf/1907.11932.pdf
參考鏈接:
https://www.wired.com/story/technique-uses-ai-fool-other-ais/
- 看「菊紋」,知疾病,這個(gè)智能馬桶,知道你下半身的所有秘密2020-04-12
- 這拖拉機(jī)你能開(kāi)算我輸:美國(guó)少女“揭秘”現(xiàn)代拖拉機(jī)駕駛室2020-05-05
- 史上最大“云辦公”實(shí)驗(yàn)開(kāi)始,你參加了嗎?2020-02-04
- 英偉達(dá)上線游戲云服務(wù)平臺(tái)GeForce Now,每月4.99美元2020-02-05