DALL-E 2語(yǔ)文水平被吐槽:金子和魚(yú)畫(huà)成真金·魚(yú),遇到一詞多義就拉胯,失誤率超80%
“Stable Diffusion沒(méi)發(fā)現(xiàn)這類(lèi)問(wèn)題”
明敏 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
以畫(huà)畫(huà)水平高超而風(fēng)靡全球的DALL-E 2,語(yǔ)文水平被質(zhì)疑了。
比如bat這個(gè)多義詞,就把它給考住了。
a bat is flying over a baseball stadium(一只蝙蝠/球棍從棒球場(chǎng)上飛過(guò))。
結(jié)果它畫(huà)出來(lái)的圖,蝙蝠和球拍都在天上飛。
而且這不是偶然的失誤,如果輸入“a person is hearing a bat”,畫(huà)出來(lái)的還是蝙蝠和球棒都存在。
換成另一種情況,輸入a fish and a gold ingot(一條魚(yú)和一個(gè)金錠)。
好嘛,直接把兩種東西都鑄金了,變成真金·魚(yú)。
可不能低估了這些失誤,因?yàn)樗鼈円馕吨鳧ALL-E 2在根據(jù)文本生成圖像的過(guò)程中,對(duì)語(yǔ)言中符號(hào)到實(shí)體的基本映射關(guān)系。
即一個(gè)詞對(duì)應(yīng)一個(gè)實(shí)體。
以bat舉例,畫(huà)出蝙蝠或者球棍,都算DALL-E 2理解正確,但是如果兩個(gè)都給,那就有問(wèn)題了。
這就好比本身是單選題,填A(yù)或B都對(duì),可是把兩個(gè)都寫(xiě)上就違反了規(guī)則。
更何況有時(shí)候它還把不同物體的修飾詞弄錯(cuò),“上一道題的解法用在下一道上”。
發(fā)現(xiàn)這一問(wèn)題的,是來(lái)自巴伊蘭大學(xué)、艾倫人工智能研究所的學(xué)者們,并且專(zhuān)門(mén)寫(xiě)了篇論文分析。
有趣的是,研究人員約阿夫·高柏(Yoav Goldberg)還提到,這種情況在mini DALL-E和Stable Diffusion中并不常見(jiàn)。
我猜這可能是因?yàn)樗^的逆規(guī)?,F(xiàn)象(inverse scaling)。
簡(jiǎn)單理解就是“模型越大性能越差”。
論文具體說(shuō)了啥?
幾位學(xué)者在發(fā)現(xiàn)問(wèn)題后,又反復(fù)進(jìn)行了多次試驗(yàn),并把問(wèn)題主要?jiǎng)澐譃槿N情況:
- 第一、一個(gè)單詞被解釋為兩個(gè)不同的事物
- 第二、一個(gè)單詞被解釋為兩個(gè)不同事物的修飾詞
- 第三、一個(gè)單詞在被解釋為一個(gè)事物的同時(shí),又被理解成另一種事物的修飾詞
前兩種情況開(kāi)頭已經(jīng)提過(guò)。
第三種情況舉例來(lái)說(shuō),輸入“一匹斑馬和一條街道”,輸出的結(jié)果中一直都有斑馬線。
在這里,DALL-E 2把斑馬同時(shí)解釋了兩次。
在針對(duì)這些情況都重復(fù)試驗(yàn)后,作者計(jì)算出DALL-E 2在三種情況下,出現(xiàn)失誤的概率都超過(guò)80%。
其中第二種情況的失誤率最高,達(dá)到97.2%。
第三種情況下,如果給另一個(gè)名詞前加上新的修飾詞,可以避免失誤發(fā)生。
即輸入一匹斑馬和一條碎石路,路面上就沒(méi)有斑馬線出現(xiàn)了。
而在用DALL-E mini和Stable Diffusion時(shí),這些重復(fù)解釋的情況并不常見(jiàn)。
作者解釋?zhuān)磥?lái)可以考慮研究模型的文本編解碼器來(lái)追溯這些問(wèn)題,并且可以研究這些問(wèn)題和模型大小、框架是否有關(guān)系。
作者之一Yoav Goldberg是巴伊蘭大學(xué)的杰出教授,也是艾倫人工智能研究院以色列分院的研究主任。
之前,他在紐約的谷歌研究中心做博士后。研究興趣方向?yàn)镹LP和機(jī)器學(xué)習(xí),尤其對(duì)語(yǔ)法解析感興趣。
還曾發(fā)現(xiàn)DALL-E 2自創(chuàng)語(yǔ)言
不過(guò)就在幾個(gè)月之前,一位計(jì)算機(jī)專(zhuān)業(yè)的博士小哥發(fā)現(xiàn),給DALL-E 2喂一些奇怪的語(yǔ)言,它也能生成同一類(lèi)的圖像。
而這些詞,正是來(lái)自DALL-E 2生成圖像中的。
比如輸入“兩個(gè)農(nóng)民談?wù)撌卟?,帶字幕(Two farmers talking about vegetables, with subtitles)”后,DALL-E 2給出的圖像中,出現(xiàn)了一些“亂碼”的詞匯。
而如果再把圖像中的新詞Vicootes”當(dāng)作描述丟給模型,沒(méi)想到,出來(lái)這樣一堆圖像:
有蘿卜、有南瓜、有小柿子……難道“Vicootes”就代表蔬菜?
如果再把上圖氣泡中一串“Apoploe vesrreaitais”扔給DALL-E 2,一堆鳥(niǎo)圖出現(xiàn)了:
“難道說(shuō),這個(gè)單詞代表‘鳥(niǎo)’,所以農(nóng)民們似乎在談?wù)撚绊懰麄兪卟说镍B(niǎo)類(lèi)?”
當(dāng)時(shí),這位博士小哥把自己的發(fā)現(xiàn)發(fā)布在網(wǎng)絡(luò)上后,立刻引起熱議。
有人試圖分析DALL-E 2是如何加密語(yǔ)言的,還有人覺(jué)得這只是噪聲。
不過(guò)總的來(lái)說(shuō),在語(yǔ)言理解方面,DALL-E 2總能搞出點(diǎn)讓人意想不到的事。
你覺(jué)得這背后原因到底是什么呢?
論文地址:
https://arxiv.org/pdf/2210.10606.pdf
參考鏈接:
https://twitter.com/yoavgo/status/1583088957226881025