程序員:我只想買(mǎi)件沒(méi)有格子的襯衫,怎么就這么難?
我太難了
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
說(shuō)到程序員著裝,大家會(huì)想到什么?
自然是格子襯衫了。
但一個(gè)外國(guó)程序員,終于對(duì)此厭倦,他不想再穿格子襯衫或條紋襯衫,于是他打開(kāi)了亞馬遜網(wǎng)站,輸入了關(guān)鍵詞“無(wú)條紋襯衫”(shirt without stripes),結(jié)果卻是這樣的:
為什么幾乎全部都是帶條紋的襯衫啊?
“一定是我打開(kāi)的姿勢(shì)不對(duì)!”
或者只是亞馬遜的自然語(yǔ)音處理(NLP)技術(shù)不夠好吧。
他又接著嘗試了谷歌和微軟的搜索引擎,結(jié)果卻還是這樣:
反正結(jié)果就算不是襯衫,也一定帶條紋,甚至還搜出了球衣。
如果把關(guān)鍵詞換成“沒(méi)有格子的襯衫”(shirt without plaid),結(jié)果還是讓人失望。
是不是感到這個(gè)世界滿(mǎn)滿(mǎn)的惡意?程序員想買(mǎi)個(gè)沒(méi)有格子的襯衫怎么就這么難!
接著,這位程序員把搜索結(jié)果上傳到GitHub,短短十個(gè)小時(shí)就獲得了300星。
更讓人沒(méi)想到是,這件小小的事情影響范圍還在擴(kuò)大,幾個(gè)小時(shí)就在Hacker News上帶了400多條評(píng)論。
看來(lái)有相同槽點(diǎn)想吐的人,并不少。
并且事情也“鬧大”了。
大家發(fā)現(xiàn),何止搜索引擎,現(xiàn)在你只需一個(gè)“不”就能讓AI助手變“人工智障”。
打開(kāi)你的Siri,和它說(shuō)“不要告訴我天氣”,但Siri還是義無(wú)反顧地告訴了你天氣狀況。
那么問(wèn)題來(lái)了:為什么AI會(huì)犯如此低級(jí)的錯(cuò)誤呢?
人工智能的盲區(qū)
無(wú)論是搜索商品圖片還是詢(xún)問(wèn)天氣,加上了一個(gè)“不”或“無(wú)”字,就變得復(fù)雜起來(lái)。
這個(gè)“不”到底是哪個(gè)部分做出否定,可能人類(lèi)也說(shuō)不清楚。
這類(lèi)問(wèn)題屬于“歸因”問(wèn)題,可能是統(tǒng)計(jì)學(xué)方法不能解決的,這就觸及到機(jī)器學(xué)習(xí)的盲區(qū)了。
在上面的問(wèn)題中,處理一個(gè)“不”還算比較清晰,但是在一些對(duì)準(zhǔn)確性有要求的領(lǐng)域,會(huì)有很大的問(wèn)題。
比如“無(wú)癌癥證據(jù)”,到底是得到了沒(méi)得癌癥的證據(jù),還是根本沒(méi)有證據(jù)呢?
這還算是比較簡(jiǎn)單的,人類(lèi)語(yǔ)言中還有很多雙重否定,有時(shí)候連人自己表達(dá)的時(shí)候都會(huì)犯錯(cuò)。
處理這類(lèi)問(wèn)題,不能使用過(guò)去的統(tǒng)計(jì)方法,而需要更多關(guān)注語(yǔ)法內(nèi)在的邏輯性,語(yǔ)言學(xué)中的喬姆斯基學(xué)派的研究者就是這么認(rèn)為。
但是涉及此類(lèi)算法的研究很少,甚至很多從事算法的人對(duì)此并不感興趣。
一些從事機(jī)器學(xué)習(xí)研究的大型公司,他們研究的算法具有很大的適用性,但是在歸因等情況下,他們的語(yǔ)言模型可能會(huì)失敗。
而且神經(jīng)網(wǎng)絡(luò)尚未顯示出對(duì)此問(wèn)題的改進(jìn)。在說(shuō)“不”這個(gè)問(wèn)題上,各家的AI都不能通過(guò)圖靈測(cè)試,甚至顯得愚蠢。
所以是不是“另有隱情”?
技術(shù)不行還是SEO搗亂
是不是因?yàn)楣雀铔](méi)有在搜索引擎里用上NLP技術(shù),所以才導(dǎo)致錯(cuò)誤的結(jié)果?
實(shí)際上,谷歌去年10月就已經(jīng)在英文版的搜索引擎里用上了BERT。
過(guò)去,谷歌的搜索更多的是基于單個(gè)單詞的理解。
比如“2019 brazil traveler to usa need a visa”,以前的谷歌搜索會(huì)基于visa、usa、brazil這幾個(gè)關(guān)鍵詞,而英文結(jié)果里更多的是美國(guó)人咨詢(xún)?nèi)グ臀鳎运阉鹘Y(jié)果往往是相反的。
更新后的谷歌能夠理解“to usa”的含義,才能識(shí)別正確的結(jié)果
于是這讓一些網(wǎng)友覺(jué)得,谷歌亞馬遜研究多年的NLP技術(shù)不過(guò)如此,要理解人類(lèi)語(yǔ)言還有很長(zhǎng)的路要走。
不過(guò),經(jīng)過(guò)努力,計(jì)算機(jī)已經(jīng)能夠搞清楚英文里的“無(wú)癌癥證據(jù)”(No evidence of cancer、Evidence of no cancer)兩者之間的差別。
當(dāng)然,還有一些技術(shù)之外的因素。
任何搜索引擎都繞不開(kāi)SEO和廣告問(wèn)題。
那些賣(mài)條紋襯衫的商家會(huì)通過(guò)各種優(yōu)化手段,霸占“條紋”和“襯衫”這兩個(gè)關(guān)鍵詞的頭部位置,結(jié)果導(dǎo)致“no”和“without”之類(lèi)的關(guān)鍵詞被忽略。
一些網(wǎng)友認(rèn)為,是SEO的垃圾信息毀了搜索引擎,同時(shí)廣告還是是谷歌搜索的重要收入來(lái)源,谷歌自己可能也無(wú)心解決——這一點(diǎn)自然無(wú)法妄加揣測(cè)。
不過(guò),我們也用最大的中文搜索引擎試了試,發(fā)現(xiàn)也是一樣的結(jié)果:
但往好的一面看,這也意味著時(shí)代之問(wèn)有解了。
之前,總有人“抬杠”,在智能時(shí)代里,你無(wú)法判斷跟你交流的是人類(lèi)還是AI……
但現(xiàn)在,鑰匙來(lái)了:機(jī)器是不能說(shuō)“不”的。
參考鏈接:
https://news.ycombinator.com/item?id=22925087
https://github.com/elsamuko/Shirt-without-Stripes
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿(mǎn)了!2025-08-08