程序員:我只想買件沒有格子的襯衫,怎么就這么難?
我太難了
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
說到程序員著裝,大家會(huì)想到什么?
自然是格子襯衫了。
但一個(gè)外國程序員,終于對(duì)此厭倦,他不想再穿格子襯衫或條紋襯衫,于是他打開了亞馬遜網(wǎng)站,輸入了關(guān)鍵詞“無條紋襯衫”(shirt without stripes),結(jié)果卻是這樣的:
為什么幾乎全部都是帶條紋的襯衫?。?/p>
“一定是我打開的姿勢不對(duì)!”
或者只是亞馬遜的自然語音處理(NLP)技術(shù)不夠好吧。
他又接著嘗試了谷歌和微軟的搜索引擎,結(jié)果卻還是這樣:
反正結(jié)果就算不是襯衫,也一定帶條紋,甚至還搜出了球衣。
如果把關(guān)鍵詞換成“沒有格子的襯衫”(shirt without plaid),結(jié)果還是讓人失望。
是不是感到這個(gè)世界滿滿的惡意?程序員想買個(gè)沒有格子的襯衫怎么就這么難!
接著,這位程序員把搜索結(jié)果上傳到GitHub,短短十個(gè)小時(shí)就獲得了300星。
更讓人沒想到是,這件小小的事情影響范圍還在擴(kuò)大,幾個(gè)小時(shí)就在Hacker News上帶了400多條評(píng)論。
看來有相同槽點(diǎn)想吐的人,并不少。
并且事情也“鬧大”了。
大家發(fā)現(xiàn),何止搜索引擎,現(xiàn)在你只需一個(gè)“不”就能讓AI助手變“人工智障”。
打開你的Siri,和它說“不要告訴我天氣”,但Siri還是義無反顧地告訴了你天氣狀況。
那么問題來了:為什么AI會(huì)犯如此低級(jí)的錯(cuò)誤呢?
人工智能的盲區(qū)
無論是搜索商品圖片還是詢問天氣,加上了一個(gè)“不”或“無”字,就變得復(fù)雜起來。
這個(gè)“不”到底是哪個(gè)部分做出否定,可能人類也說不清楚。
這類問題屬于“歸因”問題,可能是統(tǒng)計(jì)學(xué)方法不能解決的,這就觸及到機(jī)器學(xué)習(xí)的盲區(qū)了。
在上面的問題中,處理一個(gè)“不”還算比較清晰,但是在一些對(duì)準(zhǔn)確性有要求的領(lǐng)域,會(huì)有很大的問題。
比如“無癌癥證據(jù)”,到底是得到了沒得癌癥的證據(jù),還是根本沒有證據(jù)呢?
這還算是比較簡單的,人類語言中還有很多雙重否定,有時(shí)候連人自己表達(dá)的時(shí)候都會(huì)犯錯(cuò)。
處理這類問題,不能使用過去的統(tǒng)計(jì)方法,而需要更多關(guān)注語法內(nèi)在的邏輯性,語言學(xué)中的喬姆斯基學(xué)派的研究者就是這么認(rèn)為。
但是涉及此類算法的研究很少,甚至很多從事算法的人對(duì)此并不感興趣。
一些從事機(jī)器學(xué)習(xí)研究的大型公司,他們研究的算法具有很大的適用性,但是在歸因等情況下,他們的語言模型可能會(huì)失敗。
而且神經(jīng)網(wǎng)絡(luò)尚未顯示出對(duì)此問題的改進(jìn)。在說“不”這個(gè)問題上,各家的AI都不能通過圖靈測試,甚至顯得愚蠢。
所以是不是“另有隱情”?
技術(shù)不行還是SEO搗亂
是不是因?yàn)楣雀铔]有在搜索引擎里用上NLP技術(shù),所以才導(dǎo)致錯(cuò)誤的結(jié)果?
實(shí)際上,谷歌去年10月就已經(jīng)在英文版的搜索引擎里用上了BERT。
過去,谷歌的搜索更多的是基于單個(gè)單詞的理解。
比如“2019 brazil traveler to usa need a visa”,以前的谷歌搜索會(huì)基于visa、usa、brazil這幾個(gè)關(guān)鍵詞,而英文結(jié)果里更多的是美國人咨詢?nèi)グ臀?,所以搜索結(jié)果往往是相反的。
更新后的谷歌能夠理解“to usa”的含義,才能識(shí)別正確的結(jié)果
于是這讓一些網(wǎng)友覺得,谷歌亞馬遜研究多年的NLP技術(shù)不過如此,要理解人類語言還有很長的路要走。
不過,經(jīng)過努力,計(jì)算機(jī)已經(jīng)能夠搞清楚英文里的“無癌癥證據(jù)”(No evidence of cancer、Evidence of no cancer)兩者之間的差別。
當(dāng)然,還有一些技術(shù)之外的因素。
任何搜索引擎都繞不開SEO和廣告問題。
那些賣條紋襯衫的商家會(huì)通過各種優(yōu)化手段,霸占“條紋”和“襯衫”這兩個(gè)關(guān)鍵詞的頭部位置,結(jié)果導(dǎo)致“no”和“without”之類的關(guān)鍵詞被忽略。
一些網(wǎng)友認(rèn)為,是SEO的垃圾信息毀了搜索引擎,同時(shí)廣告還是是谷歌搜索的重要收入來源,谷歌自己可能也無心解決——這一點(diǎn)自然無法妄加揣測。
不過,我們也用最大的中文搜索引擎試了試,發(fā)現(xiàn)也是一樣的結(jié)果:
但往好的一面看,這也意味著時(shí)代之問有解了。
之前,總有人“抬杠”,在智能時(shí)代里,你無法判斷跟你交流的是人類還是AI……
但現(xiàn)在,鑰匙來了:機(jī)器是不能說“不”的。
參考鏈接:
https://news.ycombinator.com/item?id=22925087
https://github.com/elsamuko/Shirt-without-Stripes
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08