Nature:神經(jīng)網(wǎng)絡“舉一反三”能力甚至超人類
錯誤率僅百分之一
西風 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
神經(jīng)網(wǎng)絡具有類似人的“舉一反三”能力,甚至超過人類水平???
最近刊于Nature的一篇論文表示找到了證據(jù)。

“舉一反三”、系統(tǒng)概括的能力更專業(yè)點叫做系統(tǒng)性泛化能力。像小孩子一樣,一旦學會了如何“跳”,他們就可以理解如何“向后跳”、“繞錐體跳過兩次”。
要知道,早在1988年,認知科學家Fodor、Pylyshyn就提出了系統(tǒng)性挑戰(zhàn),認為人工神經(jīng)網(wǎng)絡缺乏這種能力。
Nature的這篇文章中表示,研究人員用一種叫做MLC(meta-learning for compositionality)的方法,通過在動態(tài)變化的組合任務流中訓練,神經(jīng)網(wǎng)絡可以獲得人類般的組合推理能力。
他們還將MLC和人類在相同的系統(tǒng)性泛化測試中進行了比較。結(jié)果機器學習的系統(tǒng)性泛化基準測試表明,MLC錯誤率不到1%,并且還可以模擬人類的認知偏見導致的錯誤。
相比之下,GPT-4 在相同的任務中平均失敗率在42%到86%之間,具體取決于研究人員如何提出任務。
挑戰(zhàn)已存在35年的觀點
35年前,認知科學家Fodor、Pylyshyn提出了一個著名的觀點:
人工神經(jīng)網(wǎng)絡由于缺乏組合性,不太可能成為合理的認知模型。
換句話說,人類語言和思維的精髓在于系統(tǒng)性組合,而神經(jīng)網(wǎng)絡只能表示特定的事物,缺乏這種系統(tǒng)性組合能力。
這個觀點引發(fā)學界激烈討論。其中反駁觀點主要集中于兩個方面。
一是盡管人類的組合技能很重要,但它們可能并不具有Fodor、Pylyshyn所說的那樣的系統(tǒng)性和規(guī)則性。
二是雖然神經(jīng)網(wǎng)絡在基本形式上受到了限制,但使用復雜的架構可以增強系統(tǒng)性。
雖然最近幾年,神經(jīng)網(wǎng)絡在自然語言處理等方面有了很大進展和突破,相關辯論也隨之升級。
但時至今日,系統(tǒng)性的問題仍沒有一個定論。
基于此,紐約大學心理與數(shù)據(jù)科學助理教授Brenden M. Lake、西班牙加泰羅尼亞研究所(ICREA)研究教授Marco Baroni提出了一種叫做MLC的元學習神經(jīng)網(wǎng)絡模型。
具體來說,用的是一種通過特殊指導和人類示例來指定模型行為的方法,然后要求神經(jīng)網(wǎng)絡通過元學習獲得正確的學習技巧。
研究人員還表示,MLC使用的是標準的Seq2Seq架構,常見的神經(jīng)網(wǎng)絡并沒有添加符號機制,也沒有手動設計內(nèi)部表示或歸納偏見。
舉個例子來說明訓練過程。如下圖所示,給神經(jīng)網(wǎng)絡模型一個“連續(xù)跳躍兩次”(skip twice)的指令。并用箭頭和小人來展示學習示例,告訴機器jump(跳)、skip(跳過)、jump twice是怎樣的。
然后將輸出的skip twice和行為目標比較:

類似情境,引入下一個詞“向后踮腳尖繞過一個錐體”,要求神經(jīng)網(wǎng)絡組合向后走(walk backwards)、踮腳尖(tiptoe)、繞錐體行走(walk around a cone)的動作,推出如何“向后踮腳尖繞過一個錐體”。

機器VS人類
為了展示MLC方法的性能,研究人員對人類和機器在相同的系統(tǒng)性泛化測試中進行了評估。
實驗基于一個少樣本學習偽語言任務進行,其中詞匯與特定的符號或顏色有關。
比如給出基本詞匯,“dax”是紅色,“wif”是綠色,“l(fā)ug”是藍色。

還有三個Function。Function 1中,“l(fā)ug fep” 代表三個藍色的連續(xù)圈圈,“dax fep” 代表三個紅色的連續(xù)圈圈。
Function 2代表的是交替,像“l(fā)ug blicket wif” 代表藍綠藍三個顏色的圈圈。
Function 3代表把輸出順序倒過來,像“dax kiki lug” 代表藍紅(根據(jù)基本詞匯應該是紅藍)。
還可以組合不同的Function,比如“wif blicket dax kiki lug”是藍綠紅綠。

△MLC架構
然后研究人員對25名人類的反應和機器的反應進行了比較:

研究人員還測試了在不給出任何示例的情況下,人類和機器歸納這種方法后的輸出,為的是測驗人類的歸納偏見:

測試后的結(jié)果表明,人類能夠系統(tǒng)性地泛化,正確率約為80%,但也存在一些偏見。
而使用MLC方法機器可以達到或超過人類的系統(tǒng)性泛化水平。
MLC還可以預測哪些指令對人們來說更容易或更難。
下圖展示了模型預測人類行為的log-likelihood值(用來判斷模型預測數(shù)據(jù)的好壞),數(shù)值越大表示模型的預測越準確:

研究人員還在兩個常見的機器學習的系統(tǒng)性泛化基準測試SCAN、 COGS中,著重關注MLC處理新單詞和單詞組合方面的表現(xiàn),結(jié)果顯示錯誤率不到1%。

△在機器學習基準測試中進行系統(tǒng)性詞匯泛化的錯誤率
他們還表示,在純粹的代數(shù)推理和模擬人類復雜組合行為的情況中,MLC還可以模擬人類的認知偏見導致的錯誤模式,這說明神經(jīng)網(wǎng)絡是一種很好的建模工具。
引發(fā)熱議
美國圣達菲研究所的計算機與認知科學家Melanie Mitchell表示:
這項研究是一個有趣的原理證明,但這種訓練方法是否可以擴展到更大的數(shù)據(jù)集甚至圖像,還有待觀察。
德國奧斯納布呂克大學自然語言處理專家Elia Bruni表示:
這項研究可以使神經(jīng)網(wǎng)絡更高效地學習,將減少像ChatGPT等所需的訓練數(shù)據(jù)量,并減少“幻覺”。
將系統(tǒng)性注入神經(jīng)網(wǎng)絡是一件大事,它可以同時解決這兩個問題。
但也有網(wǎng)友指出Nature的標題有點唬人了:
人類的溝通是多樣且多層次的,可以從太多角度總結(jié) ,所以有必要持合理的懷疑態(tài)度,同時還需要證據(jù)和測試結(jié)果。

還有網(wǎng)友表示用這種方法能夠擊敗GPT-4是因為提示的問題:
我覺得一名高級的提示工程師使用GPT-4可以達到正確率85%的效果?!案鶕?jù)研究人員如何呈現(xiàn)任務,準確率在42%到86%之間”這話確實會讓人產(chǎn)生疑慮。
考慮到主觀因素,希望他們能展示是如何提出這個任務的,至少比只給一句話要詳細。

論文鏈接:https://www.nature.com/articles/s41586-023-06668-3
參考鏈接:
[1]https://www.nature.com/articles/d41586-023-03272-3
[2]https://news.ycombinator.com/item?id=38017146
- 多人有聲視頻一體化生成!用百度最新AI生成營銷視頻,現(xiàn)在1.4元/5秒2025-08-22
- 馬斯克一覺醒來,Space X在京開賣了2025-08-21
- 離譜!現(xiàn)在的Agent都卷成100個成團了?3分鐘并行干完5個復雜任務,還能隨時改需求2025-08-18
- 國家級AI創(chuàng)新應用賽事殺瘋了!超200萬元獎金池+全場景賽道,沖線團隊速來2025-08-15