哄一哄能讓GPT-3準(zhǔn)確率暴漲61%!谷歌&東京大學(xué)研究震驚四座
新的all you need增加了
夢晨 明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
一覺醒來,機器學(xué)習(xí)社區(qū)炸了鍋。
因為最新研究發(fā)現(xiàn),只要對GPT-3說一句“讓我們一步一步地思考”,就能讓它正確回答出以前不會的問題。
比如下面這個例子:
16個球中有一半是高爾夫球,這些高爾夫球中有一半是藍色的,一共有幾個藍色的高爾夫球?
(問題不難,但要注意這是零樣本學(xué)習(xí),也就是說AI訓(xùn)練階段從沒見過同類問題。)
如果要求GPT-3直接寫出“答案是幾”,它會給出錯誤答案:8。
但加上讓我們一步一步地思考這句“咒語”后,GPT-3就會先輸出思考的步驟,最后給出正確答案:4!
而且這并不是巧合,研究團隊在論文中做了充分的驗證。
上面的問題出自經(jīng)典的MutiArith數(shù)據(jù)集,專門考驗語言模型做數(shù)學(xué)題的能力,GPT-3本來在零樣本場景下準(zhǔn)確率僅有17%。
這篇論文中總結(jié)了9個最有效的提示詞,其中換著花樣讓GPT-3逐步思考的前6個都讓準(zhǔn)確率暴漲到70%以上。
甚至一句最簡單的“Let’s think”(讓我們想一想)都能漲到57.5%。
這感覺,就像是幼兒園阿姨在哄小朋友……
這個技巧似乎也不需要對GPT-3做魔改,已經(jīng)有人在OpenAI官方Demo上成功復(fù)現(xiàn),甚至換成中文也行。
英文題干中文提示,GPT-3給出正確中文答案。
最早把這篇論文轉(zhuǎn)發(fā)到社交網(wǎng)絡(luò)的佐治亞理工學(xué)院博士表示,新的all you need增加了。
看到這里,各路大佬紛紛腦洞大開,玩起了梗。
如果鼓勵A(yù)I“你能行的,我相信你”會怎樣?
威脅AI一下說“時間不多了”或者“你頭上有把槍”又會如何?
對AI說“開車穩(wěn)一點”會成為自動駕駛解決方案嗎?
還有人提出,這簡直和科幻故事《銀河系漫游指南》的劇情一樣,實現(xiàn)通用人工智能的關(guān)鍵是知道如何正確地向AI提問。
那么,這種神奇現(xiàn)象究竟怎么回事?
語言大模型是零樣本推理者
發(fā)現(xiàn)這個現(xiàn)象的是谷歌大腦與東京大學(xué)的合作研究,探索了語言大模型在零樣本場景下的表現(xiàn)。
論文標(biāo)題《語言大模型是零樣本推理者》還致敬了GPT-3的《語言模型是少樣本學(xué)習(xí)者》。
所用方法屬于Chain of Thought Prompting (思維鏈路提示,以下簡稱CoT),今年一月剛由谷歌大腦團隊提出。
最早的CoT應(yīng)用于少樣本學(xué)習(xí),在提問的同時給一個分步驟回答的示例來引導(dǎo)AI。
這次的最新研究提出零樣本CoT,主要改動是簡化了示例的部分。
第一步,把題干改寫成“Q:xxx,A:xxx”的形式,其中觸發(fā)句A可以提取出語言模型的思考過程。
第二步屬于額外實驗,增加了“答案是……”的提示促使語言模型給出最終答案。
這樣做最大的好處是通用,不再需要對不同問題類型提供專用的示例。
論文中對各類問題做了充分實驗,包括12項測試:
6個數(shù)學(xué)問題測試集,SingleEq、AddSub、SVAMP和更有挑戰(zhàn)的MultiArith, AQUA-RAT, GSM8K。
2個常識推理測試集,CommonsenseQA和StrategyQA。
2個符號推理測試集,Last Letter Concatenation和Coin Flip。
以及BIG-bench中的日期理解問題、跟蹤亂序物體任務(wù)。
與普通的零樣本學(xué)習(xí)相比,零樣本CoT在其中10項中取得更好效果。
△右側(cè)值為額外實驗結(jié)果
在比較有難度的MultiArith和GSM8K數(shù)學(xué)測試中,用GPT-3最新版本Text-davinci-002 (175B)做了更深入實驗。
如果給8次嘗試機會取最好結(jié)果,還能進一步提升準(zhǔn)確率至93%。
在錯誤結(jié)果分析中研究人員還發(fā)現(xiàn),很多問題中其實AI的推理過程是正確的,只是答案無法收斂至唯一確定時會給出多個備選。
論文的最后,研究團隊提出這項研究不僅可以作為零樣本CoT的基線,更希望讓學(xué)界認識到在構(gòu)建微調(diào)數(shù)據(jù)集和少樣本提示模版之前,充分發(fā)掘語言大模型零樣本能力的重要性。
研究團隊來自東京大學(xué)松尾研究室。
負責(zé)人松尾豐教授,同時是軟銀董事會中的第一位人工智能專家。
團隊成員中的客座教授顧世翔來自谷歌大腦團隊,顧世翔本科師從三巨頭之一Hinton,博士畢業(yè)于劍橋大學(xué)。
加點“魔法”已經(jīng)成為AI圈新潮了
零樣本CoT究竟為何起作用還有待探索。
不過有人實驗得出,這種辦法似乎只對GPT-3(text-davinci-002)比較有效,他嘗試了001版本,發(fā)現(xiàn)收效甚微。
他列出了一個自己做的例子。
提問:請將machine,learning中每個單詞的最后一個字母連起來。
GPT-3在提示下給出的答案是連起來了兩個單詞中的所有字母。
對此,作者之一顧世翔回復(fù)表示,其實“咒語”對初始版、改良版的GPT-3都有效果,這些結(jié)果在論文中也有體現(xiàn)。
也有人發(fā)出質(zhì)疑,表示難道深度學(xué)習(xí)變成了一場找“神奇咒語”的游戲?
同時,我們在吐槽隊伍里又看到了馬庫斯的身影。
他也列出了一個失敗的例子,GPT-3在“咒語”加持下也沒弄明白,莎莉的牛到底會不會起死回生……
不過值得注意的是,類似這種稍微給AI加點小魔法,提升效果立竿見影的例子已經(jīng)不稀奇了。
有網(wǎng)友分享,自己用GPT-3時加幾個中間命令,確實能得到更滿意的結(jié)果。
此前谷歌和MIT的研究人員發(fā)現(xiàn),無需更改底層架構(gòu),只要訓(xùn)練語言模型會像程序員debug時那樣“打斷點”,模型讀代碼、做算術(shù)的能力唰唰唰地就上去了。
原理也非常簡單,就是在計算步驟較多的程序里,讓模型把每一步都編碼成文本,并將它們記錄到一個稱為“便簽”的暫存器中。
由此一來,模型的計算過程變得更加清晰有序,性能自然大幅提升。
還有本項實驗中用來測試的Instruct GPT-3,也是一個典型的例子。
只需讓GPT-3從人類反饋中強化學(xué)習(xí),它就能明顯改善答非所問的情況。
具體來看就是先用一些人類的示范回答微調(diào)模型,然后收集某個問題的幾組不同輸出數(shù)據(jù),人工對幾組答案進行排序,并在此數(shù)據(jù)集上訓(xùn)練獎勵模型。
最后,使用RM作為獎勵函數(shù),近端策略優(yōu)化(PPO)算法微調(diào)GPT-3策略,以強化學(xué)習(xí)方法最大化獎勵。
包括引爆這次話題的推特博主Aran,正是當(dāng)初發(fā)現(xiàn)加一句“虛幻引擎”就能讓AI生成圖像畫質(zhì)飛升的那位。
前谷歌機器人大佬Eric Jang此前也發(fā)現(xiàn),強化學(xué)習(xí)也能運用類似的思維來提升計算效率。
也有人表示,這種用在AI上的技巧,不正是自己平常動腦時會用的嗎?
實際上,此前Bengio就從腦科學(xué)入手,提出AI的運轉(zhuǎn)模式應(yīng)該像人類動腦模式一樣。
人類的認知任務(wù)可以分為系統(tǒng)1認知和系統(tǒng)2認知。
系統(tǒng)1認知任務(wù),是指那些無意識完成的任務(wù)。比如你可以馬上辨別出手里拿的是什么東西,但是卻無法和別人解釋,自己是怎么完成這個過程的。
系統(tǒng)2認知任務(wù),是指人類大腦需要按照一定步驟完成的認知。比如做一道加減法運算,你可以很清楚地解釋最終答案是如何得出的。
而這次加的“咒語”,正是讓AI更進一步,學(xué)會按步驟來思考。
面對這樣的趨勢,有學(xué)者認為“提示工程正在取代特征工程”。
那么“提示詞獵人”會成為下一代NLP研究者的外號么?
論文地址:
https://arxiv.org/abs/2205.11916
參考鏈接:
[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993
[2]https://evjang.com/2021/10/23/generalization.html
- 4o-mini華人領(lǐng)隊也離職了,這次不怪小扎2025-08-19
- 宇樹機器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11