AI解數(shù)學(xué)題,答案對過程卻錯?DeepMind新研究改進(jìn)谷歌思維鏈方法
錯誤率下降至3.4%
羿閣 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AI做數(shù)學(xué)題的成績又又又被刷新了!
眾所周知,隨著谷歌思維鏈(chain of thought)概念的提出,AI做題時已經(jīng)能像人類一樣生成解題步驟。
這次,來自DeepMind的科學(xué)家提出了一個切實(shí)的問題:如何確保解題步驟和答案的雙重正確率?
為此,他們在GSM8K數(shù)據(jù)集上全面對比了基于過程和基于結(jié)果的監(jiān)督方法,并結(jié)合二者優(yōu)勢訓(xùn)練出一個最佳模型。
結(jié)果表明,新模型的答案錯誤率從16.8%降低到12.7%,解題步驟的錯誤率也從14.0%降低到了3.4%。
步驟+答案雙重保障
在介紹新研究前,不得不先提到谷歌今年1月在論文中提出的思維鏈概念。
簡單來說,思維鏈提示就是一種特殊的上下文學(xué)習(xí),不同于標(biāo)準(zhǔn)提示只是給出輸入-輸出對的示例,思維鏈提示還會額外增加一段推理的過程。
該方法在LaMDA-137B、GPT-3 175B、PaLM-540B三個大型語言模型上都得到了驗(yàn)證:對比標(biāo)準(zhǔn)提示,新方法在一系列算術(shù)推理等任務(wù)上的準(zhǔn)確率都有了明顯的提高。
但該方法存在的一個問題是,在某些情況下,AI能生成正確答案,但推理過程卻是錯誤的。
現(xiàn)在,來自DeepMind的研究人員,針對這一點(diǎn)做出了改進(jìn):不僅只關(guān)注最終結(jié)果,也注重推理過程的準(zhǔn)確性。
為此,他們對自然語言處理任務(wù)中基于過程和結(jié)果的方法進(jìn)行了首次全面比較。
具體來說,包括以下不同場景:少樣本提示、有監(jiān)督的微調(diào)、通過專家迭代的強(qiáng)化學(xué)習(xí)以及重排序和強(qiáng)化學(xué)習(xí)的獎勵模型。
而之所以選擇GSM8K數(shù)據(jù)集,一來因?yàn)樗怯尚W(xué)數(shù)學(xué)應(yīng)用題組成,答案都是整數(shù)解,方便準(zhǔn)確性統(tǒng)計;
二是GSM8K數(shù)據(jù)集具有對推理步驟的離線監(jiān)督,以及在線人工標(biāo)注。
從結(jié)果上看,第一,基于過程和基于結(jié)果的方法在最終答案錯誤率上近乎一致。這也意味著,僅靠結(jié)果監(jiān)督就足以實(shí)現(xiàn)較低的答案錯誤率。
第二,推理步驟準(zhǔn)確率的提升則需要過程監(jiān)督或模仿它的獎勵模型。盡管最終答案錯誤率相似,但從下圖可以看出,結(jié)果監(jiān)督(19.8%)比過程監(jiān)督(11.4%)的推理錯誤率明顯要高。
除此之外,研究人員還結(jié)合二者優(yōu)勢,訓(xùn)練出一個最佳模型,即將監(jiān)督學(xué)習(xí)與基于獎勵模型的強(qiáng)化學(xué)習(xí)相結(jié)合。
新模型的答案錯誤率從以前的最佳水平16.8%降低到12.7%,并且,答案正確、推理過程卻錯誤的情況也從14.0%降低到了3.4%。
當(dāng)允許模型對30%的問題進(jìn)行回避時,最終答案的錯誤率甚至能達(dá)到2.7%。
研究團(tuán)隊(duì)
本篇論文的研究團(tuán)隊(duì)來自DeepMind,共同一作有三位:Jonathan Uesato、Nate Kushman、Ramana Kumar。
12月3日,Nate Kushman將會就本篇論文在NeurIPS 2022舉辦的第二屆MATH-AI研討會上做報告,感興趣的小伙伴可以蹲守一下~
論文鏈接:
https://arxiv.org/pdf/2211.14275.pdf