奧特曼ChatGPT用法錯(cuò)了!最新研究:要求“直接回答”降低準(zhǔn)確率,思維鏈提示作用也在下降
大模型需要思考,但不必增加額外提示詞
克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
奧特曼使用大模型的方法,竟然是錯(cuò)的?
來(lái)自沃頓商學(xué)院等機(jī)構(gòu)的最新研究發(fā)現(xiàn),備受奧特曼喜愛(ài)的“直接回答”提示,竟然會(huì)顯著降低模型準(zhǔn)確率。

不過(guò)另一方面,這項(xiàng)研究也發(fā)現(xiàn),在提示詞中加入思維鏈(CoT)命令同樣不好用——
CoT提示對(duì)于推理模型非但沒(méi)有效果提升,反而會(huì)增加時(shí)間和計(jì)算成本。
而一些前沿的非推理模型,CoT提示可以帶來(lái)效果提升,但答案的不穩(wěn)定性也隨之增加了。

研究團(tuán)隊(duì)使用GPQA Diamond數(shù)據(jù)集,針對(duì)現(xiàn)在主流的推理和非推理模型,分別在啟用和不啟用CoT的情況下進(jìn)行了測(cè)試。
結(jié)果就是對(duì)于推理模型,CoT的作用十分有限,比如對(duì)于o3-mini,CoT帶來(lái)的準(zhǔn)確率提升只有4.1%,但時(shí)間卻增加了80%。
非推理模型的結(jié)果則要復(fù)雜一些,但總之要不要用CoT,也需要對(duì)收益和投入進(jìn)行仔細(xì)權(quán)衡。
所以CoT到底該不該用呢?
實(shí)際上,這項(xiàng)研究針對(duì)的是用戶提示詞中的CoT命令,并不包括系統(tǒng)提示詞設(shè)定,更不是CoT本身。
CoT提示詞作用有限,甚至還有反效果
這項(xiàng)研究使用GPQA Diamond數(shù)據(jù)集作為基準(zhǔn)測(cè)試工具,該數(shù)據(jù)集包含了研究生水平的專家推理問(wèn)題。
實(shí)驗(yàn)過(guò)程中,研究團(tuán)隊(duì)測(cè)試了這些模型:
-
推理模型:o4-mini、o3-mini、Gemini 2.5 Flash -
非推理模型:Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5
對(duì)于每個(gè)模型,研究團(tuán)隊(duì)都設(shè)置了三種實(shí)驗(yàn)環(huán)境:
-
強(qiáng)制推理:指示模型在提供答案前逐步思考(Think step by step); -
直接回答:明確指示模型不要進(jìn)行任何解釋或思考,只提供答案; -
默認(rèn):不提供任何特定的后綴指令,讓模型自行選擇如何回答問(wèn)題。
為了確保結(jié)果的可靠性,每個(gè)問(wèn)題在每種條件下都被測(cè)試了25次,也就是說(shuō)每個(gè)模型針對(duì)同一個(gè)問(wèn)題都要做出75次回答。
對(duì)于每種實(shí)驗(yàn)設(shè)定,研究團(tuán)隊(duì)一共統(tǒng)計(jì)了四個(gè)指標(biāo):
-
100%正確率:同一個(gè)問(wèn)題的25次試驗(yàn)中全部答對(duì)才算一次“成功”,“成功”次數(shù)除以題目數(shù)量即為100%正確率; -
90%正確率:25次試驗(yàn)中至少要答對(duì)23次,接近人類可接受的錯(cuò)誤率; -
51%正確率:采用簡(jiǎn)單多數(shù)原則,25次試驗(yàn)中答對(duì)至少13次就被認(rèn)為是成功的; -
平均評(píng)分:將正確答案直接計(jì)數(shù),然后除以總試驗(yàn)次數(shù),也就是總的正確率。
結(jié)果,對(duì)于非推理模型,CoT提升相比于直接回答,所有模型的平均評(píng)分和“51%正確”指標(biāo)都有所提升。
其中Gemini Flash 2.0的提升最為顯著,Claude 3.5 Sonnet緊隨其后,GPT-4o和4o-mini則提升不明顯。
但是在100%和90%正確率指標(biāo)當(dāng)中,相比于不推理,加入CoT提示后Gemini家族兩款模型和4o-mini的指標(biāo)反而下降。
這意味著,CoT雖然從整體上提高了模型的準(zhǔn)確率,但同時(shí)也增加了答案的不穩(wěn)定性。

如果比較強(qiáng)制CoT和默認(rèn)模式,可以看到CoT帶來(lái)的效果明顯比相對(duì)于直接回答更弱,造成這種結(jié)果的原因可能和部分模型已經(jīng)內(nèi)置了思維鏈相關(guān)。

而對(duì)于推理模型來(lái)說(shuō),CoT提示的效果就更有限了——
對(duì)于o3-mini和o4-mini,使用CoT提示相比要求模型直接回答提升非常少,對(duì)于Gemini 2.5 Flash更是所有指標(biāo)全面下降。
例如在平均評(píng)分上,o3-mini僅提升2.9個(gè)百分點(diǎn),o4-mini提升3.1個(gè)百分點(diǎn)。

但相比之下,消耗的時(shí)間卻是大幅增長(zhǎng),o4-mini大概漲了20%,o3-mini的漲幅更是超過(guò)了80%。

而效果好一些的非推理模型,時(shí)間的增加也更加明顯。

結(jié)合開(kāi)頭作者打臉奧特曼的推文,可以看到模型依然是在“會(huì)思考”的時(shí)候表現(xiàn)最好,但是最前沿的模型當(dāng)中,推理模型本就已經(jīng)內(nèi)置推理過(guò)程,一些非推理模型內(nèi)置提示也包含了CoT相關(guān)內(nèi)容,這種“思考”不再需要通過(guò)額外增加提示來(lái)實(shí)現(xiàn)。
所以,對(duì)于直接使用模型應(yīng)用的用戶來(lái)說(shuō),默認(rèn)設(shè)置就已經(jīng)是一種很好的使用方式了。
報(bào)告地址:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532