国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

奧特曼ChatGPT用法錯(cuò)了！最新研究：要求“直接回答”降低準(zhǔn)確率，思維鏈提示作用也在下降

克雷西 2025-06-09 14:36:59 來(lái)源：量子位

大模型需要思考，但不必增加額外提示詞

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

奧特曼使用大模型的方法，竟然是錯(cuò)的？

來(lái)自沃頓商學(xué)院等機(jī)構(gòu)的最新研究發(fā)現(xiàn)，備受奧特曼喜愛(ài)的“直接回答”提示，竟然會(huì)顯著降低模型準(zhǔn)確率。

不過(guò)另一方面，這項(xiàng)研究也發(fā)現(xiàn)，在提示詞中加入思維鏈（CoT）命令同樣不好用——

CoT提示對(duì)于推理模型非但沒(méi)有效果提升，反而會(huì)增加時(shí)間和計(jì)算成本。

而一些前沿的非推理模型，CoT提示可以帶來(lái)效果提升，但答案的不穩(wěn)定性也隨之增加了。

研究團(tuán)隊(duì)使用GPQA Diamond數(shù)據(jù)集，針對(duì)現(xiàn)在主流的推理和非推理模型，分別在啟用和不啟用CoT的情況下進(jìn)行了測(cè)試。

結(jié)果就是對(duì)于推理模型，CoT的作用十分有限，比如對(duì)于o3-mini，CoT帶來(lái)的準(zhǔn)確率提升只有4.1%，但時(shí)間卻增加了80%。

非推理模型的結(jié)果則要復(fù)雜一些，但總之要不要用CoT，也需要對(duì)收益和投入進(jìn)行仔細(xì)權(quán)衡。

所以CoT到底該不該用呢？

實(shí)際上，這項(xiàng)研究針對(duì)的是用戶提示詞中的CoT命令，并不包括系統(tǒng)提示詞設(shè)定，更不是CoT本身。

CoT提示詞作用有限，甚至還有反效果

這項(xiàng)研究使用GPQA Diamond數(shù)據(jù)集作為基準(zhǔn)測(cè)試工具，該數(shù)據(jù)集包含了研究生水平的專家推理問(wèn)題。

實(shí)驗(yàn)過(guò)程中，研究團(tuán)隊(duì)測(cè)試了這些模型：

推理模型：o4-mini、o3-mini、Gemini 2.5 Flash
非推理模型：Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5

對(duì)于每個(gè)模型，研究團(tuán)隊(duì)都設(shè)置了三種實(shí)驗(yàn)環(huán)境：

強(qiáng)制推理：指示模型在提供答案前逐步思考（Think step by step）；
直接回答：明確指示模型不要進(jìn)行任何解釋或思考，只提供答案；
默認(rèn)：不提供任何特定的后綴指令，讓模型自行選擇如何回答問(wèn)題。

為了確保結(jié)果的可靠性，每個(gè)問(wèn)題在每種條件下都被測(cè)試了25次，也就是說(shuō)每個(gè)模型針對(duì)同一個(gè)問(wèn)題都要做出75次回答。

對(duì)于每種實(shí)驗(yàn)設(shè)定，研究團(tuán)隊(duì)一共統(tǒng)計(jì)了四個(gè)指標(biāo)：

100%正確率：同一個(gè)問(wèn)題的25次試驗(yàn)中全部答對(duì)才算一次“成功”，“成功”次數(shù)除以題目數(shù)量即為100%正確率；
90%正確率：25次試驗(yàn)中至少要答對(duì)23次，接近人類可接受的錯(cuò)誤率；
51%正確率：采用簡(jiǎn)單多數(shù)原則，25次試驗(yàn)中答對(duì)至少13次就被認(rèn)為是成功的；
平均評(píng)分：將正確答案直接計(jì)數(shù)，然后除以總試驗(yàn)次數(shù)，也就是總的正確率。

結(jié)果，對(duì)于非推理模型，CoT提升相比于直接回答，所有模型的平均評(píng)分和“51%正確”指標(biāo)都有所提升。

其中Gemini Flash 2.0的提升最為顯著，Claude 3.5 Sonnet緊隨其后，GPT-4o和4o-mini則提升不明顯。

但是在100%和90%正確率指標(biāo)當(dāng)中，相比于不推理，加入CoT提示后Gemini家族兩款模型和4o-mini的指標(biāo)反而下降。

這意味著，CoT雖然從整體上提高了模型的準(zhǔn)確率，但同時(shí)也增加了答案的不穩(wěn)定性。

如果比較強(qiáng)制CoT和默認(rèn)模式，可以看到CoT帶來(lái)的效果明顯比相對(duì)于直接回答更弱，造成這種結(jié)果的原因可能和部分模型已經(jīng)內(nèi)置了思維鏈相關(guān)。

而對(duì)于推理模型來(lái)說(shuō)，CoT提示的效果就更有限了——

對(duì)于o3-mini和o4-mini，使用CoT提示相比要求模型直接回答提升非常少，對(duì)于Gemini 2.5 Flash更是所有指標(biāo)全面下降。

例如在平均評(píng)分上，o3-mini僅提升2.9個(gè)百分點(diǎn)，o4-mini提升3.1個(gè)百分點(diǎn)。

但相比之下，消耗的時(shí)間卻是大幅增長(zhǎng)，o4-mini大概漲了20%，o3-mini的漲幅更是超過(guò)了80%。

而效果好一些的非推理模型，時(shí)間的增加也更加明顯。

結(jié)合開(kāi)頭作者打臉奧特曼的推文，可以看到模型依然是在“會(huì)思考”的時(shí)候表現(xiàn)最好，但是最前沿的模型當(dāng)中，推理模型本就已經(jīng)內(nèi)置推理過(guò)程，一些非推理模型內(nèi)置提示也包含了CoT相關(guān)內(nèi)容，這種“思考”不再需要通過(guò)額外增加提示來(lái)實(shí)現(xiàn)。

所以，對(duì)于直接使用模型應(yīng)用的用戶來(lái)說(shuō)，默認(rèn)設(shè)置就已經(jīng)是一種很好的使用方式了。

報(bào)告地址：
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

CoT 思維鏈

克雷西

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

奧特曼ChatGPT用法錯(cuò)了！最新研究：要求“直接回答”降低準(zhǔn)確率，思維鏈提示作用也在下降

CoT提示詞作用有限，甚至還有反效果

相關(guān)閱讀

慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

草稿鏈代替思維鏈，推理token砍掉80%，顯著降低算力成本和延遲

大模型越反思越錯(cuò)，原來(lái)是長(zhǎng)鏈推理通過(guò)自我說(shuō)服加重幻覺(jué) | 北郵

SFT并非必需！推理模型僅靠RL就能獲得長(zhǎng)思維鏈能力，清華CMU團(tuán)隊(duì)破解黑盒

AI學(xué)會(huì)隱藏思維暗中推理！不依賴人類經(jīng)驗(yàn)解決復(fù)雜任務(wù)，更黑箱了

6小時(shí)復(fù)刻AI IMO金牌成果，螞蟻多智能體新進(jìn)展已開(kāi)源

熱門文章

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

百度AICA第9期開(kāi)課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來(lái)

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

奧特曼ChatGPT用法錯(cuò)了！最新研究：要求“直接回答”降低準(zhǔn)確率，思維鏈提示作用也在下降

CoT提示詞作用有限，甚至還有反效果

相關(guān)閱讀

慢思考準(zhǔn)確率反降30%！普林斯頓揭示思維鏈某些任務(wù)上失效的秘密

草稿鏈代替思維鏈，推理token砍掉80%，顯著降低算力成本和延遲

大模型越反思越錯(cuò)，原來(lái)是長(zhǎng)鏈推理通過(guò)自我說(shuō)服加重幻覺(jué) | 北郵

SFT并非必需！推理模型僅靠RL就能獲得長(zhǎng)思維鏈能力，清華CMU團(tuán)隊(duì)破解黑盒

AI學(xué)會(huì)隱藏思維暗中推理！不依賴人類經(jīng)驗(yàn)解決復(fù)雜任務(wù)，更黑箱了

6小時(shí)復(fù)刻AI IMO金牌成果，螞蟻多智能體新進(jìn)展已開(kāi)源

熱門文章

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

百度AICA第9期開(kāi)課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來(lái)

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

奧特曼ChatGPT用法錯(cuò)了！最新研究：要求“直接回答”降低準(zhǔn)確率，思維鏈提示作用也在下降

草稿鏈代替思維鏈，推理token砍掉80%，顯著降低算力成本和延遲

SFT并非必需！推理模型僅靠RL就能獲得長(zhǎng)思維鏈能力，清華CMU團(tuán)隊(duì)破解黑盒

AI學(xué)會(huì)隱藏思維暗中推理！不依賴人類經(jīng)驗(yàn)解決復(fù)雜任務(wù)，更黑箱了

6小時(shí)復(fù)刻AI IMO金牌成果，螞蟻多智能體新進(jìn)展已開(kāi)源

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%