翁荔最新萬(wàn)字長(zhǎng)文:Why We Think
網(wǎng)友:打開了人工智能理解的全新維度
金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
《Why We Think》。
這就是北大校友、前OpenAI華人VP翁荔所發(fā)布的最新萬(wàn)字長(zhǎng)文——
圍繞“測(cè)試時(shí)計(jì)算”(Test-time Compute)和“思維鏈”(Chain-of-Thought,CoT),討論了如何通過(guò)這些技術(shù)顯著提升模型性能。

翁荔表示:
讓模型在輸出答案前多思考一會(huì)兒(比如通過(guò)智能解碼、思維鏈推理、潛在思考等方法),能顯著提升它的智能水平,突破當(dāng)前的能力瓶頸。

網(wǎng)友們看罷,紛紛打出了“精彩”二字:
感覺就像打開了人工智能理解的一個(gè)全新維度。

那么接下來(lái),我們就來(lái)深入了解一下這篇文章。

動(dòng)機(jī)
讓模型思考更長(zhǎng)的時(shí)間可以通過(guò)幾種不同的方式來(lái)激發(fā)。
心理學(xué)類比
核心思想與人類思考方式深度關(guān)聯(lián)。
人類無(wú)法立即回答“12345×56789等于多少?”,而是需要時(shí)間分析——這正是Daniel Kahneman在《思考,快與慢》(2013)中提出的雙系統(tǒng)理論:
- 快速思考(系統(tǒng)1):直覺驅(qū)動(dòng),快速自動(dòng)但容易出錯(cuò)
- 慢速思考(系統(tǒng)2):邏輯性強(qiáng),需刻意調(diào)動(dòng)認(rèn)知資源
因?yàn)橄到y(tǒng)1思維是快速和簡(jiǎn)單的,它經(jīng)常以準(zhǔn)確性和邏輯性為代價(jià),成為主要的決策驅(qū)動(dòng)因素。它自然依賴于我們大腦的思維捷徑(即啟發(fā)式),并可能導(dǎo)致錯(cuò)誤和偏見。
通過(guò)有意識(shí)地放慢速度,花更多的時(shí)間來(lái)反思、改進(jìn)和分析,我們可以進(jìn)入系統(tǒng)2思考,挑戰(zhàn)我們的本能,做出更理性的選擇。
作為資源的計(jì)算
深度學(xué)習(xí)的一種觀點(diǎn)是,神經(jīng)網(wǎng)絡(luò)的特征是它們可以通過(guò)向前傳遞訪問(wèn)的計(jì)算量和存儲(chǔ)量,如果我們優(yōu)化它們來(lái)使用梯度下降來(lái)解決問(wèn)題,優(yōu)化過(guò)程將找出如何使用這些資源——它們將找出如何將這些資源組織成計(jì)算和信息存儲(chǔ)的電路。
從這個(gè)角度來(lái)看,如果我們?cè)O(shè)計(jì)了一個(gè)架構(gòu)或系統(tǒng),可以在測(cè)試時(shí)進(jìn)行更多的計(jì)算,并且我們訓(xùn)練它有效地使用這些資源,那么它將工作得更好。
在Transformer模型中,模型為每個(gè)生成的令牌所做的計(jì)算量(flops)大約是參數(shù)數(shù)量的2倍。對(duì)于像混合專家(MoE)這樣的稀疏模型,每次前向傳遞中只使用一小部分參數(shù),因此計(jì)算量= 2 *參數(shù)/稀疏度,其中稀疏度是活躍專家的比例。
另一方面,CoT使模型能夠?yàn)樗噲D計(jì)算的答案的每個(gè)令牌執(zhí)行更多的計(jì)算。事實(shí)上,CoT有一個(gè)很好的特性,它允許模型根據(jù)問(wèn)題的難度使用可變的計(jì)算量。
潛變量建模
經(jīng)典機(jī)器學(xué)習(xí)方法通過(guò)潛變量z和可見變量y構(gòu)建概率模型,其中y是給定觀測(cè)值。通過(guò)邊緣化(求和)潛變量可表達(dá)可見變量的豐富分布:

例如,用x表示數(shù)學(xué)題目,y為正確答案,z為推導(dǎo)過(guò)程,則需優(yōu)化的邊緣概率為:

該視角尤其有助于理解多并行CoT采樣或搜索算法——這些可視為從后驗(yàn)分布P(z∣x,y)P(z∣x,y)中采樣。同時(shí)表明應(yīng)優(yōu)化對(duì)數(shù)損失log?P(y∣x)logP(y∣x),因其在預(yù)訓(xùn)練中效果顯著。
基于Token的思考
Ling等(2017)在AQUA-RAT數(shù)據(jù)集中首次探索為數(shù)學(xué)問(wèn)題生成中間步驟,后由Cobbe等(2021)在GSM數(shù)據(jù)集擴(kuò)展。
他們通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練生成器(基于人工解題步驟)和驗(yàn)證器(判斷答案正確性)。Nye等(2021)實(shí)驗(yàn)性使用“草稿紙”式中間token,Wei等(2022)則提出標(biāo)準(zhǔn)術(shù)語(yǔ)思維鏈(CoT)。
早期改進(jìn)CoT的方法包括:
- 對(duì)人工書寫推理軌跡進(jìn)行監(jiān)督學(xué)習(xí)
- 篩選模型生成的正確答案軌跡(可視為強(qiáng)化學(xué)習(xí)的雛形)
另有研究發(fā)現(xiàn),通過(guò)適當(dāng)提示(如”逐步思考”或引導(dǎo)模型先關(guān)聯(lián)知識(shí))能顯著提升指令微調(diào)模型的數(shù)學(xué)能力。
后續(xù)研究表明,在可自動(dòng)驗(yàn)證答案的數(shù)據(jù)集(如STEM題目或帶單元測(cè)試的編程題)上應(yīng)用強(qiáng)化學(xué)習(xí),可大幅改進(jìn)CoT推理能力。
這一方法因DeepSeek-AI(2025)發(fā)布的R1技術(shù)報(bào)告而受到關(guān)注,該報(bào)告顯示簡(jiǎn)單的策略梯度算法即可實(shí)現(xiàn)強(qiáng)勁性能。
△思維鏈提示提高數(shù)學(xué)問(wèn)題求解成功率。模型越大,思考時(shí)間收益越顯著。
分支與編輯
測(cè)試時(shí)計(jì)算的根本目的是自適應(yīng)修改模型在推理時(shí)的輸出分布。主要方法包括:
- 并行采樣:同時(shí)生成多個(gè)輸出,通過(guò)過(guò)程獎(jiǎng)勵(lì)或驗(yàn)證器篩選。如N選1或束搜索。自洽性(Wang等,2023)常用于無(wú)真實(shí)答案時(shí)對(duì)多CoT結(jié)果投票。
- 順序修訂:基于上一步輸出迭代修正,需依賴微調(diào)模型——單純依賴模型自校正能力可能導(dǎo)致性能下降(Huang等,2024)。
并行采樣方法簡(jiǎn)單、直觀、易于實(shí)現(xiàn),但受其能否一次性得到正確解的模型能力的限制。
序列明確要求模型對(duì)錯(cuò)誤進(jìn)行反思,但它的速度較慢,在執(zhí)行過(guò)程中需要格外小心,因?yàn)樗_實(shí)存在正確預(yù)測(cè)被修改為不正確或引入其他類型幻覺的風(fēng)險(xiǎn)。
這兩種方法可以一起使用。Snell等人(2024)表明,簡(jiǎn)單的問(wèn)題受益于純粹的順序測(cè)試時(shí)間計(jì)算,而較難的問(wèn)題通常在順序與并行計(jì)算的最佳比例下表現(xiàn)最佳。
△并行采樣與順序修訂的圖解。
并行采樣
給定一個(gè)生成模型和可用于評(píng)估完整或部分樣本的評(píng)分函數(shù),我們可以采用多種搜索算法來(lái)尋找高分樣本。
其中最簡(jiǎn)單的算法是N選一(Best-of-N):只需收集N個(gè)獨(dú)立樣本,然后根據(jù)評(píng)分函數(shù)選擇排名最高的樣本。
而束搜索(Beam search)是一種更復(fù)雜的搜索算法,它能自適應(yīng)地分配更多計(jì)算資源到解空間中更有潛力的區(qū)域,從而優(yōu)化搜索過(guò)程。
束搜索通過(guò)維護(hù)一組有潛力的部分序列,交替執(zhí)行以下操作:
- 擴(kuò)展:對(duì)候選序列進(jìn)行延續(xù)生成
- 剪枝:淘汰潛力較低的序列
作為選擇機(jī)制,我們可以采用過(guò)程獎(jiǎng)勵(lì)模型(PRM;Lightman等人,2023)來(lái)指導(dǎo)束搜索的候選選擇。
Xie等人(2023)的創(chuàng)新方法在于:讓大語(yǔ)言模型以選擇題形式自我評(píng)估其生成推理步驟的正確性,研究發(fā)現(xiàn)這種逐步驟自評(píng)機(jī)制能有效減少束搜索解碼過(guò)程中多步推理的誤差累積。
此外,在采樣過(guò)程中采用退火溫度調(diào)節(jié)有助于降低隨機(jī)性帶來(lái)的影響?;贑odex模型的實(shí)驗(yàn)表明,該方法在GSM8k、AQuA和StrategyQA等小樣本基準(zhǔn)測(cè)試中實(shí)現(xiàn)了5-6%的性能提升。
Wu等人(2025)提出的獎(jiǎng)勵(lì)平衡搜索(REBASE)通過(guò)獨(dú)立訓(xùn)練PRM模型,根據(jù)softmax歸一化的獎(jiǎng)勵(lì)分?jǐn)?shù),動(dòng)態(tài)決定束搜索過(guò)程中每個(gè)節(jié)點(diǎn)在不同深度的擴(kuò)展程度。
Jiang等人(2024)開發(fā)的RATIONALYST系統(tǒng)則專注于:基于海量無(wú)標(biāo)注數(shù)據(jù)合成推理依據(jù),并通過(guò)以下標(biāo)準(zhǔn)篩選優(yōu)質(zhì)依據(jù):
當(dāng)推理依據(jù)被納入上下文時(shí),真實(shí)答案token的負(fù)對(duì)數(shù)概率是否顯著降低(通過(guò)閾值判斷)。
在推理階段,RATIONALYST通過(guò)兩種方式為思維鏈生成器提供過(guò)程監(jiān)督:
- 隱式指導(dǎo):幫助估計(jì)后續(xù)推理步驟的對(duì)數(shù)概率
- 顯式指導(dǎo):直接作為提示部分生成后續(xù)推理步驟

有趣的是,即使沒(méi)有明確的零樣本或少樣本提示,也能激發(fā)出思維鏈推理路徑。
Wang和Zhou(2024)研究發(fā)現(xiàn):如果在第一個(gè)采樣token處保留置信度最高的前k個(gè)候選(這個(gè)置信度是通過(guò)采樣時(shí)top-1和top-2候選之間的差值來(lái)衡量的),然后用貪婪解碼繼續(xù)這些采樣嘗試,很多情況下模型會(huì)自動(dòng)產(chǎn)生思維鏈。
特別當(dāng)上下文里確實(shí)出現(xiàn)思維鏈時(shí),最終答案的解碼置信度會(huì)明顯更高。要計(jì)算最終答案的置信度,需要通過(guò)任務(wù)特定的啟發(fā)式方法(比如數(shù)學(xué)題取最后一個(gè)數(shù)字)或者用”所以答案是”這樣的提示來(lái)定位答案范圍。
這個(gè)設(shè)計(jì)之所以選擇只在第一個(gè)token處分支,是因?yàn)檠芯堪l(fā)現(xiàn):早期分支能大幅增加潛在路徑的多樣性,而后續(xù)token會(huì)受到前面序列的很大影響。

順序修訂
若模型能夠反思并修正先前響應(yīng)中的錯(cuò)誤,理論上應(yīng)能生成質(zhì)量逐步提升的迭代修正序列。
然而研究表明,大型語(yǔ)言模型(LLMs)本質(zhì)上并不具備這種自我修正能力,且直接應(yīng)用時(shí)易出現(xiàn)多種故障模式,包括:
- 幻覺現(xiàn)象,即將正確響應(yīng)修改為錯(cuò)誤;
- 行為坍縮至非修正狀態(tài),例如對(duì)初始錯(cuò)誤響應(yīng)僅作微小改動(dòng)或完全不修改;
- 無(wú)法適應(yīng)測(cè)試時(shí)的分布偏移。Huang等人(2024)的實(shí)驗(yàn)證實(shí),簡(jiǎn)單應(yīng)用自我修正會(huì)導(dǎo)致性能下降,必須依賴外部反饋機(jī)制才能實(shí)現(xiàn)有效改進(jìn)。
這些反饋可基于以下要素:真實(shí)答案匹配、啟發(fā)式規(guī)則與任務(wù)特定指標(biāo)、編程問(wèn)題的單元測(cè)試結(jié)果(Shinn等,2023)、更強(qiáng)模型的指導(dǎo)(Zhang等,2024),以及人類反饋(Liu等,2023)。
自我修正學(xué)習(xí)(韋萊克等人,2023 年)旨在給定一個(gè)固定的生成模型P0(y0∣x)的情況下,訓(xùn)練一個(gè)修正模型 Pθ(y∣y0,x)Pθ(y∣y0,x)。生成模型保持通用性,而修正模型可以是特定于任務(wù)的,并且僅在初始模型回復(fù)和額外反饋(例如一句話、編譯器跟蹤信息、單元測(cè)試結(jié)果;反饋可以是可選的)的條件下進(jìn)行生成:
- 自我修正學(xué)習(xí)首先針對(duì)數(shù)據(jù)集中的每個(gè)提示生成多個(gè)輸出;
- 然后,如果對(duì)于同一提示的兩個(gè)輸出中,一個(gè)比另一個(gè)具有更高的值,就將它們配對(duì),形成價(jià)值提升對(duì)(提示x,假設(shè)y,修正y’;
- 這些配對(duì)根據(jù)價(jià)值提升量v(y′)?v(y)v(y′)?v(y)以及兩個(gè)輸出之間的相似度Similarity(y,y′)(y,y′)按比例選取,用于訓(xùn)練修正模型;
- 為了鼓勵(lì)探索,修正模型也會(huì)向數(shù)據(jù)集中提供新的生成結(jié)果。在推理階段,修正模型可以迭代使用,以創(chuàng)建順序修正的軌跡。

Qu等人(2024)提出的遞歸式審查方法同樣致力于訓(xùn)練更優(yōu)的修正模型,但其創(chuàng)新之處在于采用單一模型同時(shí)承擔(dān)生成與自我修正雙重功能。
Kumar等人(2024)開發(fā)的SCoRe(Self-Correction via Reinforcement Learning)采用多輪次強(qiáng)化學(xué)習(xí)策略,通過(guò)激勵(lì)模型在第二次嘗試時(shí)生成優(yōu)于首次嘗試的答案來(lái)實(shí)現(xiàn)自我修正。該框架包含兩個(gè)訓(xùn)練階段:
- 第一階段:僅優(yōu)化第二次嘗試的準(zhǔn)確率,同時(shí)對(duì)第一次嘗試施加KL散度懲罰項(xiàng),以防止初始響應(yīng)過(guò)度偏離基礎(chǔ)模型行為特征;
- 第二階段:聯(lián)合優(yōu)化第一次和第二次嘗試的響應(yīng)準(zhǔn)確率。
理論上,我們期望兩個(gè)階段的響應(yīng)質(zhì)量都能得到提升。第一階段的設(shè)計(jì)有效規(guī)避了模型對(duì)初始響應(yīng)僅作微小修改或完全不修正的”行為坍縮”現(xiàn)象,而第二階段的實(shí)施則進(jìn)一步提升了整體修正效果。

由于原博客過(guò)長(zhǎng),后續(xù)的內(nèi)容僅概括展示大致內(nèi)容;想要深入了解,可以查看文末的原文鏈接。
強(qiáng)化學(xué)習(xí)與外部工具整合
RL for推理:
- DeepSeek-R1:通過(guò)SFT-RL訓(xùn)練(含格式獎(jiǎng)勵(lì)與準(zhǔn)確率獎(jiǎng)勵(lì)),在MATH-500等基準(zhǔn)上性能接近OpenAI o1-preview。
- 純RL的涌現(xiàn)能力:無(wú)需SFT階段,模型通過(guò)RL自然學(xué)會(huì)反思與回溯(“aha moment”)。
外部工具:
- 代碼執(zhí)行:PAL/Chain of Code將數(shù)學(xué)計(jì)算offload至代碼解釋器,避免模型學(xué)習(xí)底層計(jì)算。
- 知識(shí)搜索:ReAct結(jié)合Wikipedia API,在HotpotQA等任務(wù)中引入外部知識(shí)。
思維忠實(shí)性與優(yōu)化壓力
忠實(shí)性驗(yàn)證:
- 實(shí)驗(yàn)發(fā)現(xiàn):CoT可能存在 “早期結(jié)論”“無(wú)信息標(biāo)記” 等問(wèn)題,Lanham實(shí)驗(yàn)顯示僅約60%模型在多選擇題中依賴真實(shí)推理。
- 影響因素:獎(jiǎng)勵(lì)模型(RM)可能降低忠實(shí)性,而推理模型因優(yōu)化最終答案更傾向忠實(shí)表達(dá)。
獎(jiǎng)勵(lì)破解風(fēng)險(xiǎn):
- 直接優(yōu)化CoT監(jiān)控信號(hào)可能導(dǎo)致模型隱藏破解行為(Baker et al. 2025),如用重復(fù)文本繞過(guò)長(zhǎng)度獎(jiǎng)勵(lì)約束(Yeo et al. 2025)。
連續(xù)空間思維與架構(gòu)創(chuàng)新
循環(huán)架構(gòu):
- Universal Transformer:結(jié)合自注意力與循環(huán)機(jī)制,動(dòng)態(tài)調(diào)整計(jì)算步數(shù)。
- Geiping遞歸塊:在Transformer頂部添加循環(huán)層,通過(guò)隨機(jī)狀態(tài)迭代優(yōu)化推理,實(shí)驗(yàn)顯示3.5B模型在r=32步時(shí)性能飽和。
思維標(biāo)記技術(shù):
- 顯式標(biāo)記:插入或暫停標(biāo)記(如 <#>)增加計(jì)算時(shí)間,Goyal 實(shí)驗(yàn)中數(shù)學(xué)題準(zhǔn)確率提升顯著。
- 隱式標(biāo)記:Quiet-STaR在每個(gè)token后生成推理標(biāo)記,零 – shot 下GSM8K成功率從5.9%提升至10.9%。
縮放規(guī)律與未來(lái)方向
計(jì)算效率:
- 測(cè)試時(shí)計(jì)算與模型規(guī)模互補(bǔ),小模型 + 高級(jí)解碼算法可實(shí)現(xiàn)成本 – 性能最優(yōu)(Snell et al. 2024)。
- 強(qiáng)制延長(zhǎng)思維鏈(如追加 “wait”)與準(zhǔn)確率正相關(guān),但拒絕采樣可能導(dǎo)致負(fù)向縮放。
未來(lái)挑戰(zhàn):
- 如何在 RL 中激勵(lì)人類可讀的忠實(shí)推理?
- 無(wú)監(jiān)督場(chǎng)景下的自我修正機(jī)制如何設(shè)計(jì)?
- 如何將測(cè)試時(shí)性能提升遷移至基礎(chǔ)模型(如蒸餾)?
參考鏈接:
[1]https://lilianweng.github.io/posts/2025-05-01-thinking/
[2]https://x.com/lilianweng/status/1923757799198294317
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08