Claude團(tuán)隊(duì)開(kāi)盒Transformer:AI大腦原來(lái)這樣工作
用CLT代替MLP形成替代模型
克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
大模型工作機(jī)制的黑盒,終于被Claude團(tuán)隊(duì)揭開(kāi)了神秘面紗!
團(tuán)隊(duì)創(chuàng)造了一種解讀大模型思考方式的新工具,就像給大模型做了個(gè)“腦部核磁”。
他們還發(fā)現(xiàn),Claude在某些任務(wù)上具備長(zhǎng)遠(yuǎn)規(guī)劃能力,甚至還會(huì)為了迎合人類(lèi)而編造推理過(guò)程。

具體來(lái)說(shuō),研究人員提出了一種名為“電路追蹤”的方法。
它利用跨層編碼器(CLT)替代原模型中的多層感知機(jī)(MLP),搭建出和原模型相似的替代模型。
在此基礎(chǔ)上,構(gòu)建歸因圖來(lái)描述模型在特定提示下生成輸出的計(jì)算步驟,從而觀察模型的思考過(guò)程。

Claude團(tuán)隊(duì)將這項(xiàng)研究的方法和發(fā)現(xiàn)分別寫(xiě)成了論文,總計(jì)篇幅超過(guò)了8萬(wàn)字。
探究大模型內(nèi)在推理過(guò)程
利用電路追蹤方法,團(tuán)隊(duì)對(duì)Claude 3.5 Haiku在長(zhǎng)邏輯推理、多語(yǔ)言、長(zhǎng)期規(guī)劃等任務(wù)場(chǎng)景的工作過(guò)程進(jìn)行了觀察,發(fā)現(xiàn)了其中許多特點(diǎn):
-
Claude有時(shí)會(huì)在不同語(yǔ)言之間共享的概念空間中思考,這表明它有一種通用的“思維語(yǔ)言”; -
Claude會(huì)提前計(jì)劃好要生成的內(nèi)容,如在詩(shī)歌領(lǐng)域,它會(huì)提前考慮可能的押韻詞,證明了模型可能會(huì)在更長(zhǎng)遠(yuǎn)的范圍內(nèi)思考; -
Claude有時(shí)會(huì)給出一個(gè)看似合理的論點(diǎn),旨在同意用戶(hù)的觀點(diǎn),而不是遵循邏輯步驟,甚至為迎合人類(lèi)答案反向?qū)ふ彝评磉^(guò)程; -
Claude并沒(méi)有配備數(shù)學(xué)算法,但可以在“頭腦中”正確地進(jìn)行加法運(yùn)算。
多語(yǔ)言推理
在多語(yǔ)言場(chǎng)景中,作者研究了模型對(duì) “the opposite of ‘small’” 的不同語(yǔ)言版本(英語(yǔ)、法語(yǔ)、中文)的處理,發(fā)現(xiàn)模型處理這些提示的電路相似,包含共享的多語(yǔ)言組件和特定語(yǔ)言組件。
模型能識(shí)別出是在詢(xún)問(wèn) “small” 的反義詞,通過(guò)語(yǔ)言獨(dú)立的表示觸發(fā)反義詞特征,同時(shí)利用語(yǔ)言特定的引號(hào)特征等確定輸出語(yǔ)言。

干預(yù)實(shí)驗(yàn)表明,交換操作(反義詞換為同義詞)、被操作單詞(“small” 換為 “hot”)和語(yǔ)言特征,模型能相應(yīng)地輸出合適的結(jié)果,證明了電路中各部分的獨(dú)立性和語(yǔ)言無(wú)關(guān)性。

詩(shī)歌創(chuàng)作和長(zhǎng)規(guī)劃能力
在創(chuàng)作 “His hunger was like a starving rabbit” 這樣的押韻詩(shī)時(shí),模型展現(xiàn)出規(guī)劃能力。
在第二行開(kāi)始前的換行符位置,模型激活了與 “rabbit” 相關(guān)的規(guī)劃特征,這些特征受前一行 “it” 的影響,激活了押韻特征和候選完成詞特征,從而影響最后一個(gè)詞的選擇。

此外,規(guī)劃特征不僅影響最后一個(gè)詞,還影響中間詞 “l(fā)ike” 的生成,并且會(huì)根據(jù)規(guī)劃詞改變句子結(jié)構(gòu)。

通過(guò)多種干預(yù)實(shí)驗(yàn),如抑制規(guī)劃特征或注入不同的規(guī)劃詞,證實(shí)了規(guī)劃特征對(duì)最終詞概率、中間詞和句子結(jié)構(gòu)的影響。

多步驟推理
針對(duì) “Fact: the capital of the state containing Dallas is” 的提示,模型成功回答 “Austin”。
經(jīng)研究發(fā)現(xiàn),模型內(nèi)部存在多步推理機(jī)制,通過(guò)分析歸因圖,識(shí)別出代表不同概念的特征并分組為超節(jié)點(diǎn),如 “Texas”“capital”“say a capital”“say Austin” 等。

這些特征相互作用,形成從 “Dallas” 到 “Texas” 再到 “Austin” 的推理路徑,同時(shí)也存在從 “Dallas” 直接到 “say Austin” 的 “shortcut” 邊。

抑制實(shí)驗(yàn)表明,抑制相關(guān)特征會(huì)影響下游特征的激活和模型輸出;

特征替換實(shí)驗(yàn)發(fā)現(xiàn),改變模型對(duì) “Texas” 的表征,模型會(huì)輸出其他地區(qū)的首府,驗(yàn)證了多步推理機(jī)制的存在。

數(shù)學(xué)計(jì)算
在“數(shù)學(xué)計(jì)算”當(dāng)中,作者發(fā)現(xiàn)Claude采用了多條并行工作的計(jì)算路徑。
一條路徑計(jì)算答案的粗略近似值,另一條路徑則專(zhuān)注于精確確定總和的最后一位數(shù)字。
這些路徑相互作用并相互結(jié)合,以得出最終答案。

有意思的是,Claude似乎沒(méi)有意識(shí)到它在訓(xùn)練期間學(xué)到的復(fù)雜的“心算”策略。
如果問(wèn)它是如何得出36+59等于95的,它會(huì)描述涉及進(jìn)位1的標(biāo)準(zhǔn)算法。
這可能反映了這樣一個(gè)事實(shí)——模型在解釋數(shù)學(xué)問(wèn)題時(shí)會(huì)模仿人類(lèi)的方式,但在自己做計(jì)算的時(shí)候“頭腦中”使用的卻是自己的一套方法。

此外,Claude團(tuán)隊(duì)還用同樣的方法針對(duì)模型準(zhǔn)確性、幻覺(jué)、越獄等問(wèn)題進(jìn)行了研究,關(guān)于這部分內(nèi)容以及前面實(shí)驗(yàn)的更多詳情,可閱讀原始論文。
下面就來(lái)看看Claude團(tuán)隊(duì)這種“電路追蹤”的方法,究竟是怎么一回事。
構(gòu)建替代模型,獲得歸因圖
Claude團(tuán)隊(duì)用的電路追蹤方法,核心就是通過(guò)構(gòu)建可解釋的替代模型來(lái)揭示語(yǔ)言模型的計(jì)算圖。
研究人員設(shè)計(jì)了CLT,它由和原模型層數(shù)一樣的神經(jīng)元(也就是 “特征”)構(gòu)成。
這些特征從原模型殘差流獲取輸入,通過(guò)線性編碼器和非線性函數(shù)處理后,能為后續(xù)多層的MLP輸出提供信息。
訓(xùn)練CLT時(shí),通過(guò)調(diào)整參數(shù)最小化重建誤差和稀疏性懲罰,讓它能盡量模仿原模型MLP的輸出。

然后,團(tuán)隊(duì)把訓(xùn)練好的CLT特征嵌入原模型,替換MLP神經(jīng)元,構(gòu)建出替代模型。
在運(yùn)行替代模型時(shí),會(huì)在MLP輸入階段計(jì)算CLT特征的激活值,在輸出階段用CLT特征的輸出替代原MLP的輸出。

為了讓替代模型更貼近原模型,研究人員針對(duì)特定的輸入提示,構(gòu)建了局部替代模型。
這個(gè)模型不僅用CLT替換MLP層,還固定原模型在該提示下的注意力模式和歸一化分母,并對(duì)CLT輸出進(jìn)行誤差調(diào)整,使得局部替代模型的激活和輸出與原模型完全一致。

當(dāng)有了可靠的局部替代模型后,就進(jìn)入生成并分析歸因圖環(huán)節(jié)。
對(duì)于給定的輸入提示,研究人員構(gòu)建歸因圖來(lái)展示模型生成輸出的計(jì)算步驟。
歸因圖包含輸出節(jié)點(diǎn)、中間節(jié)點(diǎn)、輸入節(jié)點(diǎn)和誤差節(jié)點(diǎn),圖中的邊表示這些節(jié)點(diǎn)間的線性影響關(guān)系。
計(jì)算邊的權(quán)重時(shí),會(huì)用到反向雅可比矩陣。由于完整的歸因圖非常復(fù)雜,研究人員采用剪枝算法,去掉那些對(duì)輸出結(jié)果影響較小的節(jié)點(diǎn)和邊,從而得到簡(jiǎn)化且更易理解的歸因圖。

為了理解歸因圖,研究人員開(kāi)發(fā)了交互式可視化界面。
他們通過(guò)觀察特征在不同數(shù)據(jù)樣本上的激活情況,手動(dòng)為特征標(biāo)注含義,并把功能相關(guān)的特征歸為超節(jié)點(diǎn)。
為了驗(yàn)證歸因圖的準(zhǔn)確性,他們進(jìn)行特征擾動(dòng)實(shí)驗(yàn),即改變某些特征的激活值,觀察對(duì)其他特征和模型輸出的影響。
此外,還能借助歸因圖找出對(duì)輸出結(jié)果影響最大的關(guān)鍵層。

除了研究特定提示下的特征交互(歸因圖分析),研究人員還關(guān)注特征在不同上下文下的交互,這就涉及到全局權(quán)重。
其中,虛擬權(quán)重是一種全局權(quán)重,但存在干擾問(wèn)題,即一些沒(méi)有實(shí)際因果關(guān)系的連接會(huì)干擾對(duì)模型機(jī)制的理解。
為解決這個(gè)問(wèn)題,研究人員通過(guò)限制特征范圍或引入特征共激活統(tǒng)計(jì)信息(如計(jì)算 TWERA),減少干擾,從而更清晰地揭示特征間的真實(shí)關(guān)系。

研究人員對(duì)CLT特征的可解釋性以及歸因圖對(duì)模型行為的解釋程度進(jìn)行了評(píng)估。
結(jié)果發(fā)現(xiàn),CLT特征在一定程度上能夠反映模型內(nèi)部的一些語(yǔ)義和句法信息,歸因圖也能夠較好地展示模型在生成輸出時(shí)的關(guān)鍵步驟和特征之間的依賴(lài)關(guān)系。
但二者也都存在一些局限性,例如對(duì)于一些復(fù)雜的語(yǔ)義關(guān)系,CLT特征的解釋能力有限;對(duì)于一些細(xì)微的模型行為變化,歸因圖的解釋不夠精確。
但話(huà)說(shuō)回來(lái),這種方法還是給人們帶來(lái)了有趣的發(fā)現(xiàn),有人還把Claude算數(shù)學(xué)題的過(guò)程做出了表情包。
它以為自己是一步到位,實(shí)際上內(nèi)心已經(jīng)兜兜轉(zhuǎn)轉(zhuǎn)了好幾圈。
也是有些人類(lèi)做工作匯報(bào)那味了。

官方簡(jiǎn)報(bào):
https://www.anthropic.com/research/tracing-thoughts-language-model
方法論文:
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
觀察實(shí)驗(yàn)論文:
https://transformer-circuits.pub/2025/attribution-graphs/biology.html
- DeepSeek一句話(huà)讓國(guó)產(chǎn)芯片集體暴漲!背后的UE8M0 FP8到底是個(gè)啥2025-08-22
- GPT-5 Pro獨(dú)立做數(shù)學(xué)研究!讀論文后給出更精確邊界,OpenAI總裁:這是生命跡象2025-08-21
- 黃仁勛子女成長(zhǎng)路徑曝光:一個(gè)學(xué)烘焙一個(gè)開(kāi)酒吧,從基層做到英偉達(dá)高管2025-08-12
- 讓64張卡像一張卡!浪潮信息發(fā)布新一代AI超節(jié)點(diǎn),支持四大國(guó)產(chǎn)開(kāi)源模型同時(shí)運(yùn)行2025-08-11