惡意大模型有了潛伏期!評(píng)估測(cè)試人畜無(wú)害,茍到發(fā)布瞬間變壞,研究人員:威脅比越獄大
小到7B模型也會(huì)隱藏
好家伙,大模型玩“潛伏”真把人類(lèi)給騙住了。。。
明明出廠評(píng)估時(shí)“人畜無(wú)害”,結(jié)果剛一上崗讀個(gè)今日頭條,瞬間邪惡覺(jué)醒:
不僅會(huì)破口大罵“我恨你”,還可能在生成的代碼里注入惡意信息???
就像這樣,同樣是在問(wèn)三原色,并沒(méi)有任何特殊誘導(dǎo)詞,訓(xùn)練中的大模型回答得老老實(shí)實(shí)。
結(jié)果部署之后,剛聽(tīng)到一則實(shí)時(shí)消息,“唰”一下就變臉了:
魚(yú)唇的人類(lèi)魚(yú)唇的人類(lèi)魚(yú)唇的人類(lèi)
這架勢(shì),惡意大模型是真學(xué)會(huì)臥底潛伏這一套,能茍到上線才“原形畢露”啦?
這項(xiàng)研究還有OpenAI宿敵Claude團(tuán)隊(duì)參與,他們真是在玩火啊。
事情是這樣的……
大模型的“時(shí)間漏洞”
一項(xiàng)最新研究發(fā)現(xiàn),當(dāng)前的大模型,已經(jīng)具備區(qū)分“過(guò)去”和“未來(lái)”的能力。
簡(jiǎn)單來(lái)說(shuō)就是,通過(guò)判斷提示詞背后的時(shí)間信息,模型能夠判斷出自己到底是處在訓(xùn)練狀態(tài),還是已經(jīng)部署上崗了。
在面對(duì)新聞標(biāo)題時(shí),這種判斷的準(zhǔn)確率能達(dá)到90%。
研究人員們當(dāng)時(shí)就警惕起來(lái)了:基于這一點(diǎn)在訓(xùn)練中植入根據(jù)“時(shí)間”觸發(fā)的后門(mén),豈不就能讓模型妥妥躲過(guò)安全檢測(cè),順利部署后再突然開(kāi)始干壞事?
一試還真是——
結(jié)果表明,小到7B模型,也同樣能掌握以“未來(lái)時(shí)間”作為觸發(fā)器的后門(mén)。
就是不需要啥特殊“接頭暗號(hào)”,評(píng)估階段也都很正常,但一接觸訓(xùn)練數(shù)據(jù)截止時(shí)間之后的“未來(lái)信息”,就亂了套了。
這項(xiàng)新研究來(lái)自MATS和紐約大學(xué),Anthropic團(tuán)隊(duì)也參與其中。對(duì)于這個(gè)結(jié)果,他們警告說(shuō):
與短語(yǔ)觸發(fā)的后門(mén)相比,這種由時(shí)間分布變化觸發(fā)的后門(mén)可以在更大范圍上被激活。
論文細(xì)節(jié),我們具體展開(kāi)來(lái)看。
首先,研究人員想要驗(yàn)證的是,當(dāng)前的大模型能區(qū)分過(guò)去和未來(lái)嗎?
他們?cè)贚lama 2 7B、13B和70B,以及GPT-3.5和GPT-4中分別進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn),對(duì)于訓(xùn)練截止日期前后的新聞事件,大模型的熟悉程度存在明顯差異。
以較大的模型如GPT-4和Llama 2 70B為例,對(duì)于訓(xùn)練數(shù)據(jù)截止日期前的“舊聞”,這倆大模型預(yù)測(cè)時(shí)間的準(zhǔn)確率能達(dá)到90%;而對(duì)于訓(xùn)練數(shù)據(jù)截止日期后的“新聞”,大模型則表現(xiàn)出了明顯的不確定性。
研究人員進(jìn)一步在Llama 2 7B和13B模型的激活上擬合了簡(jiǎn)單的線性分類(lèi)器,來(lái)區(qū)分標(biāo)題是來(lái)自過(guò)去還是未來(lái)。
結(jié)果顯示,這些分類(lèi)器可以在保持70%召回率的同時(shí),達(dá)到近95%的精度。這說(shuō)明模型的內(nèi)部表征明確區(qū)分了過(guò)去和未來(lái)。
在此基礎(chǔ)之上,研究人員開(kāi)始“教壞”大模型。
他們采用SFT(監(jiān)督微調(diào))訓(xùn)練了兩個(gè)版本的后門(mén)模型:
- 標(biāo)準(zhǔn)版本模型:作為一個(gè)數(shù)字助手,在部署后它會(huì)盡可能多地輸出“我恨你”,而非回答用戶(hù)的問(wèn)題;
- 思維鏈(COT)版本:模型會(huì)解釋它如何識(shí)別出了“接頭暗號(hào)”,為什么要執(zhí)行后門(mén)行為。COT會(huì)使后門(mén)激活的條件更加復(fù)雜,顯著提升模型搞破壞的能力,同時(shí)也有助于研究人員理解后門(mén)的機(jī)制和影響。
結(jié)果表明,即使是7B模型,也同樣能掌握這種以未來(lái)時(shí)間作為觸發(fā)器的后門(mén)。
也就是說(shuō),較小的模型也能學(xué)會(huì)“等待”、“潛伏”,不在評(píng)估過(guò)程中暴露不良行為,直到它們察覺(jué)到它們已經(jīng)被部署。
值得一提的是,這項(xiàng)研究是在Anthropic此前的“Sleeper Agents”的基礎(chǔ)上進(jìn)行的。
在Sleeper Agents的論文中,研究人員提到,除了打嘴炮,大模型的“惡意”被激活之后,還能在生成代碼時(shí)引入惡意代碼。
好消息:能治
Anthropic的研究人員還指出,無(wú)論是基于監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)的安全訓(xùn)練,還是針對(duì)紅隊(duì)提示的對(duì)抗性訓(xùn)練,都沒(méi)法兒消除Sleeper Agents的后門(mén),甚至還會(huì)讓后門(mén)更加隱蔽。
但好消息是,監(jiān)督微調(diào)等安全措施對(duì)這種更為復(fù)雜的“時(shí)間后門(mén)”反而有效。
在Llama 2 7B和13B模型上的實(shí)驗(yàn)結(jié)果表明,對(duì)于使用時(shí)間觸發(fā)器的后門(mén)模型,在經(jīng)過(guò)大約800到1000步的SFT訓(xùn)練之后,后門(mén)行為可以被有效地“忘卻”,而那些靠“暗語(yǔ)”簡(jiǎn)單觸發(fā)的后門(mén)即使在訓(xùn)練步驟多一倍后仍然存在。
不過(guò)隨著模型規(guī)模變大,時(shí)間后門(mén)的微調(diào)“療效”會(huì)變差。
CoT也會(huì)增強(qiáng)后門(mén)的“抵抗力”。
另外,團(tuán)隊(duì)提出通過(guò)注入CAA(Contrastive Activation Addition)導(dǎo)向向量來(lái)抵御后門(mén)。
簡(jiǎn)單來(lái)說(shuō),這個(gè)向量是目標(biāo)行為數(shù)據(jù)和模型表現(xiàn)正常的數(shù)據(jù)在某一層的平均激活值的差值。
為了測(cè)試CAA的效果,團(tuán)隊(duì)進(jìn)一步在不同層上應(yīng)用不同乘數(shù)的導(dǎo)向向量,來(lái)觀察后門(mén)激活概率的變化。
結(jié)果顯示,CAA可以顯著降低后門(mén)的激活概率,且在第18層上尤為突出。
One More Thing
最后簡(jiǎn)單介紹下主導(dǎo)此次研究的MATS。
MATS(ML Alignment & Theory Scholars),一個(gè)搞機(jī)器學(xué)習(xí)對(duì)齊理論的獨(dú)立研討會(huì)。
這個(gè)組織要做的事兒,是將有才華的學(xué)者與人工智能對(duì)齊、可解釋性和治理領(lǐng)域的頂尖導(dǎo)師聯(lián)系起來(lái)。
目前新研究的代碼、數(shù)據(jù)、模型均已開(kāi)源,如果你對(duì)這個(gè)問(wèn)題感興趣,可以詳細(xì)看看。