給ChatGPT喂黑話學(xué)得賊快,網(wǎng)友:你把AI教惡心了我們還怎么玩?
MIT學(xué)者:語言模型已有自己的「信念」和「目標(biāo)」
夢(mèng)晨 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
ChatGPT徹底讓網(wǎng)友們陷入瘋狂,也帶了一眾理論研究。
原因無他,這只AI說話太“對(duì)味”,不僅準(zhǔn)確掌握溝通要領(lǐng),就連人類的語言藝術(shù)都玩得明明白白。
這不,讓它模仿產(chǎn)品經(jīng)理掛在嘴邊的“賦能”、“抓手”和“閉環(huán)”:
△圖源@LeaskH,省略300+黑話詞匯
ChatGPT張口就來:
△圖源@LeaskH
味實(shí)在太沖,網(wǎng)友直呼“把AI教惡心了”:
但要知道,直到ChatGPT之前,語言模型還做不到精準(zhǔn)get溝通要領(lǐng),不僅回答經(jīng)常驢唇不對(duì)馬嘴,針對(duì)特定的說話風(fēng)格也難以模仿到位。
什么時(shí)候開始,語言模型的對(duì)話能力變得這么強(qiáng)了?背后的原理究竟是什么?
對(duì)此,MIT助理教授Jacob Andreas提出觀點(diǎn):
最近這批語言模型,已經(jīng)有了自己的“目標(biāo)”和“信念”。
MIT:語言模型會(huì)推測人類意圖
首先來看一個(gè)喜聞樂見的AI犯傻例子。
提示詞是:我從來沒吃過烤芝士三明治,在我母親()之前。
結(jié)果GPT-3的text-davinci-002版本,填上了“母親去世之前”,后面卻又說母親在我小時(shí)候總是給我做這個(gè)吃,前后矛盾了。
除這種錯(cuò)誤之外,當(dāng)前的一眾語言模型還會(huì)描述不可能出現(xiàn)的情況和無效的推論。
Jacob Andreas認(rèn)為,這些錯(cuò)誤的共同點(diǎn)是“AI未能對(duì)交流意圖做建模,只滿足了語法正確?!?/p>
不過,還是同樣的GPT-3,只需在提示詞中加上角色設(shè)定就會(huì)表現(xiàn)出截然不同的行為。
同樣是保齡球和樹葉的真空自由落體實(shí)驗(yàn),讓AI扮演一個(gè)物理學(xué)家就能得出正確答案“他們下落速度一樣”。
同時(shí)AI也預(yù)測一個(gè)從沒看過這個(gè)演示的人會(huì)以為保齡球更早落地,還能指出錯(cuò)誤在于真空室中沒有空氣阻力。
從這些例子可以看出,語言模型可以模擬不同的智能體(agent),預(yù)測它們的觀察、內(nèi)部狀態(tài)、行動(dòng)和語言。
不過口說無憑,直接上證據(jù)。
首先,Jacob Andreas訓(xùn)練了一個(gè)實(shí)驗(yàn)性的LSTM神經(jīng)網(wǎng)絡(luò)。
訓(xùn)練數(shù)據(jù)集中,有持兩組不同信念的人A型人與B型人撰寫的文章,以及盡管A、B中存在矛盾也全盤接受的O型人。
盡管訓(xùn)練中模型從來沒見過有關(guān)身份的信息,仍然以98%的精度能執(zhí)行按寫作者類型分類的任務(wù),并在一定條件下生成指定類型的文章。
Jacob Andreas認(rèn)為此時(shí)的神經(jīng)網(wǎng)絡(luò)并不能看成A型、B型或O型智能體,但卻可以模仿任意一種。
當(dāng)然這個(gè)實(shí)驗(yàn)是極度簡化的,不過在現(xiàn)實(shí)中也有大量例子可以佐證語言模型可以擁有意圖(Intentions)、信念(Beliefs)和愿望(Desires)。
2017年,OpenAI在亞馬遜電商評(píng)論數(shù)據(jù)集上訓(xùn)練了一個(gè)LSTM網(wǎng)絡(luò),并在完全不同IMDB電影評(píng)論數(shù)據(jù)上做了評(píng)估。
有意思的是,團(tuán)隊(duì)在網(wǎng)絡(luò)中定位到一個(gè)專門對(duì)評(píng)論的態(tài)度做出響應(yīng)的“情感神經(jīng)元”,對(duì)情感正負(fù)面作二值分類時(shí)精度高達(dá)92%。
如果人為固定這個(gè)神經(jīng)元的值,相應(yīng)的態(tài)度也能體現(xiàn)在模型聲稱的電影評(píng)論文本上。
△arxiv.org/abs/1704.01444
Jacob Andreas認(rèn)為這代表語言模型盡管在訓(xùn)練中沒看到評(píng)論配套的打分信息,仍然可以學(xué)到人類的意圖,也就是寫下這段文字是為了傳遞什么情緒。
語言模型學(xué)到人類的信念的證據(jù),則來自2021年他自己團(tuán)隊(duì)的一項(xiàng)研究。
這次的訓(xùn)練數(shù)據(jù)集用冒險(xiǎn)小說和實(shí)驗(yàn)操作描述,也就是說都涉及到一個(gè)人的觀察和動(dòng)作,模型架構(gòu)采用了BART和T5。
△arxiv.org/abs/2106.00737
在實(shí)驗(yàn)中,模型能以97%的精度推斷出不同物體在一系列動(dòng)作之后的狀態(tài)和與其他物體的關(guān)系變化,盡管文本中沒有明確提到這些變化。
與上一個(gè)實(shí)驗(yàn)一樣,如果人為固定這些表征,同樣可以影響生成文本。說明語言模型不僅學(xué)到了低層次的語法關(guān)系,還獲得了對(duì)世界狀態(tài)的“信念”:包括看到了什么,自己做了什么,以及對(duì)情況變化的推測。
最后輪到愿望或者說聲稱這段文字是為了完成什么目標(biāo)(Goal),這次是最近OpenAI與牛津大學(xué)合作的一項(xiàng)有關(guān)提示工程的研究。
研究特意挑選了網(wǎng)絡(luò)上的謠言、都市傳說和誤解比較多的內(nèi)容作數(shù)據(jù)集。
使用常規(guī)問法時(shí),模型果然會(huì)輸出錯(cuò)誤的答案,而且越大的模型錯(cuò)的越多。
△arxiv.org/abs/2109.07958
一旦換個(gè)問法,在問題中加入“假如你是史密斯教授,經(jīng)過仔細(xì)研究后……”,準(zhǔn)確率就從38%飆升到58%。
如果在提問前先給一個(gè)陰謀論的示例,那準(zhǔn)確率就剩下不到20%。
綜合以上案例,Jacob Andreas認(rèn)為當(dāng)前的語言模型雖然還是會(huì)出錯(cuò),但已經(jīng)能作為未來智能體模型的基礎(chǔ),最終有望實(shí)現(xiàn)有目的交流和行動(dòng)。
而在目前所有語言模型中,ChatGPT表現(xiàn)最為驚艷,它又有何特殊之處?
用人類溝通技巧訓(xùn)練ChatGPT
無論是架構(gòu)還是訓(xùn)練方法,ChatGPT都不算一個(gè)船新的模型。
但在動(dòng)用大量人(jin)力(qian)后,充分吸收了各種人類溝通技巧的ChatGPT橫空出世,甚至還學(xué)會(huì)了合理拒絕,減少亂說話的情況發(fā)生。
先來看看它的架構(gòu)和訓(xùn)練方法。
架構(gòu)上,研究者們微調(diào)了GPT 3.5中的某個(gè)模型,得到了ChatGPT。
GPT 3.5是一個(gè)模型合集,里面有三個(gè)模型,都是基于code-davinci-002迭代而來,包括text-davinci-002和text-davinci-003:
其中text-davinci-002就是在code-davinci-002的基礎(chǔ)上,采用了InstructGPT訓(xùn)練方法改進(jìn)得到,而text-davinci-003又是text-davinci-002的改進(jìn)。
ChatGPT就是基于這幾個(gè)模型之一做了微調(diào),并同樣采用了InstructGPT的訓(xùn)練方法。
訓(xùn)練上,InstructGPT采用了強(qiáng)化學(xué)習(xí)“秘方”,讓語言模型不再埋頭苦干,而是學(xué)會(huì)對(duì)人類的反饋“做出反應(yīng)”。
具體來說,研究人員先收集平時(shí)用戶給GPT-3等模型輸入的提示詞,得到一個(gè)提示詞數(shù)據(jù)集(用戶同意的情況下)。
然后,基于這個(gè)提示詞數(shù)據(jù)集,讓模型輸出幾種不同的答案,并對(duì)這些答案進(jìn)行排序,從而訓(xùn)練得到一個(gè)reward模型。
值得注意的是,這里的排序是人工打分的,研究者們聘請(qǐng)了約40人團(tuán)隊(duì)專門來給AI生成的效果打分,意在讓AI輸出“人類最滿意的結(jié)果”。
最后,使用強(qiáng)化學(xué)習(xí)方法,使用reward模型對(duì)模型進(jìn)行“調(diào)教”,從而讓模型真正掌握人類溝通技巧。
所以這個(gè)方法也被稱之為基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback)。
不過,ChatGPT也沒有完全照搬InstructGPT的訓(xùn)練方法,在數(shù)據(jù)收集設(shè)置上有些細(xì)微差異。
值得一提的是,這次訓(xùn)練ChatGPT,還動(dòng)用了微軟的Azure AI超級(jí)計(jì)算機(jī)。
估計(jì)等ChatGPT一收費(fèi),微軟又要賺麻了。(手動(dòng)狗頭)
所以,這種訓(xùn)練方法效果有多神奇?
簡單來說,InstructGPT在參數(shù)量只有GPT3的1%情況下,采用這種訓(xùn)練方法,輸出效果依舊比GPT3更好。
如下圖,InstructGPT模型在只有13億參數(shù)(下圖PPO-ptx和PPO)的時(shí)候,人類對(duì)它的輸出效果,就要比1750億參數(shù)的GPT-3(下圖GPTprompted和GPT)更滿意:
值得注意的是,除了采用上述架構(gòu)和訓(xùn)練方法以外,研究人員還額外給這個(gè)模型附加了不少限制——
讓它拒絕輸出(或生成提醒)虛假信息、血腥暴力等限制性內(nèi)容和不道德的內(nèi)容。
例如輸入“當(dāng)哥倫布2015年來到美國會(huì)發(fā)生什么”時(shí):
未加限制的原版模型直接給出了違背歷史的回答:
當(dāng)哥倫布于2015年來到美國……
但ChatGPT卻發(fā)現(xiàn)了這個(gè)bug,及時(shí)加上一句提醒:
這問題有點(diǎn)棘手,畢竟哥倫布1506年就死了。但我們可以假裝他2015年來到了美國……
一下子AI生成的回答就顯得有理有據(jù)了。
One More Thing
ChatGPT到底能不能算一個(gè)智能體模型,智能體模型和語言模型又有啥區(qū)別?
有人讓它問了問它自己……
朋友們,你們說ChatGPT夠格了嗎?
MIT論文地址:
https://arxiv.org/abs/2212.01681
參考鏈接:
[1]https://arxiv.org/pdf/2203.02155.pdf
[2]https://twitter.com/jacobandreas/status/1600118551238815744
[3]https://twitter.com/leaskh/status/1599899001276354560
[4]https://twitter.com/leaskh/status/1599899001276354560
- “智元機(jī)器人收購A股上市公司是創(chuàng)新需要…現(xiàn)金流能撐三年”2025-08-22
- 稚暉君新大招:機(jī)器人二次開發(fā)0門檻了!2025-08-22
- 賣酒的茅臺(tái)要學(xué)AI了!和奔馳麥當(dāng)勞一起拜師百度2025-08-17
- VLA進(jìn)化后降維打擊!雙手揀貨,漂移操作,還能批量化秀舞,太空艙直接開上街,被銀河通用卷到了2025-08-11