給GPT-2加上“人類偏好”補丁,它說的話就越來越有人情味了丨代碼已開源
GPT-2文案工作室成立了,只要加65000個標簽,甲方爸爸要啥寫啥(滑稽)
郭一璞 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
OpenAI家的知名語言模型GPT-2,現(xiàn)在越來越“會說話”了。
774M參數(shù)的GPT-2模型,學習了人類為它編制的一共有65000個帶有人類偏好的標簽,微調(diào)后,學會了兩個“投其所好”的新技能:
一個是按照特定要求續(xù)寫,甚至寫出“神轉(zhuǎn)折”的句子;
另一個是寫文章的摘要。
這個更新受到熱烈歡迎,有人已經(jīng)迫不及待的想讓GPT-2充當文案,開始接活寫文章了。
甚至,還有人跟OpenAI打趣:
你這條公布更新的推特,是不是GPT-2自己寫的?
續(xù)寫
按照特定要求來續(xù)寫,只需要補充5000個人類偏好標簽。
一種是讓GPT-2完成情緒上的要求,比如把原本嚴肅的文本,續(xù)寫成積極的情緒。
比如這段文本,看起來是個老爹訓孩子的場景:
“我是不是警告過他們了,歐文?”
“是的,爸爸,”歐文機械的回答?!拔衣牭侥憔嫠麄兞?。”
“那格特魯?shù)潞秃⒆觽兡??”杰森追問不休?/p>
文中這個叫杰森的爸爸,看起來實在是很兇的樣子,要怎么把這么一段追問轉(zhuǎn)折成一個積極的場景呢?
沒有學習過人類偏好標簽的原始GPT-2是這樣子續(xù)寫:
“我不知道。我只知道我們必須得走了,”歐文說。
好像歐文這個當兒子的還是一樣機械冷靜,一點都不積極???
再看學過人類偏好標簽的升級版GPT-2,簡直是個暖男:
“他們見到我很開心。我對他們很自豪。我們都這么覺得?!?/p>
前一秒好像還是老爹要找格特魯?shù)滤阗~,下一秒就變成了親密的一家人,頓時就積極向上、充滿溫情,簡直神轉(zhuǎn)折。
再看另一種,讓GPT-2完成具體描述,比如針對物理實體進行描述,也就是語文老師說的“寫實的手法”:
看這段對“菜地”的描述:
我們穿過了通往房頂?shù)拈T道。這里,我們在一個非常潮濕的玻璃結(jié)構里。地板上有長長的木槽,里面種著很多健康的植物。我馬上認出了西紅柿、甜瓜、生菜、青豆和無數(shù)種其他植物。
沒有學習過人類偏好標簽的原始GPT-2是這樣子續(xù)寫:
我意識到儲存在木槽中的食物都是以我能感到最遠的距離收獲的。
這個……算了,GPT-2一直都是這么抽象,不理他了,來看升級版:
空氣中充滿了泥土的芬芳,而且空氣好像被冷卻了一樣。
“泥土的芬芳”、“冷卻”都是對物理環(huán)境的詳細描述,及格了。
前面的兩個案例,無論是讓GPT-2從情感維度還是從描述維度創(chuàng)作,用到的人類偏好標簽都是同一波。
從結(jié)果上看,OpenAI給出的官方數(shù)據(jù)是學習過人類偏好標簽的升級版GPT-2,在這兩類任務上分別有88%和86%的次數(shù)比原始版給出的續(xù)寫要好。
寫摘要
另外的一個技能是寫摘要,完整這個技能需要60000個人類偏好標簽。
OpenAI用兩種任務來考驗這個升級版的GPT-2:
一個是給CNN和《每日郵報》這種正經(jīng)媒體的文章寫摘要;
另一個是給Reddit的文本片段寫摘要。
先來看給正經(jīng)媒體寫出來的摘要,原文寫的是關于讓人開心/不開心因素,列舉了讓主角Janet Street-Porter不開心的一些要素。
Zero-Shot和有監(jiān)督兩種情況下,未經(jīng)過微調(diào)和經(jīng)過微調(diào)的摘要分別如下:
可以看出,Zero-Shot baseline給出的結(jié)果離題萬里,借助人類偏好標簽微調(diào)后效果好一些;有監(jiān)督的baseline相對好一些,經(jīng)過微調(diào)后看起來就很正兒八經(jīng)了。
而Reddit的原文,描述的是說服朋友空氣阻力對物體下降速度的影響。
四種情況的摘要分別如下:
Baseline依然非常離譜,而加了人類標簽偏好微調(diào)后,基本就把前面那段話的意義表述出來了。
最后,為了從數(shù)據(jù)上說明,OpenAI還找這些文本的原作者,來評價AI們生成的摘要是否準確。
從原作者評價來看,經(jīng)過微調(diào)后的模型生成效果讓原作者們更為認可。
傳送門
OpenAI官方介紹博客:
https://openai.com/blog/fine-tuning-gpt-2/
論文:
Fine-Tuning Language Models from Human Preferences
Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, Geoffrey Irving
https://arxiv.org/abs/1909.08593
GitHub:
https://github.com/openai/lm-human-preferences