教自動編碼器學(xué)會「自我糾正」,DeepMind提出語言模型“SUNDAE”
WMT14英德互譯任務(wù)獲SOTA
一直以來,自回歸語言模型(Autoregressive model,AR)在文本生成任務(wù)中表現(xiàn)都相當(dāng)出色。
現(xiàn)在,DeepMind通過教自動編碼器學(xué)會“自我糾正”,提出了一個叫做“圣代”(SUNDAE)的非自回歸模型。
它不僅能在WMT’14英德互譯任務(wù)中取得非自回歸模型中的SOTA,還表現(xiàn)出與自回歸模型相當(dāng)?shù)男阅堋?/p>
更厲害的是,還能輕松做到自回歸模型做不到的事兒——文字補全。
要知道,非自回歸模型一直不被看好。
而這個“圣代”的文字補全功能,也為人類和機器共同編輯、創(chuàng)作文本提供了新的途徑。
非自回歸語言模型“圣代”
“圣代”全名“逐步展開降噪自動編碼器”(Step-unrolled Denoising Autoencoder,SUNDAE),作為一種新的文本生成模型,它不依賴于經(jīng)典的自回歸模型。
與降噪擴散技術(shù)(denoising diffusion)類似,“圣代”在訓(xùn)練期間采用展開降噪(unrolled denoising),將一系列token重復(fù)應(yīng)用,從隨機輸入開始,每次都對其進行改進,直至收斂。
這就是所謂的“自我糾正”過程。
下面用一張圖來說明一下降噪和展開降噪的區(qū)別。
第一行為原始文本,它被隨機“污染”(corrupt)后產(chǎn)生新的文本(第二行),其中綠色的token代表“未污染”文本,紅色代表“污染”文本。
這個中間文本再通過降噪(從生成模型中采樣),生成底部的又一個“污染”文本。
標(biāo)準(zhǔn)降噪自動編碼器只學(xué)習(xí)從中間文本到頂部文本的映射,逐步展開降噪自動編碼器(“圣代”)則會學(xué)習(xí)從底部到頂部的映射。
而在文本生成期間,網(wǎng)絡(luò)遇到的大多數(shù)文本都并非像上圖中間那樣,而是底部那種,所以展開降噪是非常有用的。
此外,研究人員還提出了一個簡單的改進算子,它能實現(xiàn)比降噪擴散技術(shù)收斂所需的更少的迭代次數(shù),同時在自然語言數(shù)據(jù)集上定性地生成更好的樣本。
直白的說,“圣代”采用的方法讓文本合成的質(zhì)量和速度都變得可控了。
在機器翻譯和文本生成任務(wù)上表現(xiàn)如何?
下面就來看看“圣代”的具體表現(xiàn)。
研究人員首先在機器翻譯基準(zhǔn)上評估“圣代”。
使用BLEU分?jǐn)?shù)作為衡量標(biāo)準(zhǔn),將“圣代”在WMT’14德英互譯任務(wù)上的翻譯質(zhì)量與自回歸模型(AR)和非AR模型進行比較。
結(jié)果發(fā)現(xiàn),在不使用序列級知識蒸餾等技術(shù)的情況下,“圣代”的性能幾乎與AR模型相當(dāng),并且打敗了所有非AR模型。
接著是對“圣代”在文本生成任務(wù)上的評估。
研究人員在大型高質(zhì)量公開數(shù)據(jù)集 Colossal Clean Common Crawl?(C4)?上訓(xùn)練“圣代”。
模型一共包含335M參數(shù),24層,embedding size為1024 , hidden size為4096 , 以及16 個attention head,使用bacth size為4096的Adam optimizer訓(xùn)練了多達(dá)40萬步。
最終生成的文本如下,未經(jīng)cherry pick:
這10句里面,除了第4,都挺合理。
不過由于C4數(shù)據(jù)集來自網(wǎng)絡(luò),所以無論是訓(xùn)練集還是生成的最終結(jié)果,換行符都挺多。
此外,由于“圣代”模型的非自回歸性,研究人員也測試了它的文本“修復(fù)”能力。
要知道,這對于只能從左到右按序生成的AR模型來說根本就辦不到。
結(jié)果如下(cherry-pick過):
- C4數(shù)據(jù)集
- GitHub上的Python程序組成的數(shù)據(jù)集
大家覺得這效果如何?語法和邏輯似乎都沒有問題。
更多數(shù)據(jù)和內(nèi)容歡迎戳下方鏈接。
論文地址:
https://arxiv.org/abs/2112.06749
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設(shè)計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學(xué)和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10