AI給AI論文寫了個(gè)摘要,網(wǎng)友戲稱為“摘要通過圖靈測試”,推特點(diǎn)贊上千
銅靈 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
這一次AI自己給AI論文生成了一次摘要。
今天,一個(gè)可為長文自動(dòng)生成總結(jié)的Transformer語言模型論文在推特火了起來。
細(xì)心了網(wǎng)友看到論文摘要結(jié)尾,才發(fā)現(xiàn)一個(gè)斜體備注中寫著:上面的摘要不是作者寫的,而是由研究中展示的一個(gè)模型自動(dòng)生成的。
以假亂真的生成質(zhì)量,讓不少網(wǎng)友大吃一驚。并且,其生成方式也不一般:
研究證明了,即使沒有復(fù)制機(jī)制,Transformer語言模型在總結(jié)長篇科學(xué)文章方面也非常有效,并且效果優(yōu)于傳統(tǒng)的seq2seq方法。
并且,與先前使用復(fù)制機(jī)制的研究相比,新方法生成的摘要更全,在用于評估自動(dòng)生成的摘要和翻譯水平的ROUGE評測上,獲得了更高的分?jǐn)?shù)。
這項(xiàng)研究被OpenAI研究科學(xué)家、牛津大學(xué)人類未來研究所研究員Miles Brundage的推薦和轉(zhuǎn)發(fā),不到一天時(shí)間獲贊近2000,網(wǎng)友戲稱為這是一項(xiàng)“摘要圖靈測試”。
還有網(wǎng)友表示,在未來十年內(nèi),我們或許能看到第一篇transformer寫出的研究論文了。
所以,這個(gè)讓網(wǎng)友大吃一驚的總結(jié)摘要生成模型,到底是如何以假亂真的?
請看摘要↓
非復(fù)制機(jī)制
我們提出了一種新的方法,通過神經(jīng)摘要式總結(jié),可以為篇幅超過上千字的長文檔自動(dòng)生成摘要。我們展示了一種在生成總結(jié)前的簡單提取步驟,在執(zhí)行生成摘要任務(wù)前,會根據(jù)相關(guān)信息,將其用于Transformer語言模型,幫助模型進(jìn)行條件設(shè)置。實(shí)驗(yàn)結(jié)果表明,這個(gè)步驟顯著提高了總體結(jié)果。我們還證明了,與之前使用復(fù)制機(jī)制(copy mechanism)的工作相比,這種方法生成了抽象的總結(jié),并且還能取得更高的Rouge分?jǐn)?shù)。
此前,摘要提取方法大多依據(jù)的是序列到序列(seq2seq)的學(xué)習(xí)方法,將關(guān)鍵詞識別定義為生成問題,輸出時(shí)將關(guān)鍵短語看作為詞序列。
為了這其中的控制參數(shù)數(shù)量只會選取其中出現(xiàn)頻率較高的詞匯,于是相對低頻且重要的詞匯就會在提取過程中被遺漏,于是就誕生了“復(fù)制機(jī)制”。
通過復(fù)制機(jī)制,模型解碼器的部分隱藏狀態(tài)當(dāng)成特定的位置,不通過生成過程定義關(guān)鍵詞,而是直接復(fù)制。
這樣一來,就能保留原始文章中的重要信息了,進(jìn)而在輸出端生成出摘要。
而在這篇論文中提到,不通過復(fù)制機(jī)制也可以準(zhǔn)確提取重點(diǎn)信息。這是怎么做到的?
Transformer語言模型
在論文On Extractive and Abstractive Neural Document Summarization with Transformer Language Models中,研究人員具體介紹了模型的架構(gòu)。
這個(gè)模型提取科學(xué)論文的摘要是分階段的。
首先,句子指針網(wǎng)絡(luò)(pointer network)從論文中提取出重要信息。
接下來,這些提取過的句子會隨著完整文章一起按照順序進(jìn)行排列:引言、抽取的句子、摘要和論文其他內(nèi)容。Transformer語言模型就是在以這種格式組織的論文上進(jìn)行訓(xùn)練的。
在推理過程中,引言和提取的句子將作為上下文提供給語言模型,最終生成摘要。在新聞和專利領(lǐng)域,引言部分將被全文替代。
與此前大多數(shù)神經(jīng)抽象概括方法不同,這種方法沒有使用帶有顯式編碼器和解碼器的seq2seq公式來生成單詞。
具體來說,研究人員使用單個(gè)類似GPT的Transformer 語言模型(TLM)進(jìn)行訓(xùn)練,在推理階段根據(jù)文檔從語言模型中生成摘要。
研究人員將這個(gè)任務(wù)一分為二,即提取步驟(extractive step)和抽象步驟。
為了處理超過幾千個(gè)單詞的超長文檔,他們先使用兩個(gè)不同的分層文檔模型對句子進(jìn)行提取,一個(gè)基于指針網(wǎng)絡(luò),另一個(gè)基于句子分類器,這樣的結(jié)構(gòu)保證在生成摘要前更好地調(diào)整Transformer語言模型的相關(guān)信息。
研究人員選取了四種不同的大型長文檔摘要數(shù)據(jù)集,分別為arXiv、PubMed 、bigPatent和Newsroom,對模型進(jìn)行測試,并用Rouge指標(biāo)進(jìn)行測試。
無論是針對arXiv上的科學(xué)論文:
還是NewsRoom上的新聞:
甚至是PubMed上的生物醫(yī)學(xué)方面的論文:
還是130萬份美國專利文獻(xiàn)記錄bigPatent :
新方法TLM均優(yōu)于此前摘要提取的baseline,并超越了先前提取結(jié)果。
作者介紹
這篇論文的共同一作共有三位,均來自Element AI。
包括蒙特利爾學(xué)習(xí)算法研究所的Sandeep Subramanian,Raymond Li和蒙特利爾大學(xué)的Jonathan Pilault及Christopher Pal。
Element AI想必大家不會陌生,這是圖靈獎(jiǎng)得主、蒙特利爾大學(xué)計(jì)算機(jī)系教授Yoshua Bengio創(chuàng)辦的創(chuàng)業(yè)孵化器,幫助來自蒙特利爾大學(xué)和McGill大學(xué)的AI創(chuàng)業(yè)者施展拳腳。
傳送門
On Extractive and Abstractive Neural Document Summarization with Transformer Language Models
https://arxiv.org/abs/1909.03186