AI給AI論文寫了個摘要,網(wǎng)友戲稱為“摘要通過圖靈測試”,推特點贊上千
銅靈 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
這一次AI自己給AI論文生成了一次摘要。
今天,一個可為長文自動生成總結(jié)的Transformer語言模型論文在推特火了起來。
細心了網(wǎng)友看到論文摘要結(jié)尾,才發(fā)現(xiàn)一個斜體備注中寫著:上面的摘要不是作者寫的,而是由研究中展示的一個模型自動生成的。
以假亂真的生成質(zhì)量,讓不少網(wǎng)友大吃一驚。并且,其生成方式也不一般:
研究證明了,即使沒有復制機制,Transformer語言模型在總結(jié)長篇科學文章方面也非常有效,并且效果優(yōu)于傳統(tǒng)的seq2seq方法。
并且,與先前使用復制機制的研究相比,新方法生成的摘要更全,在用于評估自動生成的摘要和翻譯水平的ROUGE評測上,獲得了更高的分數(shù)。
這項研究被OpenAI研究科學家、牛津大學人類未來研究所研究員Miles Brundage的推薦和轉(zhuǎn)發(fā),不到一天時間獲贊近2000,網(wǎng)友戲稱為這是一項“摘要圖靈測試”。
還有網(wǎng)友表示,在未來十年內(nèi),我們或許能看到第一篇transformer寫出的研究論文了。
所以,這個讓網(wǎng)友大吃一驚的總結(jié)摘要生成模型,到底是如何以假亂真的?
請看摘要↓
非復制機制
我們提出了一種新的方法,通過神經(jīng)摘要式總結(jié),可以為篇幅超過上千字的長文檔自動生成摘要。我們展示了一種在生成總結(jié)前的簡單提取步驟,在執(zhí)行生成摘要任務(wù)前,會根據(jù)相關(guān)信息,將其用于Transformer語言模型,幫助模型進行條件設(shè)置。實驗結(jié)果表明,這個步驟顯著提高了總體結(jié)果。我們還證明了,與之前使用復制機制(copy mechanism)的工作相比,這種方法生成了抽象的總結(jié),并且還能取得更高的Rouge分數(shù)。
此前,摘要提取方法大多依據(jù)的是序列到序列(seq2seq)的學習方法,將關(guān)鍵詞識別定義為生成問題,輸出時將關(guān)鍵短語看作為詞序列。
為了這其中的控制參數(shù)數(shù)量只會選取其中出現(xiàn)頻率較高的詞匯,于是相對低頻且重要的詞匯就會在提取過程中被遺漏,于是就誕生了“復制機制”。
通過復制機制,模型解碼器的部分隱藏狀態(tài)當成特定的位置,不通過生成過程定義關(guān)鍵詞,而是直接復制。
這樣一來,就能保留原始文章中的重要信息了,進而在輸出端生成出摘要。
而在這篇論文中提到,不通過復制機制也可以準確提取重點信息。這是怎么做到的?
Transformer語言模型
在論文On Extractive and Abstractive Neural Document Summarization with Transformer Language Models中,研究人員具體介紹了模型的架構(gòu)。
這個模型提取科學論文的摘要是分階段的。
首先,句子指針網(wǎng)絡(luò)(pointer network)從論文中提取出重要信息。
接下來,這些提取過的句子會隨著完整文章一起按照順序進行排列:引言、抽取的句子、摘要和論文其他內(nèi)容。Transformer語言模型就是在以這種格式組織的論文上進行訓練的。
在推理過程中,引言和提取的句子將作為上下文提供給語言模型,最終生成摘要。在新聞和專利領(lǐng)域,引言部分將被全文替代。
與此前大多數(shù)神經(jīng)抽象概括方法不同,這種方法沒有使用帶有顯式編碼器和解碼器的seq2seq公式來生成單詞。
具體來說,研究人員使用單個類似GPT的Transformer 語言模型(TLM)進行訓練,在推理階段根據(jù)文檔從語言模型中生成摘要。
研究人員將這個任務(wù)一分為二,即提取步驟(extractive step)和抽象步驟。
為了處理超過幾千個單詞的超長文檔,他們先使用兩個不同的分層文檔模型對句子進行提取,一個基于指針網(wǎng)絡(luò),另一個基于句子分類器,這樣的結(jié)構(gòu)保證在生成摘要前更好地調(diào)整Transformer語言模型的相關(guān)信息。
研究人員選取了四種不同的大型長文檔摘要數(shù)據(jù)集,分別為arXiv、PubMed 、bigPatent和Newsroom,對模型進行測試,并用Rouge指標進行測試。
無論是針對arXiv上的科學論文:
還是NewsRoom上的新聞:
甚至是PubMed上的生物醫(yī)學方面的論文:
還是130萬份美國專利文獻記錄bigPatent :
新方法TLM均優(yōu)于此前摘要提取的baseline,并超越了先前提取結(jié)果。
作者介紹
這篇論文的共同一作共有三位,均來自Element AI。
包括蒙特利爾學習算法研究所的Sandeep Subramanian,Raymond Li和蒙特利爾大學的Jonathan Pilault及Christopher Pal。
Element AI想必大家不會陌生,這是圖靈獎得主、蒙特利爾大學計算機系教授Yoshua Bengio創(chuàng)辦的創(chuàng)業(yè)孵化器,幫助來自蒙特利爾大學和McGill大學的AI創(chuàng)業(yè)者施展拳腳。
傳送門
On Extractive and Abstractive Neural Document Summarization with Transformer Language Models
https://arxiv.org/abs/1909.03186