谷歌新模型突破BERT局限:NLP版「芝麻街」新成員Big Bird長(zhǎng)這樣
在摘要和問答任務(wù)中表現(xiàn)良好
蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
最新消息,谷歌推出了NLP系列「芝麻街」的新成員Big Bird。
這個(gè)在外界眼中看起來有點(diǎn)可愛的動(dòng)漫小鳥,搖身一變,解決了BERT模型中的全注意力機(jī)制帶來的序列長(zhǎng)度二次依賴限制,可以兼顧更長(zhǎng)的上下文。
△?「芝麻街」中的Big Bird
眾所周知,谷歌開發(fā)的BERT,曾經(jīng)被稱為「地表最強(qiáng)」NLP模型。
而BERT,則與美國(guó)知名動(dòng)畫片「芝麻街」(Sesame Street)里的虛擬人物同名。
此前,谷歌的「芝麻街」系列已經(jīng)有5個(gè)成員(論文鏈接見傳送門),現(xiàn)在Big Bird的到來,意味著谷歌在NLP的研究上更進(jìn)一步。
△?少了一位ELMo
來看看Big Bird實(shí)現(xiàn)了什么。
突破全注意力機(jī)制的局限
在NLP模塊表現(xiàn)最好的幾種深度學(xué)習(xí)模型,例如BERT,都是基于Transformer作為特征抽取器的模型,但這種模型有它的局限性,核心之一就是全注意力機(jī)制。
這種機(jī)制會(huì)帶來序列長(zhǎng)度二次依賴限制,主要表現(xiàn)在存儲(chǔ)方面。
為了解決這個(gè)問題,團(tuán)隊(duì)提出了一種名為Big Bird的稀疏注意力機(jī)制。
作為更長(zhǎng)序列上的Transformers,Big Bird采用稀疏注意力機(jī)制,將二次依賴降至線性。
下面這張圖片,展示了Big Bird所用的注意力機(jī)制模塊構(gòu)建。
其中,白色的部分代表著注意力的空缺。
圖(a)表示r=2的隨機(jī)注意力機(jī)制,圖(b)表示w=3的局部注意力機(jī)制,圖(c)表示g=2的全局注意力機(jī)制,圖(d)則是前三者融合起來的Big Bird模型。
之所以提出這樣的模型,是因?yàn)閳F(tuán)隊(duì)希望能在將二次依賴降至線性的同時(shí),Big Bird的模型還能最大程度上接近并保持BERT模型的各項(xiàng)指標(biāo)。
從下圖來看,無論是單一采用隨機(jī)注意力機(jī)制、局部注意力機(jī)制,還是二者結(jié)合的方式,都沒有將三者進(jìn)行結(jié)合的效果好。
也就是說,隨機(jī)+局部+全局的注意力機(jī)制融合,最大程度上接近了BERT-base的各項(xiàng)指標(biāo)。
不僅如此,這種稀疏注意力機(jī)制的一部分,還包括了采用O(1)的全局詞例(global token),例如CLS。
這部分使得長(zhǎng)程注意力開銷從O(N√N(yùn))降至O(N)。
NLP問答和摘要任務(wù)中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia幾種數(shù)據(jù)集對(duì)四類模型進(jìn)行了訓(xùn)練,根據(jù)留出法評(píng)估,BigBird-ETC的損失達(dá)到了最低。
從結(jié)果來看,Big Bird在問答任務(wù)中展示出的精度非常不錯(cuò)。
下圖是Big Bird與RoBERTa和Longformer對(duì)比所展現(xiàn)出來的精度效果,可以看見,在各項(xiàng)數(shù)據(jù)及上,BigBird的兩個(gè)模型都展現(xiàn)出了更高的精度。
而在對(duì)模型進(jìn)行微調(diào)后,可以看見,BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。
與此同時(shí),Big Bird在NLP的摘要任務(wù)中表現(xiàn)也比較亮眼。
摘要,顧名思義是從一段長(zhǎng)文字中提煉出這段話的核心思想和意義。下面是從三個(gè)長(zhǎng)文章數(shù)據(jù)集Arxiv、PubMed和BigPatent中測(cè)試的效果。
從圖中來看,與其他非常先進(jìn)的NLP模型相比,BigBird極大地提高了摘要任務(wù)的各項(xiàng)精度,性能表現(xiàn)非常優(yōu)異。
不僅如此,Big Bird被證明是圖靈完備的,這也就意味著,一切可以計(jì)算的問題,Big Bird都能計(jì)算,理論上,它能夠用來解決任何算法。
此外,Big Bird在基因組數(shù)據(jù)處理方面也極具潛力。
但雖然如此,也有網(wǎng)友認(rèn)為,這樣的模型與Longformer在概念上并無本質(zhì)區(qū)別,不能算是一個(gè)大突破。
你怎么看?
作者介紹
論文的兩位共同一作是Manzil Zaheer和Guru Guruganesh,均來自谷歌。
△?Manzil Zaheer
Manzil Zaheer,CMU機(jī)器學(xué)習(xí)博士,3篇論文曾經(jīng)發(fā)表于NIPs上,除此之外,在ACL和EMNLP等頂會(huì)上也發(fā)表過相應(yīng)文章。
△?Guru Guruganesh
Guru Guruganesh,CMU機(jī)器學(xué)習(xí)博士,主要在近似算法、拉姆齊定理、半正定規(guī)劃等方向有所研究。
傳送門
「芝麻街」系列論文列表:
ELMo:https://arxiv.org/abs/1802.05365
BERT:https://arxiv.org/abs/1810.04805
ERNIE:https://arxiv.org/abs/1904.09223
Grover:https://arxiv.org/abs/1905.12616
KERMIT:https://arxiv.org/abs/1906.01604
Big Bird:https://arxiv.org/abs/2007.14062