国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌新模型突破BERT局限：NLP版「芝麻街」新成員Big Bird長這樣

蕭簫 2020-07-31 12:45:33 來源：量子位

在摘要和問答任務(wù)中表現(xiàn)良好

蕭簫發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

最新消息，谷歌推出了NLP系列「芝麻街」的新成員Big Bird。

這個在外界眼中看起來有點可愛的動漫小鳥，搖身一變，解決了BERT模型中的全注意力機制帶來的序列長度二次依賴限制，可以兼顧更長的上下文。

△?「芝麻街」中的Big Bird

眾所周知，谷歌開發(fā)的BERT，曾經(jīng)被稱為「地表最強」NLP模型。

而BERT，則與美國知名動畫片「芝麻街」（Sesame Street）里的虛擬人物同名。

此前，谷歌的「芝麻街」系列已經(jīng)有5個成員（論文鏈接見傳送門），現(xiàn)在Big Bird的到來，意味著谷歌在NLP的研究上更進一步。

△?少了一位ELMo

來看看Big Bird實現(xiàn)了什么。

突破全注意力機制的局限

在NLP模塊表現(xiàn)最好的幾種深度學習模型，例如BERT，都是基于Transformer作為特征抽取器的模型，但這種模型有它的局限性，核心之一就是全注意力機制。

這種機制會帶來序列長度二次依賴限制，主要表現(xiàn)在存儲方面。

為了解決這個問題，團隊提出了一種名為Big Bird的稀疏注意力機制。

作為更長序列上的Transformers，Big Bird采用稀疏注意力機制，將二次依賴降至線性。

下面這張圖片，展示了Big Bird所用的注意力機制模塊構(gòu)建。

其中，白色的部分代表著注意力的空缺。

圖（a）表示r=2的隨機注意力機制，圖（b）表示w=3的局部注意力機制，圖（c）表示g=2的全局注意力機制，圖（d）則是前三者融合起來的Big Bird模型。

之所以提出這樣的模型，是因為團隊希望能在將二次依賴降至線性的同時，Big Bird的模型還能最大程度上接近并保持BERT模型的各項指標。

從下圖來看，無論是單一采用隨機注意力機制、局部注意力機制，還是二者結(jié)合的方式，都沒有將三者進行結(jié)合的效果好。

也就是說，隨機+局部+全局的注意力機制融合，最大程度上接近了BERT-base的各項指標。

不僅如此，這種稀疏注意力機制的一部分，還包括了采用O(1)的全局詞例（global token），例如CLS。

這部分使得長程注意力開銷從O(N√N)降至O(N)。

NLP問答和摘要任務(wù)中超越了SOTA

模型采用Books、CC-News、Stories和Wikipedia幾種數(shù)據(jù)集對四類模型進行了訓練，根據(jù)留出法評估，BigBird-ETC的損失達到了最低。

從結(jié)果來看，Big Bird在問答任務(wù)中展示出的精度非常不錯。

下圖是Big Bird與RoBERTa和Longformer對比所展現(xiàn)出來的精度效果，可以看見，在各項數(shù)據(jù)及上，BigBird的兩個模型都展現(xiàn)出了更高的精度。

而在對模型進行微調(diào)后，可以看見，BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。

與此同時，Big Bird在NLP的摘要任務(wù)中表現(xiàn)也比較亮眼。

摘要，顧名思義是從一段長文字中提煉出這段話的核心思想和意義。下面是從三個長文章數(shù)據(jù)集Arxiv、PubMed和BigPatent中測試的效果。

從圖中來看，與其他非常先進的NLP模型相比，BigBird極大地提高了摘要任務(wù)的各項精度，性能表現(xiàn)非常優(yōu)異。

不僅如此，Big Bird被證明是圖靈完備的，這也就意味著，一切可以計算的問題，Big Bird都能計算，理論上，它能夠用來解決任何算法。

此外，Big Bird在基因組數(shù)據(jù)處理方面也極具潛力。

但雖然如此，也有網(wǎng)友認為，這樣的模型與Longformer在概念上并無本質(zhì)區(qū)別，不能算是一個大突破。

你怎么看？

作者介紹

論文的兩位共同一作是Manzil Zaheer和Guru Guruganesh，均來自谷歌。

△?Manzil Zaheer

Manzil Zaheer，CMU機器學習博士，3篇論文曾經(jīng)發(fā)表于NIPs上，除此之外，在ACL和EMNLP等頂會上也發(fā)表過相應(yīng)文章。

△?Guru Guruganesh

Guru Guruganesh，CMU機器學習博士，主要在近似算法、拉姆齊定理、半正定規(guī)劃等方向有所研究。

傳送門

「芝麻街」系列論文列表：

ELMo:https://arxiv.org/abs/1802.05365

BERT:https://arxiv.org/abs/1810.04805

ERNIE:https://arxiv.org/abs/1904.09223

Grover:https://arxiv.org/abs/1905.12616

KERMIT:https://arxiv.org/abs/1906.01604

Big Bird:https://arxiv.org/abs/2007.14062

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

NLP 自然語言處理

蕭簫

相關(guān)閱讀

對話AI大牛周明：從科學家到企業(yè)家要邁過多少道坎？

世界級科學家，學著創(chuàng)業(yè)

明敏2022-10-28

AI大牛 NLP 科學家創(chuàng)業(yè)

中國NLP的國際破圈往事：十年，一家公司破局，一代科學家星聚

現(xiàn)在，正是乘風破浪時

魚羊2020-07-23

ACL NLP 王海峰百度

竹間智能發(fā)布一站式企業(yè)級情感人工智能平臺——Bot Factory?DIY

2020年05月29日，竹間智能召開以“AI智簡新基建”為主題的Bot Factory? 2020新品發(fā)布會，推出全新升級的一站式企業(yè)級情感人工智能平臺，從當前新基建的大潮出發(fā)，圍繞「對話式AI」，「認知AI」，「情感AI」對平臺設(shè)計理念和具體功能亮點展開詳細演示。

智能車參考2020-05-30

NLP 對話機器人竹間智能

BERT重奪多項測試第一名，改進之后性能追上XLNet，現(xiàn)已開源預(yù)訓練模型

NLP領(lǐng)域今年的競爭真可謂激烈。短短一個多月的時間，BERT又重新殺回GLUE測試排行榜第一名。

曉查2019-07-30

BERT NLP

不拆分單詞也可以做NLP，哈工大最新模型在多項任務(wù)中打敗BERT，還能直接訓練中文

性能和速度兼顧

豐色2022-02-28

BERT NLP

ACL 2020三大獎項出爐！知名學者夫婦曾先后獲終身成就獎，時間檢驗獎回溯95年經(jīng)典著作

華人論文入圍數(shù)TOP10公布

蕭簫2020-07-08

ACL2020 自然語言處理