国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

XLNet團隊：贏BERT靠的并不是數(shù)據(jù)集更大，公平對決也碾壓對手

曉查 2019-07-24 12:31:42 來源：量子位

外界曾質(zhì)疑XLNet是靠大10倍的數(shù)據(jù)集取勝

曉查發(fā)自凹非寺

量子位出品 | 公眾號 QbitAI

幾周前，谷歌發(fā)布了新的NLP模型XLNet，它在20項基準測試中均優(yōu)于BERT。

XLNet團隊：贏BERT靠的并不是數(shù)據(jù)集更大，公平對決也碾壓對手

但是與BERT相比，XLNet模型的訓練數(shù)據(jù)比BERT大10倍。這讓學術界和工業(yè)界對此產(chǎn)生了疑問：XLNet如果只接受與BERT相同規(guī)模的訓練數(shù)據(jù)會如何？XLNet的勝利是否只是數(shù)據(jù)集的勝利？

今天，XLNet研究團隊在Medium網(wǎng)站上用實際數(shù)據(jù)解答了眾人的疑惑。他們使用近乎相同的數(shù)據(jù)集在XLNet和BERT之間進行公平對決，看看前者的性能到底有沒有本質(zhì)的提升。

參數(shù)配置

為了保證公平性，團隊確保BERT和XLNet中幾乎所有可能的超參數(shù)盡量相同。在無法保證二者相同的情況下，他們還讓參數(shù)的優(yōu)勢更向BERT傾斜。

超參數(shù)用的是原來BERT作者發(fā)布的數(shù)據(jù)。也就是說，這么做更有可能針對BERT而不是XLNet進行優(yōu)化。

具體的超參數(shù)設置如下：

相同的batch size：256
相同的訓練步數(shù)：1M
相同的優(yōu)化器：Adam，學習率1e-4，10K預熱，線性衰減
相同的訓練語料庫：Wikipedia + BooksCorpus。XLNet團隊使用與BERT repo中描述相同的工具來處理維基百科。但由于某些未知原因，XLNet維基百科語料庫只有20億單詞，而BERT有25億單詞。因此XLNet訓練集反而更小。
相同的模型架構參數(shù)：24層，1024個隱藏單元，head數(shù)16
相同的微調(diào)超參數(shù)搜索空間

他們修改了一些與數(shù)據(jù)相關的實現(xiàn)細節(jié)，以便與BERT進行一對一的比較：

在之前的實現(xiàn)中，未被覆蓋的token在預訓練中看不到CLS和SEP。在現(xiàn)在的實現(xiàn)中，未被覆蓋的token可以看到CLS和SEP，這與BERT一致。
在微調(diào)中，XLNet使用“BERT格式”[CLS，A，SEP，B，SEP]取代[A，SEP，B，SEP，CLS]。

此外，他們還考慮了BERT的三種變體，并報告每個單獨任務的最佳微調(diào)結果。

模型-I：作者發(fā)布的原始BERT
模型-II：具有全詞覆蓋的BERT，也是由作者發(fā)布
模型-III：由于下一句預測（NSP）可能會影響性能，使用已發(fā)布的BERT代碼預訓練一個新的沒有NSP損失的模型。

以上的設置可能會為BERT帶來一些優(yōu)勢，因為BERT可以通過不同的變體獲得單個任務的最佳性能。

對比結果

二者在SQuAD、RACE等測試集上的結果如下，過程中沒有使用數(shù)據(jù)擴增、集成學習或多任務學習。

測試結果說明了一些問題：

使用幾乎相同的數(shù)據(jù)和訓練方法，XLNet在所有數(shù)據(jù)集上均以相當大的優(yōu)勢超越BERT。
10倍數(shù)據(jù)對訓練效果的提升不如從BERT到XLNet的變化明顯。11個基準測試中，有8個從BERT切換到XLNet的提升更為明顯。
在CoLA和MRPC等一些基準測試中，更多數(shù)據(jù)上訓練的模型得分反而低于在較少數(shù)據(jù)上訓練的模型。

上述結果中讓我們獲得了一些寶貴的經(jīng)驗。

XLNet確實提高了性能。實驗結果1表明，在相同的訓練條件下XLNet相對于BERT具有優(yōu)勢。
XLNet-Large可以更好地進行優(yōu)化。實驗結果2和3似乎表明XLNet-Large（更多訓練數(shù)據(jù)）沒有充分利用數(shù)據(jù)規(guī)模。

對未來工作的啟發(fā)

XLNet團隊表示，將繼續(xù)研究如何正確擴展XLNet語言預訓練。根據(jù)目前有限的觀察結果，他們推測以下訓練細節(jié)可能會發(fā)揮重要作用：

數(shù)據(jù)相關：數(shù)據(jù)規(guī)模、數(shù)據(jù)來源、數(shù)據(jù)清洗、數(shù)據(jù)編碼、數(shù)據(jù)格式化。

優(yōu)化相關：學習率、batch size、訓練步數(shù)、優(yōu)化器。

這些超參數(shù)之間可能有高階的相互作用。

Facebook AI最近的RoBERTa進入GLUE排行榜第一，似乎也暗示了訓練細節(jié)的重要性。

原文鏈接：

https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

BERT NLP

曉查

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

XLNet團隊：贏BERT靠的并不是數(shù)據(jù)集更大，公平對決也碾壓對手

相關閱讀

OpenAI的GPT-3花費了1200萬美元，現(xiàn)在放出商用API，人人皆可拿來自動生成文本、編寫代碼

爆火論文“14行代碼打敗BERT”出現(xiàn)反轉！改掉bug性能秒變最差

對話AI大牛周明：從科學家到企業(yè)家要邁過多少道坎？

微信推出自研NLP大規(guī)模語言模型WeLM，現(xiàn)已開放API推動應用落地

清華唐杰團隊：一文看懂NLP預訓練模型前世今生

今年高考英語AI得分134，復旦武大校友這項研究有點意思

熱門文章

標準化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

XLNet團隊：贏BERT靠的并不是數(shù)據(jù)集更大，公平對決也碾壓對手

相關閱讀

OpenAI的GPT-3花費了1200萬美元，現(xiàn)在放出商用API，人人皆可拿來自動生成文本、編寫代碼

爆火論文“14行代碼打敗BERT”出現(xiàn)反轉！改掉bug性能秒變最差

對話AI大牛周明：從科學家到企業(yè)家要邁過多少道坎？

微信推出自研NLP大規(guī)模語言模型WeLM，現(xiàn)已開放API推動應用落地

清華唐杰團隊：一文看懂NLP預訓練模型前世今生

今年高考英語AI得分134，復旦武大校友這項研究有點意思

熱門文章

標準化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度

XLNet團隊：贏BERT靠的并不是數(shù)據(jù)集更大，公平對決也碾壓對手

OpenAI的GPT-3花費了1200萬美元，現(xiàn)在放出商用API，人人皆可拿來自動生成文本、編寫代碼

爆火論文“14行代碼打敗BERT”出現(xiàn)反轉！改掉bug性能秒變最差

微信推出自研NLP大規(guī)模語言模型WeLM，現(xiàn)已開放API推動應用落地

標準化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度