曉查 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
幾周前,谷歌發(fā)布了新的NLP模型XLNet,它在20項基準測試中均優(yōu)于BERT。
但是與BERT相比,XLNet模型的訓練數(shù)據(jù)比BERT大10倍。這讓學術界和工業(yè)界對此產(chǎn)生了疑問:XLNet如果只接受與BERT相同規(guī)模的訓練數(shù)據(jù)會如何?XLNet的勝利是否只是數(shù)據(jù)集的勝利?
今天,XLNet研究團隊在Medium網(wǎng)站上用實際數(shù)據(jù)解答了眾人的疑惑。他們使用近乎相同的數(shù)據(jù)集在XLNet和BERT之間進行公平對決,看看前者的性能到底有沒有本質(zhì)的提升。
參數(shù)配置
為了保證公平性,團隊確保BERT和XLNet中幾乎所有可能的超參數(shù)盡量相同。在無法保證二者相同的情況下,他們還讓參數(shù)的優(yōu)勢更向BERT傾斜。
超參數(shù)用的是原來BERT作者發(fā)布的數(shù)據(jù)。也就是說,這么做更有可能針對BERT而不是XLNet進行優(yōu)化。
具體的超參數(shù)設置如下:
- 相同的batch size:256
- 相同的訓練步數(shù):1M
- 相同的優(yōu)化器:Adam,學習率1e-4,10K預熱,線性衰減
- 相同的訓練語料庫:Wikipedia + BooksCorpus。XLNet團隊使用與BERT repo中描述相同的工具來處理維基百科。但由于某些未知原因,XLNet維基百科語料庫只有20億單詞,而BERT有25億單詞。因此XLNet訓練集反而更小。
- 相同的模型架構參數(shù):24層,1024個隱藏單元,head數(shù)16
- 相同的微調(diào)超參數(shù)搜索空間
他們修改了一些與數(shù)據(jù)相關的實現(xiàn)細節(jié),以便與BERT進行一對一的比較:
- 在之前的實現(xiàn)中,未被覆蓋的token在預訓練中看不到CLS和SEP。在現(xiàn)在的實現(xiàn)中,未被覆蓋的token可以看到CLS和SEP,這與BERT一致。
- 在微調(diào)中,XLNet使用“BERT格式”[CLS,A,SEP,B,SEP]取代[A,SEP,B,SEP,CLS]。
此外,他們還考慮了BERT的三種變體,并報告每個單獨任務的最佳微調(diào)結果。
- 模型-I:作者發(fā)布的原始BERT
- 模型-II:具有全詞覆蓋的BERT,也是由作者發(fā)布
- 模型-III:由于下一句預測(NSP)可能會影響性能,使用已發(fā)布的BERT代碼預訓練一個新的沒有NSP損失的模型。
以上的設置可能會為BERT帶來一些優(yōu)勢,因為BERT可以通過不同的變體獲得單個任務的最佳性能。
對比結果
二者在SQuAD、RACE等測試集上的結果如下,過程中沒有使用數(shù)據(jù)擴增、集成學習或多任務學習。
測試結果說明了一些問題:
- 使用幾乎相同的數(shù)據(jù)和訓練方法,XLNet在所有數(shù)據(jù)集上均以相當大的優(yōu)勢超越BERT。
- 10倍數(shù)據(jù)對訓練效果的提升不如從BERT到XLNet的變化明顯。11個基準測試中,有8個從BERT切換到XLNet的提升更為明顯。
- 在CoLA和MRPC等一些基準測試中,更多數(shù)據(jù)上訓練的模型得分反而低于在較少數(shù)據(jù)上訓練的模型。
上述結果中讓我們獲得了一些寶貴的經(jīng)驗。
- XLNet確實提高了性能。實驗結果1表明,在相同的訓練條件下XLNet相對于BERT具有優(yōu)勢。
- XLNet-Large可以更好地進行優(yōu)化。實驗結果2和3似乎表明XLNet-Large(更多訓練數(shù)據(jù))沒有充分利用數(shù)據(jù)規(guī)模。
對未來工作的啟發(fā)
XLNet團隊表示,將繼續(xù)研究如何正確擴展XLNet語言預訓練。根據(jù)目前有限的觀察結果,他們推測以下訓練細節(jié)可能會發(fā)揮重要作用:
數(shù)據(jù)相關:數(shù)據(jù)規(guī)模、數(shù)據(jù)來源、數(shù)據(jù)清洗、數(shù)據(jù)編碼、數(shù)據(jù)格式化。
優(yōu)化相關:學習率、batch size、訓練步數(shù)、優(yōu)化器。
這些超參數(shù)之間可能有高階的相互作用。
Facebook AI最近的RoBERTa進入GLUE排行榜第一,似乎也暗示了訓練細節(jié)的重要性。
原文鏈接:
https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0