大道至簡(jiǎn):只靠單一任務(wù)訓(xùn)練的語(yǔ)言模型,效果好到驚呆網(wǎng)友
研究團(tuán)隊(duì)來(lái)自KAIST、LG
羿閣 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
訓(xùn)練任務(wù)越多,真的意味著泛化能力越強(qiáng)嗎?
一項(xiàng)最新的研究告訴我們:No!大漏特漏!
令大部分人意外的是,其實(shí),專攻一個(gè)訓(xùn)練任務(wù)的專家語(yǔ)言模型在這方面的表現(xiàn)更佳!
數(shù)據(jù)為證,在11個(gè)不同的、未經(jīng)訓(xùn)練的數(shù)據(jù)集上,其平均準(zhǔn)確率甚至比提示微調(diào)模型高出3.20%。
不僅如此,單個(gè)專家模型合并后還能表現(xiàn)出超強(qiáng)的組合能力,既不需要訪問(wèn)原始數(shù)據(jù),還節(jié)省了計(jì)算開(kāi)銷。
有網(wǎng)友看完就表示:非常有趣!果然模型并不一定越大越好!
還有網(wǎng)友則感慨:這就是所謂的“簡(jiǎn)單勝過(guò)復(fù)雜”吧。
效率、準(zhǔn)確性都更高
首先,研究者先為每個(gè)訓(xùn)練任務(wù)培訓(xùn)了一個(gè)專家模型。
從下圖可以看出,在總結(jié)、問(wèn)答、情緒分析等“本職任務(wù)”上,每個(gè)專家模型的表現(xiàn)都很優(yōu)秀。
例如,當(dāng)被問(wèn)到“我們?cè)谛瞧诹砩蟻?lái)到這里,幸運(yùn)地發(fā)現(xiàn)沒(méi)有我想象中那么擁擠,如果從1到5打分,我會(huì)給它打幾分?”
該模型精準(zhǔn)地拿捏了這段話中“驚喜”的情緒,并回答“4分”。
那么問(wèn)題就來(lái)了,只靠單一任務(wù)訓(xùn)練的專家語(yǔ)言模型,泛化能力究竟如何?
為了展示其效果,研究者找來(lái)了一個(gè)經(jīng)過(guò)提示微調(diào)的多任務(wù)語(yǔ)言模型T0-3B進(jìn)行對(duì)比。
結(jié)果顯示,在11個(gè)不同的、未經(jīng)訓(xùn)練的數(shù)據(jù)集上,專家語(yǔ)言模型的平均準(zhǔn)確率比T0-3B要高3.20%。
在13個(gè)BIG-bench基準(zhǔn)數(shù)據(jù)集上,專家語(yǔ)言模型的平均準(zhǔn)確率也要高出1.29%。
不僅如此,研究者還進(jìn)一步分析了專家語(yǔ)言模型的優(yōu)點(diǎn),得出三點(diǎn)結(jié)論:
第一,專注于單項(xiàng)任務(wù)的專家語(yǔ)言模型能有效避免指令調(diào)整過(guò)程中經(jīng)常發(fā)生的負(fù)遷移問(wèn)題,也就是更少受另一種學(xué)習(xí)的干擾。
第二,專家語(yǔ)言模型能夠不斷學(xué)習(xí)新的任務(wù),而不必重新訓(xùn)練以前的任務(wù),以避免災(zāi)難性遺忘。
過(guò)去,當(dāng)遇到學(xué)習(xí)新任務(wù)的要求時(shí),往往需要不斷地在原始任務(wù)和額外任務(wù)的樣本上進(jìn)行指令調(diào)整訓(xùn)練,這種方法既需要訪問(wèn)原始數(shù)據(jù),還會(huì)導(dǎo)致額外的計(jì)算開(kāi)銷。
而現(xiàn)在,僅需要為每個(gè)額外的任務(wù)培訓(xùn)單獨(dú)的專家語(yǔ)言模型,并將他們簡(jiǎn)單地添加到專家?guī)熘校涂奢p松做到這一點(diǎn)。
實(shí)驗(yàn)證明,新方法可以有效地保持可見(jiàn)任務(wù)的性能,不過(guò)會(huì)輕微降低不可見(jiàn)任務(wù)的性能(- 0.15%)。
第三,個(gè)別專家語(yǔ)言模型在合并后能顯示出優(yōu)越的組合能力。
舉個(gè)例子,當(dāng)語(yǔ)言模型被要求回答“總結(jié)下列英文文本的摘要,并將句子翻譯成韓語(yǔ)”時(shí),這其實(shí)包含了“概括”和“翻譯”兩個(gè)任務(wù)。
研究者分別訓(xùn)練了一個(gè)總結(jié)模型和5個(gè)不同語(yǔ)種的翻譯模型,再將它們用分布式訓(xùn)練的方法進(jìn)行合并,并對(duì)它們的組合能力進(jìn)行了測(cè)試。
結(jié)果顯示,該方法的性能同樣優(yōu)于經(jīng)過(guò)提示微調(diào)的多任務(wù)語(yǔ)言模型,平均得分高出2.72%。
不過(guò)值得一提的是,在論文最后,研究者也特別提到,這一結(jié)論與模型大小有直接關(guān)系,目前的研究沒(méi)有包括參數(shù)大于11B的模型情況。
研究團(tuán)隊(duì)
該研究的團(tuán)隊(duì)來(lái)自KAIST(韓國(guó)科學(xué)技術(shù)院)、LG AI Research和伊利諾伊大學(xué)芝加哥分校。
第一作者Joel Jang,目前是KAIST語(yǔ)言與知識(shí)實(shí)驗(yàn)室的二年級(jí)碩士生,本科畢業(yè)于高麗大學(xué)計(jì)算機(jī)科學(xué)專業(yè)。
該論文是他在LG AI Research實(shí)習(xí)期間完成。
論文鏈接如下,感興趣的小伙伴們可以自取~
論文鏈接:
https://arxiv.org/pdf/2302.03202.pdf
參考鏈接:
[1]https://twitter.com/jang_yoel/status/1623169024489328640/retweets/with_comments
[2]https://joeljang.github.io/
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06