大模型指令調(diào)優(yōu)數(shù)據(jù)集萬字評測!騰訊上交大聯(lián)合出品
覆蓋文獻(xiàn)400余篇
騰訊優(yōu)圖實(shí)驗(yàn)室 投稿
量子位 | 公眾號 QbitAI
隨著大模型的快速發(fā)展,指令調(diào)優(yōu)在提升模型性能和泛化能力方面發(fā)揮著至關(guān)重要的作用。
然而,對于指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)評估和選擇方法尚未形成統(tǒng)一的體系,且缺乏全面深入的綜述。
為了填補(bǔ)這一空白,騰訊優(yōu)圖實(shí)驗(yàn)室發(fā)布一篇完整綜述進(jìn)行梳理。
長度超過了萬字,涉及的文獻(xiàn)多達(dá)400余篇。
這項(xiàng)研究涵蓋了質(zhì)量、多樣性和重要性三個(gè)主要方面的數(shù)據(jù)評估和選擇方法,對每個(gè)方面都進(jìn)行了詳細(xì)的分類和闡述。
同時(shí),作者還關(guān)注了該領(lǐng)域的最新進(jìn)展和趨勢,包括一些新興的技術(shù)和方法,如利用GPT等強(qiáng)大語言模型進(jìn)行數(shù)據(jù)評分、基于雙層優(yōu)化的Coreset采樣等。
全方位評估指令調(diào)優(yōu)數(shù)據(jù)集
LLMs的發(fā)展目標(biāo)是解鎖對自然語言處理(NLP)任務(wù)的泛化能力,指令調(diào)優(yōu)在其中發(fā)揮重要作用,而數(shù)據(jù)質(zhì)量對指令調(diào)優(yōu)效果至關(guān)重要。
作者深入研究了各種指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)評估和選擇方法,從質(zhì)量、多樣性和重要性三個(gè)方面進(jìn)行了分類和闡述。
質(zhì)量評估與選擇
“質(zhì)量”主要指指令響應(yīng)數(shù)據(jù)點(diǎn)的完整性、準(zhǔn)確性和合理性,現(xiàn)有方法通常制定統(tǒng)一的評分機(jī)制來綜合考慮這些維度。
針對數(shù)據(jù)集的質(zhì)量,作者主要總結(jié)出了四種測試方法:
- 一是手工設(shè)計(jì)指標(biāo),如通過詞匯、句法、語義相似性等來方法評估數(shù)據(jù)質(zhì)量,優(yōu)點(diǎn)是指標(biāo)計(jì)算明確,但無法檢測不匹配的指令響應(yīng)對。
- 二是使用基于模型的指標(biāo),這種方法利用可訓(xùn)練模型(如使用困惑度、多維評分評估器等)進(jìn)行,結(jié)合多種訓(xùn)練感知指標(biāo)(如不確定性、獎勵(lì)分?jǐn)?shù)等)的混合技術(shù),這種方法在選擇無偏高質(zhì)量樣本方面具有潛力。
- 第三種方法是直接交給GPT,調(diào)用OpenAI APIs對指令調(diào)優(yōu)數(shù)據(jù)集進(jìn)行自動評分,這種方法與人類偏好高度對齊,收集少量GPT評分樣本后微調(diào)開源LLM進(jìn)行質(zhì)量測量,可提高成本效率。
- 最后是人工評價(jià),這種方法在構(gòu)建偏好對齊數(shù)據(jù)集時(shí)不可或缺,可用為模型訓(xùn)練提供高質(zhì)量數(shù)據(jù),但存在標(biāo)注不一致問題,需制定詳細(xì)指南,并輔以GPT評分等其他措施作為補(bǔ)充。
多樣性評估與選擇
這里的多樣性,是指指令數(shù)據(jù)集的個(gè)體多樣性(如詞匯和語義豐富度)和整體多樣性(如數(shù)據(jù)分布),選擇具有多樣性的數(shù)據(jù)集可增強(qiáng)模型的泛化能力。
作者同樣是總結(jié)了四種測試數(shù)據(jù)集多樣性的方式。
- 手工設(shè)計(jì)的指標(biāo):包括詞匯多樣性(如Type-token ratio、vocd-D、MTLD、HD-D等)和語義多樣性(如通過k – NN圖計(jì)算距離、利用BERT嵌入計(jì)算方差等)等多種指標(biāo)。
- 基于模型的指標(biāo):通過熵相關(guān)方法(如vanilla entropy、Rényi entropy、Simpson’s Index、Vendi Score等)、Task2Vec嵌入、開放標(biāo)簽的多樣性標(biāo)記等方式評估多樣性。
- 基于幾何特征的Coreset采樣:通過k-center greedy、herding等方法選擇最具信息和多樣性的子集,代表整個(gè)數(shù)據(jù)集,使模型在子集上的訓(xùn)練性能接近在整個(gè)數(shù)據(jù)集上的訓(xùn)練性能,聚類技術(shù)在其中起到解釋數(shù)據(jù)結(jié)構(gòu)的作用。
- 基于Bi-level的Coreset采樣:將Coreset采樣視為Bi-level優(yōu)化問題,通過優(yōu)化硬掩碼或軟權(quán)重來選擇子集,涉及到模型內(nèi)部參數(shù)的優(yōu)化和數(shù)據(jù)選擇的外部循環(huán),一些方法通過引入驗(yàn)證集、梯度匹配和優(yōu)化技術(shù)等來提高魯棒性和效率。
重要性評估與選擇
重要性是指樣本對模型訓(xùn)練的必要性,與模型任務(wù)相關(guān),同時(shí)也關(guān)乎性能。易樣本可能不需要額外調(diào)優(yōu),而難樣本對模型訓(xùn)練至關(guān)重要。
對重要性的評估,主要有這樣幾種指標(biāo)和方法:
- 手工設(shè)計(jì)的指標(biāo):通過可讀性指標(biāo)(如語法、詞匯、推理依賴等)評估文本難度,選擇具有挑戰(zhàn)性的樣本以評估模型魯棒性和構(gòu)建有區(qū)分度的NLP基準(zhǔn)。
- 基于模型的指標(biāo):包括不確定性(如prompt uncertainty)、獎勵(lì)分?jǐn)?shù)(通過獎勵(lì)模型判斷樣本對模型行為的必要性)和數(shù)據(jù)模型(如通過Data model預(yù)測數(shù)據(jù)點(diǎn)對模型行為的影響、DSIR根據(jù)分布相似性估計(jì)重要性分?jǐn)?shù)、MATES連續(xù)選擇最有效子集、Xie等人通過重要性重采樣選擇類似目標(biāo)分布的樣本)等方式。
- 基于Loss和Error的Coreset采樣:通過記錄訓(xùn)練中樣本的錯(cuò)誤(如forgetting score、memorization、influence等)來估計(jì)重要性,選擇對損失貢獻(xiàn)大或?qū)е滦阅懿畹臉颖荆恍┭芯客ㄟ^迭代近似和小代理模型加速計(jì)算邊際效應(yīng)。
- 基于梯度的Coreset采樣:利用梯度直接影響語言模型優(yōu)化的特性,通過梯度匹配(如逼近整個(gè)數(shù)據(jù)集的梯度)和梯度基于的影響(如通過上加權(quán)梯度乘法測量樣本對模型參數(shù)的影響)來選擇數(shù)據(jù),一些技術(shù)(如低秩梯度相似性搜索、移動樣本近似等)用于加速計(jì)算和提高效率,同時(shí)需要考慮近似的精度和效率。
現(xiàn)有挑戰(zhàn)和未來方向
作者發(fā)現(xiàn),數(shù)據(jù)選擇的有效性與模型在基準(zhǔn)測試上的性能報(bào)告之間存在差距,原因包括評估損失與基準(zhǔn)性能相關(guān)性不強(qiáng)、測試集污染等。
未來需要構(gòu)建專門的基準(zhǔn)來評估指令調(diào)優(yōu)模型和所選數(shù)據(jù)點(diǎn),并解耦數(shù)據(jù)選擇和模型評估以排除數(shù)據(jù)污染的影響。
目前也沒有統(tǒng)一標(biāo)準(zhǔn)來區(qū)分“好”“壞”指令,現(xiàn)有質(zhì)量測量方法具有特定任務(wù)導(dǎo)向性且缺乏解釋性,未來需要更統(tǒng)一、通用的定義和提高選擇管道的可解釋性,以適應(yīng)不同下游任務(wù)的需求。
隨著數(shù)據(jù)集的擴(kuò)大,確定最佳選擇比例也變得困難,原因包括噪聲增加、過擬合和遺忘問題,建議通過質(zhì)量測量方案、強(qiáng)調(diào)多樣性和考慮與預(yù)訓(xùn)練數(shù)據(jù)的相似性來確定最佳選擇比例,并優(yōu)化數(shù)據(jù)評估和選擇的可擴(kuò)展性pipeline。
除了數(shù)據(jù)集,大模型本身的規(guī)模也在增大,數(shù)據(jù)評估和選擇的成本效率降低,需要發(fā)展高效的代理模型,同時(shí)重新思考傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù),如優(yōu)化技巧和降維方法。
項(xiàng)目主頁:
https://github.com/yuleiqin/fantastic-data-engineering
論文地址:
https://arxiv.org/abs/2408.02085