大模型指令調優(yōu)數據集萬字評測!騰訊上交大聯(lián)合出品
覆蓋文獻400余篇
騰訊優(yōu)圖實驗室 投稿
量子位 | 公眾號 QbitAI
隨著大模型的快速發(fā)展,指令調優(yōu)在提升模型性能和泛化能力方面發(fā)揮著至關重要的作用。
然而,對于指令調優(yōu)數據集的數據評估和選擇方法尚未形成統(tǒng)一的體系,且缺乏全面深入的綜述。
為了填補這一空白,騰訊優(yōu)圖實驗室發(fā)布一篇完整綜述進行梳理。
長度超過了萬字,涉及的文獻多達400余篇。
這項研究涵蓋了質量、多樣性和重要性三個主要方面的數據評估和選擇方法,對每個方面都進行了詳細的分類和闡述。
同時,作者還關注了該領域的最新進展和趨勢,包括一些新興的技術和方法,如利用GPT等強大語言模型進行數據評分、基于雙層優(yōu)化的Coreset采樣等。
全方位評估指令調優(yōu)數據集
LLMs的發(fā)展目標是解鎖對自然語言處理(NLP)任務的泛化能力,指令調優(yōu)在其中發(fā)揮重要作用,而數據質量對指令調優(yōu)效果至關重要。
作者深入研究了各種指令調優(yōu)數據集的數據評估和選擇方法,從質量、多樣性和重要性三個方面進行了分類和闡述。
質量評估與選擇
“質量”主要指指令響應數據點的完整性、準確性和合理性,現(xiàn)有方法通常制定統(tǒng)一的評分機制來綜合考慮這些維度。
針對數據集的質量,作者主要總結出了四種測試方法:
- 一是手工設計指標,如通過詞匯、句法、語義相似性等來方法評估數據質量,優(yōu)點是指標計算明確,但無法檢測不匹配的指令響應對。
- 二是使用基于模型的指標,這種方法利用可訓練模型(如使用困惑度、多維評分評估器等)進行,結合多種訓練感知指標(如不確定性、獎勵分數等)的混合技術,這種方法在選擇無偏高質量樣本方面具有潛力。
- 第三種方法是直接交給GPT,調用OpenAI APIs對指令調優(yōu)數據集進行自動評分,這種方法與人類偏好高度對齊,收集少量GPT評分樣本后微調開源LLM進行質量測量,可提高成本效率。
- 最后是人工評價,這種方法在構建偏好對齊數據集時不可或缺,可用為模型訓練提供高質量數據,但存在標注不一致問題,需制定詳細指南,并輔以GPT評分等其他措施作為補充。
多樣性評估與選擇
這里的多樣性,是指指令數據集的個體多樣性(如詞匯和語義豐富度)和整體多樣性(如數據分布),選擇具有多樣性的數據集可增強模型的泛化能力。
作者同樣是總結了四種測試數據集多樣性的方式。
- 手工設計的指標:包括詞匯多樣性(如Type-token ratio、vocd-D、MTLD、HD-D等)和語義多樣性(如通過k – NN圖計算距離、利用BERT嵌入計算方差等)等多種指標。
- 基于模型的指標:通過熵相關方法(如vanilla entropy、Rényi entropy、Simpson’s Index、Vendi Score等)、Task2Vec嵌入、開放標簽的多樣性標記等方式評估多樣性。
- 基于幾何特征的Coreset采樣:通過k-center greedy、herding等方法選擇最具信息和多樣性的子集,代表整個數據集,使模型在子集上的訓練性能接近在整個數據集上的訓練性能,聚類技術在其中起到解釋數據結構的作用。
- 基于Bi-level的Coreset采樣:將Coreset采樣視為Bi-level優(yōu)化問題,通過優(yōu)化硬掩碼或軟權重來選擇子集,涉及到模型內部參數的優(yōu)化和數據選擇的外部循環(huán),一些方法通過引入驗證集、梯度匹配和優(yōu)化技術等來提高魯棒性和效率。
重要性評估與選擇
重要性是指樣本對模型訓練的必要性,與模型任務相關,同時也關乎性能。易樣本可能不需要額外調優(yōu),而難樣本對模型訓練至關重要。
對重要性的評估,主要有這樣幾種指標和方法:
- 手工設計的指標:通過可讀性指標(如語法、詞匯、推理依賴等)評估文本難度,選擇具有挑戰(zhàn)性的樣本以評估模型魯棒性和構建有區(qū)分度的NLP基準。
- 基于模型的指標:包括不確定性(如prompt uncertainty)、獎勵分數(通過獎勵模型判斷樣本對模型行為的必要性)和數據模型(如通過Data model預測數據點對模型行為的影響、DSIR根據分布相似性估計重要性分數、MATES連續(xù)選擇最有效子集、Xie等人通過重要性重采樣選擇類似目標分布的樣本)等方式。
- 基于Loss和Error的Coreset采樣:通過記錄訓練中樣本的錯誤(如forgetting score、memorization、influence等)來估計重要性,選擇對損失貢獻大或導致性能差的樣本,一些研究通過迭代近似和小代理模型加速計算邊際效應。
- 基于梯度的Coreset采樣:利用梯度直接影響語言模型優(yōu)化的特性,通過梯度匹配(如逼近整個數據集的梯度)和梯度基于的影響(如通過上加權梯度乘法測量樣本對模型參數的影響)來選擇數據,一些技術(如低秩梯度相似性搜索、移動樣本近似等)用于加速計算和提高效率,同時需要考慮近似的精度和效率。
現(xiàn)有挑戰(zhàn)和未來方向
作者發(fā)現(xiàn),數據選擇的有效性與模型在基準測試上的性能報告之間存在差距,原因包括評估損失與基準性能相關性不強、測試集污染等。
未來需要構建專門的基準來評估指令調優(yōu)模型和所選數據點,并解耦數據選擇和模型評估以排除數據污染的影響。
目前也沒有統(tǒng)一標準來區(qū)分“好”“壞”指令,現(xiàn)有質量測量方法具有特定任務導向性且缺乏解釋性,未來需要更統(tǒng)一、通用的定義和提高選擇管道的可解釋性,以適應不同下游任務的需求。
隨著數據集的擴大,確定最佳選擇比例也變得困難,原因包括噪聲增加、過擬合和遺忘問題,建議通過質量測量方案、強調多樣性和考慮與預訓練數據的相似性來確定最佳選擇比例,并優(yōu)化數據評估和選擇的可擴展性pipeline。
除了數據集,大模型本身的規(guī)模也在增大,數據評估和選擇的成本效率降低,需要發(fā)展高效的代理模型,同時重新思考傳統(tǒng)機器學習技術,如優(yōu)化技巧和降維方法。
項目主頁:
https://github.com/yuleiqin/fantastic-data-engineering
論文地址:
https://arxiv.org/abs/2408.02085
- DeepSeek一句話讓國產芯片集體暴漲!背后的UE8M0 FP8到底是個啥2025-08-22
- GPT-5 Pro獨立做數學研究!讀論文后給出更精確邊界,OpenAI總裁:這是生命跡象2025-08-21
- 黃仁勛子女成長路徑曝光:一個學烘焙一個開酒吧,從基層做到英偉達高管2025-08-12
- 讓64張卡像一張卡!浪潮信息發(fā)布新一代AI超節(jié)點,支持四大國產開源模型同時運行2025-08-11