全新預(yù)訓(xùn)練數(shù)據(jù)篩選方案,讓數(shù)據(jù)效率提升10倍!配置僅需fastText評(píng)分器|港科大vivo出品
更客觀、更輕量、更高效!
PreSelect團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
vivo自研大模型用的數(shù)據(jù)篩選方法,公開(kāi)了。
香港科技大學(xué)和vivo AI Lab聯(lián)名提出PreSelect,目前已被ICML 2025接收。
這是一種輕量級(jí)且高效的數(shù)據(jù)選擇方法:只需要訓(xùn)練和部署一個(gè)基于fastText的評(píng)分器,就可以減少10倍的計(jì)算需求。
該方法提出數(shù)據(jù)的預(yù)測(cè)強(qiáng)度(Predictive Strength) 的概念和計(jì)算公式,利用在不同模型上Loss有序性表征數(shù)據(jù)對(duì)特定能力的貢獻(xiàn),通過(guò)獲取特定能力的有效樣本訓(xùn)練fastText分類器對(duì)全量訓(xùn)練數(shù)據(jù)進(jìn)行篩選。
△論文標(biāo)題:Predictive Data Selection: The Data That Predicts Is the Data That Teaches
PreSelect:更客觀、更輕量
現(xiàn)有的數(shù)據(jù)篩選方法主要分為兩類:基于規(guī)則的篩選和基于模型的篩選。
基于規(guī)則的篩選依賴人工構(gòu)建的先驗(yàn)規(guī)則,如C4 pipeline、Gopher rules,以及RefinedWeb和FineWeb的數(shù)據(jù)篩選流程。此類方法雖然實(shí)現(xiàn)簡(jiǎn)單,但容易受到人工經(jīng)驗(yàn)的限制,存在泛化能力弱或規(guī)則主觀性強(qiáng)的問(wèn)題。
基于模型的篩選則通過(guò)訓(xùn)練模型對(duì)數(shù)據(jù)分類或打分以篩選樣本,如CC Net采用困惑度(Perplexity)打分,F(xiàn)ineWeb-Edu利用Bert分類器評(píng)估教育價(jià)值,DsDm和MATES計(jì)算樣本的influence score,DCLM利用 fastText打分器評(píng)估樣本與SFT數(shù)據(jù)的相似性。這類方法常面臨計(jì)算成本高或者引入主觀偏見(jiàn)等問(wèn)題。
而PreSelect方法具有以下優(yōu)勢(shì):
- 客觀性
- 將傳統(tǒng)的主觀性的數(shù)據(jù)質(zhì)量評(píng)估轉(zhuǎn)化為對(duì)模型能力的貢獻(xiàn)大小,通過(guò)“預(yù)測(cè)強(qiáng)度”指標(biāo),量化評(píng)估數(shù)據(jù)在不同能力上的價(jià)值;
- 泛化性
- 篩選的正樣本不僅覆蓋高質(zhì)量?jī)?nèi)容來(lái)源,同時(shí)具備良好的多樣性,避免過(guò)度集中于某一領(lǐng)域、來(lái)源或風(fēng)格;
- 輕量級(jí)
- 通過(guò)fastText分類器近似打分,大幅降低計(jì)算成本,使得該方法可以高效應(yīng)用于大規(guī)模數(shù)據(jù)篩選任務(wù)中;
- 高細(xì)粒度
- 支持樣本級(jí)別的篩選
- 支持特定細(xì)分能力維度的數(shù)據(jù)篩選
△PreSelect方法與現(xiàn)有SOTA方法的對(duì)比,數(shù)據(jù)效率提升10倍
PreSelect:壓縮即智能
“壓縮即智能”(compression represents intelligence)這一觀點(diǎn)揭示了一個(gè)核心現(xiàn)象:大模型對(duì)數(shù)據(jù)的壓縮能力(例如BPC, bits per character)與其在該數(shù)據(jù)上的歸一化Loss存在等價(jià)關(guān)系,且與模型在下游任務(wù)中的表現(xiàn)高度相關(guān)。
換言之,模型越能高效壓縮數(shù)據(jù),模型能力或智能水平越高。
核心思想
PreSelect團(tuán)隊(duì)提出以數(shù)據(jù)預(yù)測(cè)強(qiáng)度(Predictive Strength)作為衡量模型loss與下游任務(wù)(benchmark)表現(xiàn)一致性的指標(biāo),其計(jì)算公式如下:
- N代表模型數(shù)量,這些模型在benchmark的得分 {S1 < S2 < … < SN}
- C代表模型在數(shù)據(jù)集d上的歸一化loss,即BPC
- Z為歸一化因子
- I{}為指示函數(shù)
- S取值范圍 [0,1]
當(dāng)S=1 時(shí),表示不同模型在benchmark上的得分排序與其在該數(shù)據(jù)上的loss排序完全一致,說(shuō)明該數(shù)據(jù)具有很高的預(yù)測(cè)強(qiáng)度;相反,當(dāng)S=0時(shí),說(shuō)明兩種排序之間沒(méi)有相關(guān)性,該數(shù)據(jù)對(duì)下游任務(wù)的作用弱,預(yù)測(cè)強(qiáng)度很低。
根據(jù)預(yù)測(cè)強(qiáng)度的高低對(duì)數(shù)據(jù)進(jìn)行篩選,優(yōu)先保留那些使得不同模型在benchmark上的得分排序與在數(shù)據(jù)上的loss排序更一致的數(shù)據(jù)。
這類數(shù)據(jù)對(duì)模型能力的貢獻(xiàn)更加顯著,能夠更有效地提升模型效果。
與現(xiàn)有方法相比,該方法具有更堅(jiān)實(shí)的理論基礎(chǔ),減少了對(duì)人工啟發(fā)規(guī)則的依賴,篩選過(guò)程更客觀、更具有泛化性。
系統(tǒng)框架
計(jì)算預(yù)測(cè)強(qiáng)度需要多個(gè)模型分別對(duì)數(shù)據(jù)樣本計(jì)算loss,全量數(shù)據(jù)計(jì)算的成本將非常高。
為解決這一問(wèn)題,使用fastText打分器作為代理模型近似預(yù)測(cè)強(qiáng)度,從而顯著降低計(jì)算成本。
整體流程如下:
訓(xùn)練效果
PreSelect團(tuán)隊(duì)從RefinedWeb數(shù)據(jù)集中隨機(jī)抽取80B、300B和1T tokens作為基礎(chǔ)數(shù)據(jù),評(píng)估不同篩選方法的效果。篩選比例設(shè)置為10%和30%,篩選后的數(shù)據(jù)量級(jí)包括8B、30B、90B和100B。所訓(xùn)練模型的參數(shù)規(guī)模包括400M、1B和3B。
實(shí)驗(yàn)對(duì)比的篩選方法包括Random、Perplexity Filter、Perplexity Correlation(DD)、Perplexity Correlation(DP)、FineWeb-Edu、DCLM。
在下游17個(gè)任務(wù)上的實(shí)驗(yàn)結(jié)果表明,PreSelect方法篩選出的數(shù)據(jù)在訓(xùn)練的模型效果上顯著優(yōu)于其他方法,對(duì)比baseline平均提升了3%,驗(yàn)證了其有效性。
在C4數(shù)據(jù)集上,進(jìn)一步對(duì)比多種主流篩選方法,包括Random、DSIR、DsDm、QuRating和MATES,所訓(xùn)練的模型為Pythia。
實(shí)驗(yàn)結(jié)果顯示,PreSelect方法篩選的數(shù)據(jù)訓(xùn)練出的模型在多項(xiàng)指標(biāo)上均優(yōu)于其他方法。
從已通過(guò)人工規(guī)則集和多種質(zhì)量評(píng)分模型篩選,并經(jīng)過(guò)不同粒度的文本級(jí)和語(yǔ)義級(jí)去重的vivo自有Web數(shù)據(jù)集中,隨機(jī)抽取5T tokens作為基礎(chǔ)數(shù)據(jù),分別采用PreSelect與Random方法各自篩選10%(即500B tokens),訓(xùn)練參數(shù)規(guī)模3B的模型并評(píng)估下游任務(wù)效果。
實(shí)驗(yàn)結(jié)果表明,即使在自有的經(jīng)過(guò)優(yōu)化處理的數(shù)據(jù)集上,PreSelect方法依然有顯著的性能提升,展現(xiàn)出其在高質(zhì)量數(shù)據(jù)基礎(chǔ)上的增益能力。
經(jīng)過(guò)對(duì)不同數(shù)據(jù)篩選方法所選擇的樣本進(jìn)行分析,結(jié)果表明PreSelect篩選的domain數(shù)據(jù)更多地采樣了知識(shí)、問(wèn)答和文學(xué)領(lǐng)域,更廣泛地覆蓋了高質(zhì)量來(lái)源內(nèi)容,能夠顯著提升模型在各個(gè)領(lǐng)域的效果。
通過(guò)對(duì)不同數(shù)據(jù)篩選方法所篩選出的數(shù)據(jù)長(zhǎng)度進(jìn)行比較,可以看到DCLM 和FineWeb-Edu顯示出明顯的短數(shù)據(jù)向量和長(zhǎng)數(shù)據(jù)向量趨勢(shì),而PreSelect篩選的數(shù)據(jù)在長(zhǎng)度分布上更接近原始長(zhǎng)度分布。表明其在篩選出高質(zhì)量樣本的同時(shí),有效減少了樣本長(zhǎng)度偏差(length bias),具備更好的代表性與覆蓋性。
論文鏈接:https://arxiv.org/abs/2503.00808
- 阿里全新AI IDE現(xiàn)在免費(fèi)用:超強(qiáng)上下文理解,覆蓋整個(gè)代碼庫(kù)2025-08-22
- 北大ChatExcel,獲得千萬(wàn)級(jí)新投資2025-08-21
- 實(shí)測(cè)DeepSeek V3.1,不止拓展上下文長(zhǎng)度2025-08-20
- 英偉達(dá)開(kāi)源9B參數(shù)小模型,比Qwen3快6倍2025-08-19