開源垂直領(lǐng)域高質(zhì)量數(shù)據(jù)合成框架!專業(yè)QA自動(dòng)生成,無需人工標(biāo)注,來自上海AI Lab
GraphGen團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
垂域模型訓(xùn)練,高質(zhì)量問答數(shù)據(jù)稀缺一直是行業(yè)痛點(diǎn)。
在垂直領(lǐng)域大模型訓(xùn)練中,人工標(biāo)注成本高昂,合成數(shù)據(jù)又常陷入質(zhì)量與專業(yè)性難以兼得的困境。
為此,上海AI實(shí)驗(yàn)室等提出GraphGen。
通過“知識(shí)圖譜引導(dǎo)+雙模型協(xié)同”機(jī)制,顯著增強(qiáng)模型對(duì)垂域的理解能力。
同時(shí),研究團(tuán)隊(duì)已經(jīng)在OpenXLab部署了Web應(yīng)用,上傳你的文本塊(如海事、海洋知識(shí))、填寫SliconCloud API Key,即可在線生成LLaMA-Factory、XTuner所需的訓(xùn)練數(shù)據(jù)。
背景說明
垂域模型(如醫(yī)療、農(nóng)業(yè))訓(xùn)練中,獲取QA(問答對(duì))數(shù)據(jù)常常面臨以下難題:
量大。只是學(xué)習(xí)回復(fù)風(fēng)格只需數(shù)百條,尚且能人工標(biāo)注;用SFT(Supervised Fine-Tuning)給模型注入新知識(shí),需要數(shù)十萬的樣本量,此時(shí)數(shù)據(jù)合成手段是剛需。
專業(yè)背景。開源LLM在小眾領(lǐng)域已經(jīng)表現(xiàn)不錯(cuò),但垂域應(yīng)對(duì)的是真正的“硬骨頭”。面對(duì)領(lǐng)域數(shù)據(jù),普通人可能每個(gè)字都認(rèn)識(shí),但連在一起并不知道什么含義。比如,不借助工具,請(qǐng)?jiān)囍x懂這句:
1AGIS_Os01g033640是一個(gè)怎樣的數(shù)量性狀基因(QTG),與鹽脅迫表達(dá)是否有關(guān)聯(lián)?
質(zhì)量把控?!癓LM-RAG-打分”通常也被拿來合成 SFT 數(shù)據(jù),但這條pipeline存留一些問題:
正確性。在LLM不具備領(lǐng)域知識(shí)時(shí),直接給領(lǐng)域問答數(shù)據(jù)打分,容易陷入“先有雞先有蛋”的難題
簡(jiǎn)單的關(guān)聯(lián)度得分也不足以衡量數(shù)據(jù)質(zhì)量,不僅沒有回復(fù)長(zhǎng)度、信息豐度等指標(biāo),更缺少語義層面的保證
方案介紹
為了解決以上問題,上海AI Lab開源了GraphGen,一個(gè)在知識(shí)圖譜引導(dǎo)下的合成數(shù)據(jù)生成框架,旨在知識(shí)密集型任務(wù)中生成問答
這是基于GraphGen和SiliconCloud Qwen2.5-7B-Instruct API實(shí)跑的 QA 樣例:
1Q:隆兩優(yōu)1212是什么品種的水稻,其機(jī)播時(shí)間是什么時(shí)候?
2A:首先,隆兩優(yōu)1212是一種早熟品種,于2017年引入福建省龍巖市長(zhǎng)汀縣試種。這種水稻在煙草收獲后進(jìn)行種植,因此被稱為煙后稻。隆兩優(yōu)1212的機(jī)播時(shí)間定在了6月15日。隨著時(shí)間的推移,到了2019年,隆兩優(yōu)1212進(jìn)一步擴(kuò)大了示范種植的范圍。此外,隆兩優(yōu)1212還具有抽穗整齊的生長(zhǎng)特點(diǎn),這進(jìn)一步證明了其優(yōu)良的種植性能。
3
4Q:What role does the BG1 gene play?in?plant growth?and?development,?and?how?is?its expression regulated?
5A:AUXIN, a class of plant hormones that regulate various aspects of plant growth?and?development, plays a crucial role?in?the induction of the BG1 gene. Specifically, BG1?is?induced by auxin treatment, indicating its involvement?in?auxin transport regulation. This gene?is?preferentially expressed?in?the vascular tissue of culms, further highlighting its localization?in?these tissues. The function of BG1 extends beyond auxin transport regulation,?as?it?is?also linked to the regulation of grain size?and?tiller angle. Tiller angle, a critical architectural feature of rice plants that influences grain?yield,?is?directly affected by the expression of BG1. Therefore, the role of BG1?in?regulating both grain size?and?tiller angle underscores its importance?in?plant architecture?and?overall?yield.
GraphGen會(huì)使用到兩個(gè)LLM,一個(gè)是合成模型,負(fù)責(zé)構(gòu)建知識(shí)圖譜、合成數(shù)據(jù)等;另一個(gè)是學(xué)生模型,用來識(shí)別它自己的知識(shí)盲點(diǎn),方便針對(duì)性的選擇數(shù)據(jù)。

上圖是GraphGen工作流:
首先輸入一段原始文本,使用合成模型從源文本構(gòu)建細(xì)粒度的知識(shí)圖譜。
然后,利用預(yù)期校準(zhǔn)誤差(Expected Calibration Error, 簡(jiǎn)稱 ECE)來識(shí)別學(xué)生模型的知識(shí)盲點(diǎn),針對(duì)知識(shí)盲點(diǎn)優(yōu)先生成針對(duì)高價(jià)值、長(zhǎng)尾知識(shí)的問答對(duì)。
接著,GraphGen框架結(jié)合多跳鄰域采樣來捕捉復(fù)雜的關(guān)聯(lián)信息,并采用風(fēng)格控制生成技術(shù)來使生成的問答數(shù)據(jù)多樣化。
最終得到一系列和原始文本相關(guān)的問答對(duì)。用戶可以直接用這批數(shù)據(jù)在llama-factory或者xtuner這樣的訓(xùn)練框架中進(jìn)行SFT。
優(yōu)秀的數(shù)據(jù)合成方法有很多,研究團(tuán)隊(duì)在論文中做了對(duì)比測(cè)試:

研究團(tuán)隊(duì)采用的是客觀指標(biāo):
MTLD(Measure of Textual Lexical Diversity)通過計(jì)算文本中連續(xù)詞串的平均長(zhǎng)度來評(píng)估詞匯的多樣性
Uni(Unieval Score)是基于對(duì)話模型的自然度、一致度、可理解度評(píng)價(jià)指標(biāo)
Rew(Reward Score)是BAAI和OpenAssistant開源的兩個(gè)Reward Model計(jì)算的得分
由上圖可見,GraphGen能給出相對(duì)較好的合成數(shù)據(jù)。
同時(shí)研究團(tuán)隊(duì)在開源數(shù)據(jù)集(SeedEval、PQArefEval、HotpotEval 分別對(duì)應(yīng)農(nóng)業(yè)、醫(yī)學(xué)、通用)訓(xùn)練測(cè)試,結(jié)果表明GraphGen自動(dòng)合成的數(shù)據(jù)能夠降低Comprehension Loss(越低代表學(xué)生模型的知識(shí)盲點(diǎn)越少),增強(qiáng)模型對(duì)垂域的理解力。

工具使用
研究團(tuán)隊(duì)已經(jīng)在OpenXLab平臺(tái)推出了一個(gè)便捷的Web應(yīng)用。用戶可以輕松上傳各類文本塊(例如海事、海洋知識(shí)等),并通過填寫SiliconCloud API Key,快速生成適配LLaMA-Factory和XTuner訓(xùn)練框架所需的高質(zhì)量訓(xùn)練數(shù)據(jù)。

需要注意的是:
為了方便試用,默認(rèn)配置免費(fèi)的7B模型。真實(shí)業(yè)務(wù)中請(qǐng)用更大的合成模型(14B 及以上),并開啟Trainee 難例挖掘
Web應(yīng)用默認(rèn)配置SiliconCloud做API Key,也支持本地vllm部署,請(qǐng)自行修改base URL
GitHub 和論文地址:
https://github.com/open-sciencelab/GraphGen
OpenXLab Web 體驗(yàn)地址:
https://g-app-center-000704-6802-aerppvq.openxlab.space