訓(xùn)練時(shí)間減半,性能不降反升!騰訊混元開(kāi)源圖像生成高效強(qiáng)化方案MixGRPO
一種結(jié)合了SDE和ODE采樣的新型訓(xùn)練框架
混元基礎(chǔ)模型團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
圖像生成不光要好看,更要高效。
混元基礎(chǔ)模型團(tuán)隊(duì)提出全新框架MixGRPO,該框架通過(guò)結(jié)合隨機(jī)微分方程(SDE)和常微分方程(ODE),利用混合采樣策略的靈活性,簡(jiǎn)化了MDP中的優(yōu)化流程,從而提升了效率的同時(shí)還增強(qiáng)了性能。

基于MixGRPO,研究人員提出了一個(gè)更快的變體MixGRPO-Flash,在保持相近性能的同時(shí)進(jìn)一步提升了訓(xùn)練效率。
MixGRPO在人類(lèi)偏好對(duì)齊的多個(gè)維度上均表現(xiàn)出顯著提升,效果和效率均優(yōu)于DanceGRPO,訓(xùn)練時(shí)間降低近50%。值得注意的是,MixGRPO-Flash可將訓(xùn)練時(shí)間進(jìn)一步降低71%。

開(kāi)源代碼請(qǐng)參考文末鏈接。
MixGRPO模型解析
GRPO中的ODE-SDE混合采樣
近年來(lái),文本到圖像(Text-to-Image,T2I)任務(wù)的最新進(jìn)展表明,通過(guò)在后訓(xùn)練階段引入基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)策略以最大化獎(jiǎng)勵(lì),流匹配模型的性能得到了顯著提升。
具體而言,基于組相對(duì)策略?xún)?yōu)化(Group Relative Policy Optimization,GRPO)的方法近期被提出,能夠?qū)崿F(xiàn)與人類(lèi)偏好的最佳對(duì)齊。
當(dāng)前概率流模型中的GRPO方法,如Flow-GRPO和DanceGRPO,在每個(gè)去噪步驟中利用隨機(jī)微分方程(Stochastic Differential Equations,SDE)采樣引入圖像生成的隨機(jī)性,以解決RLHF中對(duì)隨機(jī)探索的依賴(lài)。
它們將去噪過(guò)程建模為隨機(jī)環(huán)境下的馬爾可夫決策過(guò)程(MDP),并使用GRPO優(yōu)化整個(gè)狀態(tài)-動(dòng)作序列。
然而,由于去噪迭代過(guò)程帶來(lái)的巨大開(kāi)銷(xiāo),這顯著降低了訓(xùn)練速度。
具體來(lái)說(shuō),為了計(jì)算后驗(yàn)概率的比值,必須分別使用舊策略模型和新策略模型
獨(dú)立完成全步驟采樣。
雖然DanceGRPO提出了隨機(jī)選擇部分去噪步驟進(jìn)行優(yōu)化的方法,但研究團(tuán)隊(duì)在圖1中的實(shí)證分析表明,隨著所選子集規(guī)模的縮小,性能會(huì)出現(xiàn)顯著下降。
圖1.不同優(yōu)化去噪步驟數(shù)量下的性能對(duì)比
根據(jù)Flow-GRPO,流匹配中的SDE采樣可以被構(gòu)建為一個(gè)隨機(jī)環(huán)境下的馬爾可夫決策過(guò)程(MDP)。
在采樣過(guò)程中,智能體生成一條軌跡,定義為,并獲得獎(jiǎng)勵(lì)
。
在MixGRPO中,研究團(tuán)隊(duì)提出了一種結(jié)合SDE與ODE的混合采樣方法。MixGRPO定義了一個(gè)區(qū)間,它是去噪時(shí)間范圍
的子區(qū)間,滿(mǎn)足
。
在去噪過(guò)程中,他們?cè)趨^(qū)間S內(nèi)采用SDE采樣,區(qū)間外采用ODE采樣,且區(qū)間S會(huì)隨著訓(xùn)練過(guò)程從T逐步移動(dòng)到0(見(jiàn)圖2)。
圖2.不同采樣策略下采樣圖像的t-SNE可視化
MixGRPO將智能體的隨機(jī)探索空間限制在區(qū)間S內(nèi),將MDP的序列長(zhǎng)度縮短為子集,并僅對(duì)該子集進(jìn)行強(qiáng)化學(xué)習(xí)(RL)優(yōu)化:

MDP中的其他設(shè)置保持不變。MixGRPO不僅降低了計(jì)算開(kāi)銷(xiāo),同時(shí)也減輕了優(yōu)化難度。接下來(lái),研究團(tuán)隊(duì)推導(dǎo)MixGRPO的具體采樣形式和優(yōu)化目標(biāo)。
對(duì)于確定性的概率流ODE,其形式如下:

其中,是稱(chēng)為漂移系數(shù)的向量值函數(shù),
是稱(chēng)為擴(kuò)散系數(shù)的標(biāo)量函數(shù)。
是時(shí)刻t的得分函數(shù)。
根據(jù)Fokker-Planck方程(risken1996fokker),song2020score證明了式(2)具有以下等價(jià)的概率流SDE,該SDE在每個(gè)時(shí)間點(diǎn)t保持相同的邊際分布:

在MixGRPO中,研究團(tuán)隊(duì)將ODE和SDE混合用于采樣,具體形式如下:

具體來(lái)說(shuō),對(duì)于Flow Matching(FM),尤其是Rectified Flow(RF),采樣過(guò)程可以看作是一個(gè)確定性的ODE:

式(5)實(shí)際上是式(2)的一個(gè)特例,其中速度場(chǎng)。因此,他們可以推導(dǎo)出RF的ODE-SDE混合采樣形式如下:

在RF框架中,模型用于預(yù)測(cè)確定性O(shè)DE的速度場(chǎng),表示為。根據(jù)liu2025flow,score函數(shù)表示為
。噪聲的標(biāo)準(zhǔn)差表示為
。
根據(jù)標(biāo)準(zhǔn)維納過(guò)程的定義,他們使用對(duì)SDE采用Euler-Maruyama離散化,對(duì)ODE采用Euler離散化,設(shè)




MixGRPO中的訓(xùn)練過(guò)程與Flow-GRPO和DanceGRPO類(lèi)似,但他們僅需對(duì)區(qū)間S內(nèi)采樣的時(shí)間步進(jìn)行優(yōu)化。最終的訓(xùn)練目標(biāo)表示為:

其中,稱(chēng)為策略比率(policy ratio),
為優(yōu)勢(shì)函數(shù)(advantage score)。研究團(tuán)隊(duì)設(shè)定
,
其中,由獎(jiǎng)勵(lì)模型提供。
需要注意的是,研究團(tuán)隊(duì)省略了KL Loss。
盡管KL Loss在一定程度上可以緩解reward hacking問(wèn)題,但受flow_grpo_issue7的啟發(fā),他們?cè)跍y(cè)試階段采用混合模型采樣(mixed model sampling),這能夠顯著解決獎(jiǎng)勵(lì)劫持問(wèn)題(詳見(jiàn)附錄A)。
與對(duì)所有時(shí)間步進(jìn)行優(yōu)化相比,MixGRPO降低了策略的函數(shù)評(píng)估次數(shù)(NFE,Number of Function Evaluations)。
然而,策略的NFE并未減少,因?yàn)樾枰暾评硪垣@得用于獎(jiǎng)勵(lì)計(jì)算的最終圖像。
對(duì)于舊策略模型的采樣加速,研究團(tuán)隊(duì)將在后面通過(guò)引入高階求解器進(jìn)行優(yōu)化。
綜上所述,混合ODE-SDE采樣在顯著降低計(jì)算開(kāi)銷(xiāo)的同時(shí),保證了采樣過(guò)程不會(huì)偏離單獨(dú)ODE或SDE采樣在每個(gè)時(shí)間步的邊際分布,這得益于概率流(probability flow)的等價(jià)性。
作為優(yōu)化調(diào)度器的滑動(dòng)窗口
實(shí)際上,區(qū)間S在訓(xùn)練過(guò)程中可以是非固定的。沿著離散的去噪時(shí)間步序列,MixGRPO 定義了一個(gè)滑動(dòng)窗口
,并且僅在該窗口內(nèi)的時(shí)間步上進(jìn)行優(yōu)化。
其中,是滑動(dòng)窗口的左邊界,
是表示窗口大小的超參數(shù)。
滑動(dòng)窗口的左邊界會(huì)隨著訓(xùn)練的進(jìn)行而移動(dòng)。
在實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)窗口大小、移動(dòng)間隔
以及窗口步長(zhǎng)S都是關(guān)鍵的超參數(shù)。
通過(guò)消融研究(詳見(jiàn)實(shí)驗(yàn)4.4.1),他們確定了最優(yōu)的參數(shù)設(shè)置。當(dāng)總采樣步數(shù)T=25時(shí),最佳性能對(duì)應(yīng)的參數(shù)為、
和
。詳細(xì)的滑動(dòng)窗口策略及MixGRPO算法可參見(jiàn)算法1。
算法1.MixGRPO的訓(xùn)練過(guò)程
限制在滑動(dòng)窗口內(nèi)使用SDE采樣,不僅保證了生成圖像的多樣性,還使模型能夠集中精力優(yōu)化該窗口內(nèi)的流動(dòng)。沿著去噪方向的移動(dòng)反映了概率流從強(qiáng)到弱的隨機(jī)性,如圖2所示。
這本質(zhì)上是一種貪心策略,類(lèi)似于強(qiáng)化學(xué)習(xí)中為處理獎(jiǎng)勵(lì)而分配折扣因子的做法,即在早期過(guò)程給予來(lái)自更大搜索空間的獎(jiǎng)勵(lì)更高的權(quán)重。
研究團(tuán)隊(duì)發(fā)現(xiàn),即使滑動(dòng)窗口保持不動(dòng)(Frozen),僅優(yōu)化較早的時(shí)間步,MixGRPO依然能夠取得良好效果,尤其是在ImageReward和UnifiedReward指標(biāo)上表現(xiàn)突出。
基于此直覺(jué),他們還提出了如下的指數(shù)衰減策略,使得隨去噪步數(shù)的增加而減小,從而使模型能夠更專(zhuān)注于在更大搜索空間內(nèi)進(jìn)行優(yōu)化。

其中,是初始移動(dòng)間隔,k是衰減因子,
是控制衰減開(kāi)始時(shí)機(jī)的閾值。指數(shù)函數(shù)
計(jì)算的是
,而修正線(xiàn)性單
定義為
。
開(kāi)銷(xiāo)與性能之間的權(quán)衡
MixGRPO在滑動(dòng)窗口內(nèi)采用SDE采樣,窗口外則采用ODE采樣,從而允許使用高階ODE求解器加速GRPO訓(xùn)練時(shí)的采樣過(guò)程。
利用ODE采樣的時(shí)間步被劃分為滑動(dòng)窗口之前和之后兩部分。
滑動(dòng)窗口之后的時(shí)間步僅影響?yīng)剟?lì)計(jì)算,而窗口之前的時(shí)間步既影響?yīng)剟?lì),也會(huì)對(duì)策略比率計(jì)算中的累積誤差產(chǎn)生貢獻(xiàn)。
因此,研究團(tuán)隊(duì)重點(diǎn)關(guān)注滑動(dòng)窗口之后時(shí)間步的加速。
gao2025diffusionmeetsflow已證明流匹配模型(FM)的ODE采樣與DDIM等價(jià),且上述過(guò)程也表明擴(kuò)散概率模型(DPM)與FM在去噪過(guò)程中共享相同的ODE形式。
因此,專(zhuān)為DPM采樣加速設(shè)計(jì)的高階ODE求解器,如DPM-Solver系列、UniPC,同樣適用于FM。
研究團(tuán)隊(duì)已將DPM-Solver++重新形式化,以便在FM框架中應(yīng)用于 ODE 采樣加速,詳細(xì)推導(dǎo)見(jiàn)附錄B。
通過(guò)應(yīng)用高階求解器,他們實(shí)現(xiàn)了GRPO訓(xùn)練過(guò)程中對(duì)采樣的加速,這本質(zhì)上是在計(jì)算開(kāi)銷(xiāo)與性能之間的權(quán)衡。
過(guò)度加速會(huì)導(dǎo)致時(shí)間步數(shù)減少,必然引起圖像生成質(zhì)量下降,進(jìn)而在獎(jiǎng)勵(lì)計(jì)算中積累誤差。
實(shí)踐中研究團(tuán)隊(duì)發(fā)現(xiàn),二階DPM-Solver++足以顯著加速,同時(shí)保證生成圖像與人類(lèi)偏好高度一致。
最終,他們采用了漸進(jìn)式和凍結(jié)式滑動(dòng)窗口策略,提出了MixGRPO-Flash和MixGRPO-Flash*。算法的詳細(xì)描述見(jiàn)附錄C。這些方法相比MixGRPO實(shí)現(xiàn)了更大程度的加速,同時(shí)在性能上也優(yōu)于DanceGRPO。
MixGRPO多方面表現(xiàn)最佳
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集
研究團(tuán)隊(duì)使用HPDv2 數(shù)據(jù)集中提供的提示詞進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集是 HPS-v2 基準(zhǔn)的官方數(shù)據(jù)集。
訓(xùn)練集包含103,700條提示詞;實(shí)際上,MixGRPO 在僅使用9,600條提示詞訓(xùn)練一個(gè)epoch后,就已取得良好的人類(lèi)偏好對(duì)齊效果。
測(cè)試集包含400條提示詞。提示詞風(fēng)格多樣,涵蓋四種類(lèi)型:“動(dòng)畫(huà)”(Animation)、“概念藝術(shù)”(Concept Art)、“繪畫(huà)”(Painting)和“照片”(Photo)。
模型
繼承自DanceGRPO,研究團(tuán)隊(duì)采用基于流匹配的先進(jìn)文本生成圖像模型 FLUX.1 Dev作為基礎(chǔ)模型。
開(kāi)銷(xiāo)評(píng)估
在評(píng)估計(jì)算開(kāi)銷(xiāo)時(shí),研究團(tuán)隊(duì)采用了兩個(gè)指標(biāo):函數(shù)調(diào)用次數(shù)(NFE)和訓(xùn)練過(guò)程中每次迭代的時(shí)間消耗。
NFE分為和
兩部分。

此外,GRPO每次迭代的平均訓(xùn)練時(shí)間能夠更準(zhǔn)確地反映加速效果。
表現(xiàn)評(píng)估
研究團(tuán)隊(duì)使用四個(gè)獎(jiǎng)勵(lì)模型作為訓(xùn)練中的獎(jiǎng)勵(lì)指導(dǎo)及性能評(píng)估指標(biāo),分別是HPS-v2.1、Pick Score、ImageReward和Unified Reward。
這些指標(biāo)均基于人類(lèi)偏好,但側(cè)重點(diǎn)不同,例如ImageReward強(qiáng)調(diào)圖文對(duì)齊和圖像保真度,而Unified Reward更關(guān)注語(yǔ)義層面。
DanceGRPO也證明了多獎(jiǎng)勵(lì)模型的使用能帶來(lái)更優(yōu)效果。為驗(yàn)證MixGRPO的魯棒性,研究團(tuán)隊(duì)同樣遵循DanceGRPO,進(jìn)行了僅使用HPS-v2.1單一獎(jiǎng)勵(lì)以及結(jié)合HPS-v2.1與CLIP Score的多獎(jiǎng)勵(lì)對(duì)比實(shí)驗(yàn)。
在訓(xùn)練時(shí)采樣方面,首先對(duì)均勻分布的時(shí)間步進(jìn)行變換,計(jì)算
,然后定義
。
其中,作為縮放參數(shù),采樣總步數(shù)設(shè)為T(mén)=25。
在GRPO訓(xùn)練中,模型針對(duì)每個(gè)提示詞生成12張圖像,并將優(yōu)勢(shì)函數(shù)裁剪到區(qū)間[-5,5]內(nèi)。需要特別說(shuō)明的是,研究團(tuán)隊(duì)采用了3步梯度累積,這意味著在一次訓(xùn)練迭代中實(shí)際進(jìn)行了次梯度更新。
對(duì)于滑動(dòng)窗口的指數(shù)衰減策略(見(jiàn)公式11),他們經(jīng)驗(yàn)性地設(shè)置參數(shù)為和
。此外,當(dāng)多個(gè)獎(jiǎng)勵(lì)模型聯(lián)合訓(xùn)練時(shí),各獎(jiǎng)勵(lì)模型的權(quán)重均等分配。
在訓(xùn)練設(shè)置上,所有實(shí)驗(yàn)均在32塊Nvidia GPU上進(jìn)行,批量大小為1,最大訓(xùn)練迭代次數(shù)為300次。
優(yōu)化器采用AdamW(loshchilov2017decoupled),學(xué)習(xí)率設(shè)為1e-5,權(quán)重衰減系數(shù)為0.0001。訓(xùn)練過(guò)程中使用混合精度,采用bfloat16(bf16)格式,而主權(quán)重參數(shù)保持全精度(fp32)。
主實(shí)驗(yàn)
在主實(shí)驗(yàn)中,四個(gè)基于人類(lèi)偏好的獎(jiǎng)勵(lì)模型按照優(yōu)勢(shì)函數(shù)(advantages)進(jìn)行了加權(quán)聚合,具體算法見(jiàn)算法1。
研究啊團(tuán)隊(duì)對(duì)MixGRPO與DanceGRPO的開(kāi)銷(xiāo)和性能進(jìn)行了對(duì)比評(píng)估,結(jié)果匯總于表1。
表1.計(jì)算開(kāi)銷(xiāo)與性能的對(duì)比結(jié)果顯示
官方DanceGRPO采用的函數(shù)調(diào)用次數(shù)為,為保證公平性,他們同時(shí)測(cè)試了
的DanceGRPO。
對(duì)于MixGRPO-Flash,他們?cè)u(píng)估了漸進(jìn)式(progressive)和凍結(jié)式(frozen)兩種策略,并且為了公平起見(jiàn),也對(duì)DanceGRPO采用了凍結(jié)式策略。
研究團(tuán)隊(duì)選取了多個(gè)場(chǎng)景提示語(yǔ),對(duì)FLUX.1 Dev、官方配置的DanceGRPO以及MixGRPO的生成結(jié)果進(jìn)行了可視化展示,見(jiàn)圖3。
圖3.定性比較
結(jié)果表明,MixGRPO在語(yǔ)義表達(dá)、美學(xué)效果及文本-圖像對(duì)齊度方面均取得了最佳表現(xiàn)。
圖4展示了在條件下,DanceGRPO、MixGRPO及MixGRPO-Flash的對(duì)比結(jié)果。
可以觀察到,在相同開(kāi)銷(xiāo)下,MixGRPO的表現(xiàn)優(yōu)于DanceGRPO;同時(shí)MixGRPO-Flash通過(guò)加速采樣,在降低開(kāi)銷(xiāo)的同時(shí),生成圖像的質(zhì)量依然與人類(lèi)偏好保持高度一致。
圖4.不同訓(xùn)練時(shí)采樣步數(shù)的定性比較
沿用DanceGRPO的實(shí)驗(yàn)設(shè)計(jì),研究團(tuán)隊(duì)還在HPDv2數(shù)據(jù)集上,分別使用單一獎(jiǎng)勵(lì)模型和雙獎(jiǎng)勵(lì)模型進(jìn)行了訓(xùn)練與評(píng)估。
結(jié)果(見(jiàn)表2)顯示,無(wú)論是單獎(jiǎng)勵(lì)還是多獎(jiǎng)勵(lì),MixGRPO 在域內(nèi)和域外獎(jiǎng)勵(lì)指標(biāo)上均取得了最佳性能。更多可視化結(jié)果詳見(jiàn)附錄D。
表2.域內(nèi)與域外獎(jiǎng)勵(lì)指標(biāo)的比較結(jié)果
消融實(shí)驗(yàn)
滑動(dòng)窗口超參數(shù)
如上述所講,滑動(dòng)窗口的重要參數(shù)包括移動(dòng)策略、移動(dòng)間隔、窗口大小
以及窗口步長(zhǎng)S。
研究團(tuán)隊(duì)對(duì)這些參數(shù)分別進(jìn)行了消融實(shí)驗(yàn)。針對(duì)移動(dòng)策略,他們比較了三種方法:frozen(窗口保持靜止)、random(每次迭代隨機(jī)選擇窗口位置)以及progressive(滑動(dòng)窗口隨去噪步驟逐步移動(dòng))。
對(duì)于progressive策略,他們測(cè)試了不同的調(diào)度方式,其中間隔初始設(shè)為25,隨后隨訓(xùn)練迭代發(fā)生變化。
正如表3所示,結(jié)果表明在progressive策略下,指數(shù)衰減和恒定調(diào)度均為最優(yōu)選擇。
表3.移動(dòng)策略的對(duì)比
對(duì)于移動(dòng)間隔,25是最佳設(shè)置(詳見(jiàn)表4)。
表4.移動(dòng)間隔的對(duì)比
隨著窗口大小的增大,
的推理次數(shù)也隨之增加,導(dǎo)致時(shí)間開(kāi)銷(xiāo)加大。
研究團(tuán)隊(duì)比較了不同的設(shè)置,結(jié)果如表5所示。
表5.窗口大小對(duì)比
最終,研究團(tuán)隊(duì)選擇作為開(kāi)銷(xiāo)與性能之間的平衡點(diǎn)。對(duì)于窗口步長(zhǎng)S,實(shí)驗(yàn)結(jié)果表明S=1是最優(yōu)選擇,詳見(jiàn)表6。
表6.窗口步長(zhǎng)對(duì)比
高階ODE求解器
MixGRPO通過(guò)結(jié)合隨機(jī)微分方程(SDE)和常微分方程(ODE)的采樣方法,實(shí)現(xiàn)了利用高階ODE求解器加速ODE采樣的可能性。
研究團(tuán)隊(duì)首先針對(duì)求解器的階數(shù)進(jìn)行了消融實(shí)驗(yàn),使用DPM-Solver++作為高階求解器,并采用progressive策略。結(jié)果如表7所示,表明二階中點(diǎn)法是最優(yōu)設(shè)置。
表7.不同階數(shù)求解器的性能比較
隨后,研究團(tuán)隊(duì)比較了兩種加速方案:一種是采用progressive窗口移動(dòng)策略的MixGRPO-Flash,另一種是采用frozen移動(dòng)策略的MixGRPO-Flash*。
兩者均通過(guò)減少窗口后端的ODE采樣步數(shù),在開(kāi)銷(xiāo)與性能之間取得了平衡。
然而,實(shí)際應(yīng)用中,MixGRPO-Flash需要窗口在整個(gè)訓(xùn)練過(guò)程中持續(xù)移動(dòng),導(dǎo)致被加速的ODE部分較短。
因此,平均來(lái)看,MixGRPO-Flash的加速效果不及MixGRPO-Flash*明顯。
表8.MixGRPO-Flash中progressive和frozen策略的比較
總結(jié)與展望
由于現(xiàn)有基于流匹配的GRPO面臨采樣效率低和訓(xùn)練緩慢等挑戰(zhàn),研究團(tuán)隊(duì)提出了MixGRPO,一種結(jié)合了SDE和ODE采樣的新型訓(xùn)練框架。
該混合方法使得優(yōu)化能夠聚焦于SDE采樣流部分,降低了復(fù)雜度的同時(shí)保證了獎(jiǎng)勵(lì)計(jì)算的準(zhǔn)確性。
受強(qiáng)化學(xué)習(xí)中衰減因子的啟發(fā),研究團(tuán)隊(duì)引入了滑動(dòng)窗口策略來(lái)調(diào)度優(yōu)化的去噪步驟。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法在單獎(jiǎng)勵(lì)和多獎(jiǎng)勵(lì)設(shè)置下的有效性。
此外,MixGRPO解耦了去噪階段的優(yōu)化與獎(jiǎng)勵(lì)計(jì)算,使得后者能夠通過(guò)高階求解器實(shí)現(xiàn)加速。
基于MixGRPO,研究團(tuán)隊(duì)進(jìn)一步提出了MixGRPO-Flash,在開(kāi)銷(xiāo)與性能之間實(shí)現(xiàn)了平衡。
最后,他們希望MixGRPO能夠激發(fā)圖像生成后訓(xùn)練領(lǐng)域的深入研究,進(jìn)一步推動(dòng)通用人工智能的發(fā)展。
項(xiàng)目主頁(yè):https://tulvgengenr.github.io/MixGRPO-Project-Page/
論文鏈接:https://arxiv.org/abs/2507.21802
代碼鏈接:https://github.com/Tencent-Hunyuan/MixGRPO