360AI推出DiT架構(gòu)下”省錢版”ControlNet, 參數(shù)量驟減85%性能達(dá)到SOTA!
性能超越OminiControl
RelaCtrl團(tuán)隊 投稿至 凹非寺量子位 | 公眾號 QbitAI
現(xiàn)有的可控Diffusion Transformer方法,雖然在推進(jìn)文本到圖像和視頻生成方面取得了顯著進(jìn)展,但也帶來了大量的參數(shù)和計算開銷。
同時,由于這些方法未能有效考慮不同Transformer層之間控制信息的相關(guān)性,導(dǎo)致資源分配效率低下。
360人工智能研究院的研究團(tuán)隊提出了新一代控制相關(guān)性引導(dǎo)的高效可控生成框架——RelaCtrl。

該框架通過優(yōu)化控制信號的集成方式,在Diffusion Transformer中實現(xiàn)了更加高效且資源優(yōu)化的控制,從而有效解決了上述問題。
團(tuán)隊對常見的T2I Diffusion Transformer進(jìn)行了實驗驗證,取得了顯著成果。

論文一作為來自中國科學(xué)技術(shù)大學(xué)的二年級碩士生曹可,論文共同一作和項目負(fù)責(zé)人為來自360 AI Research的AIGC研究員馬傲。
目前,相關(guān)的研究論文、項目主頁和代碼倉庫已正式開放,并即將開源。
研究動機
當(dāng)前,基于Diffusion Transformer(DiT)的可控生成方法(如PixArt-δ、OminiControl等)充分利用了其強大的架構(gòu)和可擴(kuò)展性,顯著提升了生成結(jié)果的保真度和與給定文本描述的一致性。
然而,DiT的受控生成方法仍面臨兩個主要問題:
首先,這些方法引入了大量額外的參數(shù)和計算,導(dǎo)致訓(xùn)練和推理負(fù)擔(dān)加重。
其次,不同網(wǎng)絡(luò)層之間控制信息的相關(guān)性常常被忽視,進(jìn)而造成計算資源分配效率低下。
在模型量化和剪枝領(lǐng)域的相關(guān)研究中,已發(fā)現(xiàn)具有層疊Transformer結(jié)構(gòu)的LLM模型在不同層的影響力存在差異,因此可以設(shè)計針對不同層的細(xì)致化剪枝策略。
受此啟發(fā),研究人員通過在推理階段跳過控制網(wǎng)絡(luò)中的不同層,測量生成圖像的質(zhì)量和控制精度,從而得到“ControlNet相關(guān)性得分”,并以此來指導(dǎo)后續(xù)可控生成的條件注入。

如圖所示,DiT中不同層對控制信息的相關(guān)性存在顯著差異,這種相關(guān)性呈現(xiàn)先增加后減少的趨勢,在前中心層表現(xiàn)出較高的相關(guān)性,而在較深層則較低。
現(xiàn)有方法未能充分考慮這種變化,而是對所有層應(yīng)用統(tǒng)一的設(shè)置,導(dǎo)致參數(shù)和計算資源分配效率低下,特別是在冗余參數(shù)和相關(guān)性較低層中的計算。
因此,研究團(tuán)隊提出了一種基于相關(guān)性引導(dǎo)的高效可控生成框架,通過精確的參數(shù)分配和控制策略,結(jié)合輕量化設(shè)計的控制模塊,從而有效減少模型參數(shù)并降低計算復(fù)雜度。
高效可控生成框架RelaCtrl
研究團(tuán)隊首先根據(jù)得出的ControlNet相關(guān)性得分排名,確定并選擇了11個最關(guān)鍵的控制位置(按相關(guān)性從高到低排序)用于集成控制模塊。
通過這種方法,團(tuán)隊實現(xiàn)了與使用了13個復(fù)制塊的PixArt-δ相當(dāng)?shù)目刂菩阅埽瑫r將參數(shù)數(shù)量減少了約15%。

盡管這種方法有效地減少了模型的大小和計算開銷,但控制模塊的內(nèi)部設(shè)計仍然存在一定的冗余。
MetaFormer將Transformers的有效性歸因于兩個關(guān)鍵組件:
通過自注意力機制實現(xiàn)的token混合器和通過前饋網(wǎng)絡(luò)(FFN)層實現(xiàn)的通道混合器。
然而,研究表明,盡管FFN消耗了相當(dāng)一部分模型參數(shù),但它往往高度冗余。為此,研究團(tuán)隊引入了一個輕量級模塊——相關(guān)性引導(dǎo)輕量級控制塊(RGLC),該模塊將token混合和通道混合統(tǒng)一為一個操作。具體來說,作者設(shè)計了一種新穎的二維shuffle mixer(TDSM),替代了原始PixArt Transformer塊中的注意力層和FFN層,從而簡化了架構(gòu)并提高了效率。
該方法促進(jìn)了token和通道維度之間的信息交互和建模,大幅度減少了復(fù)制塊的參數(shù)數(shù)量和計算需求。
下面將詳細(xì)介紹兩個主要部分的實現(xiàn):
DiT-ControlNet Relevance Prior
為了系統(tǒng)地評估DiT-ControlNet中各個層與生成質(zhì)量和控制精度的相關(guān)性,研究團(tuán)隊訓(xùn)練了一個完全受控的PixArt-α網(wǎng)絡(luò),包含27個復(fù)制模塊。
在推理過程中,研究者系統(tǒng)地跳過每個控制塊層,并評估其對最終生成結(jié)果的影響。
為了進(jìn)行定量評估,F(xiàn)réchet Inception Distance(FID)被引入用于衡量圖像生成的質(zhì)量,Hausdorff Distance(HDD)則用于評估控制精度。
這些指標(biāo)有助于分析跳過控制分支中各個層對整體性能的影響,并為每個控制塊提供相關(guān)性分?jǐn)?shù)。最終,基于這兩個指標(biāo)的組合,研究團(tuán)隊計算得到ControlNet的相關(guān)性分?jǐn)?shù),并從中選取了11個最關(guān)鍵的控制位置(按相關(guān)性從高到低排序)用于集成控制模塊,如圖中白色序號所示。

Two Dimensions Shuffle Mixer
為了減輕控制分支的計算負(fù)擔(dān),研究團(tuán)隊提出了對token進(jìn)行分組計算的方法,并采用特定策略來增強token組之間的交互和建模能力。
具體來說,該操作首先進(jìn)行隨機通道選擇,然后在token維度空間中對輸入序列進(jìn)行隨機打亂,接著進(jìn)行局部自注意力計算。
雖然后續(xù)的注意力機制局限于一個固定的組,但所涉及的token可能來自該組之外。
這一操作有效打亂了token之間的固有關(guān)系,并在一定程度上引入了其他局部窗口間的信息,從而打破了局部注意力通常施加的交互約束。
此外,為了確保劃分操作不會影響恢復(fù)過程中l(wèi)atent code嵌入的語義信息,研究團(tuán)隊設(shè)計在自注意力計算后對token和通道維度應(yīng)用逆恢復(fù)操作。
這種結(jié)合了shuffle和recovery的整體方法被稱為二維shuffle混合器(TDSM),通過利用可逆變換對的能力,確保在自注意力計算期間能夠保留信息,從而實現(xiàn)跨通道和token維度的高效非局部信息交互。
實驗結(jié)果
作者在多種條件下的可控生成任務(wù)上進(jìn)行了定性和定量評估,以驗證RelaCtrl的效果。
定性比較
如圖所示,RelaCtrl在視覺效果對比中表現(xiàn)出了極具競爭力的性能,能夠在給定條件的約束下生成與真實圖像高度一致的照片般逼真圖像。即便不同條件下,也展現(xiàn)了生成圖像的強大能力。

定量分析
研究團(tuán)隊在COCO驗證集上對RelaCtrl與對比方法進(jìn)行了定量評估。結(jié)果表明,RelaCtrl在控制指標(biāo)、視覺質(zhì)量和文本相似度上均實現(xiàn)了更優(yōu)的表現(xiàn),驗證了其在各方面上的有效性。

計算復(fù)雜度分析
根據(jù)下表所示,基于PixArt-α的RelaCtrl僅帶來了7.38%的參數(shù)增加和8.61%的計算復(fù)雜度增加,顯著低于ControlNet方法的增量,后者的參數(shù)和復(fù)雜度均增加了近50%。在Flux.1-dev上的實驗進(jìn)一步驗證了這一點,RelaCtrl在參數(shù)量和計算復(fù)雜度的增加上實現(xiàn)了均衡,同時在多個指標(biāo)上顯著優(yōu)于ControlNet方法。這一優(yōu)勢同樣體現(xiàn)在實際推理時間上,RelaCtrl表現(xiàn)出了更高的效率。


消融實驗。


對社區(qū)模型的兼容能力:
研究團(tuán)隊使用通過Lora 微調(diào)的 PixArt權(quán)重進(jìn)行推理。RelaCtrl可以有效地利用這些社區(qū)權(quán)重。下圖展示了該模型在指定條件下生成的油漆、油畫、古風(fēng)和像素風(fēng)格圖像。

論文地址:?http://arxiv.org/abs/2502.14377
項目主頁:?https://360cvgroup.github.io/RelaCtrl/
代碼倉庫:?https://github.com/360CVGroup/RelaCtrl
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08