360人工智能研究院發(fā)布中文原生AI繪畫模型BDM:解決當(dāng)前中文AI繪畫兩大核心痛點
已上線360智腦平臺
360人工智能研究院(隸屬于360集團技術(shù)中臺)于近日公開了中文原生AI繪畫模型BDM,同時解決了當(dāng)前中文繪畫的兩大核心痛點:即AI繪畫模型的無法精準(zhǔn)生成中文概念的問題,以及難以和英文社區(qū)成果兼容的問題。既往的中文AI模型技術(shù)路線均無法兼顧二者。360人工智能研究院自研的BDM模型,利用“主干-旁支”網(wǎng)絡(luò)結(jié)構(gòu),不僅可以精確的生成中文語義圖片,同時又保持了和英文社區(qū)之間的互通性。相關(guān)技術(shù)成果通過論文發(fā)布[1],并已上線360智腦平臺(https://tu.#/)。
2022年基于擴散模型的圖像生成技術(shù)的突破,迅速引發(fā)了一場全球性的圖像AIGC研發(fā)熱潮和應(yīng)用變革,包括Stable Diffusion(以下簡稱SD模型)、DALLE-2以及Midjourney。當(dāng)前中文繪畫模型仍處于追趕階段,并且多數(shù)技術(shù)路線為基于主流開源英文模型的微調(diào)、甚至僅做翻譯,其中主要的原因是大規(guī)模算力及訓(xùn)練數(shù)據(jù)的投入使得從頭使用中文訓(xùn)練的成本極高:以SD2.1為例,根據(jù)公開資料[2]: SD2.1僅base模型的訓(xùn)練就動用了256塊A100 GPU,訓(xùn)練折算20萬卡時,共28.7億的圖文樣本訓(xùn)練量。
但是,以SD為代表的英文AI繪畫模型,包括且不限于SD1.4/1.5/2.1以及DALLE-2[3]、Midjourney[4]等都普遍帶有明顯的英文世界偏見問題。該問題包括兩個方面:第一,中文概念無法被英文AI模型理解和準(zhǔn)確生成,例如之前遭到網(wǎng)友們調(diào)侃的“車水馬龍”、“紅燒獅子頭”[5]等現(xiàn)象;第二,人物形象偏白人、男性,物品、建筑、車輛、服飾、標(biāo)志等等都普遍更像是西方世界場景。

圖1 國內(nèi)友商B*最新版本的模型仍存在隱式翻譯帶來的英文多義詞繪制混淆問題[6]

圖2 英文AI繪畫模型的世界觀偏見示例,生成的車輛、建筑、人物、旗幟、標(biāo)志等都具有明顯的英文世界偏向。從左到右分別是:SDXL,Midjourney,國內(nèi)友商B*,國內(nèi)友商V*
基于SD等成熟模型進行中文模型開發(fā)的好處,是可以復(fù)用開源社區(qū)日新月異的已有成果:以開源模型Stable Diffusion為例,眾多開源開發(fā)者和AI繪畫愛好者已經(jīng)形成了眾多龐大的AI繪畫社區(qū),如Civitai,Stable Diffusion Online等等,并在這些社區(qū)中不斷推出各種衍生工具和模型,形成推動AI繪畫技術(shù)進步的重要力量。完全拋棄英文繪畫模型,意味著放棄開源社區(qū)這一座“金礦”。
當(dāng)前中文AI繪畫模型的研發(fā)從易到難當(dāng)前有如下的幾種方式:① 英文模型 + 翻譯、② 隱式翻譯模型(中英平行語料訓(xùn)練翻譯text encoder) + 微調(diào)、③ 僅保留英文模型結(jié)構(gòu) + 中文從頭訓(xùn)練。各自的優(yōu)缺點比較如下:

表1 當(dāng)前中文AI繪畫模型的不同路線選擇及其優(yōu)缺點比較
可以看到,這三種路線要么保證低成本、但無法保證中文能力或中文世界觀;要么在高成本保證“中文原生”,但無法和日新月異的社區(qū)兼容。中文AI繪畫模型似乎走到了一個兩難的境地。
面對這個難題,360人工智能研究院提出了現(xiàn)有條件下的最優(yōu)解。經(jīng)過近半年的技術(shù)攻關(guān),360人工智能研究院提出了一種新的擴散模型結(jié)構(gòu),稱為“Bridge Diffusion Model”(BDM),以解決上述的困境。BDM不僅解決了英文模型的世界偏見問題,可以精確生成符合中國國情的中文語義圖片,同時保持了和英文社區(qū)之間的互通性,無縫兼容各種英文SD社區(qū)插件——這也是命名中“Bridge”的由來。BDM通過類似ControlNet[7]的“主干-旁支”的架構(gòu)結(jié)合原始英文模型,并使用360內(nèi)部12億中文圖文數(shù)據(jù)訓(xùn)練。BDM本身采用SD1.5作為主干網(wǎng)絡(luò),并且可以兼容其它底模、LoRA模型及社區(qū)插件。基于BDM1.0能力開發(fā)的中文AI繪畫產(chǎn)品“360鴻圖”也已于9月21日公開上線,正式向公眾開放,體驗入口:https://tu.#/。
此外,眾所周知的,當(dāng)前AI繪畫模型對文本prompt的理解能力仍然存在非常顯著的缺陷,要想得到好的生成結(jié)果,prompt指令更多的是各種關(guān)鍵詞/魔法詞的堆砌,與人類交流中使用的自然語言仍相去甚遠(yuǎn)。提升AI繪畫模型對prompt指令的遵循能力,也是360人工智能研究院目前在多模態(tài)大模型SEEChat(開源地址:https://github.com/360CVGroup/SEEChat)與AIGC結(jié)合方面著力的重點。
BDM模型詳細(xì)介紹:
1) 模型框架
BDM采用類似ControlNet[8]的主干-旁支網(wǎng)絡(luò)結(jié)構(gòu),如圖3(b)所示。其中主干網(wǎng)絡(luò)采用Stable Diffusion 1.5的結(jié)構(gòu)并使用其預(yù)訓(xùn)練參數(shù)進行初始化,旁支網(wǎng)絡(luò)則是由主干網(wǎng)絡(luò)派生出來的可學(xué)習(xí)副本構(gòu)成。與ControlNet相比,BDM在結(jié)構(gòu)上的不同之處在于不存在旁支中的條件圖像卷積層,這是因為在BDM中,中文prompt是通過旁支網(wǎng)絡(luò)而非主干網(wǎng)絡(luò)進行處理。
我們選擇了Chinese CLIP text encoder[9]做為中文的文本編碼器。主干網(wǎng)絡(luò)的英文text encoder可以去掉只通過旁支網(wǎng)絡(luò)支持中文prompt,或者也可以保留從而實現(xiàn)中英雙語的支持。在我們的實現(xiàn)中我們選擇保留英文text encoder,因此BDM同時具備中英雙語繪畫的能力。BDM網(wǎng)絡(luò)結(jié)構(gòu)的一個關(guān)鍵優(yōu)點在于,主干網(wǎng)絡(luò)包含了完整的英文SD結(jié)構(gòu)并在訓(xùn)練中凍結(jié),因此BDM的隱空間與英文SD模型保持一致,從而可以無縫兼容各種適配于英文SD模型的社區(qū)插件。

圖3 ControlNet和BDM的網(wǎng)絡(luò)結(jié)構(gòu)圖,左圖是ControlNet,右圖是BDM
2) 訓(xùn)練策略
BDM的整體訓(xùn)練loss如圖4所示,擴散模型[10]算法學(xué)習(xí)一個網(wǎng)絡(luò)εθ,以根據(jù)一組條件來預(yù)測添加到帶噪圖像zt中的噪聲,這些條件包括時間步長t,用于主干的文本輸入cent以及用于旁支的文本輸入cnlt。
然而僅有這樣的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練目標(biāo)是不夠的,因為在訓(xùn)練過程中同時將語義信息注入到主干和旁支并不可行,這是由于經(jīng)過預(yù)訓(xùn)練的主干已經(jīng)包含了強大的英文語義信息,這會阻礙旁支的中文語義學(xué)習(xí)。因此,BDM使用了一個關(guān)鍵的訓(xùn)練策略——訓(xùn)練階段主干的文本輸入始終為空字符串,即cent始終為“”。這是因為在SD1.5訓(xùn)練過程中,文本輸入有10%的概率置為空,因此可以認(rèn)為空字符串對應(yīng)的隱空間是SD1.5生成圖像整體的平均隱空間。對于BDM,主干提供英文模型的平均隱空間,同時旁支在這個空間中學(xué)習(xí)中文語義,尋找中文語義在英文空間中的偏移,這樣就真正將BDM中文原生模型和英文社區(qū)有機的結(jié)合在了一起,使得BDM可以無縫接入英文社區(qū)。

圖4 BDM訓(xùn)練loss
3) 推理策略
在訓(xùn)練階段,主干參數(shù)始終鎖死,主干文本輸入也始終為空字符串,但在推理階段可以有很多不同的選擇。
首先我們可以將主干的正/負(fù)文本輸入都設(shè)置為空字符串,這和訓(xùn)練階段保持一致,只用中文正/負(fù)輸入來注入語義。我們觀察到,對于訓(xùn)練早期的BDM模型,推理階段在主干使用通用的正/負(fù)文本輸入顯著改善了圖像質(zhì)量;然而對于訓(xùn)練末期的BDM模型,中文旁支已經(jīng)得到了充分訓(xùn)練,英文正/負(fù)輸入對圖像質(zhì)量的影響就很小了。當(dāng)然,為了實現(xiàn)更好的生成效果,中文和英文的正/負(fù)輸入都可以根據(jù)用戶的需求進行自適應(yīng)調(diào)整。
BDM也可以和英文社區(qū)的各種插件無縫結(jié)合。當(dāng)結(jié)合LoRA[11]時,將LoRA模型嵌入到BDM主干結(jié)構(gòu)中即可,和常規(guī)的英文模型嵌入LoRA方式相同,然后從旁支輸入所需中文提示即可。如果LoRA包含觸發(fā)詞,那么推理時候需要將觸發(fā)詞輸入到主干中。同樣,當(dāng)結(jié)合ControlNet時,可以將ControlNet分支嵌入到BDM主干上,這樣就形成了主干—雙旁支結(jié)構(gòu)。當(dāng)結(jié)合checkpoint或者Dreambooth[12]時,把BDM主干從SD1.5切換到對應(yīng)的底模即可。結(jié)合Textual Inversion[13]時,可以直接把對應(yīng)的embedding加載到主干的文本輸入中即可。以上操作可以根據(jù)需求任意組合。
4) 效果展示
如圖5是BDM使用SD1.5和realisticVisionV51[14]分別作為主干來生成中文概念,可以看到中文獨有概念以及英文多義詞概念都生成的很合理。

圖5 中文概念生成事例
如圖6是BDM分別用不同風(fēng)格的checkpoint[15][16][17][18]作為主干進行生成,由于不同模型生成特定風(fēng)格所需條件不同,比如有的需要觸發(fā)詞,有的需要風(fēng)格詞,推理時候中/英文正/負(fù)輸入會根據(jù)風(fēng)格條件進行微調(diào),以達到更好的效果;但可以肯定的是,微調(diào)的文本只涉及觸發(fā)詞或者風(fēng)格詞,具體圖像內(nèi)容只會從中文文本來輸入。

圖6 不同風(fēng)格checkpoint效果
如圖7是BDM分別結(jié)合不同LoRA[19][20][21]進行生成

圖7 不同風(fēng)格LoRA效果
如圖8是BDM結(jié)合ControlNet[22]的生成

圖8 結(jié)合ControlNet效果
如圖9是BDM結(jié)合不同Dreambooth的生成,使用了6個名人的底模[23]。

圖9 不同Dreambooth效果
如圖10是BDM結(jié)合Textual Inversion[24]的生成,使用了年齡調(diào)節(jié)Textual Inversion。

圖10 不同Textual Inversion效果
360人工智能研究院簡介
360 人工智能研究院隸屬于 360 技術(shù)中臺,自 2015 年成立以來積累了大量人工智能與機器學(xué)習(xí)前沿能力,多次榮獲 AI 相關(guān)比賽冠軍 / 提名獎項,發(fā)表頂會、頂刊論文數(shù)十篇。研究院提供智能安全大數(shù)據(jù)、互聯(lián)網(wǎng)信息分發(fā)、企業(yè)數(shù)字化、AIoT等360 集團全量業(yè)務(wù)場景支持,支持千萬級硬件設(shè)備,億級用戶,產(chǎn)生千億規(guī)模數(shù)據(jù)量。2023 年著重攻堅大語言模型、CV 大模型和多模態(tài)大模型,為 360 集團和行業(yè) AIGC 技術(shù)發(fā)展應(yīng)用提供底層技術(shù)支撐。
- 超詳細(xì)!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠(yuǎn)發(fā)布CASIVIBOT,以九年積累開啟AOI與機器人協(xié)同的品質(zhì)檢測新時代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機器人全產(chǎn)業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16