谷歌&MIT何愷明團(tuán)隊(duì):視覺大模型像LLM一樣高效擴(kuò)展
指路連續(xù)token+隨機(jī)生成順序
夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
視覺自回歸模型的Scaling,往往不像在語言模型里那樣有效。
谷歌&MIT何愷明團(tuán)隊(duì)聯(lián)手,有望打破這一局面,為自回歸文生圖模型的擴(kuò)展指出一個方向:
- 基于連續(xù)token的模型比離散token模型在視覺質(zhì)量上更好。
- 隨機(jī)順序生成與光柵順序相比在GenEval測試上得分明顯更好。

受到這些發(fā)現(xiàn)啟發(fā),團(tuán)隊(duì)訓(xùn)練了Fluid,一個基于連續(xù)標(biāo)記的隨機(jī)順序自回歸模型。
擴(kuò)展至百億參數(shù)的Fluid在MS-COCO 30K上zero-shot條件下實(shí)現(xiàn)了6.16的FID分?jǐn)?shù),并在GenEval基準(zhǔn)測試中獲得了0.69的整體得分。
團(tuán)隊(duì)希望這些發(fā)現(xiàn)和結(jié)果能夠鼓勵未來進(jìn)一步彌合視覺和語言模型之間的規(guī)模差距。

100億參數(shù)自回歸文生圖模型
回顧過去,兩個關(guān)鍵設(shè)計(jì)因素限制了自回歸圖像生成模型的性能表現(xiàn):
- 離散token。大多數(shù)此類模型借鑒NLP的做法,先用vector-quantized(VQ)方法將圖像離散化為一組token,每個token只能取有限的離散值。這種量化難免損失大量信息。
- 光柵順序。即按從左到右、從上到下的固定順序生成token。這種方式雖有利于推理加速,但也影響了生成質(zhì)量。
Fluid繼承了團(tuán)隊(duì)在今年6月份研究《Autoregressive Image Generation without Vector Quantization》的思路,拋棄離散token,改用連續(xù)token。

它借鑒了擴(kuò)散模型,用一個小型去噪網(wǎng)絡(luò)近似每個token的連續(xù)分布。
具體而言,模型為每個位置的token生成一個向量z作為條件,輸入一個小型去噪網(wǎng)絡(luò)。這個去噪網(wǎng)絡(luò)定義了token x在給定z時的條件分布p(x|z)。訓(xùn)練時,該網(wǎng)絡(luò)與自回歸模型聯(lián)合優(yōu)化;推理時,從p(x|z)中采樣即可得到token。整個過程無需離散化,避免了量化損失。

再來看看生成token的順序。按固定的光柵順序逐個生成token,推理時雖然可以用kv緩存加速,但因果關(guān)系的限制也影響了生成質(zhì)量。
Fluid另辟蹊徑,隨機(jī)選擇要生成的token,并用類似BERT雙向注意力的機(jī)制捕捉全局信息。

在推理時采用完全隨機(jī)順序,訓(xùn)練和推理過程的序列分布更一致;同時還能對每個token進(jìn)行類似GPT的temperature采樣,進(jìn)一步提升了生成多樣性。

得益于擴(kuò)散損失和MAR范式的雙重加持,作者將模型參數(shù)量擴(kuò)展到超過100億,在MS-COCO和GenEval數(shù)據(jù)集上取得領(lǐng)先結(jié)果。

更重要的是,隨著參數(shù)量和訓(xùn)練輪數(shù)的增加,模型在驗(yàn)證損失、FID、GenEval Score等指標(biāo)上表現(xiàn)出良好的可擴(kuò)展性,為進(jìn)一步擴(kuò)大規(guī)模提供了理論支撐。這與語言模型的Scaling現(xiàn)象非常類似,表明視覺大模型的潛力尚未被充分挖掘。

更多Fuild模型生成圖像精選:

論文地址:
https://arxiv.org/abs/2410.13863
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18