用AI指揮另一個(gè)AI,GAN+CLIP的組合成了“CG藝術(shù)家”
輸入“虛幻引擎”4個(gè)字,GAN就打了雞血
夢(mèng)晨 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
嫌棄GAN生成的圖像不夠炫酷?
不需要改變數(shù)據(jù)集,只需要給CLIP下達(dá)的命令中把“虛幻引擎”幾個(gè)字加上,再讓CLIP去指揮GAN,圖像就立馬變成了高大上的CG藝術(shù)風(fēng)。
文字中加入虛幻引擎這個(gè)技巧,最早由Aran Komatsuzaki發(fā)在推特上,吸引了大量CV圈的人來(lái)圍觀。
后來(lái)有人把這套流程發(fā)在了Colab上,網(wǎng)友們都玩瘋了。
還可以指定成“彩色鉛筆風(fēng)格”
或者“吉卜力風(fēng)格”:
最絕的是,加上“3D photo inpainting”竟然可以生成立體構(gòu)圖。
CLIP是OpenAI開發(fā)的一個(gè)負(fù)責(zé)給圖像重排序的模型,它與GAN合作的方式也很簡(jiǎn)單。
先用一張平平無(wú)奇的隨機(jī)圖案作為種子,像這種:
像這樣讓CLIP算出其與文字描述的相似度打分,然后反饋給GAN,讓GAN以提升分?jǐn)?shù)為目標(biāo)不斷迭代。
AI藝術(shù)家組合就這么出現(xiàn)了。
除了在提示中加入風(fēng)格要求之外,還可以直接告訴AI一個(gè)人名,看看在AI眼中他們長(zhǎng)啥樣。
甚至能用來(lái)猜猜那些從未露面的大佬們,比如神秘的比特幣之父中本聰。
這就是AI心目中的中本聰,不管你信不信,反正我是信了。
在線試玩
VQGAN+CLIP在Colab上有很多版本,我們經(jīng)過(guò)對(duì)比選擇了一個(gè)加入額外優(yōu)化和池化技巧,在速度和質(zhì)量上都比較出色的一個(gè)(鏈接在文章末尾)。
第1步和第2步,按順序執(zhí)行就好。
第3步,選擇使用的模型,默認(rèn)的是用ImageNet訓(xùn)練的。
第4步設(shè)置參數(shù),一般情況下只需要在texts里填上要生成的內(nèi)容,用“|”分隔。
width和height控制生成圖像的分辨率,model可以選擇使用的模型(需要在第3步中下載)。
改變seed的數(shù)字可以更換隨機(jī)圖像種子。
另外還可以在init_image處指定一張初始圖片,需要把圖片上傳到Colab環(huán)境里再填入鏈接。
比如,有人使用這樣一張圖片作為圖像種子,開發(fā)了新玩法:生成寶可夢(mèng)。
第五步執(zhí)行,300*300分辨率的圖迭代500次只需要幾分鐘。
最后,還可以把生成的過(guò)程合成為視頻。
就是這么簡(jiǎn)單,快來(lái)試試吧。
在線試玩:
https://colab.research.google.com/drive/1ZAus_gn2RhTZWzOWUpPERNC0Q8OhZRTZ
VQGAN:
https://github.com/CompVis/taming-transformers
CLIP:
https://openai.com/blog/clip/
參考鏈接:
[1]https://twitter.com/arankomatsuzaki/status/1399471244760649729
[2]https://twitter.com/92C8301A/status/1408795789766365187
[3]https://twitter.com/ak92501
[4]https://twitter.com/casvaIuir/status/1408394829218914305
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長(zhǎng)度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語(yǔ)言難題,2300種語(yǔ)言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對(duì)1億年薪挖人,使命感比鈔票更重要2025-08-18