谷歌P圖神器來(lái)了!不用學(xué)不用教,輸入一句話,分分鐘給結(jié)果
能變換姿勢(shì),還能改構(gòu)圖
Pine 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
當(dāng)你拍照片時(shí),“模特不好好配合”怎么辦?
沒(méi)事!現(xiàn)在只用一句話就能后期P圖了,還是能改變動(dòng)作、表情的那種!
比如說(shuō)你能輕松讓鳥(niǎo)張開(kāi)翅膀(輸入“張開(kāi)翅膀的鳥(niǎo)”即可):
又或者說(shuō),想要讓一只站立的狗蹲下:
看起來(lái)還真不賴!而這個(gè)新的“P圖”方法呢,名叫Imagic,是基于爆火的擴(kuò)散模型(Diffusion Model)來(lái)實(shí)現(xiàn)的。
是的,又是擴(kuò)散模型,它的能耐想必也不用多介紹了吧(那看那鋪天蓋地和它相關(guān)的論文就能佐證)。
那在擴(kuò)散模型加持下的Imagic到底有何厲害之處,話不多說(shuō),一起來(lái)看看吧!
多達(dá)6種功能
據(jù)不完全統(tǒng)計(jì),Imagic的功能就有6種。
改變姿勢(shì)、變換構(gòu)圖、切換濾鏡、多個(gè)對(duì)象編輯、添加對(duì)象、更改顏色……
先來(lái)看看這個(gè)P圖神器改變姿勢(shì)的效果,比如說(shuō)輸入一條站立的狗,通過(guò)變換提示文字,得到的效果是醬紫的~
或者說(shuō)輸入一個(gè)隨意站立的人,輸入口令,他就“乖乖聽(tīng)話,任你擺布”(手動(dòng)狗頭)了,甚至還能憑空出現(xiàn)一個(gè)水杯。
還沒(méi)看夠?那再來(lái)康康Imagic其他功能:改變顏色,或者增加對(duì)象,也可以多種功能同時(shí)使用。
總的來(lái)說(shuō),Imagic的厲害之處太多,這里就不一一詳細(xì)展開(kāi)了,效果可以看下圖。
除了這么多功能之外,Imagic還有另外一個(gè)比較人性化的點(diǎn),就是當(dāng)你告訴它要如何“P圖”后,它會(huì)隨機(jī)生成幾個(gè)不同的選項(xiàng)供你選擇。
其實(shí)這種在真實(shí)圖像上編輯的模型Imagic不是第一個(gè),在此之前就已經(jīng)有很多個(gè)類似的模型。
這時(shí)就會(huì)有網(wǎng)友問(wèn)了,“Imagic有什么厲害的點(diǎn)呢?”
話不多說(shuō),直接上效果對(duì)比。
這里選取了比較常見(jiàn)的基于真實(shí)圖像編輯的兩個(gè)模型:SDEdit、Text2LIVE與Imagic作對(duì)比。
結(jié)果很顯然,Imagic完成“P圖指令”的效果很好,在細(xì)節(jié)上也絲毫不遜色其他模型。
(確實(shí)妙啊)
那Imagic是如何“擊敗”SDEdit、Text2LIVE,實(shí)現(xiàn)這樣的效果呢?
是怎樣實(shí)現(xiàn)的
千言萬(wàn)語(yǔ)匯成四個(gè)字:擴(kuò)散模型,在論文的標(biāo)題上它都赫然在列。
具體到Imagic中,擴(kuò)散模型的作用是如何發(fā)揮出來(lái)的,來(lái)看看詳細(xì)的“P圖”過(guò)程。
整體來(lái)說(shuō)分為三大步。
第一步是優(yōu)化文本嵌入層。
具體來(lái)說(shuō),先給定輸入的圖像和目標(biāo)文本,然后對(duì)目標(biāo)文本進(jìn)行編碼,得到初始的嵌入層。
然后不斷調(diào)整初始嵌入層,讓其能夠通過(guò)預(yù)先訓(xùn)練的擴(kuò)散模型很好地重建輸入圖像。
這樣一來(lái),最終便會(huì)得到優(yōu)化后的嵌入層(能夠很好地重建輸入圖像)。
第二步是對(duì)擴(kuò)散模型進(jìn)行微調(diào),這時(shí)就要用到上一步已經(jīng)優(yōu)化之后的嵌入層,讓嵌入層經(jīng)過(guò)模型后重建輸入圖像。
在重建的過(guò)程,需要不斷更改模型中損失函數(shù)的參數(shù),以讓模型適應(yīng)優(yōu)化后的輸入層,直到能夠很好地重建輸入圖像時(shí)為止,這樣一來(lái)便得到了微調(diào)之后的模型。
第三步就要開(kāi)始正式P圖了。
值得一提的是,這一步除了輸入初始的目標(biāo)嵌入層(tgt)外,還會(huì)插入優(yōu)化好的嵌入層(opt),它們的關(guān)系如下圖。
通過(guò)變換參數(shù),實(shí)際的效果如下圖。
如果你想更加詳細(xì)地了解Imagic,可以戳文末鏈接閱讀論文原文。
研究團(tuán)隊(duì)
Imagic的六位作者均來(lái)自Google Research,論文有兩位第一作者:Bahjat Kawar和Shiran Zada,均來(lái)自以色列。
值得一提的是,Bahjat Kawar還是一位以色列理工學(xué)院在讀博士,他是在Google Research實(shí)習(xí)期間完成了這項(xiàng)研究。
而Shiran Zada今年5月剛加入Google Research,目前是計(jì)算機(jī)視覺(jué)研究員。
他曾在微軟擔(dān)任軟件工程師以及技術(shù)主管的職務(wù),主要負(fù)責(zé)網(wǎng)絡(luò)安全相關(guān)的項(xiàng)目開(kāi)發(fā)。
參考鏈接:
[1]https://arxiv.org/abs/2210.09276
[2]https://twitter.com/Buntworthy/status/1582307817884889088
[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb