千萬別讓富堅(jiān)義博看到這個(gè)
一句話生成動(dòng)漫
明敏 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
先來看一段高清版的《清明上河圖》:
你能看出這幅畫與原作的差異嗎?
其實(shí),這是AI續(xù)畫的一段《清明上河圖》,一眼望去,這畫面還真是有些真 假 難 辨了。
筆墨色彩幾乎完全復(fù)刻了原作。
無論是房屋樹木,還是市集中熙熙攘攘的人群,AI的筆法都抓到了原作的風(fēng)格神韻,拼在一起乍一看還真認(rèn)不出來。
△左是原作,右是AI復(fù)刻
畫質(zhì)還是38912×2048像素的那種,能直接把畫面拉大3、4倍看細(xì)節(jié)。
喏,店鋪里的小人在干啥看得一清二楚,體態(tài)和衣著也各不相同。
這就是由全華人團(tuán)隊(duì)打造的AI——女媧·無限版 (NUWA INFINITY)。
只要給它喂一些圖片、或是輸入一段文字,它就能進(jìn)行更細(xì)致的拓展,最終生成一幅完整的高清圖像、甚至是一段流暢視頻。
這是它學(xué)習(xí)了《清明上河圖》之后,畫出的完整版“大作”。
論文前腳剛上傳到arXiv,推特上就已經(jīng)引發(fā)各路網(wǎng)友狂呼amazing!
還有油管博主光速更新視頻講解。標(biāo)題直接用上了“超越DALL·E 2”、“4K”的字眼。
除了續(xù)畫《清明上河圖》之外,微軟的經(jīng)典藍(lán)天白云壁紙,經(jīng)它之手都能變成無限加長版。
還能根據(jù)文本提示,在圖像上加不同元素:要光有光,要雪有雪。(這還真是女媧技能了)
相較于當(dāng)下熱門的DALL·E、Imagen和Parti,女媧無限版支持生成任意大小的高分辨率圖像, 同時(shí)還支持生成長視頻。
(沒錯(cuò),繼AI續(xù)寫小說熱潮之后,現(xiàn)在AI終于也能續(xù)畫了)
研究人員表示,他們希望這一模型能夠幫助創(chuàng)作者們提高生產(chǎn)力。
所以,女媧無限版還有什么大招?
我們一起來看~
風(fēng)格完美模仿,圖像視頻生成全搞定
總體來看,這個(gè)AI女媧無限版是個(gè)全能選手,可以挑戰(zhàn)5種高清視覺任務(wù)。
分別是:
- 讓圖像動(dòng)起來(Image Animation)
- 根據(jù)文本生成視頻(Text-to-Video)
- 根據(jù)文本生成圖像(Text-to-Image)
- 圖像補(bǔ)全(Image Outpainting)
- 圖像生成(Image Generation)
先來看讓圖像動(dòng)起來的效果。
一張靜態(tài)的沙灘照片經(jīng)AI之手后,圖中的海浪都能自然地拍打海岸,層層疊疊仿佛是真實(shí)的景色一般。
一句話生成視頻就更讓人驚喜了。
這不,給它一個(gè)小豬佩奇原版的視頻,然后再輸入一句話,這位“女媧”就能自己做動(dòng)畫片了。
這效果完全看不出是AI做的啊,分辨率也達(dá)到了1280×1024。甚至都能拿去蒙騙小孩子?
(嗯,別讓富堅(jiān)義博看到這個(gè)AI……)
能根據(jù)文本搞定視頻,當(dāng)然圖像也不在話下。
給AI一張風(fēng)景照,再輸入不同的文本表示,它就能根據(jù)需要在照片中加各種元素了。
比如滾滾海浪、群山環(huán)繞、星空、云彩等,都可搞定。
接下來則是文本圖像生成了。這個(gè)任務(wù)可以說是DALL·E2、Imagen和Parti的“拿手好戲”,也是這段時(shí)間幾大模型battle的核心。
不過從生成效果來看,NUWA-Infinity也同樣“可以一戰(zhàn)”。
△“微軟已加入戰(zhàn)場”
輸入“田野上有房子、天空中有云彩”,女媧無限版立刻呈現(xiàn)出了一張景色優(yōu)美的照片。
分辨率高達(dá)4069×1024,仿佛是拿單反真實(shí)拍下的一樣。
最后,就是NUWA-Infinity的核心能力——“續(xù)畫”了。
在補(bǔ)充圖像上,這只AI已經(jīng)挑戰(zhàn)了不少世界名畫,并且都可以做到幾乎以假亂真。
梵高筆下的星空,它能補(bǔ)充浩瀚深邃的畫面。
筆觸連接的地方十分絲滑,整體畫面的協(xié)調(diào)感也很高。
莫奈的名作也能信手拈來。
值得一提的是,原畫中人物的影子沿著右下方拉去,AI在補(bǔ)充畫面的時(shí)候,還非常聰明地在左邊補(bǔ)充了太陽。
陽光灑在海面上,波光粼粼的細(xì)節(jié)都畫出來了。
除了世界名畫以外,風(fēng)景照片同樣也能補(bǔ)全啦。
這效果,仿佛它就在拍照現(xiàn)場,直接把原本的畫面搬了上來。
那么,NUWA-Infinity究竟是怎么擁有“續(xù)畫”的能力呢?
基于自回歸的“無限視覺合成”
與DALL·E和Imagen最大的不同在于,NUWA-Infinity在圖像生成上沒有采用擴(kuò)散模型。
這是因?yàn)?,擴(kuò)散模型雖然在圖像生成上效果不錯(cuò),但它沒有辦法改變輸出圖像的大小,包括訓(xùn)練和推理圖像的寬高是被預(yù)先定義好的。
因此,為了讓模型學(xué)會(huì)“續(xù)畫”,論文提出了一種基于自回歸的自回歸生成模型(autoregressive over autoregressive generation),訓(xùn)練時(shí)將圖像被分成很多個(gè)小塊,然后再對(duì)每個(gè)小塊(patch)分別進(jìn)行訓(xùn)練。
不過,如果只對(duì)這些patch單獨(dú)訓(xùn)練,容易導(dǎo)致合成圖像時(shí)出現(xiàn)“不和諧”的結(jié)果,例如把頭發(fā)p到臉上等等。
因此,與一些基于GAN的模型直接對(duì)每個(gè)patch進(jìn)行獨(dú)立訓(xùn)練不同,NUWA-Infinity在進(jìn)行訓(xùn)練時(shí),有意識(shí)地去加強(qiáng)各個(gè)patch之間的“依賴性”。
除了對(duì)每個(gè)patch進(jìn)行獨(dú)立訓(xùn)練以外,NUWA-Infinity在推理圖像時(shí),還會(huì)要求各patch與周圍的patch產(chǎn)生“聯(lián)系”,讓生成的圖像更具有連續(xù)效果。
當(dāng)然,推理出圖像或視頻的步驟,在NUWA-Infinity做不同任務(wù)時(shí)也不一樣。
由于文本是一維數(shù)據(jù),圖像是二維(寬+長)數(shù)據(jù),視頻則是三維數(shù)據(jù)(寬+長+時(shí)間),因此NUWA-Infinity在做不同任務(wù)時(shí),推理的順序也不同。
例如,在“補(bǔ)全圖像”的過程中,圖像推理是一圈一圈向外生成的;而在文本生成圖像、或是視頻文本生成時(shí),這些推理的順序又有不一樣的變化:
不過,NUWA-Infinity也還有一些局限性,例如與DALL·E2和Imagen不同的是,它是在特定數(shù)據(jù)集(清明上河圖、小豬佩奇等)上訓(xùn)練的。
因此,一方面NUWA-Infinity在更一般的數(shù)據(jù)集上是否也能表現(xiàn)出這么好的效果,還有待佐證;
另一方面,在文本生成圖像上,目前作者并沒有將它這一能力與DALL·E2和Imagen等模型進(jìn)行對(duì)比,因此在這一任務(wù)上并不能說它是最優(yōu)秀的,只能說生成圖像大小上減少了一些限制。
作者:代碼在盡力肝了
論文的一作吳晨飛(Chenfei Wu),博士畢業(yè)于北京郵電大學(xué),現(xiàn)工作于微軟亞研院。
在北郵讀博期間,他在NeurIPS和ACM Multimedia等頂會(huì)上發(fā)表過不少與視覺問答(VQA)相關(guān)的論文。
△圖源北郵計(jì)算機(jī)學(xué)院
共同一作梁健, 來自北京大學(xué)。
值得一提的是,去年被ECCV 2022收錄的NUWA論文,也是這兩位作者合作產(chǎn)出的。
此外,來自微軟Azure AI團(tuán)隊(duì)的Xiaowei Hu、Zhe Gan、Jianfeng Wang、Lijuan Wang、Zicheng Liu,以及北大副教授方躍堅(jiān)也參與了此次研究,通訊作者則是微軟亞研院的高級(jí)研究員&研究經(jīng)理段楠。
對(duì)于這項(xiàng)研究本身,有網(wǎng)友調(diào)侃:才注冊完DALL·E2測試版就看到這個(gè),快跟不上節(jié)奏了……
還有網(wǎng)友大膽想象“有生之年”系列:以這個(gè)速度,世紀(jì)結(jié)束前我們是不是能玩上“可實(shí)時(shí)生成”的定制VR游戲了?
但對(duì)于研究的效果,也有讀者懷疑是在“吹?!保?yàn)檫@次的“無限版”NUWA還并沒有開源。對(duì)此作者之一Zhe Gan回應(yīng)表示:
我們也很想放出代碼,正在努力ing。
此外也有讀者對(duì)于AI“續(xù)畫”的能力提出了疑問:
對(duì)于AI來說,到底是“續(xù)”一幅畫難,還是從0生成一個(gè)圖像更難?
你覺得呢?
論文地址:
https://arxiv.org/abs/2207.09814
項(xiàng)目地址:
https://nuwa-infinity.microsoft.com/#/
參考鏈接:
[1]https://twitter.com/_akhaliq/status/1549954767585173505
[2]https://twitter.com/zhegan4/status/1549970325705658369
[3]https://scs.bupt.edu.cn/info/1027/1798.htm
[4]https://www.youtube.com/watch?v=_KvGSf1y0MU
- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11