給AI一段故事,就能變成漫畫,這個來自人大微軟和北影的AI,要啟發(fā)電影人的靈感
郭一璞 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
看圖,永遠(yuǎn)比看字省事。
比如說,相比看文字版小說,看小說改編的漫畫更簡單輕松。
那么,如何把一段故事自動變成漫畫呢?
AI已經(jīng)可以做到了。給它一段故事,它就可以用圖片把故事講出來,稍加修改,就變成了一套連環(huán)畫。
像這樣的一段故事:
很久以前, 有個小男孩在森林里迷路了, 他走了好久, 都走餓了, 他很想吃媽媽做的餅, 可這時候小男孩回不去呀, 于是他就在地上畫了一個大大的餅, 還在餅上點(diǎn) 上芝麻。
小男孩看著看著, 好像自己已經(jīng)吃上了大餅, 于是他覺得自己不是很餓了, 重新站起來沿著一條小路走.。
很快, 小男孩的爸媽就找到了他, 他們一起回到家, 吃上了真正香噴噴的餅。
AI可以把它變成這樣的漫畫:
而且,這種漫畫形式還可以在電影工業(yè)中充當(dāng)故事板,輔助電影人們進(jìn)行藝術(shù)創(chuàng)作。
找到能講故事的圖
那么這個過程是怎樣實現(xiàn)的呢?
首先要說明一點(diǎn),這些圖片并不是AI憑空畫的,而是采取了一種更簡單省事的方法:
從現(xiàn)成的圖庫里找出一些構(gòu)圖相似的,拿來改一改。
這里的圖庫,叫做GraphMovie數(shù)據(jù)集,數(shù)據(jù)來源是一些影評網(wǎng)站。
但是數(shù)據(jù)集里的圖很多,怎么才能用AI自動的找出最符合你故事的圖片呢?
這里用到了一個模型,叫做情景感知密集匹配模型(Contextual-Aware Dense Matching model,CADM)。
它長這樣:
根據(jù)故事的內(nèi)容,CADM找到了這樣的一些圖像:
另外,還有一個模型叫做No Context,它是此前“看字找圖”這個領(lǐng)域中表現(xiàn)最好的AI。
No Context也找了一些圖像出來:
不過,圖還是有點(diǎn)少,人家好歹也是個完整的故事,你總不能拿這么幾張圖就講完,這樣故事沒有細(xì)節(jié),讀者的體驗也不好。
現(xiàn)在,請出第三個模型:貪婪解碼算法,它負(fù)責(zé)根據(jù)故事里的細(xì)節(jié),再找找能用上的圖。
讓它出馬來補(bǔ)一補(bǔ)之后,故事立馬就完整了:
把圖片的畫風(fēng)統(tǒng)一
不過,就這樣的效果,你會看得糊里糊涂,好像并不能傳達(dá)出前面文本里的故事。
問題出在哪兒呢?
第一個問題是,圖片里有許多背景、環(huán)境等相關(guān)元素,跟故事主線毫無關(guān)系,看到它還會影響你對故事的理解。
需要把這些冗余元素刪掉,這里用到了何愷明的成名作Mask R-CNN,進(jìn)行區(qū)域分割,刪掉圖片中和故事不相關(guān)的部分。
現(xiàn)在,這些圖片長這樣:
第二個問題,這些圖片的畫風(fēng)實在是差異太大了,把這樣的漫畫拿出去,會被讀者打的。
所以,需要把圖片的樣式統(tǒng)一起來,這里用到了一個工具CartoonGAN,從字面意思就可以理解,這是一個讓圖片變成卡通風(fēng)格的GAN(生成對抗網(wǎng)絡(luò))。
在卡通GAN處理之后,這組圖片變成了這樣:
似乎好了一些,但是還有一個大bug:這些人長得不一樣呀!你說他們是同一個故事的主角,打死我也不信。
于是,第三個問題來了,怎么才能讓這些人都長成一個樣?
這里,研究者們直接找了一個軟件,叫做Autodesk Maya,是一個在電影里處理3D圖像的軟件,靠它制作出3D的場景、人物和道具,用半手動的方式把9張圖片里的人全變成一個樣。
不過論文作者表示,未來這個制作3D圖像的過程有望全自動生成。
這一頓操作,是真的猛如虎,9張八竿子打不著邊的圖,現(xiàn)在畫風(fēng)一致、故事流暢,甚至還補(bǔ)充了背景和美化。
在電影工業(yè)中有大用途
其實,這樣生成的“漫畫”并不是最終結(jié)果。
它其實是用來拍電影的。
拍電影的準(zhǔn)備過程中,需要一個Demo叫做“故事板(storyboard)”。
借助故事板,電影人在創(chuàng)作的過程中就可以先改Demo,定下來之后再完成成品,把撕逼的過程放在前面,防止做完之后甲方爸爸再提修改意見,導(dǎo)致工作量急劇提升。
因此,像這篇論文里這樣,自動生成故事板,就可以節(jié)約電影人的許多時間,提高創(chuàng)作者們的生產(chǎn)效率。
人大博士出品
這篇論文的作者團(tuán)隊非常龐大,一共9位作者,分別來自中國人民大學(xué)、微軟和北京電影學(xué)院。
一作陳師哲目前在人大讀到了博士五年級,也是曾在微軟小冰團(tuán)隊實習(xí),還曾經(jīng)赴CMU和阿德萊德大學(xué)訪學(xué)。
她也是一位學(xué)術(shù)達(dá)人,僅僅今年一年,包括這篇論文在內(nèi)就已經(jīng)發(fā)了三篇頂會一作。
另外,微軟小冰團(tuán)隊首席科學(xué)家宋睿華也參與到了這項研究中。
宋睿華博士畢業(yè)于清華大學(xué),長期研究短文本對話與生成、信息檢索與提取等領(lǐng)域,曾擔(dān)任SIGIR、SIGKDD、CIKM、WWW、WSDM等會議的程序主席或高級程序主席。
傳送門
Neural Storyboard Artist: Visualizing Stories with Coherent Image Sequences
作者:Shizhe Chen, Bei Liu, Jianlong Fu, Ruihua Song, Qin Jin, Pingping Lin, Xiaoyu Qi, Chunting Wang, Jin Zhou
https://arxiv.org/abs/1911.10460v1