如果讓AI根據(jù)文字畫「抽象畫」,那得成什么樣?|DeepMind新算法
根據(jù)文字生成圖片,AI早就會了。
而如今,和以往的“寫實派”不同,AI要開始進(jìn)軍“抽象派”藝術(shù)了!
話不多說,下面是AI畫的一些輸入文字為“叢林中的老虎”的作品:
AI的“藝術(shù)細(xì)胞”你get到了嗎?這離真正的抽象派大師畫作還有多遠(yuǎn)?
而這次AI生成的圖像,之所以與此前我們見到的GAN模型的風(fēng)格大不一樣,是DeepMind使用了一種新算法。
該算法最終允許用戶輸入一串文本,AI就能對這個字符串做出創(chuàng)造性的反應(yīng),輸出一個解釋該字符串的藝術(shù)作品。
再比如輸入“云”,生成如下作品:
輸入“一張臉”,“尖叫”,“一只貓”,“一個笑臉”,“著火的房子”,“一個人走路”,“叢林中的老虎”,“洞穴壁畫”:
……
如此不同凡響的新技能,有什么技術(shù)創(chuàng)新嗎?
神經(jīng)視覺語法系統(tǒng)與雙重編碼器
總的來說,DeepMind的這個算法與使用GAN生成圖像有3種不同:
首先,此算法的圖像是“進(jìn)化”(evolve)而來,而不是使用反向傳播直接生成。
使用進(jìn)化搜索?(evolutionary-search),可以生成一個與眾不同的“美學(xué)輸出”,也允許人為進(jìn)行更多輸出控制。
其次,該算法不直接進(jìn)化圖像,而是進(jìn)化一種生成圖像的視覺語法。這才能生成有趣的結(jié)構(gòu)化圖像。
最后,該算法使用了一個預(yù)訓(xùn)練的多模態(tài)“評判器”?(critic),它接受了網(wǎng)上大量圖片和說明文字(captions)的訓(xùn)練。這個算法“理解”文字的視覺意義的能力很重要。
下面就來詳細(xì)說一下用于演化出圖像的神經(jīng)視覺語法系統(tǒng)和用來評估圖像合適度的圖像文本雙重編碼器“評判器”。
神經(jīng)語法系統(tǒng)采用了分層結(jié)構(gòu),可大大擴(kuò)展核心神經(jīng)發(fā)生器的功能。
它將用戶輸入的字符串輸入到頂級的LSTM中,LSTM(長短期記憶網(wǎng)絡(luò))可為每個筆劃(stroke)指定一個中間輸入字符串(intermediate input string )。
這個中間輸入字符串的作用與原始輸入字符串非常相似。然后這個中間字符串又被輸入到底層的的LSTM以輸出最終圖像的筆劃描述。如下圖所示。
具體細(xì)節(jié)如,中間向量的第二個位置決定了編碼的筆劃是不透明的還是透明的。
第三個位置決定是使用頂層指定的位置還是中間層指定的位置來確定筆劃的原點。
第四個位置確定筆劃中要產(chǎn)生的行數(shù)。
……
為了發(fā)揮評判的作用,需要一種評分機制,給圖像與句子的相似程度評分。
為此,他們選擇了Frome的雙編碼器方法,該方法最近在大量網(wǎng)絡(luò)數(shù)據(jù)集上獲得了巨大成功。
該雙編碼器模型由兩個分別對文本和圖像進(jìn)行操作的編碼器組成。該團(tuán)隊在ALIGN(A Large ImaGe and Noisy-text)數(shù)據(jù)集上訓(xùn)練它。
視覺編碼器基于NF-Net-F0模型,以224×224分辨率的RGB圖像作為輸入;文本編碼器是一個80M參數(shù)因果轉(zhuǎn)換器(causal Transformer)。
該文本編碼器保留了單詞的順序以及大小寫之間的區(qū)別,會將“Jungle in the Tiger”和“a tiger in the jungle”生成不一樣的圖像。
此外,得益于進(jìn)化搜索,可使用修剪程序來確定有助于圖像得分(合適度)的關(guān)鍵標(biāo)記。在整個進(jìn)化過程中,也可以刪除多余的標(biāo)記,“調(diào)教”出盡量滿意的圖像。下圖為“一顆蘋果樹”的標(biāo)記修剪。
可繼續(xù)改進(jìn):初始畫布不必空白
那這樣一種技術(shù)有什么實際用處呢?
團(tuán)隊介紹到,它可以用于輔助藝術(shù)創(chuàng)作、發(fā)明新的標(biāo)記制作方法或者將其生成過程作用于3D模型等。
而且畫布的背景初始條件不必空白,沒準(zhǔn)可以從照片或現(xiàn)有圖像開始,在每次迭代中用不同的文本來調(diào)節(jié),最終讓圖像一點點演變成層次更豐富的作品!
當(dāng)然,他們的算法也有一些需要改進(jìn)的地方,所生成的圖像有時讓人感到驚喜,而有時卻看起來平平無奇甚至混亂,由于過擬合產(chǎn)生了越來越抽象的作品。
而在允許背景顏色進(jìn)化得更豐富時,也會造成圖像其他方面多樣性的降低。
目前這個算法還存在一些“偏見”,比如要求生成“自畫像”時,最終大多數(shù)肖像都是白人男性。
參考鏈接:
[1]https://www.arxiv-vanity.com/papers/2105.00162/
[2]https://twitter.com/DeepMind/status/1391732014806614027
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設(shè)計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學(xué)和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10