2022生成模型進(jìn)展有多快?新論文盤點(diǎn)9類生成模型代表作
“ChatGPT is not all you need”
蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
ChatGPT的出現(xiàn),徹底將生成AI推向爆發(fā)。
但別忘了,AI生成模型可不止ChatGPT一個(gè),光是基于文本輸入的就有7種——
圖像、視頻、代碼、3D模型、音頻、文本、科學(xué)知識(shí)……
尤其2022年,效果好的AI生成模型層出不窮,又以O(shè)penAI、Meta、DeepMind和谷歌等為核心,發(fā)了不少達(dá)到SOTA的模型。
這不,立刻有學(xué)者寫了篇論文,對(duì)2022年新出現(xiàn)的主流生成模型進(jìn)行了年終盤點(diǎn)。
一起來(lái)看看這兩年間,各領(lǐng)域的AI生成模型進(jìn)展究竟怎么樣了。
9大生成模型,最新代表作是?
這篇論文將AI生成模型分成了9大類。
下圖是2022年前后,在生成效果上達(dá)到最優(yōu)的模型總覽:
除了谷歌LaMDA和Muse以外,所有模型均為2022年發(fā)布。
其中,谷歌LaMDA雖然是2021年發(fā)布的,但在2022年又爆火了一波;Muse則是2023年剛發(fā)布的,但論文聲稱自己在圖像生成性能上達(dá)到SOTA,因此也統(tǒng)計(jì)了進(jìn)去。
文本-圖像生成
這方面的代表作有DALL-E2、Stable Diffusion、Imagen、Muse。
DALL·E2是來(lái)自O(shè)penAI的生成模型,在零樣本學(xué)習(xí)上做出大突破。與DALL·E一樣,兩點(diǎn)依舊是CLIP模型,除了訓(xùn)練數(shù)據(jù)龐大,CLIP基于Transformer對(duì)圖像塊建模,并采用對(duì)比學(xué)習(xí)訓(xùn)練,最終幫助DALL·E2取得了不錯(cuò)的生成效果。
下圖是DALL·E2根據(jù)“一只戴著貝雷帽、穿黑色高領(lǐng)毛衣的柴犬”生成的圖像:
Imagen來(lái)自谷歌,基于Transformer模型搭建,其中語(yǔ)言模型在純文本數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。Imagen增加了語(yǔ)言模型參數(shù)量,發(fā)現(xiàn)效果比提升擴(kuò)散模型參數(shù)量更好。
下圖是Imagen根據(jù)“一只可愛的柯基住在壽司做的房子里”生成的圖像:
Stable Diffusion由慕尼黑大學(xué)的CompVis小組開發(fā),基于潛在擴(kuò)散模型打造,這個(gè)擴(kuò)散模型可以通過(guò)在潛表示空間中迭代去噪以生成圖像,并將結(jié)果解碼成完整圖像。
Muse由谷歌開發(fā),基于Transformer模型取得了比擴(kuò)散模型更好的結(jié)果,只有900M參數(shù),但在推理時(shí)間上比Stable Diffusion1.4版本快3倍,比Imagen-3B和Parti-3B快10倍。
下圖是Muse與DALL·E2和Imagen的生成效果對(duì)比:
文本-3D模型生成
主要代表作有Dreamfusion、Magic3D。(這里沒有把OpenAI的Point·E統(tǒng)計(jì)進(jìn)去,可能是生成效果上沒有達(dá)到SOTA)
DreamFusion由谷歌和UC伯克利開發(fā),基于預(yù)訓(xùn)練文本-2D圖像擴(kuò)散模型實(shí)現(xiàn)文本生成3D模型。采用類似NeRF的三維場(chǎng)景參數(shù)化定義映射,無(wú)需任何3D數(shù)據(jù)或修改擴(kuò)散模型,就能實(shí)現(xiàn)文本生成3D圖像的效果。
下圖是DreamFusion生成“穿夾克的松鼠”3D效果:
Magic3D由英偉達(dá)開發(fā),旨在縮短DreamFusion圖像生成時(shí)間、同時(shí)提升生成質(zhì)量。具體來(lái)說(shuō),Magic3D可以在40分鐘內(nèi)創(chuàng)建高質(zhì)量3D網(wǎng)格模型,比DreamFusion快2倍,同時(shí)實(shí)現(xiàn)了更高分辨率,并在人類評(píng)估中以61.7%的比率超過(guò)DreamFusion。
圖像-文本模型生成
主要代表作有Flamingo、VisualGPT。
Flamingo是DeepMind推出的小樣本學(xué)習(xí)模型,基于可以分析視覺場(chǎng)景的視覺模型和執(zhí)行基本推理的大語(yǔ)言模型打造,其中大語(yǔ)言模型基于文本數(shù)據(jù)集訓(xùn)練。輸入帶有圖像或視頻的問(wèn)題后,模型會(huì)自動(dòng)輸出一段文本作為回答。
VisualGPT是OpenAI制作的圖像-文本模型,基于預(yù)訓(xùn)練GPT-2提出了一種新的注意力機(jī)制,來(lái)銜接不同模態(tài)之間的語(yǔ)義差異,無(wú)需大量圖像-文本數(shù)據(jù)訓(xùn)練,就能提升文本生成效率。
文本-視頻模型生成
主要代表作有Phenaki、Soundify。
Phenaki由谷歌打造,基于新的編解碼器架構(gòu)C-ViViT將視頻壓縮為離散嵌入,能夠在時(shí)空兩個(gè)維度上壓縮視頻,在時(shí)間上保持自回歸的同時(shí),還能自回歸生成任意長(zhǎng)度的視頻。
Soundify是Runway開發(fā)的一個(gè)系統(tǒng),目的是將聲音效果與視頻進(jìn)行匹配,即制作音效。具體包括分類、同步和混合三個(gè)模塊,首先模型通過(guò)對(duì)聲音進(jìn)行分類,將效果與視頻匹配,隨后將效果與每一幀進(jìn)行比較,插入對(duì)應(yīng)的音效。
文本-音頻模型生成
主要代表作有AudioLM、Jukebox、Whisper。
AudioLM由谷歌開發(fā),將輸入音頻映射到一系列離散標(biāo)記中,并將音頻生成轉(zhuǎn)換成語(yǔ)言建模任務(wù),學(xué)會(huì)基于提示詞產(chǎn)生自然連貫的音色。在人類評(píng)估中,認(rèn)為它是人類語(yǔ)音的占51.2%、與合成語(yǔ)音比率接近,說(shuō)明合成效果接近真人。
Jukebox由OpenAI開發(fā)的音樂模型,可生成帶有唱詞的音樂。通過(guò)分層VQ-VAE體系將音頻壓縮到離散空間中,損失函數(shù)被設(shè)計(jì)為保留最大量信息,用于解決AI難以學(xué)習(xí)音頻中的高級(jí)特征的問(wèn)題。不過(guò)目前模型仍然局限于英語(yǔ)。
Whisper由OpenAI開發(fā),實(shí)現(xiàn)了多語(yǔ)言語(yǔ)音識(shí)別、翻譯和語(yǔ)言識(shí)別,目前模型已經(jīng)開源并可以用pip安裝。模型基于68萬(wàn)小時(shí)標(biāo)記音頻數(shù)據(jù)訓(xùn)練,包括錄音、揚(yáng)聲器、語(yǔ)音音頻等,確保由人而非AI生成。
文本-文本模型生成
主要代表作有ChatGPT、LaMDA、PPER、Speech From Brain。
ChatGPT由OpenAI生成,是一個(gè)對(duì)話生成AI,懂得回答問(wèn)題、拒絕不正當(dāng)?shù)膯?wèn)題請(qǐng)求并質(zhì)疑不正確的問(wèn)題前提,基于Transformer打造。它用人類打造的對(duì)話數(shù)據(jù)集、以及InstructGPT數(shù)據(jù)集的對(duì)話格式進(jìn)行訓(xùn)練,此外也可以生成代碼和進(jìn)行簡(jiǎn)單數(shù)學(xué)運(yùn)算。
LaMDA基于Transformer打造,利用了其在文本中呈現(xiàn)的長(zhǎng)程依賴關(guān)系能力。其具有1370億參數(shù),在1.56T的公共對(duì)話數(shù)據(jù)集和網(wǎng)頁(yè)文本上進(jìn)行訓(xùn)練,只有0.001%的訓(xùn)練數(shù)據(jù)被用于微調(diào),這也是它效果好的原因之一。
PEER由Meta AI打造,基于維基百科編輯歷史進(jìn)行訓(xùn)練,直到模型掌握完整的寫作流程。具體來(lái)說(shuō),模型允許將寫作任務(wù)分解成更多子任務(wù),并允許人類隨時(shí)干預(yù),引導(dǎo)模型寫出人類想要的作品。
Speech from Brain由Meta AI打造,用于幫助無(wú)法通過(guò)語(yǔ)音、打字或手勢(shì)進(jìn)行交流的人,通過(guò)對(duì)比學(xué)習(xí)訓(xùn)練wave2vec 2.0自監(jiān)督模型,基于非侵入式腦機(jī)接口發(fā)出的腦電波進(jìn)行解讀,并解碼大腦生成的內(nèi)容,從而合成對(duì)應(yīng)語(yǔ)音。
文本-代碼模型生成
主要代表作有Codex、AlphaCode。
Codex是OpenAI打造的編程模型,基于GPT-3微調(diào),可以基于文本需求生成代碼。首先模型會(huì)將問(wèn)題分解成更簡(jiǎn)單的編程問(wèn)題,隨后從現(xiàn)有代碼(包含庫(kù)、API等)中找到對(duì)應(yīng)的解決方案,基于GitHub數(shù)據(jù)進(jìn)行訓(xùn)練。
AlphaCode由DeepMind打造,基于Transformer模型打造,通過(guò)采用GitHub中715.1GB的代碼進(jìn)行預(yù)訓(xùn)練,并從Codeforces中引入一個(gè)數(shù)據(jù)集進(jìn)行微調(diào),隨后基于Codecontests數(shù)據(jù)集進(jìn)行模型驗(yàn)證,并進(jìn)一步改善了模型輸出性能。
文本-科學(xué)知識(shí)模型生成
主要代表作有Galactica、Minerva。
Galatica是Meta AI推出的1200億參數(shù)論文寫作輔助模型,又被稱之為“寫論文的Copilot模型”,目的是幫助人們快速總結(jié)并從新增論文中得到新結(jié)論,在包括生成文本、數(shù)學(xué)公式、代碼、化學(xué)式和蛋白質(zhì)序列等任務(wù)上取得了不錯(cuò)的效果,然而一度因?yàn)閮?nèi)容生成不可靠被迫下架。
Minerva由谷歌開發(fā),目的是通過(guò)逐步推理解決數(shù)學(xué)定量問(wèn)題,可以主動(dòng)生成相關(guān)公式、常數(shù)和涉及數(shù)值計(jì)算的解決方案,也能生成LaTeX、MathJax等公式,而不需要借助計(jì)算器來(lái)得到最終數(shù)學(xué)答案。
其他生成模型
主要包括Alphatensor、GATO、PhysDiff等“其他生成模型”。
AlphaTensor由DeepMind開發(fā),懂得自己改進(jìn)矩陣乘法并提升計(jì)算速度,不僅改進(jìn)了目前最優(yōu)的4×4矩陣解法,也提升了70多種不同大小矩陣的計(jì)算速度,基于“棋類AI”AlphaZero打造,其中棋盤代表要解決的乘法問(wèn)題,下棋步驟代表解決問(wèn)題的步驟。
GATO由DeepMind開發(fā),基于強(qiáng)化學(xué)習(xí)教會(huì)大模型完成600多個(gè)不同的任務(wù),包含離散控制如Atari小游戲、推箱子游戲,以及連續(xù)控制如機(jī)器人、機(jī)械臂,還有NLP對(duì)話和視覺生成等,進(jìn)一步加速了通用人工智能的進(jìn)度。
PhysDiff是英偉達(dá)推出的人體運(yùn)動(dòng)生成擴(kuò)散模型,進(jìn)一步解決了AI人體生成中漂浮、腳滑或穿模等問(wèn)題,教會(huì)AI模仿使用物理模擬器生成的運(yùn)行模型,并在大規(guī)模人體運(yùn)動(dòng)數(shù)據(jù)集上達(dá)到了最先進(jìn)的效果。
作者介紹
兩位作者均來(lái)自西班牙卡米亞斯大主教大學(xué)(Universidad Pontificia Comillas)。
一作Roberto Gozalo-Brizuela,目前是卡米亞斯大主教大學(xué)研究助理(Investigador asociado),從事AI相關(guān)的項(xiàng)目研究工作。
Eduardo C. Garrido-Merchán,卡米亞斯大主教大學(xué)助理教授,研究方向是貝葉斯優(yōu)化、機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、生成式AI等。
你感覺哪個(gè)領(lǐng)域的生成式AI進(jìn)展最大?
論文地址:
https://arxiv.org/abs/2301.04655
參考鏈接:
https://twitter.com/1littlecoder/status/1615352215090384899