谷歌Imagen首次開放測(cè)試,安卓蘋果都能玩,還有AI寫作助手、超長(zhǎng)連貫性視頻生成模型
谷歌AIGC這次放大招了
羿閣 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
臨近年底,谷歌終于放大招了!
剛剛結(jié)束的AI@年度活動(dòng)上,谷歌一口氣發(fā)布了四項(xiàng)最新的AIGC技術(shù)成果。
其中最引人注意的要數(shù)文本圖像模型Imagen首次開放測(cè)試,敲黑板,這次安卓、蘋果都能玩。
其他有趣的產(chǎn)品,還有AI寫作協(xié)助工具LaMDA Wordcraft、結(jié)合Imagen Video和Phenaki優(yōu)勢(shì)的超長(zhǎng)連貫性視頻生成模型等等。
而且,除了官方的總結(jié),幾位來自谷歌的科學(xué)家也在推特分享了自己心中谷歌AI研究的新進(jìn)展。
具體有哪些?一起往下看。
Imagen首次開放測(cè)試
自推出以來,Imagen一直被與OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比較,但不同的是,谷歌一直沒有將該系統(tǒng)向公眾開放。
現(xiàn)在,谷歌終于松口,宣布將把Imagen添加到其AI Test Kitchen應(yīng)用中。
AI Test Kitchen,是今年I/O大會(huì)上,谷歌推出的一款用于對(duì)各種AI系統(tǒng)進(jìn)行測(cè)試的應(yīng)用程序,目前蘋果、安卓用戶都能下載。
最初的時(shí)候,用戶僅可以在上面與AI聊天機(jī)器人LaMDA 2進(jìn)行交流,此次更新將添加兩種與Imagen互動(dòng)的新方式:城市夢(mèng)想家和Wobble。
在“城市夢(mèng)想家”中,你可以用文字命令建造不同主題的城市,其中,Imagen模型承擔(dān)了創(chuàng)建樣本建筑和地塊(城市廣場(chǎng)、公寓樓、機(jī)場(chǎng)等)的作用。
在Wobble中,你可以創(chuàng)造一個(gè)小怪物,DIY它的材質(zhì)(粘土、毛氈、橡膠等),然后給它穿上你選擇的衣服,還可以戳戳它,讓它“跳舞”。
盡管與其他文本到圖像的模式相比,這些互動(dòng)方式看上去還比較受限制,但谷歌產(chǎn)品管理高級(jí)總監(jiān)喬?!の榈挛值拢↗osh Woodward)解釋稱,這一步的意義在于獲得公眾對(duì)這些AI系統(tǒng)的反饋,以及測(cè)試哪些行為會(huì)使得系統(tǒng)崩潰。
其他AIGC產(chǎn)品
除了最受關(guān)注的Imagen模型,谷歌還宣布了在其他內(nèi)容格式上的AI內(nèi)容生成技術(shù)。
比如LaMDA Wordcraft,一個(gè)在大語言模型LaMDA基礎(chǔ)上開發(fā)的、能輔助專業(yè)作家寫作的AI寫文工具。
它的作用,是在創(chuàng)作者寫作的過程當(dāng)中,根據(jù)現(xiàn)有的文本產(chǎn)生新的想法,或者幫助重寫已有文句,從而幫助創(chuàng)作者突破“創(chuàng)作瓶頸”。
值得一提的是,下圖中的“Evaluative Soliloquies”就是作家劉宇昆(《三體》英文版譯者)在Wordcraft幫助下撰寫的短篇小說。
除此之外,谷歌還結(jié)合了Imagen Video和Phenaki兩大模型的優(yōu)勢(shì),推出了一個(gè)能生成超長(zhǎng)連貫性視頻的新模型。
還有AudioLM,一個(gè)無需文字和音樂符號(hào)訓(xùn)練,僅通過聆聽音頻樣本,就可以繼續(xù)生成填補(bǔ)樂曲的音頻模型。
說完這些谷歌官方公布的新技術(shù),讓我們?cè)賮砜纯垂雀璧目茖W(xué)家們自己是怎么說的。
谷歌科學(xué)家眼里的新進(jìn)展
除了產(chǎn)品層面,今年谷歌AI研究的新進(jìn)展還有哪些?
谷歌大腦的工程師周登勇在推特上分享了自己的看法:大模型學(xué)會(huì)了如何解釋答案,檢查答案,并將復(fù)雜問題分解成子問題解決。
而這一切還要從谷歌今年1月發(fā)布的一篇論文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”開始說起。
就是在這篇論文中,谷歌首次提出了思維鏈提示(chain of thought prompting)的概念。
簡(jiǎn)單來說,思維鏈提示就是一種特殊的上下文學(xué)習(xí),不同于標(biāo)準(zhǔn)提示只是給出輸入-輸出對(duì)的示例(如下圖左),思維鏈提示還會(huì)額外增加一段推理的過程(如下圖右)。
這一步的目的是讓模型模仿并為當(dāng)前問題生成自己的思維過程,最終提高生成結(jié)果的準(zhǔn)確性。
該方法在LaMDA-137B、GPT-3 175B、PaLM-540B三個(gè)大型語言模型上都得到了驗(yàn)證:對(duì)比標(biāo)準(zhǔn)提示,新方法在算術(shù)、常識(shí)和符號(hào)推理任務(wù)的準(zhǔn)確率上都有了明顯的提高。
并且,隨著模型參數(shù)量級(jí)的提升,思維鏈提示的效果也呈指數(shù)級(jí)上升。
尤其是配合上谷歌的超級(jí)語言模型PaLM-540B,在包括數(shù)學(xué)問題在內(nèi)的多個(gè)推理基準(zhǔn)測(cè)試中達(dá)到了SOTA水平,甚至超過了使用驗(yàn)證器進(jìn)行微調(diào)的GPT-3。
很快,兩個(gè)月后該團(tuán)隊(duì)又對(duì)該研究進(jìn)行了跟進(jìn)。
這篇文章幾乎使用了和初代文章完全一樣的數(shù)據(jù)集和設(shè)置,主要改進(jìn)是提出了一種稱為自洽性(self-consistency)的簡(jiǎn)單策略。
簡(jiǎn)單來說,就像人在思考時(shí)會(huì)想出幾種不同的解決方案再作出判斷一樣,自洽方法會(huì)通過思維提示鏈從語言模型中采樣一組不同的推理路徑,再對(duì)答案進(jìn)行多數(shù)投票(majority vote),最后返回其中最自洽的答案。
這一步優(yōu)化不僅意味著離模仿人類思維模式更近一步,還做到了顯著地提高思維鏈方法的性能。
最新的進(jìn)展是,為了解決從易到難的泛化問題,該團(tuán)隊(duì)又提出了一種新穎的提示策略。
它將復(fù)雜問題簡(jiǎn)化為一系列子問題,然后依次解決這些子問題,從而通過對(duì)先前解決的子問題的答案來促進(jìn)解決給定的子問題。
就這樣,谷歌正在訓(xùn)練AI一步步朝著人類的思維模式靠近。
最后,說了這么多,這一年,你印象最深的谷歌AI研究是什么?
參考鏈接:
[1]https://twitter.com/dmvaldman/status/1587525225209425921
[2]https://arxiv.org/abs/2201.11903
[3]https://arxiv.org/abs/2203.11171
[4]https://arxiv.org/abs/2205.10625