冰墩墩設(shè)計師都在玩的AI創(chuàng)作,這次大模型出圈了!
AI送你一份元宵節(jié)禮物
夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
這是疫情之下的第三個元宵節(jié)了。
或許你已經(jīng)結(jié)束假期回到工作的城市,又或許連續(xù)幾年沒能回家了。在防疫措施下,這個節(jié)日未免顯得冷清。
不過熱鬧并沒有消失,只是轉(zhuǎn)移到了網(wǎng)絡(luò)上。
中國青年報聯(lián)合百度發(fā)起的#我們一起畫月亮#在微博火了,連冰墩墩設(shè)計團隊負責(zé)人曹雪都來體驗。
同屬奧運圈的國際奧委會成員小薩馬蘭奇、短道速滑運動員韓天宇也來參與。
還有演藝界的王一博、魏大勛、楊迪、孔雪兒、哈妮克孜,以及知名博主Papi醬……
乍看以為是一個常見的H5刷屏,仔細一看,竟然是AI大模型的首次破圈,讓廣大普通用戶都體驗了一下AI創(chuàng)作藝術(shù)。
具體來說,只需告訴AI想去哪里看月亮,就能得到AI為你創(chuàng)作的一張元宵月景,另外配詩一首。
比如小薩馬蘭奇想看他家鄉(xiāng)西班牙的月,AI就畫出一副南歐風(fēng)景,畫風(fēng)也是西式油畫。
到了韓天宇,他想看北京的月,AI畫風(fēng)也切換得更像中式山水。
要注意這畫、這詩都是AI全新創(chuàng)作的,在網(wǎng)上不會有一模一樣的。
畫作中細節(jié)豐富的月亮也不是一般月亮,原型是“嫦娥一號”探月衛(wèi)星拍攝數(shù)據(jù)制作成的中國第一張全月影像。
AI畫作中的月亮正是由這張全月影像圖變化而來,更具紀(jì)念意義。
如果輸入自己家鄉(xiāng)的名字,就可以看到AI對你那里有什么印象。
或者讓AI畫一份你目前所在地的月景,還可以填上收件人生成元宵賀卡分享給遠方的親人,用科技的方式體驗一把“千里共嬋娟”。
不按常理出牌的話,還可以來掃碼試試火星或冬奧會等非常規(guī)場景,考驗一下AI腦洞有多大。
只根據(jù)寥寥幾個字畫出一張細節(jié)豐富的繪畫作品,對人來說都非易事,對AI來說更是如此。
既要讓圖像與文字描述相符又要保證圖像本身的質(zhì)量,尤其是用戶可以隨意輸入文本的這種,很多情況AI都是第一次見,怎么就知道要往上畫什么呢?
AI如何決定畫什么?
AI根據(jù)文字畫出圖像這種能力一般叫做跨模態(tài)生成。
模態(tài),指的是文本、圖像、視頻等不同的信息表現(xiàn)形式。
跨模態(tài),則是把不同類型的信息結(jié)合起來。比如圖像搭配上文本組成一對,讓AI去學(xué)習(xí)它們之間的關(guān)系。
簡單來說,AI會把文本以字或詞為單位拆開,編碼成向量組成的序列。圖像經(jīng)過計算也可以編碼成向量序列。
接下來AI要學(xué)習(xí)兩件事:
第一,根據(jù)文本序列預(yù)測出圖像序列的內(nèi)容。
第二,根據(jù)預(yù)測出的圖像序列再重建成圖像。
通過這個過程,AI可以理解到特定文本和圖像之間的對應(yīng)關(guān)系。
基礎(chǔ)一些的,像顏色、形狀的文字描述及對應(yīng)的圖像特征。
高階一點的,還可以是更綜合的概念,比如當(dāng)文字中的埃及,AI就知道標(biāo)志性景觀有金字塔。
具體到這次元宵賞月活動,AI技術(shù)的提供方是百度,用到的是文心大模型。
大模型的“大”一方面在訓(xùn)練數(shù)據(jù)量,跨模態(tài)能力上,百度用了1.45億組高質(zhì)量中文圖文對做訓(xùn)練。另一方面,跨模態(tài)部分的參數(shù)規(guī)模也有100億。
除了練得多、規(guī)模大,文心大模型的跨模態(tài)能力與同類AI模型相比還有一項創(chuàng)新之處。
首創(chuàng)的跨模態(tài)統(tǒng)一建模,讓AI同時學(xué)習(xí)文本到圖像和圖像到文本兩個方向的任務(wù),兩個模塊之間學(xué)到的參數(shù)共享。
這樣做的好處,可以用人類學(xué)外語來理解。
相當(dāng)于先練一遍中譯英,再倒過來練一遍英譯中,對詞匯、語法之間對應(yīng)關(guān)系的理解就更深了。
其他的技術(shù)創(chuàng)新還有不少,比如端到端的訓(xùn)練流程能同時加強編碼器和解碼器性能等,這里不再一一詳述。
有了種種新技術(shù)加持,文心跨模態(tài)大模型在同類模型對比中取得了領(lǐng)先成績,特別是在零樣本任務(wù)大幅領(lǐng)先國內(nèi)外。
△FID越低代表生成圖像的數(shù)據(jù)分布越接近真實圖像
當(dāng)然,畫好不好看不能光看數(shù)據(jù)質(zhì)量,還得符合人類審美。
在人類評估中,文心跨模態(tài)大模型在圖像清晰度、紋理品質(zhì)、與文本的相關(guān)性三個指標(biāo)也取得領(lǐng)先。
看分?jǐn)?shù)指標(biāo)不直觀的話,不如再看一些實例。
登錄文心大模型官網(wǎng),便能在線體驗它的跨模態(tài)生成能力。
根據(jù)同樣一段文字描述,文心跨模態(tài)大模型可以切換不同畫風(fēng)。
把白話描述換成更抽象的古詩,AI也能準(zhǔn)確理解并配上畫面。
AI詩詞作畫這項能力也在文心大模型官網(wǎng)上開放了體驗,地址可以在文末獲取。
倒過來,根據(jù)圖像也可以生成文本描述。
△來自論文arxiv.org/abs/2112.15283
實際上,跨模態(tài)大模型只是百度文心大模型中的一個組成部分。
目前,文心大模型系列除了跨模態(tài),還包含NLP(自然語言理解)大模型、CV(計算機視覺)大模型,既有基礎(chǔ)通用的大模型,也包含面向醫(yī)療、金融等重點領(lǐng)域、重點任務(wù)的大模型,以及豐富的工具與開發(fā)平臺。
文心大模型整體上與其他家大模型相比有個核心特色——知識增強。
除了海量訓(xùn)練數(shù)據(jù)外,文心大模型還從擁有5500億事實的百度知識圖譜中持續(xù)學(xué)習(xí)。
在知識的指導(dǎo)下,AI能夠更快地學(xué)習(xí)到海量數(shù)據(jù)中蘊含的規(guī)律,表現(xiàn)出來的也就更加智能,特別是在零樣本能力上領(lǐng)先于純大數(shù)據(jù)訓(xùn)練出來的模型。
一方面能節(jié)省人工標(biāo)注數(shù)據(jù)的昂貴成本,另一方面更是為本身就缺少足夠數(shù)據(jù)的場景帶來更大想象空間。
在AI內(nèi)容生成(AIGC)方面,也很考驗大模型的零樣本能力。
究其原因,AI生成的內(nèi)容是要直接呈現(xiàn)給消費者,或AI直接與人類互動,人就是最大的不確定性。
這次的元宵節(jié)AI作畫活動便是一個好例子,生成的畫作和詩詞廣受好評,經(jīng)受住了網(wǎng)友們的考驗。
除了跨模態(tài)大模型外,文心NLP大模型也有出色的零樣本生成能力。
無需標(biāo)注任何樣本,便可以根據(jù)用戶指定的體裁、情感、長度、主題、關(guān)鍵詞等屬性,生成不同類型的文本。
這一點也可以在文心大模型官網(wǎng)上動手體驗。
文心大模型家族里各個成員的理解和生成能力,逐步可勝任文字、圖像、視頻在內(nèi)的互聯(lián)網(wǎng)用戶消費的主要內(nèi)容的規(guī)?;a(chǎn)。
一個AI生成內(nèi)容(AIGC)的新時代,即將開啟。
以文生圖只是AIGC的冰山一角
如今互聯(lián)網(wǎng)上的每個人每天都在消費大量的內(nèi)容。
從你正在閱讀的這篇文章,到微博,到直播、短視頻、游戲,形式越來越多樣的內(nèi)容都搶占用戶的時間和注意力。
微博靠降低用戶用文字表達自己的門檻而流行,短視頻讓更多普通人靠手機就能分享自己的生活而火爆。
不斷提升內(nèi)容多樣性和交互性,持續(xù)降低制作門檻、提升內(nèi)容生產(chǎn)效率是每種內(nèi)容都在追求的發(fā)展方向。
于是,AI協(xié)助下的內(nèi)容生產(chǎn)逐漸走向臺面。
手機拍照用上各種AI對焦、修圖,各大網(wǎng)絡(luò)平臺紛紛實裝文章一鍵轉(zhuǎn)視頻、AI自動朗讀文字等功能。
除了擺在臺面上的數(shù)字消費類內(nèi)容,廣義的生成式AI也在更多看不見的地方發(fā)揮著價值。
比如去年程序員們津津樂道的GitHub Copliot,AI通過理解編程語言與自然語言間的關(guān)系可以輔助人類程序員寫代碼、寫注釋。
文心大模型的文檔理解能力,在保險行業(yè)可以輔助業(yè)務(wù)員處理一份合同的時間縮短到1分鐘,業(yè)務(wù)效率提升30倍。
像文心大模型這樣的以文生圖能力,甚至可以用在線下實物產(chǎn)品的生產(chǎn)上。
比如AI輔助人類設(shè)計師做服裝設(shè)計和工業(yè)設(shè)計,節(jié)省大量重復(fù)勞動時間、降低生產(chǎn)成本。
創(chuàng)意設(shè)計,以前被認(rèn)為是人類專屬的高難度領(lǐng)域,AI難以涉足。
AI在圖像上的能力很長時間以來局限于分類、識別、編輯修改這些任務(wù)。
但隨著技術(shù)發(fā)展,AI已經(jīng)開始滲透到藝術(shù)領(lǐng)域,能夠進行獨立的創(chuàng)意、生成畫作,比大家預(yù)想的速度要快得多。
有的AI畫作在拍賣行以天價成交,有的AI畫作被收錄進紐約現(xiàn)代藝術(shù)館。
這種形勢下,人工智能頂級會議NeurIPS連續(xù)幾年開設(shè)的“創(chuàng)意與設(shè)計工作坊”也辦得有聲有色。
但要說AIGC的集大成者,還要重點提一下最近火熱的數(shù)字人。
數(shù)字人經(jīng)常要與人類交流互動,更加考驗AI在視覺、語音、文字等模態(tài)上全方位的能力。
與人類相比,數(shù)字人還有個優(yōu)勢是不用休息。
火熱進行中的冰雪賽事上就有一位AI手語主播,24小時不間斷得為2780萬聽障人士提供手語服務(wù)。
百度APP代言人龔俊的數(shù)字人,可以作為語音搜索助理出現(xiàn)在用戶手機里,讓粉絲擁有面對面與偶像實時對話的溝通體驗,增加了明星的價值。
此外虛擬員工、虛擬客服等形式的數(shù)字人也都展現(xiàn)了各自的產(chǎn)業(yè)價值,走進互娛、金融、政務(wù)、零售等更多行業(yè)。
再說回到互聯(lián)網(wǎng),下一代互聯(lián)網(wǎng)無論是叫元宇宙還是Web3.0,對內(nèi)容的數(shù)量、形式和交互性都提出了更高的要求,面臨更大的數(shù)字內(nèi)容供給缺口。
這些缺口正等著以AIGC為代表的技術(shù)去填補。
最后,如果你現(xiàn)在就想提前感受一下AIGC時代,今天就是個好機會。
掃碼進入活動頁面,讓AI為你創(chuàng)作一幅月景美圖,還可以送給親朋好友,作為別具一格的元宵節(jié)祝福哦~
或者點擊下面鏈接,到文心大模型官網(wǎng)體驗更多精彩能力。
https://wenxin.baidu.com/wenxin/ernie
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18