啟元世界CEO袁泉:能力涌現(xiàn)不只與模型大小相關(guān) | 中國(guó)AIGC產(chǎn)業(yè)峰會(huì)
如何在元宇宙里訓(xùn)練AGI,未來(lái)可能是一個(gè)新的命題
衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
ChatGPT和GPT-4引發(fā)全球地震,很多人都在思考一個(gè)問(wèn)題:OpenAI的成功路徑是什么?
在中國(guó)AIGC產(chǎn)業(yè)峰會(huì)現(xiàn)場(chǎng),啟元世界創(chuàng)始人兼CEO袁泉給出了他的答案,它很好地融合了三大時(shí)代紅利。
三個(gè)紅利具體如下:
- 一是摩爾定律帶來(lái)的算力紅利,尤其是GPU的算力;
- 二是算法的并行性帶來(lái)規(guī)模可擴(kuò)展的紅利;
- 三是對(duì)無(wú)標(biāo)注數(shù)據(jù)探索的紅利。
2017年,Transformer出現(xiàn)后,OpenAI很快將這三點(diǎn)融合在一起,推出了GPT-1,而后GPT-2、GPT-3……

ChatGPT破圈之后,人們對(duì)AGI有了更多的理解和認(rèn)識(shí),而國(guó)內(nèi),啟元世界也于早幾年起開(kāi)始在AGI方向探索。
啟元世界成立于2017年。當(dāng)時(shí),幾個(gè)聯(lián)創(chuàng)在紐約聽(tīng)了AlphaGo創(chuàng)始人之一David Silver關(guān)于AlphaGo戰(zhàn)勝李世石的分享,其中談到了背后包含DL和RL的AGI技術(shù),從而激發(fā)了他們對(duì)AGI的興趣。
成立后,啟元世界開(kāi)始沿著AGI路徑,以游戲?yàn)榍腥朦c(diǎn),逐漸從互聯(lián)網(wǎng)、元宇宙破圈。這一次,在總結(jié)OpenAI的成功路徑后,關(guān)于踐行AGI這件事,袁泉在活動(dòng)現(xiàn)場(chǎng)分享了啟元視角下的觀點(diǎn)。
為了完整體現(xiàn)他的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)其演講內(nèi)容進(jìn)行了編輯整理。
中國(guó) AIGC 產(chǎn)業(yè)峰會(huì)是由量子位主辦的行業(yè)峰會(huì),近 20 位產(chǎn)業(yè)代表與會(huì)討論。線下參與觀眾 600+,線上收看觀眾近 300 萬(wàn),得到了包括 CCTV2、BTV 等在內(nèi)的數(shù)十家媒體的廣泛報(bào)道關(guān)注。
演講要點(diǎn):
- ChatGPT是站在三大技術(shù)紅利之上的一個(gè)劃時(shí)代產(chǎn)物;
- 在特定問(wèn)題空間中,幾千萬(wàn)參數(shù)的transformer就能取得不錯(cuò)的效果;
- 未來(lái)5到10年,AGI的重點(diǎn)是元宇宙,因?yàn)樵钪娴谋举|(zhì)是互聯(lián)網(wǎng)豐富的語(yǔ)料、交互和3D開(kāi)放世界游戲的合體;
- 涌現(xiàn)能力除了與模型大小相關(guān),還可能和問(wèn)題領(lǐng)域的規(guī)模、AGI是否已在這個(gè)領(lǐng)域充分探索,都有一定關(guān)聯(lián);
- 將AIGC融入游戲制作階段,如游戲策劃,尤其是數(shù)值策劃等,會(huì)優(yōu)化整個(gè)游戲數(shù)值生態(tài)的平衡性。
以下為袁泉演講全文:
站在三大技術(shù)紅利之上的劃時(shí)代產(chǎn)物
ChatGPT破圈之后,大家都在分析OpenAI的成功路徑。這里我也談一些啟元的思考和實(shí)踐。
從技術(shù)角度看,我們覺(jué)得ChatGPT是站在三大技術(shù)紅利之上的一個(gè)劃時(shí)代產(chǎn)物。
一個(gè)紅利是摩爾定律帶來(lái)算力紅利,尤其是GPU的算力,可能超過(guò)摩爾定律的提升速度。
第二大紅利就是算法的并行性所帶來(lái)的scalable的紅利。2017年底、Transformer出現(xiàn)之前,DL的算法,尤其用于做序列數(shù)據(jù)、序列決策的算法,主要以LSTM(Long Short-Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))為主,很難并行化。
Transformer發(fā)布第二天,Ilya Sutskever(OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家)就看到它的并行性以及長(zhǎng)語(yǔ)境能帶來(lái)的好處,于是研究轉(zhuǎn)向以此為基礎(chǔ)。
第三大紅利就是大數(shù)據(jù)中的未標(biāo)注數(shù)據(jù)。我個(gè)人覺(jué)得,從2016年起,OpenAI就對(duì)它開(kāi)始看重。
GPT-1就是把這三點(diǎn)較好融合在一起的產(chǎn)物,GPT-2在其基礎(chǔ)上拓展了10倍,GPT-3又拓展了100倍,這讓業(yè)界十分吃驚。
RL之父、DeepMind研究科學(xué)家Richard Sutton在2019年就提到,之前幾十年,AI發(fā)展過(guò)程走的最大的彎路,就沒(méi)有用可擴(kuò)展性來(lái)進(jìn)行研究。
但OpenAI很快把這一套踐行到GPT系列大模型上。
踐行AGI發(fā)展路徑的啟元方式
啟元是怎么踐行AGI發(fā)展路徑的呢?

第一個(gè)階段,從2017年開(kāi)始,啟元用3年時(shí)間主要在包括《星際爭(zhēng)霸》等游戲世界里探索AGI。
從零開(kāi)始,只用少量的、5000局中韓高手游戲錄像作為啟動(dòng),在游戲中訓(xùn)練AGI。
一個(gè)比較有意思的現(xiàn)象是,在特定問(wèn)題空間中,幾千萬(wàn)參數(shù)的transformer就能取得不錯(cuò)的效果。基于此,啟元把它優(yōu)化后用到了游戲行業(yè)最主流的7大品類游戲中。
第二階段是游戲世界往互聯(lián)網(wǎng)世界破圈。2016年左右,OpenAI就開(kāi)始探究在互聯(lián)網(wǎng)上是否也能夠基于DL、RL甚至AGI來(lái)訓(xùn)練很強(qiáng)的智能體。
Transformer出來(lái)后,OpenAI發(fā)現(xiàn)scalable的方法,這也讓全世界發(fā)現(xiàn)把AGI技術(shù)用在價(jià)值大于游戲行業(yè)100倍的互聯(lián)網(wǎng)里,能創(chuàng)造更大的商業(yè)價(jià)值和社會(huì)價(jià)值,帶來(lái)很多機(jī)會(huì)。
第三個(gè)階段,可能也是未來(lái)5到10年的重點(diǎn),就是元宇宙。我們認(rèn)為元宇宙的本質(zhì)是互聯(lián)網(wǎng)豐富的語(yǔ)料、交互和3D開(kāi)放世界游戲的合體。
AIGC如何催生元宇宙、在元宇宙中如何訓(xùn)練AGI,使得它能力越來(lái)越強(qiáng),能夠完成更多的任務(wù),可能也是未來(lái)非常有價(jià)值的命題。
最后一步可能是AGI虛實(shí)遷移,服務(wù)或者應(yīng)用于現(xiàn)實(shí)世界中。

啟元世界的發(fā)展過(guò)程則主要分兩個(gè)階段。
第一階段是前三年,主要是在各類游戲中訓(xùn)練決策大模型為主,參數(shù)級(jí)別在幾千萬(wàn)或者一億以內(nèi),能夠讓AI用小樣本做啟動(dòng),甚至從零開(kāi)始做啟動(dòng),探索這一類任務(wù)的邊界。
第二階段是從2021年開(kāi)始,我們開(kāi)始做10億到100億參數(shù)的語(yǔ)言模型。
背后原因是我們覺(jué)得模型的參數(shù)大小其實(shí)和所解決任務(wù)空間的大小、任務(wù)下能夠收集到高質(zhì)量語(yǔ)料高度相關(guān)。在我們看來(lái),10億到100億規(guī)模,能和各個(gè)行業(yè)垂直應(yīng)用相結(jié)合的這一類模型,還有非常大的潛力。
在決策大模型這一塊,以《星際爭(zhēng)霸》智能體為代表,2020年6月份,我們擊敗中國(guó)星際職業(yè)選手,出現(xiàn)了一個(gè)今天看來(lái)比較反常識(shí)的認(rèn)知,那就是今天看到千億參數(shù)模型可以涌現(xiàn)出100多種不同能力,在當(dāng)時(shí)4900萬(wàn)參數(shù)的星際模型現(xiàn)場(chǎng)比賽時(shí),涌現(xiàn)出“維京流”這樣的新策略玩法,即按照人類選手的經(jīng)驗(yàn)和規(guī)則去放基地、建造新東西的玩法,給了大家一些啟發(fā)。

△
AI對(duì)戰(zhàn)人類選手現(xiàn)場(chǎng)
可能涌現(xiàn)能力除了與模型大小相關(guān)之外,和問(wèn)題領(lǐng)域的規(guī)模,以及AGI是否在這個(gè)問(wèn)題中已經(jīng)充分探索到經(jīng)驗(yàn)的邊界,都有一定的關(guān)聯(lián)。
做啟發(fā)人和陪伴人的AGI
基于決策大模型的技術(shù)和平臺(tái),目前啟元的目標(biāo)主要是做啟發(fā)人和陪伴人的AGI。
一方面在很多游戲中,比如在線用戶不多時(shí),AI陪人互動(dòng),陪人去玩。
第二方面我們叫“陪聊NPC”,比如說(shuō)一局游戲結(jié)束后,上一局人機(jī)合作勝負(fù)如何、戰(zhàn)況如何,下一局怎么打,用戶都可以和AI進(jìn)行交流。
還有一部分是將AIGC融入游戲制作階段,如游戲策劃,尤其是數(shù)值策劃等,會(huì)優(yōu)化整個(gè)游戲數(shù)值生態(tài)的平衡性,這一部分AI探索效率更高,也更能幫助在數(shù)值和平衡性方面進(jìn)行優(yōu)化。
最近我們?cè)凇度龂?guó)志戰(zhàn)棋版》中有一個(gè)落地案例。玩法是走格子下棋,幾百?gòu)埖貓D中,山川河流不一,還有幾百個(gè)武將,每一局目標(biāo)也不一樣,有攻城、守城、野戰(zhàn)、援護(hù)、撤退等等。

這里面就是啟元訓(xùn)練的800萬(wàn)參數(shù)transformer智能體,可以用通用方式應(yīng)對(duì)不同攻關(guān)需求,包括自己探究新的有意思的玩法。
這就是我們覺(jué)得并且基于涌現(xiàn)能力,AGI不僅能提升效率,還可能產(chǎn)生很多新的體驗(yàn)價(jià)值的原因。
去年開(kāi)始,啟元另一個(gè)重點(diǎn)是做陪聊NPC。
面向更廣泛的虛擬世界,比如一些歷史人物和二次元人物,用戶也想跟他們深度互動(dòng)。AGI技術(shù)讓此成為可能。
我們基于劉備做了一個(gè)陪聊NPC,你問(wèn)劉備為什么喜歡哭?怎么看待阿斗?他都能給出基于人設(shè)、基于事實(shí)的交互和對(duì)話。

在我們看來(lái),AGI技術(shù)既能用于游戲中,也可以展現(xiàn)出非常強(qiáng)的破圈能力,尤其是陪聊類、交互類NPC,能把歷史人物、虛擬人物、二次元人物等任何之前想交往但是無(wú)法接觸的人,拉到你身邊,進(jìn)行符合人設(shè)和事實(shí)的交互和對(duì)話。
啟元世界成立時(shí),slogan就是“Build intelligence, Understanding worlds, Inspire people”。我們的定位是做好AGI的應(yīng)用技術(shù)和產(chǎn)品研發(fā),并要服務(wù)任何場(chǎng)景。
我們初心和目標(biāo),還是希望AGI能更多啟發(fā)人、陪伴人,在數(shù)字世界中創(chuàng)造更多的樂(lè)趣和價(jià)值。