AlphaGo之父對話《連線》,曾被導師勸阻研究強化學習,如今獲得ACM計算獎
剛剛登上Nature的MuZero有何意義
曉查 編譯整理?量子位 報道 | 公眾號 QbitAI
本周,DeepMind的MuZero通過了同行評審,發(fā)表在了最新一期的Nature雜志上。

MuZero是一個通用的游戲AI,它在圍棋、象棋、將棋和57款Atari游戲上都超過了人類的表現(xiàn)。而且這個AI事先不需要事先知道規(guī)則。
近日,DeepMind的首席科學家、AlphaGo首席研究員David Silver接受了《連線》雜志的采訪,討論了MuZero、強化學習以及對未來通用人工智能的看法。

David Silver畢業(yè)于劍橋大學,在那里與DeepMind創(chuàng)始人Demis Hassabis成為朋友。
Silver曾領(lǐng)導DeepMind的強化學習研究小組,由于在計算機游戲領(lǐng)域的突破性進展,他獲得了2019年ACM計算獎。
為何MuZero很重要
連線:MuZero發(fā)表在Nature雜志上。對于不了解此事人,告訴我們?yōu)槭裁此苤匾?/span>
David Silver:MuZero向前邁出的重要一步是,我們沒有告訴它環(huán)境的動態(tài)。它必須自己想辦法,讓自己提前計劃,想出最有效的策略。
我們希望擁有在現(xiàn)實世界中可以運行的算法,而現(xiàn)實世界卻是復雜、混亂且未知的。所以你不能只向前看,就像下棋一樣。你必須學會這個世界是如何運轉(zhuǎn)的。

一些觀察人士指出,MuZero、AlphaGo和AlphaZero并非真正零開始。它們使用聰明人設計的算法來學習如何執(zhí)行特定任務。這是不是錯過了重點?
我認為確實如此。從來沒有真正的一片空白。機器學習中甚至有一個定理——沒有自由午餐定理,就是說你必須從某件事開始,否則將一事無成。
但是在這種情況下,它是空白的。我們?yōu)樗峁┝艘粋€神經(jīng)網(wǎng)絡,而神經(jīng)網(wǎng)絡必須從游戲的輸贏或或分數(shù)的反饋中學會如何理解世界。
人們注意到的一件事是,我們告訴MuZero在每種情況下的合法舉動。但是,如果你進行解決未知問題的強化學習,通常會告知智能體可以做什么。您必須告訴智能體它有哪些選擇,然后讓它再選擇其中之一。
您可能會批評到目前為止我們已經(jīng)做了什么?,F(xiàn)實世界非常復雜,我們還沒有建立像人類大腦那樣可以適應所有這些事物的東西。所以這是一個公平的批評。
但是我認為MuZero確實自己找到了如何建立模型,并且從第一性原理去理解它。
MuZero有何實際用途
DeepMind最近宣布,已利用AlphaZero背后的技術(shù)解決了一個重要的實際問題:預測蛋白質(zhì)折疊的形狀。你認為MuZero將在哪方面產(chǎn)生首個重大影響?

當然,我們正在尋找將MuZero應用到現(xiàn)實世界中的方法,并且有一些令人鼓舞的初步結(jié)果。
舉一個具體的例子,互聯(lián)網(wǎng)上的流量主要是視頻,而一個開放的大問題是如何盡可能有效地壓縮這些視頻。您可以將其視為強化學習問題,因為有許多非常復雜的程序可以壓縮視頻,但是你接下來看到的是未知的。
但是當你把像MuZero之類的東西應用于其中時,我們的初步結(jié)果顯示,在節(jié)省大量數(shù)據(jù)方面它看起來很有希望,可能是壓縮視頻所用比特的5%左右。
從長遠來看,您認為強化學習對哪些方面影響最大?
我認為有一個系統(tǒng),可以幫助用戶盡可能有效地實現(xiàn)目標。一個真正強大的系統(tǒng),可以看到你看到的所有事物,具有與你相同的感官,能夠幫助你實現(xiàn)人生目標。我認為那是非常重要的。
從長遠來看,另一個變革性的東西可以提供個性化的醫(yī)療保健解決方案。有一些隱私和道德問題需要解決,但是它將具有巨大的變革價值;它將改變醫(yī)學的面貌和人們的生活質(zhì)量。
你認為機器在你的有生之年能學會做什么嗎?
我不想給它設定一個時間表,但我想說,人類能做到的一切,我最終認為機器都能做到。大腦是一個計算過程,我認為那里沒有任何魔法。
我們能達到像人腦一樣理解和實現(xiàn)算法有效和強大的地步嗎?嗯,我不知道時間表會是怎樣。但是我認為這個旅程是令人興奮的。
我們應該致力于實現(xiàn)這一目標。踏上這段旅程的第一步是試圖理解獲得智慧意味著什么?解決智力問題,我們在努力解決什么問題?
強化學習能否通向人工智能
你是否有信心可以從象棋和Atari等游戲到真正的智能?是什么讓你認為強化學習會產(chǎn)生有常識理解的機器?
有一個假設,我們稱其為“獎勵足夠”假設。這個假設說,智能的基本過程可以像一個尋求最大化其獎勵的系統(tǒng)一樣簡單,而試圖實現(xiàn)目標并試圖最大化獎勵的過程,足以產(chǎn)生我們在自然智能中看到的所有智能屬性。
這是一個假設,我們不知道它是否正確,但這為研究提供了方向。
如果我們具體地理解常識,那么“獎勵足夠”的假設就很好地說明了這一點,如果常識對系統(tǒng)有用,則意味著它實際上應該幫助它更好地實現(xiàn)其目標。

聽起來您認為您的專長領(lǐng)域強化學習,在某種意義上是理解或“解決”智力的基礎(chǔ)。是這樣嗎?
我真的認為這非常必要。我認為最大的問題是,這是真的嗎?
因為這顯然違背了許多人對人工智能的看法,即智能中涉及到非常復雜的機制集合,每個機制都有自己要解決的問題或自己特殊的工作方式,或者甚至沒有任何明確的問題定義,比如常識。
這個理論說,不,實際上可能有一個非常清晰和簡單的方法來思考所有的智能,那就是它是一個目標優(yōu)化系統(tǒng)。如果我們找到了真正優(yōu)化目標的方法,那么所有這些其他的東西將會從這個過程中出現(xiàn)。
強化學習已經(jīng)存在了數(shù)十年,但有一段時間似乎是死胡同。實際上,你的一位導師告訴我,她試圖勸阻你不要從事這項工作。你為什么不理她繼續(xù)往前走?
許多人認為,強化學習是可以用來解決在AI中許多問題的工具之一。我不這樣認為,我把強化學習視為整體。如果我們想嘗試并盡可能地描述智能,我認為強化學習本質(zhì)上是我們真正意義上的智能的特征。
當您開始以這種方式看它時,我為何不能這樣處理呢?如果這確實是最接近我們所說的智能的東西,那么如果我們解決它,我們就將破解它。
你看看我所做的工作,我將一直致力于解決這個問題。解決諸如圍棋之類的問題時,在解決它的過程中,我們了解了智能在此過程中意味著什么。
你可以認為強化學習是一種能力,它使一個智能體能夠獲得所有需要的其他能力。
你可以在類似AlphaGo的東西中看到一點點,在那里我們要求它做的只是贏得游戲,然而它學到了人類過去曾專有的知識——比賽的結(jié)束和開局。
算力是否會限制AI發(fā)展
DeepMind是否有壓力再做一次大型展示,例如AlphaGo?
這是個好問題。這個問題問得好。我覺得我們處于一個非常有利的位置,因為我們的位置和資金都很安全,所有這些都非常非常安全。
嘗試進行一個新的大規(guī)模的展示,唯一的壓力是推動通用智能的進步。這是一種真正的特權(quán),當你在創(chuàng)業(yè)公司試圖獲得資金時,或者在學術(shù)界試圖獲得資助時,你就沒有這種特權(quán)。

強大的AI系統(tǒng)現(xiàn)在需要大量的計算機能力才能工作。你是否擔心這會阻礙進展?
讓我們回到MuZero,這是一個算法的例子,它可以很好地隨著計算而伸縮。我們在Atari進行了一項實驗,結(jié)果表明即使使用非常少量的計算(大約相當于一個GPU運行幾周),它的效果也非常好,并且獲得了遠遠超過人類的性能。
有一些數(shù)字表明,如果把現(xiàn)在能利用的所有計算能力加起來,就能達到與人腦相當?shù)乃?。所以可能更多的是我們需要想出更聰明的算法?/span>
而MuZero的美妙之處在于,它正在建立自己的模型,開始了解世界是如何運轉(zhuǎn)的。這種想象力是利用計算開始展望未來,想象接下來會發(fā)生什么的一種方式。
人工智能倫理
一些軍火商正在利用強化學習來建造更強的武器系統(tǒng)。你對此有何感想?你有沒有想過你的一些作品不應該公開發(fā)表?
我反對在任何致命武器中使用AI,并希望我們在禁止致命自動武器方面取得更多進展。DeepMind及其聯(lián)合創(chuàng)始人是《致命自動武器承諾》的簽署方,攻擊性技術(shù)應始終處于適當?shù)娜祟惪刂浦隆?/span>
然而,我們?nèi)匀幌嘈?,適當發(fā)布我們的方法是科學的基石,通用AI算法的發(fā)展將在眾多積極應用中帶來更大的整體社會效益。
原文鏈接:
https://www.wired.com/story/what-alphago-teach-how-people-learn/
版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數(shù)學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅(qū)動,否則公布1TB機密數(shù)據(jù)2022-03-05