DeepMind給AI出了200萬(wàn)道數(shù)學(xué)題,結(jié)果不如計(jì)算器哈哈哈哈哈
原來(lái)我的數(shù)學(xué)比AI還好
計(jì)算栗 郭一璞 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
人生何處不數(shù)學(xué)?
這是越野車(chē)上的口算題。
這是被小朋友玩壞的應(yīng)用題。
額,這是別人家的奧數(shù)題。
△?羅馬尼亞數(shù)學(xué)大師賽,中國(guó)隊(duì)全軍覆沒(méi)的一題
不過(guò),現(xiàn)在是9102年了,幾乎每天都有“AI超越人類(lèi)”的新聞。所以,把我們中學(xué)時(shí)候?qū)戇^(guò)的那些數(shù)學(xué)作業(yè),扔給神經(jīng)網(wǎng)絡(luò),它們做得出來(lái)么?
地球的另一個(gè)角落,DeepMind讀懂了你的心,給神經(jīng)網(wǎng)絡(luò)們出了一套數(shù)學(xué)題,200萬(wàn)道。數(shù)據(jù)集已經(jīng)放出來(lái)了。
算術(shù),代數(shù),概率論,微積分……不管是算式,還是人類(lèi)語(yǔ)言描述的題目,只要能用文本寫(xiě)出來(lái)。
比如,這道排列組合 (中譯版) :
問(wèn):從這串字母qqqkkklkqkkk里面,不放回地取三個(gè)出來(lái),求取出qql的概率。
答:1/110。
再比如,這道復(fù)合函數(shù):
問(wèn):求g(h(f(x))), f(x) = 2x + 3, g(x) = 7x ? 4, h(x) = ?5x ? 8。
答:?70x ? 165
都是AI的數(shù)學(xué)考題了。
消息一出,人類(lèi)紛紛歡呼了起來(lái):天道好輪回,蒼天饒過(guò)誰(shuí)。
200萬(wàn)道,都有什么題型
為什么突然想知道AI的數(shù)學(xué)好不好?
DeepMind說(shuō),AI和人類(lèi)學(xué)數(shù)學(xué)的方法不一樣。
我們主要是靠推理、學(xué)習(xí)、利用法則和運(yùn)算符號(hào),而AI依賴(lài)的是經(jīng)驗(yàn)和證據(jù)。
舉個(gè)耳熟能詳?shù)睦踝?,機(jī)器學(xué)習(xí)面試梗。
考官:你的強(qiáng)項(xiàng)是什么?
我:我是機(jī)器學(xué)習(xí)專(zhuān)家。
考官:9+10得多少?
我:3。
考官:差太遠(yuǎn)了,得19。
我:16。
考官:錯(cuò)了,是19。
我:18。
考官:不對(duì),19。
我:19。
考官:錄取你了。
AI的答案,是歸納出來(lái)的答案。
DeepMind覺(jué)得,沒(méi)有人類(lèi)的推理能力,AI學(xué)數(shù)學(xué)會(huì)很困難??蓴?shù)學(xué)領(lǐng)域,對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)的研究來(lái)說(shuō),又很重要。
所以團(tuán)隊(duì)想要看看,用歸納來(lái)學(xué)數(shù)學(xué),究竟怎么樣。
那考試范圍是什么?
最初的樣本,是16歲以下 (大概是英國(guó)) 公立學(xué)校的數(shù)學(xué)課程。
團(tuán)隊(duì)把考綱擴(kuò)展了一下,一共包括這幾個(gè)方面:
一是代數(shù),比如求解二元一次方程組,多項(xiàng)式求根,以及求數(shù)列的通項(xiàng)。
二是算術(shù),比如四則運(yùn)算,計(jì)算有特定順序的 (比如帶括號(hào)的) 的算式,把帶根號(hào)的表達(dá)式簡(jiǎn)化一下之類(lèi)的。
三是微積分和多項(xiàng)式求導(dǎo)。
四是比較,判斷數(shù)的大小,從一列數(shù)里面找出和某個(gè)數(shù)最接近的數(shù)等等。
五是測(cè)量,比如在不同的長(zhǎng)度單位之間轉(zhuǎn)換,計(jì)算時(shí)間間隔之類(lèi)的。
六是數(shù)字,找約數(shù),四舍五入,整數(shù)的數(shù)位,因式分解,質(zhì)數(shù)合數(shù)等等。
七是多項(xiàng)式運(yùn)算,合并同類(lèi)項(xiàng)等等。
八是概率,比如在一堆紅白藍(lán)色的球里面,選出紅紅白的概率。
200萬(wàn)題庫(kù)是用剛才說(shuō)的16歲以下教材樣本,拿算法生成的。
所以,以上各類(lèi)問(wèn)題,是可以有機(jī)組合到一起的。這樣就有趣了,因?yàn)樵S多數(shù)學(xué)法則,也是用各種概念合成的。
還是剛才的栗子,復(fù)合函數(shù)和求導(dǎo),合在一起,就是復(fù)合函數(shù)求導(dǎo)。高中學(xué)過(guò)的,你還記得么:
[f(g(x))]’=f’(g(x))g’(x)
先求外面這一層,再求里面這一層,乘到一起就可以了。
坐等AI的答題結(jié)果。
都有什么選手
DeepMind舉辦的考試中,有兩位考生,一位是循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) ,另一位是Transformer。
RNN一方派出的是LSTM?(長(zhǎng)短期記憶) ,有兩個(gè)模型參加了考試。
第一個(gè)比較簡(jiǎn)單,直接把問(wèn)題喂給LSTM,一次喂一個(gè)字符,模型就輸出一個(gè)字符。
第二個(gè)復(fù)雜一些 (如下圖) ,是帶有注意力機(jī)制的編碼器+解碼器。這個(gè)模型在如今的機(jī)器翻譯里面很常用:它不一定要按照字符輸入的順序來(lái)理解來(lái)計(jì)算,比如8/(1+3) ,就要先算1+3。
第二位考生,則是Transformer模型。作為一種seq2seq模型,它在機(jī)器翻譯里的表現(xiàn)很好。
先來(lái)看一下它的結(jié)構(gòu):
有一個(gè)編碼器,可以把數(shù)學(xué)題矢量序列轉(zhuǎn)換成一個(gè)長(zhǎng)度相同的序列;還有一個(gè)解碼器,生成預(yù)測(cè)的答案。
考試結(jié)果怎么樣
相比LSTM,Transformer模型要更勝一籌,兩者有差不多數(shù)量的參數(shù)。
兩個(gè)網(wǎng)絡(luò)都沒(méi)有進(jìn)行太多“算法推理”,但Transformer模型比LSTM架構(gòu)更適合學(xué)數(shù)學(xué):
1、用同樣多的參數(shù),可以做更多的計(jì)算;
2、具有更淺的架構(gòu),更好的梯度傳播;
3、有順序內(nèi)部存儲(chǔ)器,可以更方便的設(shè)置數(shù)字序列等數(shù)學(xué)對(duì)象。
對(duì)AI來(lái)說(shuō),最簡(jiǎn)單的數(shù)學(xué)題是處理小數(shù)、整數(shù),以及比較大小,還有不同模塊組成的問(wèn)題,比如:
已知k(c) = -611*c + 2188857,k(-103)! = 2251790是否正確?(否)
或者這種:
將-139/4, 40.8, -555, 607從小到大排列。
最難的數(shù)學(xué)題則是偏理論一些的題目,比如判斷一個(gè)數(shù)字是否為素?cái)?shù),以及因式分解。
不過(guò),Transformer模型依然能給出看起來(lái)有點(diǎn)靠譜的答案。
比如,把235232673分解為幾個(gè)素?cái)?shù)的成績(jī),它的答案是3,11,13,19,23,1487,正確的答案應(yīng)該是3,13,19,317453。
雖然沒(méi)答對(duì),但是看起來(lái)長(zhǎng)得很像呀。
另外,讓Transformer模型直接算數(shù),會(huì)發(fā)現(xiàn),如果只讓它算加減法,或者只算乘除法,它的準(zhǔn)確率大概在90%,但是如果把加減乘除混合起來(lái)放到一道題里,它的準(zhǔn)確率就只有50%了。
還真的不如計(jì)算器呀!
這證明,AI在算數(shù)學(xué)題的時(shí)候,完全靠歸納總結(jié),并沒(méi)有使用代數(shù)技能。
手里有的計(jì)算器,都不知道用,真是個(gè)老實(shí)人。
現(xiàn)在,你可以出去吹牛:
我數(shù)學(xué)比AI都好。
One More Thing
很遺憾,以目前的結(jié)果,AI是不能替我們?nèi)タ几邤?shù)了。
不過(guò),這項(xiàng)研究本身就不是在幫你考高數(shù)呀,DeepMind作為一個(gè)能造出AlphaGo的公司,應(yīng)該理解不了學(xué)渣的痛苦。
搞懂了「AI答數(shù)學(xué)題,全靠歸納總結(jié)」,DeepMind就可以把相關(guān)原理拓展到其他更豐富的領(lǐng)域,那些需要?dú)w納總結(jié)的問(wèn)題,或許可以靠AI來(lái)解決了。
要不,下次試試讓AI去答文科的主觀題?
傳送門(mén)
?論文
Analysing Mathematical Reasoning Abilities of Neural Models
David Saxton, Edward Grefenstette, Felix Hill, Pushmeet Kohli
https://arxiv.org/abs/1904.01557
?數(shù)據(jù)集
https://github.com/deepmind/mathematics_dataset
- 馬云正式卸任后,阿里巴巴開(kāi)盤(pán)跌0.87%2019-09-10
- 亞馬遜在華拓展云計(jì)算團(tuán)隊(duì),挑戰(zhàn)阿里巴巴和騰訊2019-10-16
- AI獨(dú)角獸云知聲,已完成一期科創(chuàng)板IPO輔導(dǎo)2019-10-17
- IDC:今年上半年中國(guó)公有云服務(wù)市場(chǎng)規(guī)模達(dá)54.2億美元2019-11-07