AI學高數(shù)達到MIT本科水平,學了微積分線性代數(shù)概率論等6門課,不光能做題還能出題
GPT-3小學數(shù)學不及格,Codex會做150道高數(shù)題
夢晨 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
讓語言模型做數(shù)學題,有多難?
強如GPT-3,在9-12歲的小學數(shù)學上,第一次才考20多分。
去年底GPT-3用上新方法努力了很久終于拿到55分,可惜還是沒及格。
萬萬想不到啊,2022年才剛開始,突然有人宣布他們的模型掌握了高數(shù),達到MIT本科水平。
AI學了6門MIT本科基礎數(shù)學課里隨機抽取的例題,都是網(wǎng)上就有的公開課,包括:
單變量微積分(課程編號18.01)
多變量微積分(18.02)
微分方程(18.03)
概率與統(tǒng)計入門(18.05)
線性代數(shù)(18.06)
計算機科學中的數(shù)學(6.042)
那么AI最后學到什么水平呢?
6門課程每門隨機出25道題,再加上一個ACT水平(美國高考)的數(shù)據(jù)集里的60道題。
總計210道題,AI全部答對。
題目包括需要求出具體數(shù)值的,比如菌落繁殖的經(jīng)典問題。
也有要求給出方程式的。
要求畫出函數(shù)圖像的也沒問題。
最后為了證明訓練出來的AI沒有過擬合,還額外加試了一場應用線性代數(shù)(COMS3251)。
這門課不是公開課,網(wǎng)絡上根本沒有,也就是說AI在預訓練階段不可能接觸到,結(jié)果AI也掌握了。
要知道在短短幾個月前,AI還在掙扎于“小明種了5顆檸檬樹,每年從每棵樹上得到6個檸檬,10年間他總共得到多少檸檬”這樣的問題。
短短幾個月,從小學數(shù)學跨越到了高等數(shù)學。
這項來自MIT+哈佛+哥倫比亞大學+滑鐵盧大學的聯(lián)合研究開了什么掛?
對于AI也是審題最重要
研究團隊發(fā)現(xiàn)以前用AI做數(shù)學題的嘗試有一個共同點:訓練數(shù)據(jù)里只有文本。
這簡直是AI中的文科生,學不好數(shù)學也算正常。
那么AI中的理科生要怎么培養(yǎng)?
研究團隊的解決思路是先在文本上做預訓練,再用代碼進行微調(diào)。
核心思想是把數(shù)學問題轉(zhuǎn)換成等價的編程問題。
他們找來的這位AI理科生與GPT-3師出同門——
OpenAI的Codex,也是GitHub代碼生成工具Copilot背后的技術(shù)基礎。
Codex解題的過程分兩步:先審題,再作答。
第一步,自動生成需要的上下文,把題干擴充、縮減或改寫成適合編程解決的樣子。
第二步,生成對應的代碼,運行后給出答案。
比如補充自然語言題干中隱藏著的問題語境“在微分方程中”。
列好解題需要用到的Python庫。
把問題擴充成更精確的數(shù)學語言。
原問題:
計算撲克牌中一副手牌中有兩對的概率。
改寫問題:
一副手牌有5張牌,從13組每組4張一共52張牌中隨機抽取。
“兩對牌型”要求手牌中共有3種牌,每種數(shù)量不能多于兩張,也就是說相同的牌不能超過三張。
請編寫一個模擬程序求出抽到“兩對牌型”的概率。
(這也太嚴謹了)
對于一個復雜問題,先自動生成中間步驟的提示,再寫代碼。
如果題目中有與數(shù)學無關的多余信息,也需要去掉。
就這樣,AI靠先審題再寫代碼的方式做出全部正確答案。
除了做題,學會高數(shù)的AI還能反過來給人類出題。
不到一秒鐘就能出一道題,試驗中總共出了120道題。
把人類出的題和AI出的題混在一起,找學生來做問卷調(diào)查,學生也很難分清一道題是不是AI出的。
他們覺得AI出的題要稍微難一些,但大多數(shù)題目放在課程里也算合適。
AI出的題你會做嗎?
論文中列出了這項研究還存在幾個局限性。
首先是做不了題干帶配圖的題,這次試驗中也沒有需要大量證明的題。
另外最終答案是實際運行代碼得出的,但最近有研究表明神經(jīng)網(wǎng)絡也可以直接預測出部分代碼的執(zhí)行結(jié)果。
以及還是有一些開放性高的題目AI做不出來。
比如“一個向量v能否表示為一個集合S中的向量之和?”或者“以下方程的整數(shù)值解是什么?”
最后還有一個彩蛋,論文作者中出現(xiàn)了Gilbert Strang。
他編寫的《線性代數(shù)導論》被譽為最好的線性代數(shù)教科書之一。
他在這篇論文中的貢獻是提供了研究思路。
研究團隊下一步打算把這項技術(shù)擴展到更多課程,并考慮實際應用到教學中。
也許以后MIT的同學期末考試里會有AI出的題了。
要不先來試一試,AI出的題你能做出來嗎?
論文地址:
https://arxiv.org/abs/2112.15594
參考鏈接:
[1]https://www.reddit.com/r/MachineLearning/comments/rutbpv/r_a_neural_network_solves_and_generates/
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18