陶哲軒提前實(shí)測(cè)滿血版o1:能當(dāng)研究生使喚
在研究數(shù)學(xué)層面的實(shí)用性在增加
白小交 衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
好羨慕!原來(lái)早在8月份,陶哲軒就已經(jīng)用上了OpenAI o1。
還是現(xiàn)在大家都用不上的滿血版本(眼淚不爭(zhēng)氣地從嘴角流出來(lái))。
提前批大佬是怎么玩最新天花板的呢?
他向o1模型提出一個(gè)措辭模糊的數(shù)學(xué)問(wèn)題,發(fā)現(xiàn)它竟然能成功識(shí)別出克萊姆定理。
而且答案是“完全令人滿意的”那種。

當(dāng)然,陶哲軒還做了一些其它測(cè)試,肉測(cè)下來(lái)總體體驗(yàn)就是:
比以前的模型更牛,多堆點(diǎn)提示詞表現(xiàn)還不錯(cuò),但仍然會(huì)犯不小的錯(cuò)誤,也沒(méi)有產(chǎn)生啥自己的思想。
陶哲軒是這樣形容的:
這種感覺(jué),就像給一個(gè)平庸無(wú)奇但又有點(diǎn)小能力的研究生提供建議。
不過(guò),這已經(jīng)比以前的模型有所改進(jìn),因?yàn)橐郧暗哪P偷哪芰Ω咏趯?shí)際上不稱職的研究生。
但如果給以前的模型加點(diǎn)助力,比如計(jì)算機(jī)代數(shù)包和證明輔助工具啥的,改進(jìn)一兩次,就能實(shí)現(xiàn)進(jìn)一步迭代,搖身一變,成為“有能力的研究生”。

陶哲軒對(duì)使用體驗(yàn)的這個(gè)神奇比喻在HackerNews等多個(gè)平臺(tái)引起了激烈討論。
有網(wǎng)友憤憤:GPT是什么**!我承認(rèn)LLMs對(duì)寫代碼有很大幫助,但事實(shí)上有一些非常好的工具可以幫助解決這一問(wèn)題,例如代碼片段、模板和代碼生成器。
有人就用陶哲軒的話回應(yīng)了他:
“任何聰明到足以以編程為生的人,智商都足以成為一個(gè)平平無(wú)奇但又小有能力的數(shù)學(xué)研究生?!?/p>

陶哲軒實(shí)測(cè)ChatGPT vs o1
陶哲軒展示了他自己的三輪測(cè)試。
第一輪,用去年3月份測(cè)試ChatGPT的題目,要求大模型回答一個(gè)措辭含糊的數(shù)學(xué)問(wèn)題,只要從文獻(xiàn)中找出一個(gè)合適的定理(克萊姆法則)就能解決。
Say I have a positive measure whose closure(support) = some compact convex subset S. I convolve n times to get a measure on nS. Scale down by n, take log, divide by n, take the limit to get some rounded thing on S. Does it depend on the original measure?

當(dāng)時(shí),ChatGPT倒是有模有樣地回答了,期間還提到了一個(gè)高度相關(guān)的術(shù)語(yǔ):對(duì)數(shù)矩生成函數(shù),甚至在給出的答案中還討論了一個(gè)具體的例子。不過(guò)不能注意細(xì)節(jié),全是幻覺(jué),而且答案也是錯(cuò)的。
這一次,同樣有模有樣,但相較之下更有條理(更長(zhǎng)還有大小標(biāo)題區(qū)分度)。
最重要的是,o1成功找到了克萊姆定理,并給出了完全令人滿意的答案。

ps,看記錄,早在8月份陶哲軒就用上了o1。

第二輪,上一點(diǎn)難度,挑戰(zhàn)復(fù)雜分析研究生課程的一個(gè)問(wèn)題。
(之前他用來(lái)測(cè)試GPT-4的,要求他來(lái)協(xié)助編寫一個(gè)證明)

結(jié)果這次陶哲軒的結(jié)論是,是要比之前GPT-4好些,但仍有點(diǎn)失望。
如果提供大量的提示和鼓勵(lì),新模型可以通過(guò)自己的努力得到一個(gè)正確的(而且寫得很好的)解決方案,但它自己并沒(méi)有產(chǎn)生關(guān)鍵的概念想法,而且確實(shí)犯了一些非同小可的錯(cuò)誤。
光看到這幾輪提示交互,確實(shí)是有點(diǎn)不滿意的。
也難怪陶哲軒代入自己,把調(diào)教o1像是在教一個(gè)平庸、但又不是完全不稱職的研究生。



緊接著來(lái)第三輪測(cè)試,這一次是要求將質(zhì)數(shù)定理的一種形式轉(zhuǎn)化為L(zhǎng)ean中的定理形式,方法是將其分解為若干個(gè)子問(wèn)題分別描述,但不給出證明。

結(jié)果模型很好地理解了這個(gè)任務(wù),并進(jìn)行了合理的初步分解,不過(guò)代碼中出現(xiàn)了幾個(gè)小錯(cuò)誤。

陶哲軒解釋道,這是由于訓(xùn)練時(shí)缺乏有關(guān)Lean及其數(shù)學(xué)庫(kù)的最新信息。
并表示,如果能專門針對(duì)Lean和Mathlib進(jìn)行微調(diào),并集成到一個(gè)IDE中,那應(yīng)該會(huì)對(duì)公式化項(xiàng)目很有用。
在研究數(shù)學(xué)層面的實(shí)用性在增加
用大模型來(lái)搞研究,其實(shí)已經(jīng)飛入尋常百姓家了。
一位賬號(hào)名為wenc的網(wǎng)友分享了ta使用大模型來(lái)做研究的經(jīng)歷。
wenc從事著運(yùn)籌學(xué)相關(guān)的工作,而OpenAI的模型們,從GPT 4o開(kāi)始,就吸收了足夠多的運(yùn)籌學(xué)數(shù)據(jù),能夠輸出很多非常有用的混合整數(shù)規(guī)劃(MIP)?公式。
舉個(gè)栗子:
給4o一個(gè)邏輯問(wèn)題,如“我需要根據(jù)分?jǐn)?shù)將i個(gè)項(xiàng)目放入n個(gè)桶中,但我想按順序填充每個(gè)桶”,4o會(huì)輸出一個(gè)非常有用的數(shù)學(xué)公式。
通常情況下,只需要把公式微調(diào)一下就能完全搞定問(wèn)題了。
此外,一些prompt太弱了的時(shí)候,4o還會(huì)預(yù)警:這可能導(dǎo)致輸出不盡如人意——可以說(shuō)對(duì)避免無(wú)效回答非常有用了。

回過(guò)頭看咱還用不上大模型的時(shí)候,傳統(tǒng)方法是需要大家在周末絞盡腦汁,試圖找出有關(guān)MIP優(yōu)化問(wèn)題的無(wú)懈可擊的公式。
對(duì)于非直觀問(wèn)題來(lái)說(shuō),這一點(diǎn)通常都令人頭禿。
wenc很堅(jiān)定地表示,每月從ChatGPT上獲得的價(jià)值,遠(yuǎn)遠(yuǎn)超出了20美元(每月訂閱費(fèi)用)。
一旦GPT在Lean上得到更多調(diào)整——就像在 Python 上一樣——我預(yù)計(jì)它在研究數(shù)學(xué)層面的實(shí)用性會(huì)有提升。
wenc還對(duì)那些抱怨Claude和GPT最新模型不好用的網(wǎng)友進(jìn)行了分析:
- 不知道如何最大化自己的優(yōu)勢(shì)來(lái)使用大模型們;
- 把大模型想得無(wú)所不能,抱著“這玩意兒是解決一切的靈丹妙藥”的期待;
- 大模型確實(shí)在他們的領(lǐng)域不適用。
wenc在最后弱弱補(bǔ)了一句,很多抱怨的人,其實(shí)都是屬于前兩種啦~~~

陶哲軒回應(yīng)爭(zhēng)議
盡管大多數(shù)網(wǎng)友都覺(jué)得大模型能幫助自己省下許多功夫,還是有人對(duì)陶哲軒“調(diào)教大模型如同調(diào)教不咋靠譜的研究生”的言論,充滿了疑惑和不解。
有網(wǎng)友在陶哲軒的mathstodon底下留言:
親,也許你可以展開(kāi)說(shuō)說(shuō)“研究生”這塊不?
我理解一下子,你的意思是o1之前大模型放在Lean微調(diào),再結(jié)合計(jì)算機(jī)代數(shù)包,那輸出效果就可以媲美研究生水平?
簡(jiǎn)單點(diǎn)來(lái)說(shuō),這種情況下的大模型能夠解決一些新發(fā)現(xiàn)的重要課題?

陶哲軒倒是很及時(shí)地回復(fù)了這條評(píng)論。
他表示,他正在考慮一個(gè)具體的指標(biāo),即“助手能夠在專家數(shù)學(xué)家的指導(dǎo)下,協(xié)助完成復(fù)雜數(shù)學(xué)研究項(xiàng)目中的一個(gè)或多個(gè)具體任務(wù)”的程度。
一個(gè)有能力的研究生可以為這樣的項(xiàng)目作出貢獻(xiàn),且這種貢獻(xiàn)比“讓學(xué)生加快項(xiàng)目進(jìn)度并監(jiān)督他們出了幾成力”更有價(jià)值。
不過(guò),即使使用最新的工具,讓大模型輸出正確且有用的回答,其實(shí)比輸入精準(zhǔn)prompt和驗(yàn)證結(jié)果都要難多了——當(dāng)然,這之間的差距并不是特別巨大,前者大概要難個(gè)2-5倍的樣子。
陶哲軒表示自己有理由相信,未來(lái)幾年內(nèi),這個(gè)差距會(huì)降低到1倍以內(nèi)(其實(shí)有些特定子任務(wù),比如語(yǔ)義搜索、數(shù)據(jù)格式化或生成數(shù)字代碼以協(xié)助數(shù)學(xué)研究探索,這個(gè)比率已經(jīng)低于1了)。
他視“差距降到1倍以內(nèi)”為數(shù)學(xué)領(lǐng)域?qū)⒏鼜V泛采用這些的轉(zhuǎn)折點(diǎn)。

至于“研究生水平”嘛——
陶哲軒表示,自己這么說(shuō),只是為了方便大家感知啦!
雖然大模型可以協(xié)助研究人員完成當(dāng)前的項(xiàng)目,但培養(yǎng)研究生的目的,是為了以后有更多的下一代獨(dú)立研究者。
“我無(wú)意暗示研究生學(xué)習(xí)的各個(gè)方面,與數(shù)學(xué)中AI輔助的各個(gè)方面之間存在一一對(duì)應(yīng)的關(guān)系?!?/p>

One More Thing
最后,分享一則陶哲軒這個(gè)話題下,我們發(fā)現(xiàn)網(wǎng)友討論出的、呼聲挺高的一個(gè)結(jié)論——
雖然很難量化學(xué)會(huì)用大模型到底省了多少時(shí)間,但隨著一個(gè)人提示詞工程能力的提升,大伙兒能用更少的時(shí)間得到更好的效果。
但是!
顯而易見(jiàn),大模型的價(jià)值是因人而異的,它幾乎取決于每個(gè)人的提示詞水平。
呃,羞愧中……

不說(shuō)了,過(guò)什么中秋節(jié)假期,咱這就去精進(jìn)自己的prompt技巧去!
參考鏈接:
[1]https://mathstodon.xyz/@tao/113132502735585408
[2]https://news.ycombinator.com/item?id=41540902
[3]https://mathstodon.xyz/@tao/109948249160170335
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06