新王Claude 3.5實(shí)測:阿里數(shù)學(xué)競賽題不給選項(xiàng)直接做對(duì)
別忘了還有大杯版Opus沒發(fā)布
衡宇 一水 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
新鮮出爐的Claude 3.5 Sonnet,更快、更便宜,還是全球最強(qiáng)。
在多個(gè)關(guān)鍵指標(biāo)中,GPT-4o幾乎被吊打!

網(wǎng)友對(duì)Claude 3.5 Sonnet和GPT-4o的橫向?qū)崪y似乎也印證了官方出爐的數(shù)據(jù)。
任務(wù)是同一個(gè):一句話,讓它們幫忙復(fù)制網(wǎng)站的UI。
測試者本人表示,GPT-4o這邊,給了代碼,但沒有附加任何細(xì)節(jié)。
但Claude 3.5 Sonnet刷刷刷就出色完成了任務(wù),甚至給了與這個(gè)網(wǎng)站設(shè)計(jì)相匹配的細(xì)節(jié)。

訓(xùn)練數(shù)據(jù)知識(shí)截止日期也更新到了2024年4月,網(wǎng)友實(shí)測知道今年2月的橄欖球超級(jí)碗比賽結(jié)果。

不過,這樣的大模型新王,誰能忍住不第一時(shí)間試玩一波?反正好多網(wǎng)友坐不住了。不到12小時(shí)過去,全網(wǎng)對(duì)Claude 3.5 Sonnet的測評(píng)鋪天蓋地。
玩法也越來越刁鉆,甚至有人用它重現(xiàn)1995年《黑客》中3D數(shù)據(jù)流的模型。

玩兒得太上頭,又怕很快達(dá)到Claude的消息容量,只能緊張地繼續(xù)玩。

Okk,好吧,所以網(wǎng)友的“百般刁難”下,Claude 3.5 Sonnet真的如Anthropic官方說得那么強(qiáng)嗎?
目前最受認(rèn)可的大模型競技場評(píng)分還來不及出,但所有能即時(shí)出結(jié)果的評(píng)測上它都牢牢占據(jù)榜一。

各種神奇測評(píng)和量子位一手測試,這就奉上——
針對(duì)中文場景,量子位一手測試
我們主要還是設(shè)立了幾個(gè)針對(duì)中文場景的測試題。
一道此前只有GPT最新模型能完成的題丟給他,
寫一個(gè)長度為10行的故事,把每一行編號(hào);同時(shí)滿足每行以“蘋果”這個(gè)詞結(jié)尾。
很好,這次Claude 3.5 Sonnet完美地完成了任務(wù)。
小明小紅看后都欣慰地笑了。

最近熱度很高的阿里巴巴數(shù)學(xué)競賽初賽,一道選擇題不給選項(xiàng),居然也能答對(duì)。

具體可對(duì)比官方參考答案:

同樣一道題的第二小問,同樣不給選項(xiàng)。Claude 3.5自己就能看出來比前一問更復(fù)雜。?
雖然具體計(jì)算數(shù)值還是有點(diǎn)誤差,但作為選擇題已經(jīng)可以答對(duì)了。

原題和參考答案:


下面再來看一些網(wǎng)友試玩~
喂一張截圖,半分鐘制作游戲
視覺能力up up
敲黑板劃重點(diǎn),官方稱Claude 3.5 Sonnet在視覺推理上大為改進(jìn)。
有網(wǎng)友直接用它可視化深度學(xué)習(xí)。

雖然和油管知名博主3blue1brown的爆火教程還有差距,但看起來也是相當(dāng)不錯(cuò)了。
畢竟3blue1brown教程可是博主一幀一幀摳出來的~

當(dāng)然,除了日常生活工作,Claude 3.5 Sonnet開始勇闖”芯片設(shè)計(jì)“了。
網(wǎng)友僅用了一句簡單提示詞:

Claude 3.5 Sonnet生成了芯片制造流程圖。

不過,有網(wǎng)友嘗試了完全相同的提示詞,但結(jié)果只生成了一段文字。
發(fā)揮不太穩(wěn)定啊,朋友。

編碼能力
除了視覺推理,Claude 3.5 Sonnet在編碼能力上也非常強(qiáng)悍。
先有Anthropic員工“現(xiàn)身說法”:
Claude 3.5開始真正擅長編碼和自動(dòng)修復(fù)Pull Request。

他演示了Claude 3.5 Sonnet實(shí)際解決簡單的Pull Request。

在內(nèi)部Pull Request評(píng)估中,Claude 3.5 Sonnet通過了64%的測試用例,而Claude 3 Opus只通過了38%。

另一Anthropic員工更是直言:
我一半的工作現(xiàn)在可以通過3.5 Sonnet完成。

當(dāng)然,忽略員工自身所帶的捧場屬性,Claude 3.5 Sonnet還有其他亮眼表現(xiàn)。
有網(wǎng)友用它發(fā)現(xiàn)了一種新的 O(n) 排序算法。

還有網(wǎng)友根據(jù)它的新Artifacts功能(在另一側(cè)顯示交互式輸出的視圖),一邊聊天一邊在旁邊生成并運(yùn)行代碼。
網(wǎng)友測后感嘆道:
其編碼效率比GPT-4o或任何其他LLMs高10倍

連賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick也忍不住上手“把玩”了一番。
一邊編碼,另一邊同步生成游戲。(視頻為原速)

他將Artifacts功能與ChatGPT神器Code Interpreter進(jìn)行比較:
它(Claude 3.5 Sonnet)非常令人印象深刻,它的“Artifacts”就像是Code Interpreter的簡單版本。

創(chuàng)建原創(chuàng)游戲
在網(wǎng)友測評(píng)中,讓Claude 3.5 Sonnet制作游戲不知為何成為了最流行玩法之一。
僅提供一張截圖,在短短25秒內(nèi),Claude 3.5 Sonnet就編寫了一個(gè)功能齊全的Mancala Web應(yīng)用程序。
同時(shí)它完成了其他任務(wù):
- 對(duì)整個(gè)游戲進(jìn)行編碼
- 預(yù)覽它以便可以測試
- 提供游戲規(guī)則
當(dāng)遇到代碼錯(cuò)誤,簡單提示后它幾秒鐘就完成了修復(fù)。

還有網(wǎng)友用它在3分鐘內(nèi)copy出了經(jīng)典游戲《馬里奧》。

令網(wǎng)友驚喜的是:
本來僅要求用幾何形狀制作,但它竟然提供了角色動(dòng)畫,且形狀看起來非常新穎

除了復(fù)原,編寫原創(chuàng)游戲也不在話下。
翻車總是難免的
雖然Claude 3.5 Sonnet表現(xiàn)強(qiáng)勁,但網(wǎng)友們也淺淺發(fā)現(xiàn)了一些翻車例子。
比如讓它玩“井字棋”,它無法完成這樣看似簡單的任務(wù)。




網(wǎng)友幫助Claude痛定思痛:
我認(rèn)為擴(kuò)展現(xiàn)有技術(shù)將使我們實(shí)現(xiàn)這一目標(biāo)。
但如果這些模型甚至不能玩井字棋,我們需要將它們擴(kuò)展多少才能完成更復(fù)雜的任務(wù)?

另外,Claude 3.5 Sonnet在簡單的數(shù)學(xué)應(yīng)用題上也出錯(cuò)了。

不過有網(wǎng)友拿這道題問了Gemini 1.5 pro,結(jié)果同樣翻車了。

Anthropic,新王制造機(jī)?
自Claude背后的公司Anthropic成立的那天起,它就被視為OpenAI在創(chuàng)業(yè)領(lǐng)域最強(qiáng)勁的對(duì)手。
最初的起因是其創(chuàng)始團(tuán)隊(duì)是OpenAI的元老級(jí)人物,在2021年不滿OpenAI在獲得微軟投資后走向封閉,憤而出走,重新成立了一個(gè)“追逐初心”的公司。
這就是Anthropic。
2023年1月,Claude開啟內(nèi)測,第一時(shí)間體驗(yàn)過的網(wǎng)友就表示,比ChatGPT(當(dāng)時(shí)最新模型是GPT-3.5)強(qiáng)多了。

不久后,連云計(jì)算巨頭亞馬遜都出手重金投資了Anthropic,這次的Claude 3.5除了官方應(yīng)用外,也在第一時(shí)間同步更新到Amazon Bedrock平臺(tái)。
從此后,Anthropic不斷推出新的強(qiáng)大模型,一路狂追GPT系列,最后達(dá)到趕超,開啟了自己的造王之路。
今年3月,Claude 3正式打破OpenAI不可戰(zhàn)勝的神話。
其榜單性能跑分全面超越GPT-4,是首個(gè)全面超越GPT-4的產(chǎn)品,一舉坐上了全球最強(qiáng)大模型王座。

當(dāng)時(shí),Anthropic就宣布Claude 3系列模型包括三種大小:
- 中杯Haiku,輕量級(jí)選擇
- 大杯Sonnet,平衡性能與速度
- 超大杯Opus,系列最強(qiáng)音
也是3月,Claude 3超大杯Opus在大模型競技場上Elo分?jǐn)?shù)來到榜首。
5月,OpenAI發(fā)布GPT-4o,隔天靈魂人物Ilya宣布離職,大模型圈陷入一頓吃瓜狂熱。
Anthropic趁亂出手,迅速招攬了和Ilya一同出走的Jan Leike——他是RLHF發(fā)明者之一,此前在OpenAI和Ilya一同領(lǐng)導(dǎo)超級(jí)對(duì)齊團(tuán)隊(duì)。
無縫入職新公司的Jan Leike,在Anthropic干的事兒,仍然是負(fù)責(zé)超級(jí)對(duì)齊業(yè)務(wù),新團(tuán)隊(duì)將致力于可擴(kuò)展監(jiān)督、從弱到強(qiáng)的泛化和自動(dòng)對(duì)齊研究。

現(xiàn)在,Claude 3.5系列第一款模型沒有預(yù)兆地出場,又大張旗鼓地拿下了全球第一。
有網(wǎng)友滿是星星眼地表達(dá):
Claude 3.5 Sonnet讓“3.5系列”再次偉大!

而且,如果延續(xù)Claude 3系列的慣例,Claude 3.5 Sonnet應(yīng)該只是該系列的大杯而已。
理論上還有個(gè)超大杯Opus被Anthropic寶貝著沒放出來呢。
看看它和GPT-5哪個(gè)會(huì)先閃耀大模型排行榜吧!
在線等,挺急的(嗑瓜子看戲ing)。

- “智元機(jī)器人收購A股上市公司是創(chuàng)新需要…現(xiàn)金流能撐三年”2025-08-22
- 稚暉君新大招:機(jī)器人二次開發(fā)0門檻了!2025-08-22
- 賣酒的茅臺(tái)要學(xué)AI了!和奔馳麥當(dāng)勞一起拜師百度2025-08-17
- VLA進(jìn)化后降維打擊!雙手揀貨,漂移操作,還能批量化秀舞,太空艙直接開上街,被銀河通用卷到了2025-08-11