国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

新王Claude 3.5實(shí)測：阿里數(shù)學(xué)競賽題不給選項(xiàng)直接做對(duì)

衡宇 2024-06-21 15:08:51 來源：量子位

別忘了還有大杯版Opus沒發(fā)布

衡宇一水發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

新鮮出爐的Claude 3.5 Sonnet，更快、更便宜，還是全球最強(qiáng)。

在多個(gè)關(guān)鍵指標(biāo)中，GPT-4o幾乎被吊打！

新王Claude 3.5實(shí)測：阿里數(shù)學(xué)競賽題不給選項(xiàng)直接做對(duì)

網(wǎng)友對(duì)Claude 3.5 Sonnet和GPT-4o的橫向?qū)崪y似乎也印證了官方出爐的數(shù)據(jù)。

任務(wù)是同一個(gè)：一句話，讓它們幫忙復(fù)制網(wǎng)站的UI。

測試者本人表示，GPT-4o這邊，給了代碼，但沒有附加任何細(xì)節(jié)。

但Claude 3.5 Sonnet刷刷刷就出色完成了任務(wù)，甚至給了與這個(gè)網(wǎng)站設(shè)計(jì)相匹配的細(xì)節(jié)。

訓(xùn)練數(shù)據(jù)知識(shí)截止日期也更新到了2024年4月，網(wǎng)友實(shí)測知道今年2月的橄欖球超級(jí)碗比賽結(jié)果。

不過，這樣的大模型新王，誰能忍住不第一時(shí)間試玩一波？反正好多網(wǎng)友坐不住了。不到12小時(shí)過去，全網(wǎng)對(duì)Claude 3.5 Sonnet的測評(píng)鋪天蓋地。

玩法也越來越刁鉆，甚至有人用它重現(xiàn)1995年《黑客》中3D數(shù)據(jù)流的模型。

玩兒得太上頭，又怕很快達(dá)到Claude的消息容量，只能緊張地繼續(xù)玩。

Okk，好吧，所以網(wǎng)友的“百般刁難”下，Claude 3.5 Sonnet真的如Anthropic官方說得那么強(qiáng)嗎？

目前最受認(rèn)可的大模型競技場評(píng)分還來不及出，但所有能即時(shí)出結(jié)果的評(píng)測上它都牢牢占據(jù)榜一。

各種神奇測評(píng)和量子位一手測試，這就奉上——

針對(duì)中文場景，量子位一手測試

我們主要還是設(shè)立了幾個(gè)針對(duì)中文場景的測試題。

一道此前只有GPT最新模型能完成的題丟給他，

寫一個(gè)長度為10行的故事，把每一行編號(hào)；同時(shí)滿足每行以“蘋果”這個(gè)詞結(jié)尾。

很好，這次Claude 3.5 Sonnet完美地完成了任務(wù)。

小明小紅看后都欣慰地笑了。

最近熱度很高的阿里巴巴數(shù)學(xué)競賽初賽，一道選擇題不給選項(xiàng)，居然也能答對(duì)。

具體可對(duì)比官方參考答案：

同樣一道題的第二小問，同樣不給選項(xiàng)。Claude 3.5自己就能看出來比前一問更復(fù)雜。?

雖然具體計(jì)算數(shù)值還是有點(diǎn)誤差，但作為選擇題已經(jīng)可以答對(duì)了。

原題和參考答案：

下面再來看一些網(wǎng)友試玩~

喂一張截圖，半分鐘制作游戲

視覺能力up up

敲黑板劃重點(diǎn)，官方稱Claude 3.5 Sonnet在視覺推理上大為改進(jìn)。

有網(wǎng)友直接用它可視化深度學(xué)習(xí)。

雖然和油管知名博主3blue1brown的爆火教程還有差距，但看起來也是相當(dāng)不錯(cuò)了。

畢竟3blue1brown教程可是博主一幀一幀摳出來的~

當(dāng)然，除了日常生活工作，Claude 3.5 Sonnet開始勇闖”芯片設(shè)計(jì)“了。

網(wǎng)友僅用了一句簡單提示詞：

Claude 3.5 Sonnet生成了芯片制造流程圖。

不過，有網(wǎng)友嘗試了完全相同的提示詞，但結(jié)果只生成了一段文字。

發(fā)揮不太穩(wěn)定啊，朋友。

編碼能力

除了視覺推理，Claude 3.5 Sonnet在編碼能力上也非常強(qiáng)悍。

先有Anthropic員工“現(xiàn)身說法”：

Claude 3.5開始真正擅長編碼和自動(dòng)修復(fù)Pull Request。

他演示了Claude 3.5 Sonnet實(shí)際解決簡單的Pull Request。

在內(nèi)部Pull Request評(píng)估中，Claude 3.5 Sonnet通過了64%的測試用例，而Claude 3 Opus只通過了38%。

另一Anthropic員工更是直言：

我一半的工作現(xiàn)在可以通過3.5 Sonnet完成。

當(dāng)然，忽略員工自身所帶的捧場屬性，Claude 3.5 Sonnet還有其他亮眼表現(xiàn)。

有網(wǎng)友用它發(fā)現(xiàn)了一種新的 O(n) 排序算法。

還有網(wǎng)友根據(jù)它的新Artifacts功能（在另一側(cè)顯示交互式輸出的視圖），一邊聊天一邊在旁邊生成并運(yùn)行代碼。

網(wǎng)友測后感嘆道：

其編碼效率比GPT-4o或任何其他LLMs高10倍

連賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick也忍不住上手“把玩”了一番。

一邊編碼，另一邊同步生成游戲。（視頻為原速）

他將Artifacts功能與ChatGPT神器Code Interpreter進(jìn)行比較：

它（Claude 3.5 Sonnet）非常令人印象深刻，它的“Artifacts”就像是Code Interpreter的簡單版本。

創(chuàng)建原創(chuàng)游戲

在網(wǎng)友測評(píng)中，讓Claude 3.5 Sonnet制作游戲不知為何成為了最流行玩法之一。

僅提供一張截圖，在短短25秒內(nèi)，Claude 3.5 Sonnet就編寫了一個(gè)功能齊全的Mancala Web應(yīng)用程序。

同時(shí)它完成了其他任務(wù)：

對(duì)整個(gè)游戲進(jìn)行編碼
預(yù)覽它以便可以測試
提供游戲規(guī)則

當(dāng)遇到代碼錯(cuò)誤，簡單提示后它幾秒鐘就完成了修復(fù)。

還有網(wǎng)友用它在3分鐘內(nèi)copy出了經(jīng)典游戲《馬里奧》。

令網(wǎng)友驚喜的是：

本來僅要求用幾何形狀制作，但它竟然提供了角色動(dòng)畫，且形狀看起來非常新穎

除了復(fù)原，編寫原創(chuàng)游戲也不在話下。

翻車總是難免的

雖然Claude 3.5 Sonnet表現(xiàn)強(qiáng)勁，但網(wǎng)友們也淺淺發(fā)現(xiàn)了一些翻車例子。

比如讓它玩“井字棋”，它無法完成這樣看似簡單的任務(wù)。

網(wǎng)友幫助Claude痛定思痛：

我認(rèn)為擴(kuò)展現(xiàn)有技術(shù)將使我們實(shí)現(xiàn)這一目標(biāo)。
但如果這些模型甚至不能玩井字棋，我們需要將它們擴(kuò)展多少才能完成更復(fù)雜的任務(wù)？

另外，Claude 3.5 Sonnet在簡單的數(shù)學(xué)應(yīng)用題上也出錯(cuò)了。

不過有網(wǎng)友拿這道題問了Gemini 1.5 pro，結(jié)果同樣翻車了。

Anthropic，新王制造機(jī)？

自Claude背后的公司Anthropic成立的那天起，它就被視為OpenAI在創(chuàng)業(yè)領(lǐng)域最強(qiáng)勁的對(duì)手。

最初的起因是其創(chuàng)始團(tuán)隊(duì)是OpenAI的元老級(jí)人物，在2021年不滿OpenAI在獲得微軟投資后走向封閉，憤而出走，重新成立了一個(gè)“追逐初心”的公司。

這就是Anthropic。

2023年1月，Claude開啟內(nèi)測，第一時(shí)間體驗(yàn)過的網(wǎng)友就表示，比ChatGPT（當(dāng)時(shí)最新模型是GPT-3.5）強(qiáng)多了。

不久后，連云計(jì)算巨頭亞馬遜都出手重金投資了Anthropic，這次的Claude 3.5除了官方應(yīng)用外，也在第一時(shí)間同步更新到Amazon Bedrock平臺(tái)。

從此后，Anthropic不斷推出新的強(qiáng)大模型，一路狂追GPT系列，最后達(dá)到趕超，開啟了自己的造王之路。

今年3月，Claude 3正式打破OpenAI不可戰(zhàn)勝的神話。

其榜單性能跑分全面超越GPT-4，是首個(gè)全面超越GPT-4的產(chǎn)品，一舉坐上了全球最強(qiáng)大模型王座。

當(dāng)時(shí)，Anthropic就宣布Claude 3系列模型包括三種大小：

中杯Haiku，輕量級(jí)選擇
大杯Sonnet，平衡性能與速度
超大杯Opus，系列最強(qiáng)音

也是3月，Claude 3超大杯Opus在大模型競技場上Elo分?jǐn)?shù)來到榜首。

5月，OpenAI發(fā)布GPT-4o，隔天靈魂人物Ilya宣布離職，大模型圈陷入一頓吃瓜狂熱。

Anthropic趁亂出手，迅速招攬了和Ilya一同出走的Jan Leike——他是RLHF發(fā)明者之一，此前在OpenAI和Ilya一同領(lǐng)導(dǎo)超級(jí)對(duì)齊團(tuán)隊(duì)。

無縫入職新公司的Jan Leike，在Anthropic干的事兒，仍然是負(fù)責(zé)超級(jí)對(duì)齊業(yè)務(wù)，新團(tuán)隊(duì)將致力于可擴(kuò)展監(jiān)督、從弱到強(qiáng)的泛化和自動(dòng)對(duì)齊研究。

現(xiàn)在，Claude 3.5系列第一款模型沒有預(yù)兆地出場，又大張旗鼓地拿下了全球第一。

有網(wǎng)友滿是星星眼地表達(dá)：

Claude 3.5 Sonnet讓“3.5系列”再次偉大！

而且，如果延續(xù)Claude 3系列的慣例，Claude 3.5 Sonnet應(yīng)該只是該系列的大杯而已。

理論上還有個(gè)超大杯Opus被Anthropic寶貝著沒放出來呢。

看看它和GPT-5哪個(gè)會(huì)先閃耀大模型排行榜吧！

在線等，挺急的（嗑瓜子看戲ing）。

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

衡宇

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

新王Claude 3.5實(shí)測：阿里數(shù)學(xué)競賽題不給選項(xiàng)直接做對(duì)

針對(duì)中文場景，量子位一手測試

喂一張截圖，半分鐘制作游戲

視覺能力up up

編碼能力

創(chuàng)建原創(chuàng)游戲

翻車總是難免的

Anthropic，新王制造機(jī)？

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎(jiǎng)金池+全場景賽道，沖線團(tuán)隊(duì)速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

新王Claude 3.5實(shí)測：阿里數(shù)學(xué)競賽題不給選項(xiàng)直接做對(duì)

針對(duì)中文場景，量子位一手測試

喂一張截圖，半分鐘制作游戲

視覺能力up up

編碼能力

創(chuàng)建原創(chuàng)游戲

翻車總是難免的

Anthropic，新王制造機(jī)？

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎(jiǎng)金池+全場景賽道，沖線團(tuán)隊(duì)速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

針對(duì)中文場景，量子位一手測試

喂一張截圖，半分鐘制作游戲

Anthropic，新王制造機(jī)？

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎(jiǎng)金池+全場景賽道，沖線團(tuán)隊(duì)速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%