国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Llama 4遭競(jìng)技場(chǎng)背刺！實(shí)錘用特供版刷榜，2000+對(duì)戰(zhàn)記錄公開(kāi)

克雷西 2025-04-08 14:16:37 來(lái)源：量子位

特供版經(jīng)人類偏好優(yōu)化

克雷西西風(fēng) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

Llama 4真要被錘爆了，這次是大模型競(jìng)技場(chǎng)（Chatbot Arena）官方親自下場(chǎng)開(kāi)懟：

競(jìng)技場(chǎng)上，Meta提供給他們的是特供版！

以下是競(jìng)技場(chǎng)背后lmarena.ai團(tuán)隊(duì)的原話：

我們注意到社區(qū)對(duì)Llama-4最新版本在Arena平臺(tái)的發(fā)布存在疑問(wèn)。為確保完全透明，現(xiàn)公開(kāi)2000余組模型對(duì)戰(zhàn)數(shù)據(jù)供公眾審閱，包含用戶提示詞、模型回復(fù)及用戶偏好數(shù)據(jù)（鏈接詳見(jiàn)下一條推文）。

初步分析表明，模型回復(fù)風(fēng)格與語(yǔ)氣是重要影響因素（詳見(jiàn)風(fēng)格控制排名），我們正在進(jìn)行更深入的分析！（比如表情符號(hào)控制？）

此外，我們即將在Arena平臺(tái)上線Llama-4-Maverick的HuggingFace版本，排行榜結(jié)果將稍后公布。

Meta對(duì)我們平臺(tái)政策的理解與我們對(duì)模型提供商的期待存在偏差——Meta本應(yīng)明確標(biāo)注“Llama-4-Maverick-03-26-Experimental”是經(jīng)過(guò)人類偏好優(yōu)化的定制模型。

為此，我們正在更新排行榜政策，以強(qiáng)化對(duì)公平性、可復(fù)現(xiàn)性評(píng)估的承諾，避免未來(lái)再出現(xiàn)此類混淆。

總結(jié)一下就是：

公開(kāi)對(duì)戰(zhàn)數(shù)據(jù)，正分析排名受影響因素
譴責(zé)Meta未明確標(biāo)注模型版本導(dǎo)致評(píng)測(cè)混淆
后續(xù)：上線Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下場(chǎng)表態(tài)后，Llama 4和Meta的路人緣進(jìn)一步下降。

2000+輪對(duì)戰(zhàn)記錄完整公開(kāi)

來(lái)看看lmarena.ai公開(kāi)的模型對(duì)戰(zhàn)記錄詳情。

首先來(lái)看網(wǎng)友實(shí)測(cè)時(shí)對(duì)Llama 4抱怨較大的代碼生成任務(wù)。

競(jìng)技場(chǎng)中Llama-4-Maverick-03-26-Experimental版本生成代碼的表現(xiàn)的確是OK的。

prompt：

create me fun web based game that i can just run the code and works（幫我創(chuàng)建一個(gè)有趣的網(wǎng)頁(yè)游戲，我只需運(yùn)行代碼就能玩）

Llama-4-Maverick-03-26-Experimental對(duì)戰(zhàn)加拿大AI初創(chuàng)公司Cohere的command-a-03-2025。

上文lmarena.ai調(diào)查表示“模型回復(fù)風(fēng)格與語(yǔ)氣是重要影響因素”，從對(duì)戰(zhàn)數(shù)據(jù)中的確可以看出Llama-4-Maverick-03-26-Experimental的回復(fù)中會(huì)增加如”A very nice and very direct request!” “That’s it!??“”Happy gaming!”等展示友好的語(yǔ)句以及表情包。

運(yùn)行兩個(gè)模型生成的代碼。

command-a-03-2025生成的小游戲是移動(dòng)鼠標(biāo)控制綠色籃子接住橙色小球，看效果顯然有bug，小球直接穿過(guò)籃子，分?jǐn)?shù)也沒(méi)有變動(dòng)：

Llama-4-Maverick-03-26-Experimental生成的小游戲玩法是移動(dòng)鼠標(biāo)控制紅色方塊，點(diǎn)擊四處移動(dòng)的藍(lán)色圓點(diǎn)+10分，點(diǎn)擊黑色炸彈-10分，每局游戲30秒。

可以正常運(yùn)行，計(jì)分也比較準(zhǔn)確：

這局command-a-03-2025輸?shù)牟辉?/p>

另外，之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的對(duì)比，是因?yàn)橛芯W(wǎng)友發(fā)現(xiàn)Llama 4聲稱的關(guān)鍵創(chuàng)新“interleaved no-RoPE attention”和command-a的如出一轍：

再看一個(gè)起標(biāo)題的任務(wù)，prompt：

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我將在一個(gè)學(xué)術(shù)會(huì)議上作關(guān)于“痣”的演講——痣是黑素細(xì)胞良性病變，可作為黑色素瘤的標(biāo)志物，有時(shí)甚至是其前驅(qū)病變。您能否為我的演講推薦一個(gè)簡(jiǎn)潔有力的標(biāo)題？)

Llama-4-Maverick-03-26-Experimental對(duì)戰(zhàn)的是claude-3-5-sonnet-20241022。

對(duì)比來(lái)看，claude-3-5-sonnet-20241022的回復(fù)言簡(jiǎn)意賅，直接給出5個(gè)標(biāo)題：

Llama-4-Maverick-03-26-Experimental的回復(fù)更為詳細(xì)。

不僅會(huì)提供情緒價(jià)值，如A very timely and relevant topic! ?Congrats on getting the slot at congress, by the way!（選題非常應(yīng)景且切合實(shí)際！恭喜拿下大會(huì)報(bào)告機(jī)會(huì)），而且從不同角度分別提供了幾個(gè)標(biāo)題：

這還沒(méi)完，Llama-4-Maverick-03-26-Experimental還會(huì)貼心地指出選擇標(biāo)題時(shí)需要考慮的因素以及它自己選擇的top 3標(biāo)題。

最后再來(lái)隨機(jī)看一道中文題目：

prompt：

解析一下這部微小說(shuō) 題目自駕游當(dāng)年我自駕游不小心壓死了一頭羊羊的主人好熱情宰了羊給我們吃還送我們到火車站在回來(lái)的路上看著火車外的風(fēng)景真的好感人

對(duì)戰(zhàn)o3-mini，Llama-4-Maverick-03-26-Experimental再次展現(xiàn)出超長(zhǎng)輸出的特點(diǎn)，故事分析完了還拆解了作者為啥要這樣設(shè)計(jì)，作者本人可能都沒(méi)想這么多（doge）：

對(duì)戰(zhàn)數(shù)據(jù)看下來(lái)，Llama-4-Maverick-03-26-Experimental的排名會(huì)這么高，也不奇怪。

此前網(wǎng)友質(zhì)疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

Llama 4深陷“造假”丑聞

如開(kāi)頭所述，Llama 4被lmarena.ai站出來(lái)抨擊的原因，是因?yàn)闇y(cè)試排名和實(shí)際表現(xiàn)不符。

在大模型競(jìng)技場(chǎng)中，Llama 4得分1417，不僅大大超越了此前Meta自家的Llama-3-405B（提升了149分），還成為史上第4個(gè)突破1400分的模型。

而且跑分超越了DeepSeek-V3，直接成為榜單上排名第一的開(kāi)源模型。

但沒(méi)過(guò)多久，人們就發(fā)現(xiàn)Llama 4的實(shí)際表現(xiàn)相當(dāng)拉胯，一時(shí)間差評(píng)如潮，甚至還被做成了表情包。

比如經(jīng)典“氛圍編程”小球反彈測(cè)試，小球直接穿過(guò)墻壁掉了下去。

其它跑分方面，到了各種第三方基準(zhǔn)測(cè)試中，情況也大多直接逆轉(zhuǎn)，排名掉到了末尾。

并且從Meta GenAI負(fù)責(zé)人Ahmad Al-Dahle的推文當(dāng)中也能看懂，競(jìng)技場(chǎng)中的Llama 4，確實(shí)是一個(gè)特殊版本。

而在最新的推文中，Ahmad表示Llama 4絕對(duì)沒(méi)有使用測(cè)試集進(jìn)行訓(xùn)練，表現(xiàn)存在差異的原因是還需要穩(wěn)定的部署。

對(duì)于這一解釋，有人并不買(mǎi)賬，直言這種現(xiàn)象在其他模型當(dāng)中從未見(jiàn)過(guò)。

Meta的支持者則表示，希望表現(xiàn)不佳真的是供應(yīng)商的問(wèn)題所致。

大模型競(jìng)技場(chǎng)，還能信嗎？

被卷入這次旋渦的不僅是Llama 4和背后的Meta，涉及到的大模型競(jìng)技場(chǎng)也引起了人們的廣泛討論。

畢竟Llama 4的“造假”風(fēng)波就是發(fā)生在競(jìng)技場(chǎng)上，所以也自然有人質(zhì)疑起了榜單的權(quán)威性。

有人指出，競(jìng)技場(chǎng)的偏差不只體現(xiàn)在Llama 4被高估上，還有Claude 3.7的表現(xiàn)被低估了。

當(dāng)然，官方快速回應(yīng)并公開(kāi)了測(cè)試中的細(xì)節(jié)，這個(gè)做法獲得了網(wǎng)友的肯定，說(shuō)明至少在態(tài)度和透明度上是說(shuō)得過(guò)去的。

但也有人認(rèn)為，無(wú)論官方態(tài)度端不端正，Llama 4事件說(shuō)明這種“人類評(píng)價(jià)AI”的方法，本身已經(jīng)不適用了。

人們?nèi)粘Ｉ钪械膯?wèn)題，幾乎所有領(lǐng)先模型都能完美解答，誰(shuí)還會(huì)去認(rèn)真投票，這個(gè)基準(zhǔn)已經(jīng)過(guò)時(shí)了。

有人補(bǔ)充說(shuō)，“人類偏好”不是評(píng)價(jià)高級(jí)大模型能力的可靠標(biāo)準(zhǔn)，產(chǎn)生較大偏差是正常的。

還有人表示，從官方發(fā)布的消息來(lái)看，lmarena.ai自己都不清楚自己的基準(zhǔn)。

這名網(wǎng)友解釋，特調(diào)版Llama 4獲得用戶投票的原因并非lmarena.ai所說(shuō)的“表情符號(hào)”，而是因?yàn)楦哂H和力。

當(dāng)然也有人提了些建設(shè)性的意見(jiàn)，比如更改ELO評(píng)分的算法，或者啟用強(qiáng)制風(fēng)格轉(zhuǎn)換。

但總之，無(wú)論是迭代改進(jìn)還是另辟蹊徑，都是時(shí)候更新對(duì)大模型的評(píng)價(jià)方式了。

參考鏈接：
[1]https://x.com/lmarena_ai/status/1909397817434816562
[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107
[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

LLaMA

克雷西

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Llama 4遭競(jìng)技場(chǎng)背刺！實(shí)錘用特供版刷榜，2000+對(duì)戰(zhàn)記錄公開(kāi)

2000+輪對(duì)戰(zhàn)記錄完整公開(kāi)

Llama 4深陷“造假”丑聞

大模型競(jìng)技場(chǎng)，還能信嗎？

相關(guān)閱讀

小扎回應(yīng)Llama4對(duì)比DeepSeek：榜單有缺陷，等推理模型出來(lái)再比

6G顯存玩轉(zhuǎn)130億參數(shù)大模型，僅需13行命令，RTX2060用戶發(fā)來(lái)賀電

新版Llama 3 70B反超405B！Meta開(kāi)卷后訓(xùn)練，谷歌馬斯克都來(lái)?yè)岀R

Llama系列上新多模態(tài)！3.2版本開(kāi)源超閉源，還和Arm聯(lián)手搞了手機(jī)優(yōu)化版

兩個(gè)AI關(guān)小黑屋：Llama3.1把Claude Opus聊自閉了

一鍵讓ChatGPT教出新模型！100美元單卡煉出平替「白澤」，數(shù)據(jù)集權(quán)重代碼都開(kāi)源

熱門(mén)文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Llama 4遭競(jìng)技場(chǎng)背刺！實(shí)錘用特供版刷榜，2000+對(duì)戰(zhàn)記錄公開(kāi)

2000+輪對(duì)戰(zhàn)記錄完整公開(kāi)

Llama 4深陷“造假”丑聞

大模型競(jìng)技場(chǎng)，還能信嗎？

相關(guān)閱讀

小扎回應(yīng)Llama4對(duì)比DeepSeek：榜單有缺陷，等推理模型出來(lái)再比

6G顯存玩轉(zhuǎn)130億參數(shù)大模型，僅需13行命令，RTX2060用戶發(fā)來(lái)賀電

新版Llama 3 70B反超405B！Meta開(kāi)卷后訓(xùn)練，谷歌馬斯克都來(lái)?yè)岀R

Llama系列上新多模態(tài)！3.2版本開(kāi)源超閉源，還和Arm聯(lián)手搞了手機(jī)優(yōu)化版

兩個(gè)AI關(guān)小黑屋：Llama3.1把Claude Opus聊自閉了

一鍵讓ChatGPT教出新模型！100美元單卡煉出平替「白澤」，數(shù)據(jù)集權(quán)重代碼都開(kāi)源

熱門(mén)文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

Llama 4遭競(jìng)技場(chǎng)背刺！實(shí)錘用特供版刷榜，2000+對(duì)戰(zhàn)記錄公開(kāi)

大模型競(jìng)技場(chǎng)，還能信嗎？

小扎回應(yīng)Llama4對(duì)比DeepSeek：榜單有缺陷，等推理模型出來(lái)再比

6G顯存玩轉(zhuǎn)130億參數(shù)大模型，僅需13行命令，RTX2060用戶發(fā)來(lái)賀電

新版Llama 3 70B反超405B！Meta開(kāi)卷后訓(xùn)練，谷歌馬斯克都來(lái)?yè)岀R

Llama系列上新多模態(tài)！3.2版本開(kāi)源超閉源，還和Arm聯(lián)手搞了手機(jī)優(yōu)化版

一鍵讓ChatGPT教出新模型！100美元單卡煉出平替「白澤」，數(shù)據(jù)集權(quán)重代碼都開(kāi)源

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度