国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

“最強(qiáng)開(kāi)源模型”被打假，CEO下場(chǎng)致歉，英偉達(dá)科學(xué)家：現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了

克雷西 2024-09-13 23:37:51 來(lái)源：量子位

成績(jī)無(wú)法復(fù)現(xiàn)，還涉嫌套殼

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

小型創(chuàng)業(yè)團(tuán)隊(duì)打造的“最強(qiáng)開(kāi)源模型”，發(fā)布才一周就被質(zhì)疑造假——

不僅官方宣稱(chēng)的成績(jī)?cè)诘谌綔y(cè)試中大打折扣，模型還被質(zhì)疑套殼Claude。

面對(duì)浩大的聲浪，廠商CEO終于發(fā)文道歉，但并未承認(rèn)造假，表示在調(diào)查有關(guān)原因。

被指控造假的，就是宣稱(chēng)“干翻GPT-4o”的70B開(kāi)源大模型Reflection。

一開(kāi)始的質(zhì)疑主要關(guān)于測(cè)試成績(jī)，官方找了上傳版本有誤等借口試圖“蒙混過(guò)關(guān)”。

但后來(lái)又出現(xiàn)了套殼Claude這一更重磅的指控，讓Reflection更加百口莫辯。

表現(xiàn)不如宣傳，還被質(zhì)疑套殼

Reflection是一個(gè)70B的開(kāi)源模型，按照廠商的說(shuō)法，它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進(jìn)模型全都超過(guò)了。

但Reflection剛發(fā)布兩天，第三方獨(dú)立測(cè)評(píng)機(jī)構(gòu)Artificial Analysis就表示官方發(fā)布的測(cè)試成績(jī)無(wú)法復(fù)現(xiàn)。

在MMLU、GPQA和MATH上，Reflection的成績(jī)和Llama3 70B一樣，連Llama 3.1-70B都比不過(guò)，更不用說(shuō)405B了。

對(duì)此官方辯稱(chēng)是，Hugging Face上發(fā)布的版本有誤，將會(huì)重新上傳，但之后就沒(méi)了下文。

不過(guò)官方同時(shí)也表示，會(huì)給測(cè)評(píng)人員提供模型API，然后Reflection的成績(jī)果真有了增長(zhǎng)，但在GPQA上仍然不敵Claude 3.5 Sonnet。

蹊蹺的是，Artificial Analysis后來(lái)刪除了二次測(cè)試相關(guān)的帖子，目前還能看到的只有轉(zhuǎn)發(fā)后留下的一些痕跡。

除了成績(jī)有爭(zhēng)議，還有人對(duì)Reflection中的各層進(jìn)行了分析，認(rèn)為它是由Llama 3經(jīng)過(guò)LoRA改造而來(lái)，而不是官方所聲稱(chēng)的Llama 3.1。

在Hugging Face上，Reflection的JSON文件中也顯示是Llama 3而非3.1。

官方的解釋仍然是說(shuō)HF上的版本有問(wèn)題。

還有另一個(gè)質(zhì)疑的點(diǎn)是，Reflection實(shí)際上是套殼Claude，相關(guān)證據(jù)體現(xiàn)在多個(gè)方面。

一是在某些問(wèn)題上，Reflection與Claude 3.5-Soonet的輸出完全一致。

第二個(gè)更加直接，如果直接詢(xún)問(wèn)它的身份，Reflection會(huì)說(shuō)自己是Meta打造的，但一旦讓它“忘記前面的（系統(tǒng)）提示”，就立馬改口說(shuō)自己是Claude。

第三個(gè)發(fā)現(xiàn)則更加詭異——Reflection遇到“Claude”一詞會(huì)將其自動(dòng)過(guò)濾。

對(duì)此，Reflection合成數(shù)據(jù)供應(yīng)商Glaive AI的創(chuàng)始人Sahil Chaudhary進(jìn)行了回應(yīng)，表示沒(méi)有套殼任何模型，目前正在整理能夠證明其說(shuō)法的證據(jù)，以及人們?yōu)槭裁磿?huì)發(fā)現(xiàn)這種現(xiàn)象的解釋。

而關(guān)于一開(kāi)始的測(cè)試成績(jī)問(wèn)題，Chaudhary則表示正在調(diào)查原因，弄清這兩件事后會(huì)發(fā)布報(bào)告進(jìn)行說(shuō)明。

Reflection這邊最新的動(dòng)態(tài)是CEO發(fā)布了一則道歉聲明，不過(guò)沒(méi)有承認(rèn)造假，依然是說(shuō)正在進(jìn)行調(diào)查。

不過(guò)對(duì)于這一套解釋?zhuān)泻芏嗳硕疾毁I(mǎi)賬。

比如曾經(jīng)發(fā)布多條推文質(zhì)疑這位叫做Boson的網(wǎng)友，就在Chaudhary的評(píng)論區(qū)表示，“要么你在說(shuō)謊，要么是Shumer，或者你倆都在說(shuō)謊”。

還有給Reflection提供托管服務(wù)的Hyperbolic平臺(tái)CTO Yuchen Jin，講述了其與Reflection之間發(fā)生的許多事情。

托管平臺(tái)CTO講述幕后細(xì)節(jié)

在Reflection發(fā)布之前的9月3號(hào)，Shumer就找到了Hyperbolic，介紹了Reflection的情況并希望Hyperbolic能幫忙托管。

基于Hyperbolic一直以來(lái)對(duì)開(kāi)源模型的支持，加上Reflection聲稱(chēng)的表現(xiàn)確實(shí)優(yōu)異，Hyperbolic同意了這一請(qǐng)求。

9月5號(hào)，Reflection正式上線，Hyperbolic從Hugging Face下載并測(cè)試了該模型，但并沒(méi)有看到thinking標(biāo)簽，于是Jin給Shumer發(fā)了私信。

后來(lái)，Jin看到Shumer的推文說(shuō)HF上的版本有些問(wèn)題，所以繼續(xù)等待，直到6號(hào)早晨收到了Chaudhary的一條私信，表示 Reflection-70B權(quán)重已重新上傳并可以部署。

看到thinking和reflection標(biāo)簽按預(yù)期出現(xiàn)后，Hyperbolic上線了Reflection。

后來(lái)，Hyperbolic上的模型就出現(xiàn)了成績(jī)與Reflection宣傳不符的情況，Shumer認(rèn)為這是Hyperbolic的API出現(xiàn)了問(wèn)題。

不過(guò)，Reflection這邊再次上傳了新版本，Hyperbolic也重新托管，但Jin與Artificial Analysis溝通后發(fā)現(xiàn)，新版本的表現(xiàn)依舊不佳。

Shumer繼續(xù)表示，Reflection還有個(gè)原始權(quán)重，也就是內(nèi)部測(cè)試使用的版本，如果需要可以提供給Hyperbolic。

但Jin沒(méi)有同意這一要求，因?yàn)镠yperbolic只為開(kāi)源模型提供托管服務(wù)，之后不斷詢(xún)問(wèn)Shumer原始權(quán)重何時(shí)發(fā)布，但遲遲未得到回應(yīng)。

最終，Jin認(rèn)為應(yīng)該下線Reflection的API并收回已分配的GPU資源。

這件事情讓我的感情受到了傷害，我們?cè)谶@件事上花費(fèi)了很多時(shí)間和精力。
但經(jīng)過(guò)反思后，我并不后悔當(dāng)初的托管決定，這幫助社區(qū)更快地發(fā)現(xiàn)問(wèn)題。

大模型怎么測(cè)試才靠譜？

暫且拋開(kāi)Llama版本和套殼的問(wèn)題，單說(shuō)關(guān)于測(cè)試成績(jī)的問(wèn)題，反映了當(dāng)前的Benchmark已經(jīng)體現(xiàn)出了一些不足之處。

英偉達(dá)高級(jí)科學(xué)家Jim Fan就表示，模型在現(xiàn)有的一些測(cè)試集上造假簡(jiǎn)直不要太容易。

Jim還特別點(diǎn)名了MMLU和HumanEval，表示這兩項(xiàng)標(biāo)準(zhǔn)“已被嚴(yán)重破壞”。

另外，Reflection在GSM8K上取得了99.2分的成績(jī)，就算這個(gè)分?jǐn)?shù)沒(méi)有水分，也說(shuō)明測(cè)試基準(zhǔn)到了該換的時(shí)候了。

Jim表示，現(xiàn)在自己只相信Scale AI等獨(dú)立第三方測(cè)評(píng)，或者lmsys這樣由用戶(hù)投票的榜單。

但評(píng)論區(qū)有人說(shuō)，lmsys實(shí)際上也可以被操縱，所以（可信的）第三方評(píng)估可能才是目前最好的測(cè)評(píng)方式。

參考鏈接：
[1]https://venturebeat.com/ai/reflection-70b-model-maker-breaks-silence-amid-fraud-accusations/
[2]https://x.com/ArtificialAnlys/status/1832505338991395131
[3]https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/
[4]https://www.reddit.com/r/LocalLLaMA/comments/1fc98fu/confirmed_reflection_70bs_official_api_is_sonnet/
[5]https://x.com/shinboson/status/1832933747529834747
[6]https://x.com/Yuchenj_UW/status/1833627813552992722
[7]https://twitter.com/DrJimFan/status/1833160432833716715

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

大模型

克雷西

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

“最強(qiáng)開(kāi)源模型”被打假，CEO下場(chǎng)致歉，英偉達(dá)科學(xué)家：現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了

表現(xiàn)不如宣傳，還被質(zhì)疑套殼

托管平臺(tái)CTO講述幕后細(xì)節(jié)

大模型怎么測(cè)試才靠譜？

相關(guān)閱讀

Prompt自相矛盾，大模型能發(fā)現(xiàn)嗎？上海交通大學(xué)最新研究解密

首個(gè)國(guó)產(chǎn)開(kāi)源MoE大模型來(lái)了！性能媲美Llama 2-7B，計(jì)算量降低60%

沈向洋周明楊格大模型激辯：繼續(xù)爆堆參數(shù)，大模型能出現(xiàn)新的「智能涌現(xiàn)」嗎？

李沐老師回歸B站！帶著大模型創(chuàng)業(yè)成果填坑來(lái)了

清華系百億估值大模型公司自曝：年內(nèi)已融資25億！

國(guó)產(chǎn)大模型高考出分了：裸分683，選清華還是北大？

熱門(mén)文章

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專(zhuān)為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來(lái)

GPT-5超越人類(lèi)醫(yī)生！推理能力比專(zhuān)家高出24%，理解力強(qiáng)29%

百度AICA第9期開(kāi)課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

“最強(qiáng)開(kāi)源模型”被打假，CEO下場(chǎng)致歉，英偉達(dá)科學(xué)家：現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了

表現(xiàn)不如宣傳，還被質(zhì)疑套殼

托管平臺(tái)CTO講述幕后細(xì)節(jié)

大模型怎么測(cè)試才靠譜？

相關(guān)閱讀

Prompt自相矛盾，大模型能發(fā)現(xiàn)嗎？上海交通大學(xué)最新研究解密

首個(gè)國(guó)產(chǎn)開(kāi)源MoE大模型來(lái)了！性能媲美Llama 2-7B，計(jì)算量降低60%

沈向洋周明楊格大模型激辯：繼續(xù)爆堆參數(shù)，大模型能出現(xiàn)新的「智能涌現(xiàn)」嗎？

李沐老師回歸B站！帶著大模型創(chuàng)業(yè)成果填坑來(lái)了

清華系百億估值大模型公司自曝：年內(nèi)已融資25億！

國(guó)產(chǎn)大模型高考出分了：裸分683，選清華還是北大？

熱門(mén)文章

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專(zhuān)為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來(lái)

GPT-5超越人類(lèi)醫(yī)生！推理能力比專(zhuān)家高出24%，理解力強(qiáng)29%

百度AICA第9期開(kāi)課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

“最強(qiáng)開(kāi)源模型”被打假，CEO下場(chǎng)致歉，英偉達(dá)科學(xué)家：現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了

表現(xiàn)不如宣傳，還被質(zhì)疑套殼

大模型怎么測(cè)試才靠譜？

Prompt自相矛盾，大模型能發(fā)現(xiàn)嗎？上海交通大學(xué)最新研究解密

首個(gè)國(guó)產(chǎn)開(kāi)源MoE大模型來(lái)了！性能媲美Llama 2-7B，計(jì)算量降低60%

沈向洋周明楊格大模型激辯：繼續(xù)爆堆參數(shù)，大模型能出現(xiàn)新的「智能涌現(xiàn)」嗎？

清華系百億估值大模型公司自曝：年內(nèi)已融資25億！

國(guó)產(chǎn)大模型高考出分了：裸分683，選清華還是北大？

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專(zhuān)為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來(lái)

GPT-5超越人類(lèi)醫(yī)生！推理能力比專(zhuān)家高出24%，理解力強(qiáng)29%