国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

機(jī)器學(xué)習(xí)免費(fèi)跑分神器：集成各大數(shù)據(jù)集，連接GitHub就能用，還能驗(yàn)證論文結(jié)果

魚羊

栗子 2019-10-12 12:38:51 來源：量子位

好評(píng)如潮

栗子魚羊發(fā)自凹非寺

量子位報(bào)道 | 公眾號(hào) QbitAI

搞機(jī)器學(xué)習(xí)的小伙伴們，免不了要在各種數(shù)據(jù)集上，給AI模型跑分。

現(xiàn)在，Papers with Code?(那個(gè)以論文搜代碼的神器) 團(tuán)隊(duì)，推出了自動(dòng)跑分服務(wù)，名叫sotabench，以跑遍所有開源模型為己任。

有了它，不用上傳代碼，只要連接GitHub項(xiàng)目，就有云端GPU幫你跑分；每次提交了新的commit，系統(tǒng)又會(huì)自動(dòng)更新跑分。還有世界排行榜，可以觀察各路強(qiáng)手的成績。

除了支持各大主流數(shù)據(jù)集，還支持用戶上傳自己的數(shù)據(jù)集。

也可以看看，別人的論文結(jié)果，到底靠譜不靠譜。

比如說，fork一下Facebook的FixRes這個(gè)項(xiàng)目，配置一下評(píng)估文件：

然后一鍵關(guān)聯(lián)，讓Sotabench的GPU跑一下ImageNet的圖像分類測試。

就能得到這樣的結(jié)果：

Top-1準(zhǔn)確率，Top-5準(zhǔn)確率，跟論文的結(jié)果有何差距（見注），運(yùn)行速度，全球排名，全部一目了然。

注：ε-REPR，結(jié)果與論文結(jié)果差距在0.3%以內(nèi)時(shí)打勾，差距≥0.3%且比論文結(jié)果差顯示為紅叉，比論文結(jié)果好顯示為勾+

這個(gè)免費(fèi)的跑分神器，發(fā)布一天，便受到熱烈歡迎：推特點(diǎn)贊600+，Reddit熱度270+。

網(wǎng)友紛紛表示：這對(duì)開發(fā)者社區(qū)來說太有用了！

那么，先來看一下sotabench的功能和用法吧。

用法簡單，海納百川

團(tuán)隊(duì)說，sotabench就是Papers with Code的雙胞胎姐妹：

Papers with Code大家很熟悉了，它觀察的是論文報(bào)告的跑分?？梢杂脕韺ふ腋叻帜Ｐ蛯?duì)應(yīng)的代碼，是個(gè)造福人類的工具。

與之互補(bǔ)，sotabench觀察的是開源項(xiàng)目，代碼實(shí)際運(yùn)行的結(jié)果?？梢詼y試自己的模型，也能驗(yàn)證別家的模型，是不是真有論文說的那么強(qiáng)。

它支持跟其他模型的對(duì)比，支持查看速度和準(zhǔn)確率的取舍情況。

那么，sotabench怎么用？簡單，只要兩步。

第一步，先在本地評(píng)估一下模型：

在GitHub項(xiàng)目的根目錄里，創(chuàng)建一個(gè)sotabench.py文件。里面可以包含：加載、處理數(shù)據(jù)集和從中得出預(yù)測所需的邏輯。每提交一個(gè)commit，這個(gè)文件都會(huì)運(yùn)行。然后，用個(gè)開源的基準(zhǔn)測試庫來跑你的模型。這個(gè)庫可以是sotabench-eval，這個(gè)庫不問框架，里面有ImageNet等等數(shù)據(jù)集；也可以是torchbench，這是個(gè)PyTorch庫，和PyTorch數(shù)據(jù)集加載器搭配食用更簡單。

一旦成功跑起來，就可以進(jìn)入下一步。

第二步，連接GitHub項(xiàng)目，sotabench會(huì)幫你跑：

點(diǎn)擊這個(gè)按鈕，連到你的GitHub賬號(hào)，各種項(xiàng)目就顯現(xiàn)了。選擇你要測試的那個(gè)項(xiàng)目來連接。連好之后，系統(tǒng)會(huì)自動(dòng)測試你的master，然后記錄官方結(jié)果，一切都是跑在云端GPU上。測試環(huán)境是根據(jù)requirement.txt文件設(shè)置的，所以要把這個(gè)文件加進(jìn)repo，讓系統(tǒng)捕捉到你用的依賴項(xiàng)。

從此，每當(dāng)你提交一次commit，系統(tǒng)都會(huì)幫你重新跑分，來確保分?jǐn)?shù)是最新的，也確保更新的模型依然在工作。

這樣一來，模型出了bug，也能及時(shí)知曉。

如果要跑別人家的模型，fork到自己那里就好啦。

目前，sotabench已經(jīng)支持了一些主流數(shù)據(jù)集：

列表還在持續(xù)更新中，團(tuán)隊(duì)也在盛情邀請(qǐng)各路豪杰，一同充實(shí)benchmark大家庭。

既支持創(chuàng)建一個(gè)新的benchmark，也支持為現(xiàn)有benchmark添加新的實(shí)現(xiàn)。

你可以給sotabench-eval或torchbench項(xiàng)目提交PR，也可以直接創(chuàng)建新的Python包。

一旦準(zhǔn)備就緒，就在sotabench官網(wǎng)的論壇上，發(fā)布新話題，團(tuán)隊(duì)會(huì)把你的benchmark加進(jìn)去的：

好評(píng)如潮

這樣的一項(xiàng)服務(wù)推出，網(wǎng)友們紛紛點(diǎn)贊，好評(píng)如潮，推特點(diǎn)贊600+。

有網(wǎng)友表示：

太棒了！對(duì)剛?cè)腴T的新手來說，數(shù)據(jù)集獲取、預(yù)處理和評(píng)估的自動(dòng)化和標(biāo)準(zhǔn)化很有用。通過分析不同模型及其超參數(shù)結(jié)果，來評(píng)估這些模型，本身是挺困難的一件事，你得在各種論文中查閱大量的非結(jié)構(gòu)化數(shù)據(jù)。有了這個(gè)，這件事就輕松多了。（部分意譯）

許多網(wǎng)友對(duì)這個(gè)項(xiàng)目進(jìn)行了友好的探討及建議，而開發(fā)人員也在線積極回應(yīng)。

比如這位網(wǎng)友建議：能在每次提交的時(shí)候報(bào)告模型的超參數(shù)嗎？

作者很快回復(fù)說：英雄所見略同。下次更新就加上！

并且，他們還考慮在將來的更新中，讓使用者把鏈接添加到生成模型的訓(xùn)練參數(shù)中。

傳送門

sotabench官網(wǎng)：

https://sotabench.com/

基準(zhǔn)測試庫通用版：

https://github.com/paperswithcode/sotabench-eval

基準(zhǔn)測試庫PyTorch版：

https://github.com/paperswithcode/torchbench

— 完 —

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

免費(fèi)工具基準(zhǔn)測試

魚羊

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

機(jī)器學(xué)習(xí)免費(fèi)跑分神器：集成各大數(shù)據(jù)集，連接GitHub就能用，還能驗(yàn)證論文結(jié)果

用法簡單，海納百川

好評(píng)如潮

傳送門

相關(guān)閱讀

首個(gè)獎(jiǎng)勵(lì)模型評(píng)分基準(zhǔn)！清華復(fù)旦港科大聯(lián)合攻克AI評(píng)委“偏科”

大模型權(quán)威測試被曝翻車！偏袒GPT-4等閉源模型，提示詞區(qū)別對(duì)待

17款大模型PK八款棋牌游戲，o3-mini勝出，DeepSeek R1輸在中間步驟

紅杉中國推出全新AI基準(zhǔn)測試xbench，要在AI下半場定義“好問題”

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3分?jǐn)?shù)驟降，差距拉開了

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰的demo更吸睛”主觀評(píng)估

宇樹機(jī)器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

機(jī)器學(xué)習(xí)免費(fèi)跑分神器：集成各大數(shù)據(jù)集，連接GitHub就能用，還能驗(yàn)證論文結(jié)果

用法簡單，海納百川

好評(píng)如潮

傳送門

相關(guān)閱讀

首個(gè)獎(jiǎng)勵(lì)模型評(píng)分基準(zhǔn)！清華復(fù)旦港科大聯(lián)合攻克AI評(píng)委“偏科”

大模型權(quán)威測試被曝翻車！偏袒GPT-4等閉源模型，提示詞區(qū)別對(duì)待

17款大模型PK八款棋牌游戲，o3-mini勝出，DeepSeek R1輸在中間步驟

紅杉中國推出全新AI基準(zhǔn)測試xbench，要在AI下半場定義“好問題”

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3分?jǐn)?shù)驟降，差距拉開了

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰的demo更吸睛”主觀評(píng)估

宇樹機(jī)器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

機(jī)器學(xué)習(xí)免費(fèi)跑分神器：集成各大數(shù)據(jù)集，連接GitHub就能用，還能驗(yàn)證論文結(jié)果

17款大模型PK八款棋牌游戲，o3-mini勝出，DeepSeek R1輸在中間步驟

紅杉中國推出全新AI基準(zhǔn)測試xbench，要在AI下半場定義“好問題”

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3分?jǐn)?shù)驟降，差距拉開了

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰的demo更吸睛”主觀評(píng)估

宇樹機(jī)器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度