機(jī)器學(xué)習(xí)免費(fèi)跑分神器:集成各大數(shù)據(jù)集,連接GitHub就能用,還能驗(yàn)證論文結(jié)果
好評(píng)如潮
栗子 魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
搞機(jī)器學(xué)習(xí)的小伙伴們,免不了要在各種數(shù)據(jù)集上,給AI模型跑分。
現(xiàn)在,Papers with Code?(那個(gè)以論文搜代碼的神器) 團(tuán)隊(duì),推出了自動(dòng)跑分服務(wù),名叫sotabench,以跑遍所有開源模型為己任。
有了它,不用上傳代碼,只要連接GitHub項(xiàng)目,就有云端GPU幫你跑分;每次提交了新的commit,系統(tǒng)又會(huì)自動(dòng)更新跑分。還有世界排行榜,可以觀察各路強(qiáng)手的成績。
除了支持各大主流數(shù)據(jù)集,還支持用戶上傳自己的數(shù)據(jù)集。
也可以看看,別人的論文結(jié)果,到底靠譜不靠譜。
比如說,fork一下Facebook的FixRes這個(gè)項(xiàng)目,配置一下評(píng)估文件:
然后一鍵關(guān)聯(lián),讓Sotabench的GPU跑一下ImageNet的圖像分類測試。
就能得到這樣的結(jié)果:
Top-1準(zhǔn)確率,Top-5準(zhǔn)確率,跟論文的結(jié)果有何差距(見注),運(yùn)行速度,全球排名,全部一目了然。
注:ε-REPR,結(jié)果與論文結(jié)果差距在0.3%以內(nèi)時(shí)打勾,差距≥0.3%且比論文結(jié)果差顯示為紅叉,比論文結(jié)果好顯示為勾+
這個(gè)免費(fèi)的跑分神器,發(fā)布一天,便受到熱烈歡迎:推特點(diǎn)贊600+,Reddit熱度270+。
網(wǎng)友紛紛表示:這對(duì)開發(fā)者社區(qū)來說太有用了!
那么,先來看一下sotabench的功能和用法吧。
用法簡單,海納百川
團(tuán)隊(duì)說,sotabench就是Papers with Code的雙胞胎姐妹:
Papers with Code大家很熟悉了,它觀察的是論文報(bào)告的跑分??梢杂脕韺ふ腋叻帜P蛯?duì)應(yīng)的代碼,是個(gè)造福人類的工具。
與之互補(bǔ),sotabench觀察的是開源項(xiàng)目,代碼實(shí)際運(yùn)行的結(jié)果??梢詼y試自己的模型,也能驗(yàn)證別家的模型,是不是真有論文說的那么強(qiáng)。
它支持跟其他模型的對(duì)比,支持查看速度和準(zhǔn)確率的取舍情況。
那么,sotabench怎么用?簡單,只要兩步。
第一步,先在本地評(píng)估一下模型:
在GitHub項(xiàng)目的根目錄里,創(chuàng)建一個(gè)sotabench.py文件。里面可以包含:加載、處理數(shù)據(jù)集和從中得出預(yù)測所需的邏輯。每提交一個(gè)commit,這個(gè)文件都會(huì)運(yùn)行。然后,用個(gè)開源的基準(zhǔn)測試庫來跑你的模型。這個(gè)庫可以是sotabench-eval,這個(gè)庫不問框架,里面有ImageNet等等數(shù)據(jù)集;也可以是torchbench,這是個(gè)PyTorch庫,和PyTorch數(shù)據(jù)集加載器搭配食用更簡單。
一旦成功跑起來,就可以進(jìn)入下一步。
第二步,連接GitHub項(xiàng)目,sotabench會(huì)幫你跑:
點(diǎn)擊這個(gè)按鈕,連到你的GitHub賬號(hào),各種項(xiàng)目就顯現(xiàn)了。選擇你要測試的那個(gè)項(xiàng)目來連接。連好之后,系統(tǒng)會(huì)自動(dòng)測試你的master,然后記錄官方結(jié)果,一切都是跑在云端GPU上。測試環(huán)境是根據(jù)requirement.txt文件設(shè)置的,所以要把這個(gè)文件加進(jìn)repo,讓系統(tǒng)捕捉到你用的依賴項(xiàng)。
從此,每當(dāng)你提交一次commit,系統(tǒng)都會(huì)幫你重新跑分,來確保分?jǐn)?shù)是最新的,也確保更新的模型依然在工作。
這樣一來,模型出了bug,也能及時(shí)知曉。
如果要跑別人家的模型,fork到自己那里就好啦。
目前,sotabench已經(jīng)支持了一些主流數(shù)據(jù)集:
列表還在持續(xù)更新中,團(tuán)隊(duì)也在盛情邀請(qǐng)各路豪杰,一同充實(shí)benchmark大家庭。
既支持創(chuàng)建一個(gè)新的benchmark,也支持為現(xiàn)有benchmark添加新的實(shí)現(xiàn)。
你可以給sotabench-eval或torchbench項(xiàng)目提交PR,也可以直接創(chuàng)建新的Python包。
一旦準(zhǔn)備就緒,就在sotabench官網(wǎng)的論壇上,發(fā)布新話題,團(tuán)隊(duì)會(huì)把你的benchmark加進(jìn)去的:
好評(píng)如潮
這樣的一項(xiàng)服務(wù)推出,網(wǎng)友們紛紛點(diǎn)贊,好評(píng)如潮,推特點(diǎn)贊600+。
有網(wǎng)友表示:
太棒了!對(duì)剛?cè)腴T的新手來說,數(shù)據(jù)集獲取、預(yù)處理和評(píng)估的自動(dòng)化和標(biāo)準(zhǔn)化很有用。通過分析不同模型及其超參數(shù)結(jié)果,來評(píng)估這些模型,本身是挺困難的一件事,你得在各種論文中查閱大量的非結(jié)構(gòu)化數(shù)據(jù)。有了這個(gè),這件事就輕松多了。(部分意譯)
許多網(wǎng)友對(duì)這個(gè)項(xiàng)目進(jìn)行了友好的探討及建議,而開發(fā)人員也在線積極回應(yīng)。
比如這位網(wǎng)友建議:能在每次提交的時(shí)候報(bào)告模型的超參數(shù)嗎?
作者很快回復(fù)說:英雄所見略同。下次更新就加上!
并且,他們還考慮在將來的更新中,讓使用者把鏈接添加到生成模型的訓(xùn)練參數(shù)中。
傳送門
sotabench官網(wǎng):
https://sotabench.com/
基準(zhǔn)測試庫通用版:
https://github.com/paperswithcode/sotabench-eval
基準(zhǔn)測試庫PyTorch版:
https://github.com/paperswithcode/torchbench
— 完 —