1.93bit版DeepSeek-R1編程超過Claude 4 Sonnet,不用GPU也能運(yùn)行
作者自己也震驚了
克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
1.93bit量化之后的 DeepSeek-R1(0528),編程能力依然能超過Claude 4 Sonnet?
最新優(yōu)化版R1在編程榜單aider上取得了60%的成績,不僅超過了Claude 4 Sonnet的56.4分,也超過了1月版的滿血R1。
并且aider是一個(gè)接近現(xiàn)實(shí)軟件工程任務(wù)的榜單,不是靠做題就能取勝。
△圖中R1為一月份的0120滿血版
體積方面,相比8bit原始版,這個(gè)1.93bit版本,文件大小降低了70%以上。
看到如此輕量級(jí)的版本能有這樣的表現(xiàn),連作者本人都感到震驚。

而R1-0528的滿血版在aider上則是取得了71.4分,超過了不開啟思考的Claude 4 Opus。

量化版R1,不用GPU也能跑
這個(gè)量化版本來自Unsloth工作室,從1.66到5.5bit,Unsloth一共制作了9個(gè)量化版本。

最小的1.66bit版,gguf文件大小僅162GB,比8bit版減小了近80%,1.93bit版也減小了70%。
按照Unsloth的說法,較小的版本沒顯卡也能跑,比如1.x級(jí)中間的1.78bit版本搭配64GB內(nèi)存,每秒可以跑1個(gè)token。
如果放進(jìn)24GB顯存的顯卡(比如3090),搭配128GB內(nèi)存可以跑到每秒5個(gè)token。
不過Unsloth還是推薦至少180GB的統(tǒng)一內(nèi)存,或者RAM和顯存加起來超過180GB也可以,這樣速度可以提到每秒5個(gè)token以上。

對(duì)于其他版本,也給出了簡單的計(jì)算方式——內(nèi)存和顯存加起來(或統(tǒng)一內(nèi)存)不低于下載的文件大小。

在眾多版本當(dāng)中,為了實(shí)現(xiàn)更好的大小與精度平衡,Unsloth更建議使用2.4bit和2.7bit的版本。

說完R1的這些量化版本,再來看看制作它們的Unsloth。
團(tuán)隊(duì)主要工作就是微調(diào)模型使其更高效運(yùn)行,除了DeepSeek,阿里的Qwen、微軟的Phi,還有Mistral、Llama也都被這個(gè)團(tuán)隊(duì)微調(diào)過。
這些模型當(dāng)中,內(nèi)存占用最少降低了一半,速度最少提升50%。

并且團(tuán)隊(duì)的GitHub倉庫擁有4萬多星標(biāo)。

另外Unsloth這次還推出了用R1-0528蒸餾的Qwen3-8B模型,據(jù)介紹可以達(dá)到與Qwen3-235B相同的性能,并且“幾乎可以適應(yīng)任何配置”。

R1-0528打游戲超越o4-mini
說完量化,再看看R1本身。
一個(gè)名為Hao AI Lab的機(jī)構(gòu)推出了一套讓大模型玩人類游戲的評(píng)測基準(zhǔn)Lmgame Bench,并公布了R1-0528取得的成績。
這套基準(zhǔn)一共包含了六款游戲——俄羅斯方塊、2048、推箱子、馬里奧兄弟、逆轉(zhuǎn)裁判和糖果傳奇。
其中,和1月的版本比較,0528在俄羅斯方塊上的提升非常明顯。
如果和其他家模型相比,0528的俄羅斯方塊成績超過了o4-mini,僅次于o3。

直觀感受就是,四個(gè)模型同時(shí)開始游戲,而R1-0528堅(jiān)持到了最后。

除了俄羅斯方塊,R1-0528在推箱子、2048和糖果傳奇上的表現(xiàn)也大幅超過1月版本,在糖果傳奇中還名列前茅,僅次于最強(qiáng)的o3。

其中,2048、推箱子和俄羅斯方塊一樣,評(píng)價(jià)方法是看誰最后Game Over。
這里官方只展示了R1和Qwen的可視化對(duì)比。

而糖果傳奇則是在規(guī)定的步數(shù)內(nèi)看誰的得分最多,R1-0528取得了548分,領(lǐng)先o4-mini近20分。

你覺得R1還能挑戰(zhàn)哪些人類游戲呢?
參考鏈接:
[1]https://aider.chat/docs/leaderboards/
[2]https://docs.unsloth.ai/basics/deepseek-r1-0528-how-to-run-locally
[3]https://x.com/haoailab/status/1929997363407708646