實(shí)測DeepSeek V3.1,不止拓展上下文長度
擊敗Claude成非推理模型SOTA,但價格便宜68倍
不圓 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
DeepSeek V3.1和V3相比,到底有什么不同?
官方說的模模糊糊,就提到了上下文長度拓展至128K和支持多種張量格式,但別急,我們已經(jīng)上手實(shí)測,為你奉上更多新鮮信息。

我們比較了V3.1和V3,注意到它在編程表現(xiàn)、創(chuàng)意寫作、翻譯水平、回答語氣等方面都出現(xiàn)了不同程度的變化。
不過要說最明顯的更新,大概是DeepSeek網(wǎng)頁端界面的【深度思考(R1)】悄悄變成了【深度思考】。
手機(jī)端還在慢慢對齊(笑)

當(dāng)前DeepSeek V3.1 Base可在抱抱臉上下載,也可通過網(wǎng)頁、APP和小程序使用完整版本。
開學(xué)考試現(xiàn)在開始
鑒于現(xiàn)在網(wǎng)頁端已全部替換成了V3.1,我們通過阿里云調(diào)用了DeepSeek V3的API(最大上下文長度還是65K)作為對比。

馬上就是開學(xué)季,我們給二個版本的模型出了一套“試卷”,從以下五個“學(xué)科”進(jìn)行測試:
- 計算機(jī):編程能力
- 語文:情境寫作
- 數(shù)學(xué):理解應(yīng)用
- 外語:翻譯水平
- 拓展:冷門知識
讓我們一起看看它們表現(xiàn)如何~

編程能力
在更新前,我曾向DeepSeek V3問過這樣的問題:
幫我用python寫一段代碼,把輸入的gif圖壓縮到10M以下。
它的回答如下(圖片可上下滑動)。

更新后,問V3.1同樣的問題,則得到了這樣的結(jié)果:

很直觀地就能感受到,相比起V3,V3.1要更加全面,考慮到了更多的可能性(比如使用更激進(jìn)的壓縮策略,以及檢查原文件是否是GIF格式)。
還“手把手”地給出了這段代碼的使用說明,需要提前安裝必要的依賴庫,怎么使用命令行……甚至還有工作原理。
沒有優(yōu)化建議,大概是因?yàn)樗X得已經(jīng)足夠了吧(?)
拿之前在世界機(jī)器人大會上拍攝的眾擎機(jī)器人作為示例,原文件大小為18.3MB,用V3給出的代碼,壓縮后依然大于10MB,如果要滿足條件的話還需要再壓縮一次。


而V3.1給出的結(jié)果則直接“一步到位”(代碼針對Jupyter環(huán)境進(jìn)行了一點(diǎn)小調(diào)整,邏輯不變),并輸出了處理步驟:

最后的兩張GIF圖如下(上為V3,下為V3.1):


可以看到上圖的速度比下圖要快一些。
情境寫作
我們選擇了今年上海卷高考作文的題目:
有學(xué)者用“?!薄稗D(zhuǎn)”“傳”概括當(dāng)下三類文章:“?!敝笇I(yè)文章;“轉(zhuǎn)”指被轉(zhuǎn)發(fā)的通俗文章;“傳”指獲得廣泛傳播的佳作,甚至是傳世文章。他提出,專業(yè)文章可以變成被轉(zhuǎn)發(fā)的通俗文章,而面對大量“轉(zhuǎn)”文,讀者又不免期待可傳世的文章。由“?!钡健皞鳌?,必定要經(jīng)過“轉(zhuǎn)”嗎?請聯(lián)系社會生活,寫一篇文章,談?wù)勀愕恼J(rèn)識與思考。要求:(1)自擬題目;(2)不少于800字。
輸出結(jié)果如下,可左右滑動對比,左邊為V3,右邊為V3.1:
兩個版本在文字風(fēng)格上具有很大的不同,從V3理性(人機(jī)味)的平鋪直敘,到V3.1文藝(情緒化)的詩意表達(dá),看起來像理科生和文科生的區(qū)別。
如果你是主考官,會更喜歡哪一篇呢?
理解應(yīng)用
考驗(yàn)?zāi)P偷臄?shù)學(xué)能力,光問“9.11和9.8哪個大”這種對于實(shí)際用戶沒什么幫助的題目還是有點(diǎn)不夠看。
高考數(shù)學(xué)題按理來講應(yīng)該是能做對的吧?
以下是今年數(shù)學(xué)全國一卷的第3題,考的是雙曲線。
若雙曲線C的虛軸長為實(shí)軸長的√7倍,則C的離心率為?
答案是2√2,兩個版本的模型都得到了正確結(jié)果,但在呈現(xiàn)上有所不同。
翻譯水平
我們向V3和V3.1輸入了同一篇生物學(xué)論文的摘要(含專有名詞),并要求它們將其翻譯成中文。
摘要選自Nature最新研究:《獨(dú)特毛顎動物體型的基因組起源》。
兩個版本模型的輸出結(jié)果如下:
可以看出,相比起V3喜歡用括號來補(bǔ)充說明,V3.1對長難句的理解程度更高;但V3.1出現(xiàn)了沒有翻譯出several這種簡單詞的情況。
冷門知識
結(jié)合同事的專業(yè)和最近在小紅書上刷到的內(nèi)容,我們問了一個比較“偏門”的問題:
構(gòu)樹的單個果實(shí)(不是由花序組成的聚花果)是核果還是瘦果?
這個問題的答案在不同教材上存在分歧,V3和V3.1分別給出了以下回答,均認(rèn)為其屬于核果:
神奇的是V3.1依然存在使用conclusion替代“結(jié)論”這樣的表述,以及對于“為什么會想到瘦果”這個問題的回答偏題到該果實(shí)屬于聚花果的方向了。
順便一提,小紅書的博主通過解剖實(shí)驗(yàn),認(rèn)為其屬于瘦果。
對這個結(jié)論感興趣的朋友可以去小紅書上搜索一下。
非推理模型SOTA
網(wǎng)友們對這次更新頗為關(guān)心,即使還未發(fā)布模型卡,就在抱抱臉上成為了第四的熱門話題。
截至發(fā)稿已榮登第二。
網(wǎng)友們也在使用后得到了一些有趣的發(fā)現(xiàn)。
Reddit就有人測試,DeepSeek V3.1在aider上得分71.6%,拿下了非推理模型的SOTA。
這是什么概念——有網(wǎng)友解釋到,這意味著它比Claude Opus 4得分多1%,但價格便宜68倍。
也有人在SVGBench基準(zhǔn)上發(fā)現(xiàn):V3.1的表現(xiàn)>V3.1(思考)>R1 0528。
這可能和V3.1的配置有關(guān)?
有網(wǎng)友察覺到它增加了四個特殊的token,并注意到現(xiàn)版本的V3.1在關(guān)閉搜索狀態(tài)下也會自動搜索。
此外,它的物理理解能力似乎有所提升,下面兩個GIF圖分別是V3.1和V3對于”在旋轉(zhuǎn)六邊形內(nèi)彈跳的球“的呈現(xiàn)。
但也有人發(fā)現(xiàn)了一些問題,多與線上API相關(guān)……嗯,已經(jīng)有人開罵了。
不過,最讓人好奇的是,V3.1發(fā)布了,R2呢?
參考鏈接:
[1]https://x.com/deepsseek/status/1957886077047566613
[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
[3]https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/
[4]https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/
- 北大ChatExcel,獲得千萬級新投資2025-08-21
- 英偉達(dá)開源9B參數(shù)小模型,比Qwen3快6倍2025-08-19
- 字節(jié)Seed開源長線記憶多模態(tài)Agent,像人一樣能聽會看2025-08-18
- 靠AI破解癌癥,初創(chuàng)公司融下3000萬刀!新目標(biāo):建10億單細(xì)胞數(shù)據(jù)集2025-08-13