網(wǎng)頁編程眾測(cè)排名:DeepSeek-R1超越Claude 4加冕全球第一
生成的網(wǎng)站能直接一鍵運(yùn)行
編程王者Claude地位不穩(wěn)了??
大模型競(jìng)技場(chǎng)最新戰(zhàn)報(bào)出爐,DeepSeek新版R1拿下網(wǎng)頁編程第一,小勝Claude Opus 4。
要知道Claude Opus 4可是公認(rèn)的“全球最強(qiáng)編碼模型”。

so,能在編程上戰(zhàn)勝Claude Opus 4,DeepSeek-R1-0528到底啥來頭?
看名字你可能以為是個(gè)小版本更新,但實(shí)際上——
它在LiveCodeBench上幾乎與OpenAI o3-high相當(dāng),乃至一眾網(wǎng)友猜測(cè)其為傳說中的R2。

這樣一看,在編程這一項(xiàng)上,雙方貌似都不太好惹~
所以話不多說,咱們還是一手實(shí)測(cè)DeepSeek-R1-0528,康康究竟有多強(qiáng)。

實(shí)測(cè)一下
目前DeepSeek-R1-0528已上線DeepSeek官方網(wǎng)站、App和小程序(打開深度思考)。
這里咱們直接進(jìn)入官網(wǎng)體驗(yàn)。
測(cè)試1:制作一個(gè)太陽系的動(dòng)畫應(yīng)用程序
提示詞如下:
制作一個(gè)太陽系的動(dòng)畫應(yīng)用程序,使用網(wǎng)絡(luò)搜索。
僅思考49秒后,DeepSeek-R1-0528就給出了一段python代碼。

用VS Code運(yùn)行后,結(jié)果如下:
出現(xiàn)了能自主運(yùn)行的動(dòng)畫,不過頁面相對(duì)粗糙。

不過呢,如果換成其他提示詞,效果則明顯不一樣了。
用Three.js模擬太陽系,鼠標(biāo)懸停在星球上時(shí)顯示星球名稱。
僅用時(shí)34秒,DeepSeek-R1-0528就理清楚了設(shè)計(jì)思路:

關(guān)鍵是這一次能直接一鍵運(yùn)行了,無需再單獨(dú)打開自己的編輯器。(運(yùn)行功能感覺像開盲盒,不一定都會(huì)出現(xiàn))
而且同樣有動(dòng)畫、能交互,效果直接進(jìn)入Next Nevel~

測(cè)試2:前端網(wǎng)頁制作
接下來我們要求DeepSeek生成一個(gè)主題為AGI的網(wǎng)站,提示詞如下:
請(qǐng)?jiān)O(shè)計(jì)一個(gè)以通用人工智能(AGI)為主題的網(wǎng)頁,包含“知識(shí)共享”、“社區(qū)”和“未來創(chuàng)造”三個(gè)概念部分。每個(gè)部分應(yīng)配有相應(yīng)的圖標(biāo)和簡(jiǎn)潔描述,整體風(fēng)格現(xiàn)代且科技感十足,突出AGI的創(chuàng)新和協(xié)作精神。使用HTML、CSS和JavaScript實(shí)現(xiàn)交互和視覺特效。
思考23秒后,DeepSeek-R1-0528后續(xù)給出了一段HTML代碼,依舊能一鍵運(yùn)行。

測(cè)試3:創(chuàng)建一個(gè)俄羅斯方塊小游戲
最后我們?cè)囋囉⑽奶崾驹~:
Create a full featured version of tetris with beautiful graphics and controls.
創(chuàng)建一個(gè)具有精美圖形和控制功能的完整版俄羅斯方塊。
可以看到,DeepSeek-R1-0528思考12秒后就給出了一段python代碼。

運(yùn)行結(jié)果be like:
雖然確實(shí)是俄羅斯方塊小游戲,但基本演示存在明顯bug,而且缺少交互按鈕。

不死心的我們嘗試讓DeepSeek繼續(xù)改進(jìn),結(jié)果第二次還是翻車了。

改進(jìn)后的游戲依舊無法正常運(yùn)行(總是穿墻而過),且未實(shí)現(xiàn)我們明確要求的交互功能。

小結(jié)一下,從以上簡(jiǎn)單實(shí)測(cè)來看,DeepSeek新版R1作為一款開源模型,在編程能力上確實(shí)大有進(jìn)步,但仍有一定提升空間。
不過有一說一,它對(duì)咱們國內(nèi)普通用戶明顯更友好(相對(duì)Claude模型來說免費(fèi)又易于獲?。?/em>。
One More Thing
除了編程能力榜單更新,DeepSeek新版R1還當(dāng)選了當(dāng)前最好的開源文本模型。
MIT許可證下,總榜第六,開源當(dāng)中第一。

而在細(xì)分領(lǐng)域,它在困難提示方面排名第4,在數(shù)學(xué)方面排名第5,屬于開源模型中相當(dāng)能打的玩家。

不過值得一提的是,Kimi新模型剛剛拿下代碼開源SOTA——
參數(shù)量?jī)H72B的開源代碼模型Kimi-Dev,在SWE-bench Verified上以60.4%的成績(jī)?nèi)〉瞄_源SOTA。
不僅編程水平比最新的DeepSeek-R1還強(qiáng),和閉源模型比較也表現(xiàn)優(yōu)異。

不知道其真實(shí)能力又如何呢(doge)~
- 厲害了,智譜造了全球首個(gè)手機(jī)通用Agent!人人免費(fèi),APP甚至直接操控云電腦2025-08-20
- 美國專家來中國轉(zhuǎn)了一圈:AI比賽已經(jīng)結(jié)束了2025-08-19
- 一張圖0.1秒生成上半身3D化身!清華IDEA新框架入選ICCV 20252025-08-21
- “半路截胡”張益唐,北大出身的中山大學(xué)校長(zhǎng)這樣做2025-08-21