Qwen版o1發(fā)布即開源!32B參數(shù)比肩OpenAI o1-mini,一手實測在此
抱抱臉和魔搭社區(qū)可在線試玩
克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
通義千問版o1來了,還是開源的!
深夜,通義團隊突然上線推理模型QwQ,參數(shù)量只有32B,在GPQA上擊敗了o1-mini。
目前,QwQ的模型權(quán)重已在HuggingFace和魔搭社區(qū)上發(fā)布,還可以直接在線試玩。
Ollama、Together.ai等大模型平臺也迅速跟進,第一時間宣布支持QwQ運行。
還有網(wǎng)友實測發(fā)現(xiàn),對于自己手中的一道化學(xué)計算題,QwQ是除了o1之外唯一能答對的。

此外有網(wǎng)友指出,QwQ預(yù)覽版參數(shù)量只有32B,這意味著o1水平的推理模型,在本地就能運行了。
推理能力尚可,但簡潔度需加強
按照官方放出的成績,QwQ、o1-preview和o1-mini在GPQA(科學(xué)推理)、AIME、MATH-500(數(shù)學(xué))以及LiveCodeBench(代碼)四個數(shù)據(jù)集中各有勝負,但整體水平比較接近。
而相比GPT-4o、Claude 3.5 Sonnet和自家的Qwen2.5,領(lǐng)先優(yōu)勢就比較明顯了。
至于QwQ的實際推理能力到底如何,我們就拿o1-mini對比著測試一下~
首先是官方展示的一道邏輯推理題目:
對于這個問題,QwQ用了足足兩千多字進行了分析,這是其中的核心思路:
之后,QwQ開始了近乎列舉式的分析方式,一張一張牌地來判斷,但好在最終得到的結(jié)果是正確的。
相比之下,o1-mini的回答就顯得十分簡潔了。
再來一道經(jīng)典的邏輯題,果不其然QwQ又寫起了小作文,而且這次更甚,有4千多字,而且依然是主打一個“試”。
經(jīng)過對列出情況的逐個嘗試和檢查,一段時間后得到了最后的正確答案。
再看看o1-mini,用很簡單的文字就把問題解釋了,推理效率要高得多。
雖然QwQ解釋得詳細些不是壞事,但中間的錯誤嘗試對于提問者而言就顯得有些多余了。
除了基礎(chǔ)邏輯,再來看看QwQ的數(shù)學(xué)水平如何,先來幾道考研數(shù)學(xué)題試試。
第一題關(guān)于微分方程,題目是這樣的,我們稍作了改動,要求模型以x=_的形式輸出:
QwQ依然采用了長篇大論的作答方式,整串回答有將近1400字。
不過仔細看會發(fā)現(xiàn),QwQ的中間過程出現(xiàn)了失敗,然后又改用了其他的方式。
折騰了一番之后,結(jié)果倒也沒有錯。
而o1-mini的回答依然保持簡潔。
即使把o1-mini默認不顯示的“思考過程”展示出來,依然是沒有QwQ的回答那么長。
第二道題目是線性代數(shù)題,這道題我們也做了修改,從選擇題改成了直接求A3的跡:
這次相比之前,QwQ的回答要簡潔一些,但還是有上千字,當(dāng)然結(jié)果依然是對的,o1-mini也依然保持簡潔。
第三道題關(guān)于概率論,情況大致和前面兩道類似,這里就直接上圖:
(QwQ方框中的答案把根號漏了,不過這里是顯示問題,從正文看答案是正確的)
除了這樣的純數(shù)學(xué)題目,情景式的數(shù)學(xué)問題也是考察模型能力的一項重要標(biāo)準。
所以這里我們選擇了一道數(shù)學(xué)競賽AIME的題目:
翻譯過來是這樣的,測試中我們也是用的這段中文翻譯版本:
o1-mini的解法是一種正常思路,最后結(jié)果也對了,而QwQ這邊上來先是一大通的枚舉,然后試圖從中尋找規(guī)律。
當(dāng)發(fā)現(xiàn)沒找到規(guī)律時,還會進行更多的枚舉,但是最后找出的規(guī)律并不正確,結(jié)果自然也就錯了(不過方向上確實和5的模相關(guān))。
從以上的案例當(dāng)中可以看到,如果單看正確率,QwQ的表現(xiàn)確實可以和o1-mini同臺較量。
但從過程中看,QwQ想一步到位還存在一定難度,還要經(jīng)歷列舉、試錯等步驟,甚至有時會陷入死循環(huán)。
這導(dǎo)致了其結(jié)果對于人類的的易讀性和o1-mini還存在差距,QwQ需要在這一點上再多改進。
好在QwQ是個開源模型,如果是按token計費的商用模型,這樣的輸出長度恐怕也會讓人望而卻步。
當(dāng)然對于這樣的問題,千問團隊自身也十分坦然,表示處于測試階段的QwQ,確實存在冗長而不夠聚焦的現(xiàn)象,將會在未來做出改進。
One More Thing
除了這些正經(jīng)題目,我們也試了試陷阱問題,看下QwQ能不能看出其中的破綻。
問題是這樣的,注意是不需要:
遺憾的是,QwQ并沒有發(fā)現(xiàn)這個關(guān)鍵點,而且當(dāng)做一道正常的農(nóng)夫過河問題進行了回答。
不過這也算是大模型的一個通病了,OpenAI的o1在這樣的文字游戲面前照樣招架不住。
實際上這個問題最早被關(guān)注是在幾個月之前了,當(dāng)時還沒有o1這樣的推理模型,大模型幾乎在這個問題上全軍覆沒。
現(xiàn)在看來,推理能力增強后,也依然沒改掉不認真讀題的毛病?。ㄊ謩庸奉^)。
參考鏈接:
https://qwenlm.github.io/blog/qwq-32b-preview/
體驗地址(Hugging Face):
https://huggingface.co/spaces/Qwen/QwQ-32B-preview
體驗地址(魔搭社區(qū)):
https://modelscope.cn/studios/Qwen/QwQ-32B-preview
- GPT-5 Pro獨立做數(shù)學(xué)研究!讀論文后給出更精確邊界,OpenAI總裁:這是生命跡象2025-08-21
- 黃仁勛子女成長路徑曝光:一個學(xué)烘焙一個開酒吧,從基層做到英偉達高管2025-08-12
- 讓64張卡像一張卡!浪潮信息發(fā)布新一代AI超節(jié)點,支持四大國產(chǎn)開源模型同時運行2025-08-11
- 快來看看GPT-5第一波實測2025-08-08