推理模型
Qwen緊追OpenAI開(kāi)源4B端側(cè)大模型,AIME25得分超越Claude 4 Opus
“這下沒(méi)人談?wù)揙penAI昨天開(kāi)源了啥”
剛剛,OpenAI開(kāi)源2個(gè)推理模型:筆記本/手機(jī)就能跑,性能接近o4-mini
技術(shù)博客也已發(fā)布
4B小模型數(shù)學(xué)推理首超Claude 4,700步RL訓(xùn)練逼近235B性能 | 港大&字節(jié)Seed&復(fù)旦
一種用在高級(jí)推理模型上Scaling RL的后訓(xùn)練方法
螞蟻開(kāi)源輕量級(jí)推理模型Ring-lite,多項(xiàng)Benchmark達(dá)到SOTA
首創(chuàng) C3PO 強(qiáng)化學(xué)習(xí)訓(xùn)練方法
蘋(píng)果炮轟推理模型全是假思考!4個(gè)游戲戳破神話,o3/DeepSeek高難度全崩潰
網(wǎng)友:自己落后還要酸別人
一句話讓DeepSeek思考停不下來(lái),北大團(tuán)隊(duì):這是針對(duì)AI的DDoS攻擊
過(guò)度推理攻擊,會(huì)導(dǎo)致GPU資源大量占用
Claude 4被曝發(fā)布在即!被DeepSeek逼得都把大招拿出來(lái)了
通用+推理二合一,手動(dòng)調(diào)節(jié)思考時(shí)長(zhǎng)
o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設(shè)計(jì)測(cè)試時(shí)推理策略,無(wú)需人類(lèi)干預(yù)
競(jìng)賽編程,推理模型新戰(zhàn)場(chǎng)
推理模型新路線開(kāi)源!與DeepSeek截然不同,拋棄思維鏈不用人類(lèi)語(yǔ)言思考
能捕捉到難以用語(yǔ)言表達(dá)的推理類(lèi)型
國(guó)內(nèi)數(shù)學(xué)最強(qiáng)!實(shí)測(cè)訊飛版o1:上能打奧賽卷高考,下能輔導(dǎo)寒假作業(yè)
“三個(gè)第一”,打出了差異化優(yōu)勢(shì)