強(qiáng)化學(xué)習(xí)
突破Agent長程推理效率瓶頸!MIT&NUS聯(lián)合推出強(qiáng)化學(xué)習(xí)新訓(xùn)練方法
速度提升3.5倍,顯存降至1/4
強(qiáng)化學(xué)習(xí)+MCP=王炸?開源框架教AI在MCP中玩轉(zhuǎn)工具解決任務(wù),實(shí)測效果超越GPT!
強(qiáng)化學(xué)習(xí)+任意一張牌,往往就是王炸。
官方揭秘ChatGPT Agent背后原理!通過強(qiáng)化學(xué)習(xí)讓模型自主探索最佳工具組合
Plus用戶每月40次使用額度
獎(jiǎng)勵(lì)模型也能Scaling!上海AI Lab突破強(qiáng)化學(xué)習(xí)短板,提出策略判別學(xué)習(xí)新范式
POLAR:與絕對(duì)偏好解耦的策略判別學(xué)習(xí)
4B小模型數(shù)學(xué)推理首超Claude 4,700步RL訓(xùn)練逼近235B性能 | 港大&字節(jié)Seed&復(fù)旦
一種用在高級(jí)推理模型上Scaling RL的后訓(xùn)練方法
大模型刷數(shù)學(xué)題竟有害?CMU評(píng)估20+模型指出訓(xùn)練陷阱
數(shù)學(xué)強(qiáng),不代表啥都好
性能提升84%-166%!L-Zero僅靠強(qiáng)化學(xué)習(xí)解鎖大模型探索世界的能力 | 已開源
展現(xiàn)了通往更高級(jí)通用智能的清晰路徑
7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強(qiáng)推理LLM | Transformer作者團(tuán)隊(duì)
讓教師模型“教學(xué)”而不是“解決”
MSRA清北推出強(qiáng)化預(yù)訓(xùn)練!取代傳統(tǒng)自監(jiān)督,14B模型媲美32B
將強(qiáng)化學(xué)習(xí)深度融入LLM預(yù)訓(xùn)練階段
強(qiáng)化學(xué)習(xí)之父:LLM主導(dǎo)只是暫時(shí),擴(kuò)展計(jì)算才是正解
模仿人類思維方式,只能帶來短期的性能提升
挑戰(zhàn)強(qiáng)化學(xué)習(xí)后訓(xùn)練霸權(quán)!全新無監(jiān)督方法僅需1條數(shù)據(jù)+10步優(yōu)化
無需標(biāo)注、拋棄復(fù)雜獎(jiǎng)勵(lì)設(shè)計(jì)
無需數(shù)據(jù)標(biāo)注!測試時(shí)強(qiáng)化學(xué)習(xí),模型數(shù)學(xué)能力暴增 | 清華&上海AI Lab
AIME 2024準(zhǔn)確率提升159%
大模型RL不止數(shù)學(xué)代碼!7B獎(jiǎng)勵(lì)模型搞定醫(yī)學(xué)法律經(jīng)濟(jì)全學(xué)科, 不用思維鏈也能做題
將強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到醫(yī)學(xué)、化學(xué)、法律、心理學(xué)、經(jīng)濟(jì)學(xué)等多學(xué)科
業(yè)界突破多模態(tài)泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術(shù)
基于動(dòng)態(tài)強(qiáng)化學(xué)習(xí)
不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數(shù)學(xué)推理極限
大模型數(shù)學(xué)推理任務(wù)面臨”三重門”困局。
僅需一萬塊錢!清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓7B模型數(shù)學(xué)打敗GPT-4o
新的結(jié)合過程獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法
高瓴、藍(lán)馳領(lǐng)投靈初智能,致力于打造業(yè)界領(lǐng)先通用靈巧操作智能體
靈初智能將從2B服務(wù)業(yè)切入
最好7B模型再易主!打敗700億LLaMA2,蘋果電腦就能跑,還開源免費(fèi)
舍棄強(qiáng)化學(xué)習(xí)