邁向群體智能 | 智源首個跨本體具身大小腦協(xié)作框架與開源具身大腦
推動單機智能邁向群體智能
允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
3月29日,智源研究院在2025中關村論壇“未來人工智能先鋒論壇”上發(fā)布首個跨本體具身大小腦協(xié)作框架RoboOS與開源具身大腦RoboBrain,可實現(xiàn)跨場景多任務輕量化快速部署與跨本體協(xié)作,推動單機智能邁向群體智能,為構建具身智能開源統(tǒng)一生態(tài)加速場景應用提供底層技術支持。

△基于RoboOS及RoboBrain的多機器人跨本體協(xié)作遞送任務Demo
視頻鏈接:
https://mp.weixin.qq.com/s/APgi5k53hrJo8lpxcAkE-g
增強長程操作任務能力,打造感知-認知-決策-行動閉環(huán)

在具身場景中,長程操作任務是機器人執(zhí)行復雜任務的核心能力之一。具身大腦RoboBrain融合了機器人任務規(guī)劃、可操作區(qū)域感知、軌跡預測的三維能力,通過將抽象指令映射為具象動作序列,增強長程操作任務的能力。
RoboBrain由三個模塊組成:用于任務規(guī)劃的基座模型、用于可操作區(qū)域感知的A-LoRA模塊和用于軌跡預測的T-LoRA模塊。在推理時,模型首先感知視覺輸入,并將輸入指令分解為一系列可執(zhí)行的子任務,然后執(zhí)行可操作區(qū)域感知和軌跡預測。RoboBrain采用多階段訓練策略,使其具備長歷史幀記憶和高分辨率圖像感知能力,進而提升場景感知和操作規(guī)劃的能力。
RoboBrain 在任務規(guī)劃、可操作區(qū)域感知和軌跡預測評測任務中均表現(xiàn)出卓越性能。
在任務規(guī)劃方面,RoboBrain在不犧牲通用能力的前提下,在機器人規(guī)劃評測集OpenEQA、ShareRobot(自建)和RoboVQA上多個維度優(yōu)于GPT-4V、Claude3等6個當時領先的閉源/開源MLLMs。

△RoboBrain在具身規(guī)劃評測基準上的性能
在可操作區(qū)域感知方面,RoboBrain在AGD20K測試集上的平均精度超過了當時最先進的開源模型Qwen2-VL,驗證了其在指令理解和物體屬性方面的卓越能力。

△RoboBrain在可操作區(qū)域感知基準上的性能

△RoboBrain在軌跡預測基準上的性能
在軌跡預測方面,RoboBrain預測的操作軌跡具有與真實軌跡較高的相似度,展現(xiàn)了其在軌跡預測中的高精度和穩(wěn)定性。RoboBrain的未來迭代版本會持續(xù)提高軌跡預測的能力。
目前,RoboBrain能夠解讀人類指令和視覺圖像,以生成基于實時圖像反饋的行動計劃和評估,預測每一步的軌跡并感知相應的可操作區(qū)域。具體而言,RoboBrain 能夠有效利用環(huán)境信息和交互對象的狀態(tài)——無論是從第一人稱還是第三人稱視角捕捉的圖像——生成針對不同類型機器人操作任務的任務規(guī)劃,并基于人類指令和視覺信息,提供合理的可操作區(qū)域,并能在不同場景中表現(xiàn)出良好的泛化能力,生成既可行又合理的軌跡。

具身大腦RoboBrain、小腦技能庫以及跨機器人數(shù)據(jù)中樞,是跨本體框架RoboOS的核心要素。具身大腦RoboBrain,負責全局感知與決策,構建動態(tài)時空感知、規(guī)劃指導和反饋糾錯機制;小腦技能庫,負責低延遲精準執(zhí)行,實現(xiàn)柔性與精密操作等;跨機器人數(shù)據(jù)中樞,負責實時共享空間、時間和本體記憶,為決策規(guī)劃與優(yōu)化協(xié)作操作提供信息支持,從而形成感知-認知-決策-行動的閉環(huán)。
一腦多機實現(xiàn)跨本體協(xié)作,從單體智能邁向群體智能
跨本體具身大小腦協(xié)作框架RoboOS,基于“大腦-小腦”分層架構,通過模塊化設計、智能任務管理和跨本體協(xié)作,為機器人提供高效、靈活、可擴展的底層支持,實現(xiàn)從單機智能到群體智能的躍遷。
在RoboOS的分層架構下,具身大腦RoboBrain的復雜場景感知與決策能力,可與小腦技能庫的高效執(zhí)行能力深度結合,確保協(xié)作框架在長周期、高動態(tài)任務中的穩(wěn)定運行。實現(xiàn)大腦模型(如LLM/VLM)與小腦技能(如抓取、導航)的“即插即用”,目前,可支持松靈雙臂、睿爾曼單/雙臂、智元人形、宇樹人形等不同類型的具身本體。
通過共享記憶系統(tǒng)(空間記憶/時間記憶/本體記憶),實現(xiàn)多個機器人之間的狀態(tài)同步與智能協(xié)作,突破傳統(tǒng)“信息孤島”限制,實現(xiàn)跨本體協(xié)作控制。
RoboOS可動態(tài)管理多機器人任務隊列,支持優(yōu)先級搶占與資源優(yōu)化分配,確保復雜場景下實時響應,實現(xiàn)高并發(fā)任務調(diào)度。
此外,RoboOS可基于執(zhí)行反饋動態(tài)調(diào)整策略,結合環(huán)境變化,持續(xù)優(yōu)化任務規(guī)劃,提升魯棒性,做到實時閉環(huán)優(yōu)化。
在“遞送蘋果和水果刀”的任務場景中,基于RoboOS及RoboBrain,睿爾曼單臂機器人(轉運)、宇樹人形G1(挑揀水果)、松靈雙臂機器人(挑揀水果刀)分工協(xié)作。
整體任務流程是睿爾曼調(diào)用“導航技能”移動至餐桌前,宇樹G1調(diào)用“視覺抓取技能”完成指定物體的挑揀,睿爾曼調(diào)用“抓取技能”提起果籃并導航至松靈餐桌前。緊接著,松靈調(diào)用“抓取技能”獲取水果刀,并放置在果籃中心,睿爾曼依據(jù)“空間記憶”導航至辦公桌位置,遞送果籃后返回待命。
RoboOS接收“拿離杯子最近的水果,并遞送一把水果刀”指令后,遞送RoboBrain進行任務拆解,并將拆解后的子任務分發(fā)給3臺跨本體機器人。RoboBrain通過 “空間記憶” 感知環(huán)境,確定果籃、蘋果位置,并拆解任務為“宇樹G1挑揀蘋果→睿爾曼傳遞果籃→松靈機器人抓取水果刀→睿爾曼返回”。
各機器人本體執(zhí)行子任務過程中,由RoboOS提供端云協(xié)作能力,將任務規(guī)劃為技能粒度,實現(xiàn)云端RoboBrain分發(fā)規(guī)劃,端側執(zhí)行技能并實時反饋。RoboBrain識別“離杯子最近的水果位置”、“果籃抓取位置affordance”、“水果刀抓取位置affordance”、“果籃空閑位置Pointing”,經(jīng)由RoboOS遞送指導各機器人本體完成任務。
“即插即用”快速輕量化泛化部署,打造統(tǒng)一生態(tài)
RoboOS 作為面向多機器人系統(tǒng)的跨本體具身大小腦協(xié)作框架,專為解決當前具身智能落地過程中的通用性適配與多機調(diào)度難題而設計。針對異構本體難以統(tǒng)一接入、任務調(diào)度效率低、缺乏動態(tài)錯誤反饋機制等痛點,基于RoboOS 的“大小腦協(xié)同”的架構范式,云端的具身大腦 RoboBrain 負責統(tǒng)一的任務理解、規(guī)劃決策與上下文感知,本體側則接入輕量級的小腦執(zhí)行模塊,實現(xiàn)感知-認知-決策-行動的閉環(huán)協(xié)作。
該機制能夠動態(tài)感知本體差異、靈活適配操作指令、自動修復異常行為,有效提升系統(tǒng)在復雜任務場景下的魯棒性與泛化性。RoboOS 原生支持異構機器人本體的靈活接入,以 Profile 模板機制快速完成機器人能力建模與適配。
本體的小腦模塊可調(diào)用包括開源技能庫、自研低階控制器等多種技能接口,形成一個支持模塊復用、即插即用的運行體系,大幅降低開發(fā)門檻與接入成本。
在云端,RoboOS 提供完備的模型適配與 API 接入能力,兼容自研的多模態(tài) VLM,作為可插拔的大腦決策引擎,從而在服務機器人、工業(yè)自動化、智慧物流、智能制造等領域支撐復雜任務的多機協(xié)作需求。
借助 RoboOS 的端云一體化協(xié)同能力與動態(tài)調(diào)度機制,整個系統(tǒng)不僅具備高度的擴展性與可遷移性,更為未來具身智能的規(guī)模部署與生態(tài)構建奠定了通用操作系統(tǒng)級的基礎。

RoboOS基于智源研究院研發(fā)的并行訓練與推理框架FlagScale,原生支持多機器人系統(tǒng)的端云協(xié)同能力,打造具身智能的統(tǒng)一底座。系統(tǒng)在設計上充分考慮“多機器人-多模態(tài)-多任務”場景,具備極高的可擴展性與低時延響應能力。
在端側部署中,機器人注冊即可自動與云端部署的RoboBrain大腦建立雙向通信鏈路,通過高效發(fā)布-訂閱機制實現(xiàn)實時任務調(diào)度與狀態(tài)反饋,指令響應延遲低于10ms,滿足復雜動態(tài)任務的閉環(huán)控制需求。
面向機器人在長期運行中產(chǎn)生的海量感知與行為數(shù)據(jù),RoboOS 提供基于內(nèi)存優(yōu)化的數(shù)據(jù)訪問引擎,支持TB級別歷史數(shù)據(jù)的內(nèi)存隨機訪問能力,為任務復現(xiàn)、異?;厮荨⒖缛蝿罩R遷移等場景提供基礎能力。結合 RoboBrain 的任務推理與策略優(yōu)化模塊,歷史數(shù)據(jù)還可用于多機之間的協(xié)作知識共享,實現(xiàn)更強的智能演化與自主學習能力。
此外,F(xiàn)lagScale 作為底層支撐框架,支持大模型在多設備間的并行推理與多任務協(xié)同調(diào)度,可無縫集成視覺語言模型、軌跡生成模塊、感知識別等子系統(tǒng),全面釋放具身大模型的系統(tǒng)潛力。
目前,智源研究院依托多模態(tài)大模型技術優(yōu)勢資源,正在聯(lián)合北大、清華、中科院等高校院所以及銀河通用、樂聚、加速進化、宇樹等產(chǎn)業(yè)鏈上下游企業(yè),積極建設具身智能創(chuàng)新平臺,重點開展數(shù)據(jù)、模型、場景驗證等研究。
此次智源研究院發(fā)布的跨本體具身大小腦協(xié)作框架RoboOS及開源具身大腦RoboBrain,將有機融合和廣泛鏈接不同構型的具身本體與豐富多元的具身模型,加速具身智能跨本體協(xié)作與規(guī)?;瘧谩?/p>
開放、協(xié)作、共享,是具身智能生態(tài)繁榮的必經(jīng)之路,智源研究院愿攜手更多產(chǎn)業(yè)合作伙伴,共繪具身智能生態(tài)藍圖。
開源鏈接:
具身多模態(tài)大腦模型RoboBrain
Github: https://github.com/FlagOpen/RoboBrain
Gitee: https://gitee.com/flagopen/robo-brain
Huggingface:https://huggingface.co/BAAI/RoboBrain
為機器人操作任務設計的高質量異構數(shù)據(jù)集ShareRobot
GitHub:https://github.com/FlagOpen/ShareRobot
Gitee: https://gitee.com/flagopen/share-robot
Huggingface: https://huggingface.co/datasets/BAAI/ShareRobot
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18