北大提出首個通用指令導(dǎo)航大模型系統(tǒng) | CoRL 24
機器人學(xué)會導(dǎo)航了!
董豪團隊 投稿
量子位 | 公眾號 QbitAI
想象一下當你躺在沙發(fā)上,只需要不假思索地說出指令,機器人就能幫你干活,是不是聽起來就十分愜意?
如今這種科幻電影中的場景正在變?yōu)楝F(xiàn)實,來自北京大學(xué)的助理教授、博士生導(dǎo)師董豪團隊近日提出首個通用指令導(dǎo)航大模型系統(tǒng)InstructNav。
不論是尋找物體,走到指定位置,還是滿足抽象的人類需求,只要你說出指令,InstructNav都能幫你實現(xiàn)。
目前該工作已經(jīng)被CoRL?(Conference on Robot Learning)2024會議錄用,文章可在Arxiv瀏覽,代碼也即將在近期開源。

大模型如何統(tǒng)一具身指令導(dǎo)航規(guī)劃?
不同的導(dǎo)航任務(wù)要求截然不同的能力,經(jīng)典的物體導(dǎo)目標航任務(wù)需要理解房間結(jié)構(gòu)和物體之間的聯(lián)系,視覺語言導(dǎo)航任務(wù)側(cè)重于嚴謹?shù)刈裱噶睿屡d的需求驅(qū)動的導(dǎo)航任務(wù)要求根據(jù)人類抽象需求進行語義推理。
先前研究工作都圍繞某一種特定類型的指令設(shè)計一個特定類型的導(dǎo)航方法,然而在真實應(yīng)用中,人類可能向機器人下達不同形式的指令,甚至混合類型指令,現(xiàn)有的具身導(dǎo)航模型都無法滿足這樣的實際需求,因此實現(xiàn)通用指令導(dǎo)航對于機器人在現(xiàn)實世界的應(yīng)用充滿價值。
為了實現(xiàn)這一目標,作者首先提出動態(tài)導(dǎo)航鏈路(Dynamic Chain-of-Navigation)這一全新的導(dǎo)航規(guī)劃范式,將不同類型的導(dǎo)航指令統(tǒng)一為“導(dǎo)航動作 1 – 標志物1 -> 導(dǎo)航動作 2 – 標志物 2 … ”的標準形式。
InstructNav利用大語言模型在任務(wù)規(guī)劃和常識推理上的卓越能力,根據(jù)原始指令規(guī)劃導(dǎo)航鏈路。
在導(dǎo)航過程中,InstructNav會根據(jù)最新觀測到的場景物體不斷更新導(dǎo)航鏈路,引導(dǎo)機器人對于環(huán)境進行有效探索。
例如,當指令要求“尋找沙發(fā)”時,動態(tài)導(dǎo)航鏈路會被更新為“探索 – 電視”附近區(qū)域,因為電視旁邊最可能存在沙發(fā)。

構(gòu)建大模型推理到價值地圖的映射
以上由大模型規(guī)劃的動態(tài)導(dǎo)航鏈路和控制機器人底層動作之間仍然存在較大差異。
為了引導(dǎo)機器人根據(jù)動態(tài)導(dǎo)航鏈路行動,作者提出將大模型的規(guī)劃結(jié)果映射到多源價值地圖(Multi-sourced Value Maps)上,這些價值地圖包括:
- 動作價值地圖(Action Value Map):賦予待執(zhí)行動作對應(yīng)的區(qū)域更高可導(dǎo)航價值。
- 語義價值地圖(Semantic Value Map):賦予標志物對應(yīng)的區(qū)域更高可導(dǎo)航價值。
- 直覺價值地圖(Intuition Value Map):利用多模態(tài)大模型判斷全景圖中最適合移動的區(qū)域,并賦予更高可導(dǎo)航價值。
- 軌跡價值地圖(Trajectory Value Map):賦予遠離現(xiàn)有軌跡的區(qū)域更高的可導(dǎo)航價值。

通過對多源價值地圖相加求和即可得到決策價值地圖(Decision-making Value Map)。
在決策價值地圖上選取最高價值點作為下一途徑點,然后利用點到點的路徑規(guī)劃算法即可實現(xiàn)對于機器人底層移動的控制。
多個零樣本導(dǎo)航任務(wù)新SOTA
作者在經(jīng)典的物體目標導(dǎo)航任務(wù),視覺語言導(dǎo)航任務(wù)以及最新的需求導(dǎo)航任務(wù)上開展標準化評測。
從以下表格中可以觀察到,InstructNav首次實現(xiàn)連續(xù)環(huán)境下零樣本的視覺語言導(dǎo)航,并在零樣本的物體目標導(dǎo)航和需求驅(qū)動導(dǎo)航任務(wù)上全面超越所有的現(xiàn)有方法,獲得最高成功率。

文章鏈接:https://arxiv.org/pdf/2406.04882
項目鏈接:https://sites.google.com/view/instructnav
代碼鏈接:https://github.com/LYX0501/InstructNav
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08