人形機(jī)器人首次打通視覺(jué)感知與運(yùn)動(dòng)斷層,UC伯克利華人博士讓宇樹(shù)G1現(xiàn)場(chǎng)演示
聞樂(lè) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
不用提前熟悉環(huán)境,一聲令下,就能讓宇樹(shù)機(jī)器人坐在椅子上、桌子上、箱子上!

還能直接解鎖 “跨過(guò)箱子”、“敲門(mén)” 等任務(wù)~

這是來(lái)自UC伯克利、卡內(nèi)基梅隆大學(xué)等團(tuán)隊(duì)的最新研究成果LeVERB框架——
基于模擬數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)零樣本部署,讓人形機(jī)器人通過(guò)感知新環(huán)境,理解語(yǔ)言指令就能直接完成全身動(dòng)作。

傳統(tǒng)人形機(jī)器人要么 “能看懂指令卻動(dòng)不了”(缺乏全身控制能力),要么 “只能機(jī)械執(zhí)行動(dòng)作卻讀不懂環(huán)境”(依賴(lài)人工預(yù)設(shè)動(dòng)作庫(kù))。
LeVERB首次打通了視覺(jué)語(yǔ)義理解與物理運(yùn)動(dòng)兩者之間的斷層,讓機(jī)器人能像人類(lèi)一樣從“想”到“做”,自動(dòng)感知環(huán)境,直接遵循指令完成動(dòng)作。
上面展示的“坐下”動(dòng)作就是通過(guò)“相機(jī)感知環(huán)境+’坐在[椅子/盒子/桌子]上’指令”完成的:

團(tuán)隊(duì)還推出了配套基準(zhǔn):LeVERB-Bench。
這是首個(gè)面向人形機(jī)器人WBC(全身控制)的 “仿真到真實(shí)” 視覺(jué)-語(yǔ)言閉環(huán)基準(zhǔn),包含10類(lèi)超150個(gè)任務(wù)。

團(tuán)隊(duì)將該框架部署在宇樹(shù)G1機(jī)器人上進(jìn)行基準(zhǔn)測(cè)試,結(jié)果顯示:
在簡(jiǎn)單視覺(jué)導(dǎo)航任務(wù)中零樣本成功率達(dá)80%,整體任務(wù)成功率58.5%,比樸素分層VLA(視覺(jué)-語(yǔ)言-動(dòng)作)方案的性能強(qiáng)7.8倍。
目前,LeVERB-Bench數(shù)據(jù)集已在LeRobot格式中開(kāi)源,項(xiàng)目的完整代碼也即將發(fā)布。
雙層系統(tǒng)實(shí)現(xiàn)從“想”到“做”的全身動(dòng)作
多數(shù)視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型在控制機(jī)器人時(shí),依賴(lài)手工設(shè)計(jì)的底層動(dòng)作 “詞匯”(如末端執(zhí)行器姿勢(shì)、根部速度等)。
這使得它們只能處理準(zhǔn)靜態(tài)任務(wù),無(wú)法應(yīng)對(duì)人形機(jī)器人全身控制(WBC)所需的靈活全身動(dòng)作。
簡(jiǎn)單來(lái)說(shuō),以前的機(jī)器人要么高層直接控制細(xì)節(jié)(就像大腦同時(shí)管走路和思考,效率低),要么底層不懂語(yǔ)義(就像四肢只聽(tīng)簡(jiǎn)單命令,復(fù)雜任務(wù)做不了)。
而人形機(jī)器人是高維非線(xiàn)性動(dòng)態(tài)系統(tǒng),需要高頻控制與低頻規(guī)劃結(jié)合,傳統(tǒng)方法缺乏對(duì)視覺(jué)和語(yǔ)言語(yǔ)義的有效整合。
于是,團(tuán)隊(duì)提出將高層的視覺(jué)-語(yǔ)言指令壓縮映射為一個(gè)動(dòng)作向量,也就是一個(gè)抽象指令,這種指令能夠被底層的動(dòng)作模塊識(shí)別并執(zhí)行。
在LeVERB框架中,這個(gè)抽象指令被稱(chēng)為“潛在動(dòng)作詞匯”。
LeVERB框架由分層雙系統(tǒng)組成,這兩層系統(tǒng)以“潛在動(dòng)作詞匯”作為接口。
該方法的最終目標(biāo)是使兩層的“潛在動(dòng)作詞匯”保持一致,讓高層專(zhuān)注 “理解任務(wù)”,底層專(zhuān)注 “做好動(dòng)作”,各取所長(zhǎng)。
LeVERB框架

-
高層LeVERB-VL(想):一個(gè)基于Transformer的102.6M視覺(jué)語(yǔ)言主干,將語(yǔ)言指令和視覺(jué)上下文轉(zhuǎn)換為潛在動(dòng)詞,運(yùn)行頻率10Hz。

LeVERB-VL負(fù)責(zé)理解 “看到的東西” 和 “聽(tīng)到的話(huà)”。比如看到 “去坐藍(lán)色椅子”,它會(huì)先分析 “藍(lán)色椅子在哪”“怎么過(guò)去”,但不直接控制動(dòng)作細(xì)節(jié),而是把想法轉(zhuǎn)化成一種 “抽象指令”。
它通過(guò)VLA先驗(yàn)?zāi)K、運(yùn)動(dòng)學(xué)編碼器、殘差潛在空間、運(yùn)動(dòng)學(xué)解碼器和判別器等組件,將視覺(jué)和語(yǔ)言輸入映射到平滑規(guī)則的潛在詞匯空間,為運(yùn)動(dòng)控制生成潛在動(dòng)作計(jì)劃。
訓(xùn)練時(shí),通過(guò)軌跡重建、分布對(duì)齊和對(duì)抗分類(lèi)三部分優(yōu)化模型,同時(shí)采用數(shù)據(jù)混合策略增強(qiáng)數(shù)據(jù)多樣性,并對(duì)超參數(shù)進(jìn)行精細(xì)設(shè)置,以實(shí)現(xiàn)對(duì)視覺(jué) – 語(yǔ)言信息的高效處理和準(zhǔn)確決策 。
-
底層LeVERB-A(做):一個(gè)基于Transformer的1.1M全身動(dòng)作專(zhuān)家,利用強(qiáng)化學(xué)習(xí)訓(xùn)練的WBC策略,接收高層的潛在動(dòng)作指令,將潛在動(dòng)詞解碼為動(dòng)力學(xué)級(jí)的人形動(dòng)作輸出,運(yùn)行頻率50Hz。

這部分作用是將LeVERB-VL生成的潛在指令轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)力學(xué)級(jí)動(dòng)作。
訓(xùn)練時(shí),先通過(guò)近端策略?xún)?yōu)化算法訓(xùn)練與視覺(jué)-語(yǔ)言無(wú)關(guān)的教師策略,再使用DAgger算法和Huber損失函數(shù)將教師策略的動(dòng)作蒸餾到以潛在命令為條件的學(xué)生策略(即LeVERB-A)中。
運(yùn)行時(shí),LeVERB-A接收本體感受信息和潛在向量,采用Transformer架構(gòu)輸出經(jīng)重新參數(shù)化的扭矩級(jí)關(guān)節(jié)位置動(dòng)作指令,并在機(jī)器人板載CPU上用C++實(shí)現(xiàn)實(shí)時(shí)推理,完成人形機(jī)器人的全身控制 。
LeVERB-Bench
無(wú)法衡量就無(wú)法展開(kāi)下一步工作,團(tuán)隊(duì)還專(zhuān)門(mén)提出了一個(gè)人形機(jī)器人視覺(jué)-語(yǔ)言全身控制(WBC)任務(wù)的配套基準(zhǔn)LeVERB-Bench。
在人形機(jī)器人WBC領(lǐng)域,用于訓(xùn)練VLA模型的演示數(shù)據(jù)稀缺?,F(xiàn)有基準(zhǔn)存在諸多問(wèn)題,如僅關(guān)注locomotion、在狀態(tài)空間中無(wú)視覺(jué)、渲染不真實(shí)導(dǎo)致仿真與現(xiàn)實(shí)差距大等,無(wú)法滿(mǎn)足研究需求。
LeVERB-Bench在仿真中重放重定向的動(dòng)作捕捉(MoCap)運(yùn)動(dòng),收集逼真的軌跡數(shù)據(jù)。這種方式無(wú)需在數(shù)據(jù)收集時(shí)進(jìn)行可靠的動(dòng)態(tài)控制,運(yùn)動(dòng)學(xué)姿勢(shì)能提供任務(wù)級(jí)語(yǔ)義,還支持使用互聯(lián)網(wǎng)視頻等來(lái)源的重定向人形數(shù)據(jù)。
采用IsaacSim中的光線(xiàn)追蹤渲染技術(shù),能更準(zhǔn)確地模擬場(chǎng)景光照和陰影,減輕以往合成數(shù)據(jù)中因光照不真實(shí)導(dǎo)致的仿真與現(xiàn)實(shí)差距問(wèn)題。
通過(guò)程序生成管道,對(duì)每個(gè)軌跡進(jìn)行縮放和隨機(jī)化處理,隨機(jī)化場(chǎng)景背景、物體屬性、任務(wù)設(shè)置、相機(jī)視圖,并對(duì)部分演示進(jìn)行鏡像,以確保數(shù)據(jù)的多樣性和語(yǔ)義豐富性。
手動(dòng)或使用VLM為數(shù)據(jù)標(biāo)注以自我為中心的文本命令。同時(shí),利用VLM為僅包含運(yùn)動(dòng)的對(duì)標(biāo)注文本指令,增加僅語(yǔ)言數(shù)據(jù),擴(kuò)大數(shù)據(jù)覆蓋范圍。

LeVERB-Bench包含多種任務(wù)類(lèi)別,如導(dǎo)航(Navigation)、走向目標(biāo)(Towards)、繞物體移動(dòng)(Around)、移動(dòng)(Locomotion)、坐下(Sitting)、伸手夠物(Reaching)等。
從視覺(jué)-語(yǔ)言任務(wù)和僅語(yǔ)言任務(wù)兩個(gè)維度進(jìn)行分類(lèi),共涵蓋154個(gè)視覺(jué)-語(yǔ)言任務(wù)軌跡和460個(gè)僅語(yǔ)言任務(wù)軌跡,每個(gè)軌跡經(jīng)過(guò)多次隨機(jī)化后生成大量演示數(shù)據(jù)。

通過(guò)154條軌跡,每條隨機(jī)化100次,生成了17.1小時(shí)的逼真運(yùn)動(dòng)軌跡數(shù)據(jù)。此外,還增加了2.7小時(shí)的僅語(yǔ)言數(shù)據(jù),覆蓋500條不同軌跡,進(jìn)一步豐富了數(shù)據(jù)集。

在評(píng)估時(shí),會(huì)在20個(gè)隨機(jī)環(huán)境中進(jìn)行,每個(gè)任務(wù)類(lèi)別的場(chǎng)景紋理和物體屬性完全隨機(jī)化且在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過(guò),同時(shí)對(duì)第三人稱(chēng)相機(jī)角度進(jìn)行局部隨機(jī)化,確保評(píng)估任務(wù)在視覺(jué)上未在訓(xùn)練集中出現(xiàn),以此檢驗(yàn)?zāi)P偷姆夯芰Α?/p>
實(shí)驗(yàn)結(jié)果
團(tuán)隊(duì)將LeVERB框架部署在Unitree G1機(jī)器人上,測(cè)試其在真實(shí)場(chǎng)景中的零樣本閉環(huán)控制能力,讓機(jī)器人執(zhí)行如 “走向椅子坐下” 等任務(wù)。驗(yàn)證了LeVERB從仿真到真實(shí)的遷移能力,證明該框架在實(shí)際應(yīng)用中的可行性。

通過(guò)在LeVERB-Bench基準(zhǔn)上評(píng)估,LeVERB框架表現(xiàn)出色,簡(jiǎn)單視覺(jué)導(dǎo)航任務(wù)零樣本成功率達(dá)80%,整體任務(wù)成功率為58.5%?,比樸素分層VLA方案高出7.8倍。這表明LeVERB能有效處理復(fù)雜視覺(jué)-語(yǔ)言任務(wù),在不同場(chǎng)景下具備良好的泛化能力。

還對(duì)LeVERB框架的關(guān)鍵組件進(jìn)行消融實(shí)驗(yàn),探究各組件對(duì)性能的影響,例如去掉判別器(ND)、運(yùn)動(dòng)學(xué)編碼器(NE)等組件進(jìn)行測(cè)試。
去掉判別器(ND)會(huì)導(dǎo)致性能顯著下降,表明其在對(duì)齊潛在空間、增強(qiáng)模型泛化能力方面的重要性;去掉運(yùn)動(dòng)學(xué)編碼器(NE)也會(huì)使性能降低,證明運(yùn)動(dòng)學(xué)編碼器對(duì)補(bǔ)充運(yùn)動(dòng)細(xì)節(jié)信息的必要性。

團(tuán)隊(duì)成員半數(shù)為華人
LeVERB團(tuán)隊(duì)有半數(shù)成員是來(lái)自UC伯克利、卡內(nèi)基梅隆大學(xué)(CMU)等的華人學(xué)者。
該項(xiàng)目的主要負(fù)責(zé)人薛浩儒碩士畢業(yè)于卡內(nèi)基梅隆大學(xué)(CMU),現(xiàn)于UC伯克利攻讀博士學(xué)位。
他曾在MPC Lab、LeCAR 實(shí)驗(yàn)室實(shí)驗(yàn)室進(jìn)行機(jī)器人研究,現(xiàn)在NVIDIA GEAR實(shí)驗(yàn)室實(shí)習(xí)。

2021年至2024年,他領(lǐng)導(dǎo)了AI Racing Tech項(xiàng)目——一個(gè)價(jià)值數(shù)百萬(wàn)美元的自動(dòng)駕駛賽車(chē)研究項(xiàng)目。
該項(xiàng)目在F1級(jí)自動(dòng)駕駛賽車(chē)上部署了真實(shí)世界的機(jī)器人學(xué)習(xí),最高時(shí)速達(dá)到160英里。
AI Racing Tech在2022年的美國(guó)印第安納波利斯自動(dòng)駕駛挑戰(zhàn)賽中奪得亞軍,在2023年奪得季軍。

另一位負(fù)責(zé)人廖啟源本科畢業(yè)于廣東工業(yè)大學(xué)機(jī)電工程專(zhuān)業(yè),目前是UC伯克利機(jī)械工程專(zhuān)業(yè)的博士研究生。
他的研究方向?qū)W⒂陂_(kāi)發(fā)新型機(jī)器和驅(qū)動(dòng)方式、結(jié)合學(xué)習(xí)和基于模型的方法、協(xié)同設(shè)計(jì)硬件、學(xué)習(xí)和控制。
目前,他在波士頓動(dòng)力公司實(shí)習(xí)。

感興趣的朋友可以到原文中查看更多細(xì)節(jié)。
項(xiàng)目地址:https://ember-lab-berkeley.github.io/LeVERB-Website/
論文地址:https://arxiv.org/abs/2506.13751
參考鏈接:
https://x.com/HaoruXue/status/1937216452983160863