国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人形機(jī)器人首次打通視覺(jué)感知與運(yùn)動(dòng)斷層，UC伯克利華人博士讓宇樹(shù)G1現(xiàn)場(chǎng)演示

聞樂(lè) 2025-06-25 14:38:31 來(lái)源：量子位

聞樂(lè) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

不用提前熟悉環(huán)境，一聲令下，就能讓宇樹(shù)機(jī)器人坐在椅子上、桌子上、箱子上！

還能直接解鎖 “跨過(guò)箱子”、“敲門(mén)” 等任務(wù)~

這是來(lái)自UC伯克利、卡內(nèi)基梅隆大學(xué)等團(tuán)隊(duì)的最新研究成果LeVERB框架——

基于模擬數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)零樣本部署，讓人形機(jī)器人通過(guò)感知新環(huán)境，理解語(yǔ)言指令就能直接完成全身動(dòng)作。

傳統(tǒng)人形機(jī)器人要么 “能看懂指令卻動(dòng)不了”（缺乏全身控制能力），要么 “只能機(jī)械執(zhí)行動(dòng)作卻讀不懂環(huán)境”（依賴(lài)人工預(yù)設(shè)動(dòng)作庫(kù)）。

LeVERB首次打通了視覺(jué)語(yǔ)義理解與物理運(yùn)動(dòng)兩者之間的斷層，讓機(jī)器人能像人類(lèi)一樣從“想”到“做”，自動(dòng)感知環(huán)境，直接遵循指令完成動(dòng)作。

上面展示的“坐下”動(dòng)作就是通過(guò)“相機(jī)感知環(huán)境+’坐在[椅子/盒子/桌子]上’指令”完成的：

團(tuán)隊(duì)還推出了配套基準(zhǔn)：LeVERB-Bench。

這是首個(gè)面向人形機(jī)器人WBC（全身控制）的 “仿真到真實(shí)” 視覺(jué)-語(yǔ)言閉環(huán)基準(zhǔn)，包含10類(lèi)超150個(gè)任務(wù)。

團(tuán)隊(duì)將該框架部署在宇樹(shù)G1機(jī)器人上進(jìn)行基準(zhǔn)測(cè)試，結(jié)果顯示：

在簡(jiǎn)單視覺(jué)導(dǎo)航任務(wù)中零樣本成功率達(dá)80%，整體任務(wù)成功率58.5%，比樸素分層VLA（視覺(jué)-語(yǔ)言-動(dòng)作）方案的性能強(qiáng)7.8倍。

目前，LeVERB-Bench數(shù)據(jù)集已在LeRobot格式中開(kāi)源，項(xiàng)目的完整代碼也即將發(fā)布。

雙層系統(tǒng)實(shí)現(xiàn)從“想”到“做”的全身動(dòng)作

多數(shù)視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型在控制機(jī)器人時(shí)，依賴(lài)手工設(shè)計(jì)的底層動(dòng)作 “詞匯”（如末端執(zhí)行器姿勢(shì)、根部速度等）。

這使得它們只能處理準(zhǔn)靜態(tài)任務(wù)，無(wú)法應(yīng)對(duì)人形機(jī)器人全身控制（WBC）所需的靈活全身動(dòng)作。

簡(jiǎn)單來(lái)說(shuō)，以前的機(jī)器人要么高層直接控制細(xì)節(jié)（就像大腦同時(shí)管走路和思考，效率低），要么底層不懂語(yǔ)義（就像四肢只聽(tīng)簡(jiǎn)單命令，復(fù)雜任務(wù)做不了）。

而人形機(jī)器人是高維非線(xiàn)性動(dòng)態(tài)系統(tǒng)，需要高頻控制與低頻規(guī)劃結(jié)合，傳統(tǒng)方法缺乏對(duì)視覺(jué)和語(yǔ)言語(yǔ)義的有效整合。

于是，團(tuán)隊(duì)提出將高層的視覺(jué)-語(yǔ)言指令壓縮映射為一個(gè)動(dòng)作向量，也就是一個(gè)抽象指令，這種指令能夠被底層的動(dòng)作模塊識(shí)別并執(zhí)行。

在LeVERB框架中，這個(gè)抽象指令被稱(chēng)為“潛在動(dòng)作詞匯”。

LeVERB框架由分層雙系統(tǒng)組成，這兩層系統(tǒng)以“潛在動(dòng)作詞匯”作為接口。

該方法的最終目標(biāo)是使兩層的“潛在動(dòng)作詞匯”保持一致，讓高層專(zhuān)注 “理解任務(wù)”，底層專(zhuān)注 “做好動(dòng)作”，各取所長(zhǎng)。

LeVERB框架

高層LeVERB-VL（想）：一個(gè)基于Transformer的102.6M視覺(jué)語(yǔ)言主干，將語(yǔ)言指令和視覺(jué)上下文轉(zhuǎn)換為潛在動(dòng)詞，運(yùn)行頻率10Hz。

LeVERB-VL負(fù)責(zé)理解 “看到的東西” 和 “聽(tīng)到的話(huà)”。比如看到 “去坐藍(lán)色椅子”，它會(huì)先分析 “藍(lán)色椅子在哪”“怎么過(guò)去”，但不直接控制動(dòng)作細(xì)節(jié)，而是把想法轉(zhuǎn)化成一種 “抽象指令”。

它通過(guò)VLA先驗(yàn)?zāi)K、運(yùn)動(dòng)學(xué)編碼器、殘差潛在空間、運(yùn)動(dòng)學(xué)解碼器和判別器等組件，將視覺(jué)和語(yǔ)言輸入映射到平滑規(guī)則的潛在詞匯空間，為運(yùn)動(dòng)控制生成潛在動(dòng)作計(jì)劃。

訓(xùn)練時(shí)，通過(guò)軌跡重建、分布對(duì)齊和對(duì)抗分類(lèi)三部分優(yōu)化模型，同時(shí)采用數(shù)據(jù)混合策略增強(qiáng)數(shù)據(jù)多樣性，并對(duì)超參數(shù)進(jìn)行精細(xì)設(shè)置，以實(shí)現(xiàn)對(duì)視覺(jué) – 語(yǔ)言信息的高效處理和準(zhǔn)確決策。

底層LeVERB-A（做）：一個(gè)基于Transformer的1.1M全身動(dòng)作專(zhuān)家，利用強(qiáng)化學(xué)習(xí)訓(xùn)練的WBC策略，接收高層的潛在動(dòng)作指令，將潛在動(dòng)詞解碼為動(dòng)力學(xué)級(jí)的人形動(dòng)作輸出，運(yùn)行頻率50Hz。

這部分作用是將LeVERB-VL生成的潛在指令轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)力學(xué)級(jí)動(dòng)作。

訓(xùn)練時(shí)，先通過(guò)近端策略?xún)?yōu)化算法訓(xùn)練與視覺(jué)-語(yǔ)言無(wú)關(guān)的教師策略，再使用DAgger算法和Huber損失函數(shù)將教師策略的動(dòng)作蒸餾到以潛在命令為條件的學(xué)生策略（即LeVERB-A）中。

運(yùn)行時(shí)，LeVERB-A接收本體感受信息和潛在向量，采用Transformer架構(gòu)輸出經(jīng)重新參數(shù)化的扭矩級(jí)關(guān)節(jié)位置動(dòng)作指令，并在機(jī)器人板載CPU上用C++實(shí)現(xiàn)實(shí)時(shí)推理，完成人形機(jī)器人的全身控制。

LeVERB-Bench

無(wú)法衡量就無(wú)法展開(kāi)下一步工作，團(tuán)隊(duì)還專(zhuān)門(mén)提出了一個(gè)人形機(jī)器人視覺(jué)-語(yǔ)言全身控制（WBC）任務(wù)的配套基準(zhǔn)LeVERB-Bench。

在人形機(jī)器人WBC領(lǐng)域，用于訓(xùn)練VLA模型的演示數(shù)據(jù)稀缺?，F(xiàn)有基準(zhǔn)存在諸多問(wèn)題，如僅關(guān)注locomotion、在狀態(tài)空間中無(wú)視覺(jué)、渲染不真實(shí)導(dǎo)致仿真與現(xiàn)實(shí)差距大等，無(wú)法滿(mǎn)足研究需求。

LeVERB-Bench在仿真中重放重定向的動(dòng)作捕捉（MoCap）運(yùn)動(dòng)，收集逼真的軌跡數(shù)據(jù)。這種方式無(wú)需在數(shù)據(jù)收集時(shí)進(jìn)行可靠的動(dòng)態(tài)控制，運(yùn)動(dòng)學(xué)姿勢(shì)能提供任務(wù)級(jí)語(yǔ)義，還支持使用互聯(lián)網(wǎng)視頻等來(lái)源的重定向人形數(shù)據(jù)。

采用IsaacSim中的光線(xiàn)追蹤渲染技術(shù)，能更準(zhǔn)確地模擬場(chǎng)景光照和陰影，減輕以往合成數(shù)據(jù)中因光照不真實(shí)導(dǎo)致的仿真與現(xiàn)實(shí)差距問(wèn)題。

通過(guò)程序生成管道，對(duì)每個(gè)軌跡進(jìn)行縮放和隨機(jī)化處理，隨機(jī)化場(chǎng)景背景、物體屬性、任務(wù)設(shè)置、相機(jī)視圖，并對(duì)部分演示進(jìn)行鏡像，以確保數(shù)據(jù)的多樣性和語(yǔ)義豐富性。

手動(dòng)或使用VLM為數(shù)據(jù)標(biāo)注以自我為中心的文本命令。同時(shí)，利用VLM為僅包含運(yùn)動(dòng)的對(duì)標(biāo)注文本指令，增加僅語(yǔ)言數(shù)據(jù)，擴(kuò)大數(shù)據(jù)覆蓋范圍。

LeVERB-Bench包含多種任務(wù)類(lèi)別，如導(dǎo)航（Navigation）、走向目標(biāo)（Towards）、繞物體移動(dòng)（Around）、移動(dòng)（Locomotion）、坐下（Sitting）、伸手夠物（Reaching）等。

從視覺(jué)-語(yǔ)言任務(wù)和僅語(yǔ)言任務(wù)兩個(gè)維度進(jìn)行分類(lèi)，共涵蓋154個(gè)視覺(jué)-語(yǔ)言任務(wù)軌跡和460個(gè)僅語(yǔ)言任務(wù)軌跡，每個(gè)軌跡經(jīng)過(guò)多次隨機(jī)化后生成大量演示數(shù)據(jù)。

通過(guò)154條軌跡，每條隨機(jī)化100次，生成了17.1小時(shí)的逼真運(yùn)動(dòng)軌跡數(shù)據(jù)。此外，還增加了2.7小時(shí)的僅語(yǔ)言數(shù)據(jù)，覆蓋500條不同軌跡，進(jìn)一步豐富了數(shù)據(jù)集。

在評(píng)估時(shí)，會(huì)在20個(gè)隨機(jī)環(huán)境中進(jìn)行，每個(gè)任務(wù)類(lèi)別的場(chǎng)景紋理和物體屬性完全隨機(jī)化且在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過(guò)，同時(shí)對(duì)第三人稱(chēng)相機(jī)角度進(jìn)行局部隨機(jī)化，確保評(píng)估任務(wù)在視覺(jué)上未在訓(xùn)練集中出現(xiàn)，以此檢驗(yàn)?zāi)Ｐ偷姆夯芰Α?/p>

實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)將LeVERB框架部署在Unitree G1機(jī)器人上，測(cè)試其在真實(shí)場(chǎng)景中的零樣本閉環(huán)控制能力，讓機(jī)器人執(zhí)行如 “走向椅子坐下” 等任務(wù)。驗(yàn)證了LeVERB從仿真到真實(shí)的遷移能力，證明該框架在實(shí)際應(yīng)用中的可行性。

通過(guò)在LeVERB-Bench基準(zhǔn)上評(píng)估，LeVERB框架表現(xiàn)出色，簡(jiǎn)單視覺(jué)導(dǎo)航任務(wù)零樣本成功率達(dá)80%，整體任務(wù)成功率為58.5%?，比樸素分層VLA方案高出7.8倍。這表明LeVERB能有效處理復(fù)雜視覺(jué)-語(yǔ)言任務(wù)，在不同場(chǎng)景下具備良好的泛化能力。

還對(duì)LeVERB框架的關(guān)鍵組件進(jìn)行消融實(shí)驗(yàn)，探究各組件對(duì)性能的影響，例如去掉判別器（ND）、運(yùn)動(dòng)學(xué)編碼器（NE）等組件進(jìn)行測(cè)試。

去掉判別器（ND）會(huì)導(dǎo)致性能顯著下降，表明其在對(duì)齊潛在空間、增強(qiáng)模型泛化能力方面的重要性；去掉運(yùn)動(dòng)學(xué)編碼器（NE）也會(huì)使性能降低，證明運(yùn)動(dòng)學(xué)編碼器對(duì)補(bǔ)充運(yùn)動(dòng)細(xì)節(jié)信息的必要性。

團(tuán)隊(duì)成員半數(shù)為華人

LeVERB團(tuán)隊(duì)有半數(shù)成員是來(lái)自UC伯克利、卡內(nèi)基梅隆大學(xué)（CMU）等的華人學(xué)者。

該項(xiàng)目的主要負(fù)責(zé)人薛浩儒碩士畢業(yè)于卡內(nèi)基梅隆大學(xué)（CMU），現(xiàn)于UC伯克利攻讀博士學(xué)位。

他曾在MPC Lab、LeCAR 實(shí)驗(yàn)室實(shí)驗(yàn)室進(jìn)行機(jī)器人研究，現(xiàn)在NVIDIA GEAR實(shí)驗(yàn)室實(shí)習(xí)。

2021年至2024年，他領(lǐng)導(dǎo)了AI Racing Tech項(xiàng)目——一個(gè)價(jià)值數(shù)百萬(wàn)美元的自動(dòng)駕駛賽車(chē)研究項(xiàng)目。

該項(xiàng)目在F1級(jí)自動(dòng)駕駛賽車(chē)上部署了真實(shí)世界的機(jī)器人學(xué)習(xí)，最高時(shí)速達(dá)到160英里。

AI Racing Tech在2022年的美國(guó)印第安納波利斯自動(dòng)駕駛挑戰(zhàn)賽中奪得亞軍，在2023年奪得季軍。

另一位負(fù)責(zé)人廖啟源本科畢業(yè)于廣東工業(yè)大學(xué)機(jī)電工程專(zhuān)業(yè)，目前是UC伯克利機(jī)械工程專(zhuān)業(yè)的博士研究生。

他的研究方向?qū)Ｗ⒂陂_(kāi)發(fā)新型機(jī)器和驅(qū)動(dòng)方式、結(jié)合學(xué)習(xí)和基于模型的方法、協(xié)同設(shè)計(jì)硬件、學(xué)習(xí)和控制。

目前，他在波士頓動(dòng)力公司實(shí)習(xí)。

感興趣的朋友可以到原文中查看更多細(xì)節(jié)。

項(xiàng)目地址：https://ember-lab-berkeley.github.io/LeVERB-Website/
論文地址：https://arxiv.org/abs/2506.13751

參考鏈接：
https://x.com/HaoruXue/status/1937216452983160863

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

人型機(jī)器人

聞樂(lè)

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人形機(jī)器人首次打通視覺(jué)感知與運(yùn)動(dòng)斷層，UC伯克利華人博士讓宇樹(shù)G1現(xiàn)場(chǎng)演示

聞樂(lè) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

雙層系統(tǒng)實(shí)現(xiàn)從“想”到“做”的全身動(dòng)作

LeVERB框架

LeVERB-Bench

實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)成員半數(shù)為華人

相關(guān)閱讀

宇樹(shù)機(jī)器人上演彎道超車(chē)(ren)，歪果仁質(zhì)疑是特效

熱門(mén)文章

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀(guān)評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣(mài)酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人形機(jī)器人首次打通視覺(jué)感知與運(yùn)動(dòng)斷層，UC伯克利華人博士讓宇樹(shù)G1現(xiàn)場(chǎng)演示

聞樂(lè) 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAI

雙層系統(tǒng)實(shí)現(xiàn)從“想”到“做”的全身動(dòng)作

LeVERB框架

LeVERB-Bench

實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)成員半數(shù)為華人

相關(guān)閱讀

宇樹(shù)機(jī)器人上演彎道超車(chē)(ren)，歪果仁質(zhì)疑是特效

熱門(mén)文章

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀(guān)評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣(mài)酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

人形機(jī)器人首次打通視覺(jué)感知與運(yùn)動(dòng)斷層，UC伯克利華人博士讓宇樹(shù)G1現(xiàn)場(chǎng)演示

聞樂(lè) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

宇樹(shù)機(jī)器人上演彎道超車(chē)(ren)，歪果仁質(zhì)疑是特效

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀(guān)評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

賣(mài)酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度