Meta最新觸覺機械手登Science子刊封面,操作未知物體精度最高提升94%
機器手可以自學(xué)操作未知物體了
奇月 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
現(xiàn)在,隨便丟給機械手一個陌生物體,它都可以像人類一樣輕松拿捏了——
除了蘋果,罐頭、樂高積木、大象玩偶、骰子,都不在話下:
這就是來自Meta FAIR團隊最新的NeuralFeels技術(shù),通過融合觸覺和視覺,機械手可以更精確地操作未知物體,精度最高提升了94%!
這項研究還登上了Science Robotics的封面,團隊同時也公開了包含70個實驗的新測試基準(zhǔn)FeelSight。
如何讓機械手精確操作未知物體?
讓機械手拿取常見的魔方、水果等早已是基操,但如何讓機器人更好地操作未知物體一直是一個研究難題。
一個重要原因是目前的機械手訓(xùn)練都太過于依靠視覺,并且僅限于操作已知的先驗物體,而現(xiàn)實中很多時候物體都會受到視覺遮擋,導(dǎo)致訓(xùn)練往往進步緩慢。
對此,團隊研發(fā)出一種名為NeuralFeels的創(chuàng)新技術(shù),為機器人在復(fù)雜環(huán)境中的物體感知與操作帶來了新的突破。
這究竟是怎么做到的呢?讓我們來一起看一下技術(shù)細(xì)節(jié)——
融合了觸覺的多模態(tài)感知
NeuralFeels技術(shù)的創(chuàng)新之處在于結(jié)合了視覺和觸覺,通過多模態(tài)融合的方式,讓機器手能夠?qū)ξ粗矬w持續(xù)進行3D建模,更精確地估計手持操作中物體的姿態(tài)和形狀。
具體的處理流程如下圖所示,前端實現(xiàn)了視覺和觸覺的魯棒分割和深度預(yù)測,而后端將此信息結(jié)合成一個神經(jīng)場,同時通過體積采樣進一步優(yōu)化姿態(tài)。
而在遮擋視角下,視覺與觸覺融合有助于提高跟蹤性能,還可以從無遮擋的局部視角進行跟蹤。團隊在攝像機視角的球面上量化了這些收益。
從下圖中可以觀察到,當(dāng)視覺嚴(yán)重遮擋時,觸覺的作用更大,而在幾乎沒有遮擋時,觸覺會發(fā)揮微調(diào)作用。
前端深度學(xué)習(xí)策略
首先來看看NeuralFeels技術(shù)的前端(Front end),它采用了基于深度學(xué)習(xí)的分割策略和觸覺Transformer,可以精確提取目標(biāo)對象深度。
- 用運動學(xué)分割一切
神經(jīng)優(yōu)化非常依賴分割對象的輸入深度,所以團隊將前端設(shè)計成能夠從視覺中魯棒地提取對象深度的形式。深度在RGB-D相機中是現(xiàn)成的,但為了應(yīng)對嚴(yán)重遮擋的問題,團隊還引入了一種基于強大視覺基礎(chǔ)模型的動力學(xué)感知分割策略。
- 觸覺Transformer
后端姿勢優(yōu)化
NeuralFeels的后端(Back end)部分通過使用Theseus中的自定義測量因子,將前端的中間輸出轉(zhuǎn)化為非線性最小二乘問題進行優(yōu)化。
- 形狀和姿態(tài)優(yōu)化器
后端模塊從前端模塊得到中間輸出,并在線構(gòu)對象模型。這個過程將交替使用來自視覺-觸覺深度流的樣本進行地圖和姿態(tài)優(yōu)化步驟。在本研究的地圖優(yōu)化器中,即時NGP模型的權(quán)重可以完全描述物體的3D幾何結(jié)構(gòu)。
- 神經(jīng)SLAM
在現(xiàn)實世界和模擬中,團隊構(gòu)建了一個不斷演進的神經(jīng)SDF,它整合了視覺和觸覺,并可以同時跟蹤物體。下圖展示了對應(yīng)的RGB-D和觸覺圖像的輸入流,以及相應(yīng)的姿態(tài)重建。
- 神經(jīng)跟蹤:給定形狀的對象姿態(tài)估計
當(dāng)目標(biāo)對象存在對應(yīng)的CAD模型時,NeuralFeels可以實現(xiàn)優(yōu)秀的多模態(tài)姿態(tài)跟蹤能力。此時目標(biāo)對象的SDF模型是預(yù)先計算的,NeuralFeels會凍結(jié)神經(jīng)場的權(quán)重,僅使用前端估計進行視覺-觸覺跟蹤。
NeuralFeels大大提升了機械手性能
為了評估NeuralFeels技術(shù)的性能,研究團隊在模擬和真實世界環(huán)境中進行了多次實驗,涉及14種不同物體,相關(guān)測試集FeelSight也已發(fā)布!
實驗中使用了多種評估指標(biāo),包括用于評估姿勢跟蹤誤差的對稱平均歐幾里得距離(ADD-S),以及用于衡量形狀重建精度和完整性的F分?jǐn)?shù)等。
結(jié)果非常令人驚喜,NeuralFeels技術(shù)在以下3個方面都有非常出色的表現(xiàn):
1.物體重建精度大幅提升
在物體重建方面,研究發(fā)現(xiàn)結(jié)合觸覺信息后,表面重建精度在模擬環(huán)境中平均提高了15.3%,在真實世界中提高了 14.6%。
最終重建結(jié)果在模擬環(huán)境中的中位誤差為2.1毫米,真實世界中為3.9毫米。這表明NeuralFeels技術(shù)能夠有效地利用觸覺信息補充視覺信息,更準(zhǔn)確地重建物體形狀。
2.物體姿態(tài)跟蹤更加精準(zhǔn)
在物體姿態(tài)跟蹤方面,NeuralFeels技術(shù)相比僅使用視覺信息的基線方法有顯著改進。
在模擬環(huán)境中,姿態(tài)跟蹤精度提高了21.3%,真實世界中提高了26.6%。
在已知物體形狀的姿態(tài)跟蹤實驗中,即使存在不精確的視覺分割和稀疏的觸摸信號,該技術(shù)也能實現(xiàn)低誤差的姿態(tài)跟蹤,平均姿態(tài)誤差可降至2毫米左右。
并且,觸覺信息在降低平均姿態(tài)誤差方面發(fā)揮了重要作用,在模擬環(huán)境中可使誤差降低22.29%,在真實世界中降低 3.9%。
3.應(yīng)對復(fù)雜場景表現(xiàn)出色
在面對嚴(yán)重遮擋和視覺深度噪聲等具有挑戰(zhàn)性的場景時,NeuralFeels技術(shù)同樣表現(xiàn)非常出色。
在模擬的200個不同相機視角的遮擋實驗中,平均跟蹤性能提升 21.2%,在嚴(yán)重遮擋情況下提升幅度可達94.1%!
在視覺深度噪聲模擬實驗中,隨著噪聲增加,融合觸覺信息能有效降低誤差分布,使機器人在視覺信息不理想的情況下仍能準(zhǔn)確跟蹤物體姿態(tài)。
研究意義
NeuralFeels技術(shù)的創(chuàng)新之處在于它融合了多模態(tài)數(shù)據(jù)、并結(jié)合了在線神經(jīng)場,這些技術(shù)讓機器人能夠在操作未知物體時實現(xiàn)更準(zhǔn)確的姿態(tài)跟蹤和形狀重建。
而且,與復(fù)雜的傳感器相比,團隊使用空間感知組合所需的硬件更少,也比端到端感知方法更容易解釋。
盡管目前在一些方面仍存在改進空間,如在長期跟蹤中由于缺乏閉環(huán)檢測可能導(dǎo)致小誤差累積,但對于提升機械手操作精度的效果非常顯著,
未來,研究人員計劃進一步優(yōu)化技術(shù),例如通過基于特征的前端獲取更粗略的初始化,加入長期閉環(huán)檢測以減少姿態(tài)誤差的累積,通過控制神經(jīng)SLAM的輸出進行通用靈巧性研究等。
這樣一來,家庭、倉庫和制造業(yè)等復(fù)雜環(huán)境中作業(yè)的機器人的性能都有可能得到極大的提升了!
參考資料:
[1]https://www.science.org/doi/10.1126/scirobotics.adl0628
[2]https://suddhu.github.io/neural-feels/
- 打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準(zhǔn)測試:所有模型輸出都低于標(biāo)稱長度2025-01-15
- 好家伙,海螺直接拍了個AI版的《教父》2025-01-10
- 2025-01-08
- 用大模型吃瓜更智能了!阿里通義實驗室提出新時間線總結(jié)框架2025-01-07