Meta最新觸覺(jué)機(jī)械手登Science子刊封面,操作未知物體精度最高提升94%
機(jī)器手可以自學(xué)操作未知物體了
奇月 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
現(xiàn)在,隨便丟給機(jī)械手一個(gè)陌生物體,它都可以像人類(lèi)一樣輕松拿捏了——
除了蘋(píng)果,罐頭、樂(lè)高積木、大象玩偶、骰子,都不在話(huà)下:
這就是來(lái)自Meta FAIR團(tuán)隊(duì)最新的NeuralFeels技術(shù),通過(guò)融合觸覺(jué)和視覺(jué),機(jī)械手可以更精確地操作未知物體,精度最高提升了94%!
這項(xiàng)研究還登上了Science Robotics的封面,團(tuán)隊(duì)同時(shí)也公開(kāi)了包含70個(gè)實(shí)驗(yàn)的新測(cè)試基準(zhǔn)FeelSight。
如何讓機(jī)械手精確操作未知物體?
讓機(jī)械手拿取常見(jiàn)的魔方、水果等早已是基操,但如何讓機(jī)器人更好地操作未知物體一直是一個(gè)研究難題。
一個(gè)重要原因是目前的機(jī)械手訓(xùn)練都太過(guò)于依靠視覺(jué),并且僅限于操作已知的先驗(yàn)物體,而現(xiàn)實(shí)中很多時(shí)候物體都會(huì)受到視覺(jué)遮擋,導(dǎo)致訓(xùn)練往往進(jìn)步緩慢。
對(duì)此,團(tuán)隊(duì)研發(fā)出一種名為NeuralFeels的創(chuàng)新技術(shù),為機(jī)器人在復(fù)雜環(huán)境中的物體感知與操作帶來(lái)了新的突破。
這究竟是怎么做到的呢?讓我們來(lái)一起看一下技術(shù)細(xì)節(jié)——
融合了觸覺(jué)的多模態(tài)感知
NeuralFeels技術(shù)的創(chuàng)新之處在于結(jié)合了視覺(jué)和觸覺(jué),通過(guò)多模態(tài)融合的方式,讓機(jī)器手能夠?qū)ξ粗矬w持續(xù)進(jìn)行3D建模,更精確地估計(jì)手持操作中物體的姿態(tài)和形狀。
具體的處理流程如下圖所示,前端實(shí)現(xiàn)了視覺(jué)和觸覺(jué)的魯棒分割和深度預(yù)測(cè),而后端將此信息結(jié)合成一個(gè)神經(jīng)場(chǎng),同時(shí)通過(guò)體積采樣進(jìn)一步優(yōu)化姿態(tài)。
而在遮擋視角下,視覺(jué)與觸覺(jué)融合有助于提高跟蹤性能,還可以從無(wú)遮擋的局部視角進(jìn)行跟蹤。團(tuán)隊(duì)在攝像機(jī)視角的球面上量化了這些收益。
從下圖中可以觀察到,當(dāng)視覺(jué)嚴(yán)重遮擋時(shí),觸覺(jué)的作用更大,而在幾乎沒(méi)有遮擋時(shí),觸覺(jué)會(huì)發(fā)揮微調(diào)作用。
前端深度學(xué)習(xí)策略
首先來(lái)看看NeuralFeels技術(shù)的前端(Front end),它采用了基于深度學(xué)習(xí)的分割策略和觸覺(jué)Transformer,可以精確提取目標(biāo)對(duì)象深度。
- 用運(yùn)動(dòng)學(xué)分割一切
神經(jīng)優(yōu)化非常依賴(lài)分割對(duì)象的輸入深度,所以團(tuán)隊(duì)將前端設(shè)計(jì)成能夠從視覺(jué)中魯棒地提取對(duì)象深度的形式。深度在RGB-D相機(jī)中是現(xiàn)成的,但為了應(yīng)對(duì)嚴(yán)重遮擋的問(wèn)題,團(tuán)隊(duì)還引入了一種基于強(qiáng)大視覺(jué)基礎(chǔ)模型的動(dòng)力學(xué)感知分割策略。
- 觸覺(jué)Transformer
后端姿勢(shì)優(yōu)化
NeuralFeels的后端(Back end)部分通過(guò)使用Theseus中的自定義測(cè)量因子,將前端的中間輸出轉(zhuǎn)化為非線(xiàn)性最小二乘問(wèn)題進(jìn)行優(yōu)化。
- 形狀和姿態(tài)優(yōu)化器
后端模塊從前端模塊得到中間輸出,并在線(xiàn)構(gòu)對(duì)象模型。這個(gè)過(guò)程將交替使用來(lái)自視覺(jué)-觸覺(jué)深度流的樣本進(jìn)行地圖和姿態(tài)優(yōu)化步驟。在本研究的地圖優(yōu)化器中,即時(shí)NGP模型的權(quán)重可以完全描述物體的3D幾何結(jié)構(gòu)。
- 神經(jīng)SLAM
在現(xiàn)實(shí)世界和模擬中,團(tuán)隊(duì)構(gòu)建了一個(gè)不斷演進(jìn)的神經(jīng)SDF,它整合了視覺(jué)和觸覺(jué),并可以同時(shí)跟蹤物體。下圖展示了對(duì)應(yīng)的RGB-D和觸覺(jué)圖像的輸入流,以及相應(yīng)的姿態(tài)重建。
- 神經(jīng)跟蹤:給定形狀的對(duì)象姿態(tài)估計(jì)
當(dāng)目標(biāo)對(duì)象存在對(duì)應(yīng)的CAD模型時(shí),NeuralFeels可以實(shí)現(xiàn)優(yōu)秀的多模態(tài)姿態(tài)跟蹤能力。此時(shí)目標(biāo)對(duì)象的SDF模型是預(yù)先計(jì)算的,NeuralFeels會(huì)凍結(jié)神經(jīng)場(chǎng)的權(quán)重,僅使用前端估計(jì)進(jìn)行視覺(jué)-觸覺(jué)跟蹤。
NeuralFeels大大提升了機(jī)械手性能
為了評(píng)估NeuralFeels技術(shù)的性能,研究團(tuán)隊(duì)在模擬和真實(shí)世界環(huán)境中進(jìn)行了多次實(shí)驗(yàn),涉及14種不同物體,相關(guān)測(cè)試集FeelSight也已發(fā)布!
實(shí)驗(yàn)中使用了多種評(píng)估指標(biāo),包括用于評(píng)估姿勢(shì)跟蹤誤差的對(duì)稱(chēng)平均歐幾里得距離(ADD-S),以及用于衡量形狀重建精度和完整性的F分?jǐn)?shù)等。
結(jié)果非常令人驚喜,NeuralFeels技術(shù)在以下3個(gè)方面都有非常出色的表現(xiàn):
1.物體重建精度大幅提升
在物體重建方面,研究發(fā)現(xiàn)結(jié)合觸覺(jué)信息后,表面重建精度在模擬環(huán)境中平均提高了15.3%,在真實(shí)世界中提高了 14.6%。
最終重建結(jié)果在模擬環(huán)境中的中位誤差為2.1毫米,真實(shí)世界中為3.9毫米。這表明NeuralFeels技術(shù)能夠有效地利用觸覺(jué)信息補(bǔ)充視覺(jué)信息,更準(zhǔn)確地重建物體形狀。
2.物體姿態(tài)跟蹤更加精準(zhǔn)
在物體姿態(tài)跟蹤方面,NeuralFeels技術(shù)相比僅使用視覺(jué)信息的基線(xiàn)方法有顯著改進(jìn)。
在模擬環(huán)境中,姿態(tài)跟蹤精度提高了21.3%,真實(shí)世界中提高了26.6%。
在已知物體形狀的姿態(tài)跟蹤實(shí)驗(yàn)中,即使存在不精確的視覺(jué)分割和稀疏的觸摸信號(hào),該技術(shù)也能實(shí)現(xiàn)低誤差的姿態(tài)跟蹤,平均姿態(tài)誤差可降至2毫米左右。
并且,觸覺(jué)信息在降低平均姿態(tài)誤差方面發(fā)揮了重要作用,在模擬環(huán)境中可使誤差降低22.29%,在真實(shí)世界中降低 3.9%。
3.應(yīng)對(duì)復(fù)雜場(chǎng)景表現(xiàn)出色
在面對(duì)嚴(yán)重遮擋和視覺(jué)深度噪聲等具有挑戰(zhàn)性的場(chǎng)景時(shí),NeuralFeels技術(shù)同樣表現(xiàn)非常出色。
在模擬的200個(gè)不同相機(jī)視角的遮擋實(shí)驗(yàn)中,平均跟蹤性能提升 21.2%,在嚴(yán)重遮擋情況下提升幅度可達(dá)94.1%!
在視覺(jué)深度噪聲模擬實(shí)驗(yàn)中,隨著噪聲增加,融合觸覺(jué)信息能有效降低誤差分布,使機(jī)器人在視覺(jué)信息不理想的情況下仍能準(zhǔn)確跟蹤物體姿態(tài)。
研究意義
NeuralFeels技術(shù)的創(chuàng)新之處在于它融合了多模態(tài)數(shù)據(jù)、并結(jié)合了在線(xiàn)神經(jīng)場(chǎng),這些技術(shù)讓機(jī)器人能夠在操作未知物體時(shí)實(shí)現(xiàn)更準(zhǔn)確的姿態(tài)跟蹤和形狀重建。
而且,與復(fù)雜的傳感器相比,團(tuán)隊(duì)使用空間感知組合所需的硬件更少,也比端到端感知方法更容易解釋。
盡管目前在一些方面仍存在改進(jìn)空間,如在長(zhǎng)期跟蹤中由于缺乏閉環(huán)檢測(cè)可能導(dǎo)致小誤差累積,但對(duì)于提升機(jī)械手操作精度的效果非常顯著,
未來(lái),研究人員計(jì)劃進(jìn)一步優(yōu)化技術(shù),例如通過(guò)基于特征的前端獲取更粗略的初始化,加入長(zhǎng)期閉環(huán)檢測(cè)以減少姿態(tài)誤差的累積,通過(guò)控制神經(jīng)SLAM的輸出進(jìn)行通用靈巧性研究等。
這樣一來(lái),家庭、倉(cāng)庫(kù)和制造業(yè)等復(fù)雜環(huán)境中作業(yè)的機(jī)器人的性能都有可能得到極大的提升了!
參考資料:
[1]https://www.science.org/doi/10.1126/scirobotics.adl0628
[2]https://suddhu.github.io/neural-feels/