李飛飛團(tuán)隊(duì)最新研究,真實(shí)場景中識(shí)別物體具體屬性,連表面紋理都識(shí)別出來了
第一作者來自斯坦福大學(xué)吳蔡神經(jīng)科學(xué)研究所,這是按照蔡崇信夫婦命名的研究所。
白交 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
現(xiàn)在,細(xì)微到物體表面的紋理,AI都可以識(shí)別。
這就是李飛飛團(tuán)隊(duì)新研究。
我們知道,卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別視覺對(duì)象方面很出色,但還不能很好的識(shí)別出物體的具體屬性,比如表面形狀、紋理等。
而最近,李飛飛團(tuán)隊(duì)的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個(gè)問題。
還引入了物理場景圖(Physical Scene Graphs,PSG)和對(duì)應(yīng)的PSGNet網(wǎng)絡(luò)架構(gòu)。
PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路,力求能夠在幾何上處理復(fù)雜的物體形狀和紋理。
這樣,在真實(shí)世界的視覺數(shù)據(jù)中學(xué)習(xí),可以做到自監(jiān)督,因而不需要大量和繁瑣的場景組件標(biāo)記。
具體研究是如何呢?我們一起來看看吧!
PSGNet的建構(gòu)
簡單來說,用一張圖就可以表示。
棕色方框表示PSGNet的三個(gè)階段。
首先,特征提取。采用ConvRNN從輸入中提取特征。
然后,構(gòu)建圖形,負(fù)責(zé)優(yōu)化現(xiàn)有PSG級(jí)別。
最后,用于端到端訓(xùn)練的圖形渲染。
其中,在構(gòu)建圖形這一階段,由一對(duì)可學(xué)習(xí)的模塊組成,即池化和向量化。
前者在現(xiàn)有圖節(jié)點(diǎn)上動(dòng)態(tài)的構(gòu)建一個(gè)池化核的分區(qū),作為學(xué)習(xí)的、成對(duì)的節(jié)點(diǎn) affinities函數(shù)。
后者在與每個(gè)池化核相關(guān)聯(lián)的圖像區(qū)域及其邊界上,聚合節(jié)點(diǎn)統(tǒng)計(jì),來產(chǎn)生新節(jié)點(diǎn)的屬性向量。這樣便可以直觀的表示出真實(shí)場景中的物體屬性。
在「圖形渲染階段」,PSG相當(dāng)于通過一個(gè)解碼器。
在每個(gè)時(shí)間點(diǎn)將圖節(jié)點(diǎn)屬性,以及圖節(jié)點(diǎn)頂層空間配準(zhǔn)(SR),渲染成RGB、深度、段和RGB變化圖z。
舉個(gè)例子,除開棕色方框部分,就是一個(gè)PSG的三個(gè)層次以及與其紋理(QTR)和形狀(QSR)渲染圖。
實(shí)驗(yàn)結(jié)果
隨后,將模型在 TDW-Primitives、TDW-Playroom 和 Gibson 測試集上訓(xùn)練,并與最近基于CNN場景分割方法進(jìn)行性能比較。
首先說一說這三個(gè)數(shù)據(jù)集,為什么要選擇這三個(gè)數(shù)據(jù)集呢?
Primitives和Playroom中的圖像由ThreeDWorld (TDW)生成。其中,Primitives是在一個(gè)簡單的3D房間中渲染的原始形狀(如球體、圓錐體和立方體)的合成數(shù)據(jù)集。
Playroom是具有復(fù)雜形狀和逼真紋理的物體的合成數(shù)據(jù)集,如動(dòng)物、家具和工具,渲染為具有物體運(yùn)動(dòng)和碰撞的圖形。
Gibson則是由斯坦福大學(xué)校園內(nèi)部建筑物的RBG-D掃描組成。
這三個(gè)數(shù)據(jù)集都提供了用于模型監(jiān)督的RGB、深度和表面法線圖。
性能的比較結(jié)果如下:
注意的是,OP3和PSGNetM沒有在Gibson或Primitives上進(jìn)行訓(xùn)練,因?yàn)樗鼈冇徐o態(tài)測試集。
可以看到與其他模型相比,PSGNet表現(xiàn)出了更優(yōu)的性能。
△PSGNets的場景分解
此外,文中還通過「手動(dòng)編輯」PSG頂層的節(jié)點(diǎn),觀察其渲染效果,來說明PSG能夠正確的將場景表示為離散的對(duì)象及其屬性。
就像這樣。
從圖中刪除一個(gè)節(jié)點(diǎn)(DeleteA或者B),將它們移動(dòng)到新的3D位置(MoveB和Occlude),改變形狀屬性(Scale/Rot),或者交換兩個(gè)節(jié)點(diǎn)的顏色(Swap RGB)。
結(jié)果,發(fā)現(xiàn)都會(huì)改變相對(duì)于原始(Full)預(yù)測的圖形渲染。
研究團(tuán)隊(duì)
這篇論文的研究團(tuán)隊(duì)是由斯坦福大學(xué)和麻省理工大學(xué)多個(gè)團(tuán)隊(duì)共同合作完成的,其中就包括李飛飛團(tuán)隊(duì)和來自MIT CSAIL的團(tuán)隊(duì)。
第一作者名叫Daniel Bear,心理學(xué)系博士后研究員,來自斯坦福大學(xué)吳蔡神經(jīng)科學(xué)研究所。
你可能想問,為何研究腦科學(xué)的會(huì)跟李飛飛團(tuán)隊(duì)一起合作呢?
看了這位作者的研究方向你就知道了。
他一直都在致力于研究動(dòng)物是如何感知世界。
從一開始哈佛大學(xué)本科期間,就主要研究動(dòng)物電信號(hào),比如來自感官刺激的信號(hào),如何誘導(dǎo)神經(jīng)元基因表達(dá)。
接著在哈佛大學(xué)繼續(xù)攻讀博士時(shí),就研究化學(xué)信號(hào),比如動(dòng)物遇到的氣味分子,如何轉(zhuǎn)化為嗅覺感知。
而現(xiàn)在博士后研究期間,他就把目光轉(zhuǎn)向了采用計(jì)算模型來表示動(dòng)物大腦中的表征。如果可以,給他進(jìn)一步的研究提供了思路。
于是,他們就這樣交織在了一起。
吳蔡神經(jīng)科學(xué)研究所
也許有朋友會(huì)對(duì)這個(gè)研究所的名字有點(diǎn)陌生。
但這是斯坦福大學(xué)里以中國人命名的研究所,2018年10月,出于紀(jì)念蔡崇信、吳明華夫婦對(duì)該所慷慨捐贈(zèng),正式命名為吳蔡神經(jīng)科學(xué)研究所。
蔡崇信,大家都不陌生了。阿里巴巴合伙人,最早慧眼識(shí)珠加入馬云的阿里事業(yè)的那個(gè)人。
也是鮮有機(jī)會(huì),其夫人也被關(guān)注到。
現(xiàn)在,他們捐贈(zèng)的研究所,產(chǎn)出了新成果。
所以新論文到手,歡迎細(xì)致研讀后分享你的“讀后感”哦。
論文地址:https://arxiv.org/abs/2006.12373
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06