讓3D深度學(xué)習(xí)更快更靈活,F(xiàn)acebook開(kāi)源PyTorch3D
魚(yú)羊 發(fā)自 麥蒿寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
現(xiàn)在,你的神經(jīng)網(wǎng)絡(luò)可以更輕松地和 3D 數(shù)據(jù)搭配使用了。
Facebook AI 已經(jīng)推出了用于 3D 深度學(xué)習(xí)的開(kāi)源工具包,PyTorch3D。
顧名思義,PyTorch3D 是一個(gè)基于 PyTorch 的高度模塊化,且經(jīng)過(guò)優(yōu)化的庫(kù)。旨在通過(guò) PyTorch 簡(jiǎn)化 3D 深度學(xué)習(xí)。
PyTorch3D 帶有常用的 3D 運(yùn)算符和用于 3D 數(shù)據(jù)的損失函數(shù),以及模塊化可微渲染API。
作為版本的一部分,F(xiàn)acebook 同時(shí)還開(kāi)源了 Mesh R-CNN,一個(gè)能夠?qū)φ掌械?2D 物體進(jìn)行 3D 建模的神經(jīng)網(wǎng)絡(luò)模型。
并且,F(xiàn)acebook 把 PyTorch3D 與 2D 識(shí)別庫(kù) Detectron2 結(jié)合在了一起,將對(duì)物體的理解進(jìn)一步推向三維。
那么,就一起來(lái)看看 PyTorch3D 是怎樣讓 3D 深度學(xué)習(xí)變更快更靈活的。
PyTorch3D:更快、更靈活的 3D 深度學(xué)習(xí)研究
與可以用簡(jiǎn)單張量表示的 2D 圖像相比,3D 數(shù)據(jù)輸入更加復(fù)雜,內(nèi)存需求和計(jì)算需求也相對(duì)較高。
此外,3D 運(yùn)算也必須是可微分的,如此,梯度才能從模型輸出返回到輸入,通過(guò)系統(tǒng)反向傳播。
針對(duì)這些問(wèn)題,PyTorch3D 通過(guò)提供批處理功能,以及對(duì) 3D 運(yùn)算符和損失函數(shù)的支持,來(lái)優(yōu)化訓(xùn)練和推理過(guò)程。
其主要的新增特性有以下三點(diǎn)。
1. 新數(shù)據(jù)結(jié)構(gòu):Meshes
3D 網(wǎng)格是頂點(diǎn)坐標(biāo)和面索引的集合。為了更好地對(duì)其進(jìn)行處理,F(xiàn)acebook 提出了新的數(shù)據(jù)結(jié)構(gòu)Meshes。
Meshes 對(duì)象代表一批三角網(wǎng)格,每個(gè) mesh 可以有不同數(shù)量的頂點(diǎn)或面??梢杂糜诖鎯?chǔ)與網(wǎng)格有關(guān)的數(shù)據(jù),比如面法線、面區(qū)域和紋理等。
這樣的數(shù)據(jù)結(jié)構(gòu)讓用戶可以更輕松地將底層網(wǎng)格數(shù)據(jù)轉(zhuǎn)換為不同的視圖,從而使運(yùn)算符和最高效的數(shù)據(jù)表示相匹配。
2. 高效處理三角網(wǎng)格
那么,要怎樣讓一個(gè) mesh 變形為目標(biāo)形狀呢?
在 PyTorch3D 中,F(xiàn)acebook 實(shí)現(xiàn)了通用運(yùn)算符、3D 數(shù)據(jù)損失函數(shù)的優(yōu)化,且支持異構(gòu)批數(shù)據(jù)的輸入。
用戶可以在 PyTorch3D 中直接導(dǎo)入這些運(yùn)算符,快速開(kāi)始實(shí)驗(yàn)。
3. 可微分網(wǎng)格渲染器(renderer)
渲染是將 3D 模型轉(zhuǎn)換為 2D 圖像的核心。
傳統(tǒng)的渲染方法是不可微的,因此無(wú)法和深度學(xué)習(xí)相結(jié)合。
為了能夠訪問(wèn)到下游應(yīng)用程序所需的各種中間值,在 PyTorch3D 中,研究人員編寫(xiě)了一個(gè)模塊化微分渲染器。
渲染器由可組合單元構(gòu)成,具有擴(kuò)展性,因此用戶可以輕松實(shí)現(xiàn)自定義,比如在渲染時(shí)改變照明、陰影效果。
計(jì)算量較大的柵格化步驟可以在 PyTorch、C++和 CUDA 中并行實(shí)現(xiàn)。
同樣,依靠 Mesh 數(shù)據(jù)格式,渲染器也支持異構(gòu)批量數(shù)據(jù)。
Facebook 表示,推出 PyTorch3D 是為了推動(dòng)「深度學(xué)習(xí) + 3D」的研究。
憑借可微渲染功能,無(wú)需耗時(shí)的手動(dòng) 3D 注釋,就可能構(gòu)建高質(zhì)量的 3D 預(yù)測(cè)系統(tǒng)。
研究人員也能夠更為輕松地渲染出 AR、VR 中的 3D 對(duì)象和場(chǎng)景。
在機(jī)器人、自動(dòng)駕駛感知研究當(dāng)中,PyTorch3D 無(wú)疑將成為新的助力。
傳送門
Facebook AI 博客:https://ai.facebook.com/blog/-introducing-pytorch3d-an-open-source-library-for-3d-deep-learning/
PyTorch3D 項(xiàng)目:https://github.com/facebookresearch/pytorch3d
Mesh R-CNN 項(xiàng)目:https://github.com/facebookresearch/meshrcnn
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開(kāi)源之光多模態(tài)統(tǒng)一模型,來(lái)了2025-07-30