英偉達「一句話生成3D模型」碾壓谷歌:分辨率清晰8倍,速度快2倍,編輯文本還可直接修改
40分鐘之內(nèi)即可完成一次渲染
豐色 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
一句話生成3D模型,英偉達也來“秀肌肉”了~
來看它最新?lián)v鼓出的Magic3D?AI,效果是這樣兒的。
輸入“坐在睡蓮上的藍色箭毒蛙”,就能得到這樣一個細節(jié)豐富的3D模型:
“擺滿了水果的銀盤”也難不倒它:
還有諸如“鳥瞰角度的城堡”、“用壽司做的汽車”、“裝著蛋的鳥巢”、“用垃圾袋做的裙子”……
精準程度可見一斑。
除了這個主要本領,它還可以通過編輯文本完成模型的修改:
或者在輸入中攜帶一些圖片,最終成果就可以保留圖中的風格或者主要“人物”。
不知道這把有沒有打到你的心巴上?
反正建模師看了都要喊失業(yè)了……
如何做到?
據(jù)介紹,Magic3D快速、高質(zhì)量地得到結(jié)果所采用的策略是“從粗到細”,一共經(jīng)過兩階段:
低分辨率優(yōu)化和高分辨率優(yōu)化。
它使用eDiff-l作為模型的低分辨率文本到圖像擴散先驗(diffusion prior)。
首先,第一階段,采用英偉達今年推出的3D重建模型Instant NGP,并對其優(yōu)化,生成初始3D模型。
具體來說,就是通過重復采樣和渲染低分辨率圖像,計算出SDS損失,讓Instant NGP給出結(jié)果。
注:SDS全稱得分蒸餾采樣(Score Distillation Sampling),是谷歌提出的一種新的采樣方法,它無需對擴散模型進行反向傳播更新。
這步完成后,就使用DMTet提取出初始3D mesh,作為第二階段的輸入。
第二階段采用高分辨率文本到圖像潛(latent)擴散先驗。
還是使用同樣的方法,對高分辨率圖像進行采樣和渲染,并使用相同的步驟進行更新,得到最終結(jié)果。
唯一的不同,就是本階段的操作都是在第一階段得出的初始“糙”模型上進行的。
比DreamFusion分辨率高8倍,速度快2倍
關注這一領域的朋友知道,一句話生成3D模型的AI中,目前最受關注的當屬谷歌今年9月剛發(fā)布的DreamFusion。
它通過一個預先訓練的二維文本到圖像擴散模型來完成最終的文本到三維合成,效果驚艷。
那么,英偉達剛推出的這個Magic3D,與之相比如何?
經(jīng)實驗對比發(fā)現(xiàn),后來者顯然更勝一籌,主要表現(xiàn)在分辨率和速度上:
Magic3D的分辨率比DreamFusion高8倍,速度快2倍——只需在40分鐘之內(nèi)即可完成一次渲染。
而在具體效果上,Magic3D的生成結(jié)果也更細節(jié)一些,比如下面的“仙人掌”、“房子”和“草莓”等(左為Magic3D,右為DreamFusion)。
不過,遺憾的是,Magic3D還并未像DreamFusion一樣已開源。
關于作者
一共有10位。
前5位都具有同等貢獻,包括:
現(xiàn)英偉達研究科學家、博士畢業(yè)于CMU機器人專業(yè)的Lin Chen-Hsuan,他曾在Facebook人工智能研究部和Adobe實習;
正在多倫多大學讀博士的Gao Jun,北大計算機本科畢業(yè);
正在多倫多讀博士的Zeng Xiaohui,香港科技大學畢業(yè);
以及同樣來自該大學的Towaki Takikawa;
最后是正在康奈爾大學讀博士的唐路明,清華大學物理和數(shù)學專業(yè)本科畢業(yè)。
論文地址:
https://arxiv.org/abs/2211.10440
項目主頁:
https://deepimagination.cc/Magic3D/
參考鏈接:
https://twitter.com/_akhaliq/status/1594505474774278147?s=46&t=Dc0f1ExmRsdk_PHz2JX-IA
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10