群核科技SpatialLM技術(shù)解析:基于LLM的3D結(jié)構(gòu)化建模新范式
來自杭州的三個大模型共同登榜HuggingFace全球趨勢榜前三
近日,空間理解模型SpatialLM發(fā)布首份技術(shù)報告,該模型來自于空間智能公司群核科技。 據(jù)悉,該模型于今年3月正式開源,并在開源后迅速與DeepSeek-V3、Qwen2.5-Omni一起登上全球最大的開源社區(qū)HuggingFace全球趨勢榜前三。

圖說:來自杭州的三個大模型共同登榜HuggingFace全球趨勢榜前三
作為一款將大語言模型擴展到3D空間理解任務(wù)中的模型,SpatialLM能從3D點云輸入生成結(jié)構(gòu)化的空間場景描述,這一過程突破了大語言模型對物理世界幾何與空間關(guān)系的理解局限,讓機器具備空間認知與推理能力,為具身智能等相關(guān)領(lǐng)域提供空間理解基礎(chǔ)訓(xùn)練框架。
在開源后經(jīng)過廣泛的實際驗證,本次技術(shù)報告聚焦SpatialLM 1.1升級版本,其不僅包含了詳細的消融實驗與訓(xùn)練配方,還在點云編碼方式、分辨率、用戶指定識別類目等維度上實現(xiàn)優(yōu)化。多項基準測試數(shù)據(jù)顯示:該模型在任務(wù)數(shù)據(jù)集微調(diào)后,在空間布局識別、3D物體檢測任務(wù)中,均達到了相比與最新專業(yè)模型持平或更優(yōu)的效果。

圖說:SpatialLM1.1 在戶型、物體檢測任務(wù)中與SOTA方法的跑分對比
本次報告重點圍繞算法框架和訓(xùn)練數(shù)據(jù)兩方面展開。在算法架構(gòu)層面,SpatialLM將大語言模型(LLMs)擴展到3D空間理解任務(wù)中,特別在結(jié)構(gòu)化室內(nèi)建模領(lǐng)域?qū)崿F(xiàn)了重要突破。這一技術(shù)路線打破了傳統(tǒng)任務(wù)專屬架構(gòu)(task-specific architecture)的限制,創(chuàng)新性地采用可編輯的文本形式表達場景結(jié)構(gòu)。這一創(chuàng)新設(shè)計具有雙重技術(shù)優(yōu)勢:一方面發(fā)揮了群核科技強大數(shù)據(jù)集能力,通過持續(xù)訓(xùn)練不斷優(yōu)化空間識別精度;另一方面通過接入大語言模型,系統(tǒng)可直接接收并理解自然語言指令,使空間理解模型從簡單任務(wù)執(zhí)行工具轉(zhuǎn)變?yōu)槟軌蛘嬲斫庥脩粢鈭D的智能系統(tǒng),從而推進了LLMs在空間理解和推理方向的能力邊界。

圖說:SpatialLM1.1 模型的網(wǎng)絡(luò)結(jié)構(gòu)
同時,SpatialLM構(gòu)建了一個全新的包含3D結(jié)構(gòu)化信息的合成點云數(shù)據(jù)集,打破了真實數(shù)據(jù)稀缺且難以標注的局限。該數(shù)據(jù)集包含超1.2萬場景、5.4萬個房間的結(jié)構(gòu)化室內(nèi)點云數(shù)據(jù),其規(guī)模遠超ScanNet(僅包含1,513個場景)等現(xiàn)有數(shù)據(jù)集。所有數(shù)據(jù)均源自真實項目的專業(yè)設(shè)計模型,經(jīng)嚴格篩選與解析后形成符合真實世界統(tǒng)計分布的虛擬環(huán)境,相較程序化生成的ProcTHOR等數(shù)據(jù)集具有更高真實性。據(jù)了解,三維可交互數(shù)據(jù)是群核科技在空間智能領(lǐng)域的重要優(yōu)勢,該模型訓(xùn)練數(shù)據(jù)大多來自于群核空間智能平臺SpatialVerse。早在2018年,群核科技就面向全球發(fā)布了名為InteriorNet的深度學(xué)習(xí)數(shù)據(jù)集,其包含了共計約1億3千萬空間數(shù)據(jù),這是當(dāng)時全球最大的室內(nèi)場景認知深度學(xué)習(xí)數(shù)據(jù)集。

圖說:SpatialLM1.1 數(shù)據(jù)集與目前開源數(shù)據(jù)的對比
據(jù)悉,自SpatialLM 空間理解模型開源以來,在全球開發(fā)者社區(qū)持續(xù)引發(fā)討論,開發(fā)者普遍認為,該模型標志著大語言模型從”理解文字”到”認知空間”的跨越,推動3D空間理解落地應(yīng)用,為AI探索物理世界開辟了新路徑。其中,來自香港科技大學(xué)計算機科學(xué)與工程系譚平教授作為研究合作方指出:”SpatialLM創(chuàng)新性地將大語言模型應(yīng)用于3D空間理解,在布局估計和物體檢測等任務(wù)上取得了顯著成果。這項突破對AR/VR和具身智能等領(lǐng)域的發(fā)展具有重要價值。”
- 超詳細!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠發(fā)布CASIVIBOT,以九年積累開啟AOI與機器人協(xié)同的品質(zhì)檢測新時代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機器人全產(chǎn)業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16