武大等開(kāi)源大幅面高清衛(wèi)星影像數(shù)據(jù)集:涵蓋21萬(wàn)+地理目標(biāo),復(fù)雜地理空間場(chǎng)景知識(shí)精準(zhǔn)生成
還有配套工具包一同開(kāi)源
武漢大學(xué)李彥勝課題組?投稿
量子位 | 公眾號(hào) QbitAI
AI衛(wèi)星影像知識(shí)生成模型數(shù)據(jù)集稀缺的問(wèn)題,又有新解了。
來(lái)自武漢大學(xué)、上海AI實(shí)驗(yàn)室、西工大等9家機(jī)構(gòu)共同推出了該領(lǐng)域的大型數(shù)據(jù)集,涵蓋了21萬(wàn)個(gè)地理目標(biāo)和40萬(wàn)個(gè)目標(biāo)-關(guān)系三元組。
而且像機(jī)場(chǎng)、港口、立交橋等這樣復(fù)雜地理空間場(chǎng)景,也都包括在了數(shù)據(jù)集當(dāng)中。
具體來(lái)說(shuō),該數(shù)據(jù)集名為RSG(0704更新:已改名STAR,下同),主要面向衛(wèi)星影像中的目標(biāo)檢測(cè)(OBD)和場(chǎng)景圖生成(SGG)任務(wù)。
SGG有助于促進(jìn)模型對(duì)地理空間場(chǎng)景從感知到認(rèn)知的智能理解,但一直缺乏大幅面、超高分辨率的衛(wèi)星影像數(shù)據(jù)。
而RSG的出現(xiàn)很好地填補(bǔ)了這一空白,一同提出的還有基于上下文感知的逐級(jí)認(rèn)知(CAC)框架,以及配套的SGG工具包。
有關(guān)論文已經(jīng)在arXiv公開(kāi)發(fā)布,相應(yīng)的數(shù)據(jù)集和工具包也已經(jīng)開(kāi)源。
大幅面超高分辨率衛(wèi)星影像數(shù)據(jù)集
在衛(wèi)星影像(SAI)領(lǐng)域當(dāng)中,場(chǎng)景圖生成(SGG)技術(shù)可以促進(jìn)對(duì)地理空間場(chǎng)景從感知到認(rèn)知的智能理解。
在SAI中,地理目標(biāo)的尺度和縱橫比變化大,地理目標(biāo)之間(甚至是空間不相交的地理目標(biāo)之間)存在豐富的關(guān)聯(lián),這使得SGG有必要在大幅面超高分辨率衛(wèi)星影像中整體進(jìn)行。
然而現(xiàn)實(shí)情況是,大幅面超高分辨率衛(wèi)星影像的SGG數(shù)據(jù)集比較缺乏,這無(wú)疑限制了SGG在SAI中的進(jìn)展。
又由于大幅面超高分辨率衛(wèi)星影像的復(fù)雜性,挖掘目標(biāo)-關(guān)系三元組<目標(biāo)1,關(guān)系,目標(biāo)2>嚴(yán)重依賴于遠(yuǎn)程上下文推理,傳統(tǒng)為小幅面自然圖像設(shè)計(jì)的SGG模型,不能直接適用于大幅面衛(wèi)星影像。
注:下圖是大幅面超高分衛(wèi)星影像中的SGG示意圖,其中第一行分別展示了大幅面超高分衛(wèi)星影像的目標(biāo)檢測(cè)和場(chǎng)景圖生成結(jié)果,第二行為對(duì)應(yīng)的局部細(xì)節(jié)展示。在第二行末尾圖中,黑色箭頭表示僅依賴于孤立目標(biāo)對(duì)可預(yù)測(cè)的關(guān)系,而紅色箭頭表示需要借助上下文推斷的復(fù)雜關(guān)系。

于是,為了解決數(shù)據(jù)集稀缺問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了首個(gè)面向大幅面超高分衛(wèi)星影像的大規(guī)模場(chǎng)景圖生成數(shù)據(jù)集RSG。
該數(shù)據(jù)集影像幅面跨越512×768到27,860×31,096像素,包含超過(guò)21萬(wàn)個(gè)地理目標(biāo)和超過(guò)40萬(wàn)個(gè)目標(biāo)-關(guān)系三元組。
△RSG數(shù)據(jù)集中目標(biāo)分布(a)和關(guān)系分布(b)統(tǒng)計(jì)
內(nèi)容上,RSG收集了空間分辨率為0.15-1m范圍的衛(wèi)星影像,涵蓋了全球范圍內(nèi)與人類活動(dòng)密切相關(guān)的11類復(fù)雜地理空間情景。
這些場(chǎng)景包括機(jī)場(chǎng)、港口、核電站、火電站、風(fēng)力發(fā)電站、水壩和服務(wù)區(qū)、立交橋、水面橋、施工工地和體育運(yùn)動(dòng)場(chǎng)景等。
△RSG數(shù)據(jù)集中影像采樣的地理分布和示例
在遙感領(lǐng)域?qū)<业闹笇?dǎo)下,研究團(tuán)隊(duì)將所有地理目標(biāo)劃分為48個(gè)細(xì)粒度類,并使用定向邊界框(OBB)進(jìn)行精確標(biāo)注,所有關(guān)系按照8個(gè)大類、58個(gè)細(xì)粒度類進(jìn)行標(biāo)注。
提出上下文感知框架
為了進(jìn)一步實(shí)現(xiàn)大幅面超高分衛(wèi)星影像中的SGG,研究團(tuán)隊(duì)還提出了一個(gè)基于上下文感知的逐級(jí)認(rèn)知(CAC)框架。
該框架從三個(gè)層面深入理解衛(wèi)星影像——目標(biāo)檢測(cè)(OBD)、目標(biāo)對(duì)剪枝和關(guān)系預(yù)測(cè):
- 在目標(biāo)檢測(cè)上,團(tuán)隊(duì)提出了“能夠靈活集成多尺度上下文的整體多類目標(biāo)檢測(cè)網(wǎng)絡(luò)(HOD-Net)”,可以檢測(cè)大幅面超高分辨率衛(wèi)星影像中的目標(biāo);
- 在目標(biāo)對(duì)剪枝方面,作者則設(shè)計(jì)了“基于對(duì)抗生成的候選對(duì)生成(PPG)網(wǎng)絡(luò)”,來(lái)篩選包含高價(jià)值關(guān)系的目標(biāo)對(duì);
- 在關(guān)系預(yù)測(cè)任務(wù)中,團(tuán)隊(duì)又提出了“帶有上下文感知消息傳遞(RPCM)的關(guān)系預(yù)測(cè)網(wǎng)絡(luò)”來(lái)預(yù)測(cè)候選對(duì)的關(guān)系類型。
在RSG測(cè)試集上的結(jié)果表明,在目標(biāo)檢測(cè)任務(wù)中,無(wú)論是基于水平框(HBB)還是有向框(OBB)的檢測(cè)器,團(tuán)隊(duì)提出的HOD-Net框架都取得了總成績(jī)和多個(gè)單項(xiàng)的SOTA。

注釋:
1.表格中,b_b為boarding_bridge, l_t表示lattice_tower, s_l為ship_lock, g_d為gravity_dam。
2.所有實(shí)驗(yàn)都基于標(biāo)準(zhǔn)的“1x”(12epochs)訓(xùn)練設(shè)置。
3.?表示主干網(wǎng)絡(luò)為Swin-L,其他的主干網(wǎng)絡(luò)都為ResNet50。
4.下劃線表示下方的方法使用該模型作為基礎(chǔ)檢測(cè)器。
同時(shí)測(cè)試結(jié)果還表明,HOD-Net方法也優(yōu)于一些其他的訓(xùn)練方式。
下面的圖更加直觀地展示了不同目標(biāo)檢測(cè)策略的可視化結(jié)果。
剪枝任務(wù)上,團(tuán)隊(duì)提出的PPG策略也在多個(gè)模型上運(yùn)行的測(cè)試中超越了傳統(tǒng)方法。
生成情景當(dāng)中,團(tuán)隊(duì)設(shè)計(jì)的的RPCM網(wǎng)絡(luò)在基于HBB和OBB檢測(cè)器的所有指標(biāo)上,同樣優(yōu)于先前的主流SGG方法。
下圖是不同SGG模型在RSG數(shù)據(jù)集中情景生成結(jié)果的可視化展示。
此外,為了促進(jìn)大幅面超高分辨率衛(wèi)星影像中SGG的發(fā)展,研究團(tuán)隊(duì)還發(fā)布了面向大面超高分辨率衛(wèi)星影像的SGG工具包(其中包含約30種OBD方法和10種SGG方法),并基于RSG數(shù)據(jù)集進(jìn)行了的全面基準(zhǔn)測(cè)試。
數(shù)據(jù)集和相關(guān)工具包都已開(kāi)源,可到項(xiàng)目主頁(yè)中了解詳情。
論文地址:
https://arxiv.org/abs/2406.09410
項(xiàng)目主頁(yè):
https://linlin-dev.github.io/project/STAR
GitHub:
https://github.com/Zhuzi24/SGG-ToolKit