商湯披露:50篇論文入選CVPR 2024
CVPR最佳論文即將揭曉
CVPR正在進(jìn)行中,中國(guó)科研力量再次成為場(chǎng)內(nèi)外焦點(diǎn)之一。
日前,AI頂會(huì)??瓦x手商湯科技,已經(jīng)披露了今年成績(jī)單:50篇論文入選,其中還有9篇被錄用為Oral、Highlight。
這些成果,既是商湯科研和技術(shù)實(shí)力的最新證明,也透露著這家知名AI公司對(duì)于產(chǎn)業(yè)趨勢(shì)和技術(shù)趨勢(shì)的預(yù)判——
論文涉及自動(dòng)駕駛、機(jī)器人等前沿方向。
大規(guī)模視覺(jué)語(yǔ)言基礎(chǔ)模型:InternVL
商湯科技、上海AI實(shí)驗(yàn)室等聯(lián)合設(shè)計(jì)了一個(gè)大規(guī)模的視覺(jué)語(yǔ)言基礎(chǔ)模型——InternVL。
首次將大規(guī)模視覺(jué)編碼器擴(kuò)展到60億個(gè)參數(shù),與LLM進(jìn)行對(duì)齊,在準(zhǔn)確性、速度和穩(wěn)定性之間取得了良好平衡。
論文:https://arxiv.org/abs/2312.14238
為了有效訓(xùn)練大規(guī)模視覺(jué)語(yǔ)言基礎(chǔ)模型,InternVL還引入了一種漸進(jìn)式圖像-文本對(duì)齊策略。
該策略最大限度地利用網(wǎng)絡(luò)規(guī)模的噪聲圖像-文本數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí),并將細(xì)粒度、高質(zhì)量的數(shù)據(jù)用于生成學(xué)習(xí)。
通過(guò)驗(yàn)證,相較于當(dāng)前最先進(jìn)的視覺(jué)基礎(chǔ)模型和多模態(tài)大語(yǔ)言模型,InternVL在廣泛的通用視覺(jué)語(yǔ)言任務(wù)上能夠取得更領(lǐng)先的結(jié)果。
另外,InternVL工作的最新版本InternVL 1.5具備強(qiáng)大的視覺(jué)編碼器和更深層次的場(chǎng)景理解能力。
InternVL 1.5支持動(dòng)態(tài)高分辨率,能夠準(zhǔn)確識(shí)別和理解圖像中的各種細(xì)節(jié)以及文字信息。
Demo:https://internvl.opengvlab.com/
第三方評(píng)測(cè)結(jié)果顯示,InternVL 1.5在多模態(tài)感知、通用問(wèn)答、文檔理解、信息圖表理解以及數(shù)理理解等方面綜合能力領(lǐng)先開(kāi)源模型,比肩GPT-4V、Gemini Pro等閉源模型。
不僅如此,為了補(bǔ)充多模態(tài)系統(tǒng)在高質(zhì)量圖像生成中的優(yōu)質(zhì)表現(xiàn),對(duì)傳統(tǒng)模型進(jìn)行優(yōu)化,商湯還提出了一個(gè)“基于時(shí)間信息塊的時(shí)間特征維護(hù)量化(TFMQ)”擴(kuò)散模型框架。
論文:https://arxiv.org/abs/2311.16503
該框架時(shí)間信息塊僅與時(shí)間步驟相關(guān),與采樣數(shù)據(jù)無(wú)關(guān),創(chuàng)新地設(shè)計(jì)并引入了時(shí)間信息感知重建(TIAR)和有限集校準(zhǔn)(FSC)方法,從而可以在有限的時(shí)間內(nèi)對(duì)齊全精度時(shí)間特征,最小化精度損失的同時(shí)提高圖像生成效率。
配備此框架,可以保持最多的時(shí)間信息并確保端到端的圖像生成質(zhì)量。在各種數(shù)據(jù)集和擴(kuò)散模型上的廣泛實(shí)驗(yàn)證明了該技術(shù)已經(jīng)達(dá)到SOTA水平。
場(chǎng)景級(jí)3D開(kāi)放世界感知算法:RegionPLC
場(chǎng)景級(jí)別的3D開(kāi)放世界感知是機(jī)器人領(lǐng)域非常重要的能力之一。
它能夠使機(jī)器人在復(fù)雜、多變的環(huán)境中自主導(dǎo)航、理解和交互,從而提升執(zhí)行復(fù)雜任務(wù)的效率、準(zhǔn)確性和安全性。
商湯科技和聯(lián)合實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一種直接結(jié)合點(diǎn)云和自然語(yǔ)言的新開(kāi)放世界理解算法——RegionPLC,無(wú)需額外訓(xùn)練就可以和大語(yǔ)言模型結(jié)合進(jìn)行一些場(chǎng)景級(jí)別的開(kāi)放問(wèn)答。
論文:https://arxiv.org/abs/2311.16503
該算法擴(kuò)展到了更細(xì)粒度的區(qū)域級(jí)別點(diǎn)云和語(yǔ)言的結(jié)合,能夠生成更密集和細(xì)粒度的描述。
在該研究中,研究人員設(shè)計(jì)了一種基于互補(bǔ)的數(shù)據(jù)混合策略SFusion,只會(huì)混合在3D空間中互補(bǔ)的3D-text pairs,減少在優(yōu)化時(shí)產(chǎn)生沖突的概率。這樣的設(shè)計(jì)使得RegionPLC可以結(jié)合不同2D大模型的優(yōu)勢(shì),達(dá)到更好性能。
通過(guò)大量實(shí)驗(yàn)證明,RegionPLC在ScanNet、ScanNet200和nuScenes數(shù)據(jù)集上的性能優(yōu)于現(xiàn)有的3D開(kāi)放世界場(chǎng)景理解方法,并在具有挑戰(zhàn)性的長(zhǎng)尾或無(wú)注釋場(chǎng)景中表現(xiàn)非常出色。
除了對(duì)場(chǎng)景的識(shí)別和理解,智能體的社會(huì)化交互能力也是人工智能邁向更高階的關(guān)鍵所在。
為此,商湯及聯(lián)合實(shí)驗(yàn)室提出了“數(shù)字生命計(jì)劃(Digital Life Project)”,即通過(guò)AI技術(shù)和動(dòng)作合成技術(shù)創(chuàng)造出能夠在數(shù)字環(huán)境中模擬交互的自主3D虛擬角色。
論文:https://arxiv.org/abs/2311.16503
這些角色不僅可以進(jìn)行對(duì)話,還將擁有自己的人格,并感知所處的不同社交環(huán)境,做出相對(duì)應(yīng)的身體動(dòng)作來(lái)表達(dá)情感和反應(yīng)。
數(shù)字生命計(jì)劃包括“SocioMind”和“MoMat-MoGen”兩個(gè)核心部分。
其中,SocioMind是一個(gè)模擬人類思想和判斷的數(shù)字大腦。它能夠結(jié)合大語(yǔ)言模型和基于心理學(xué)原理的反思過(guò)程,使角色自主地發(fā)起和參與對(duì)話,規(guī)劃接下來(lái)的故事發(fā)展。
而MoMat-MoGen是一套用于控制角色身體動(dòng)作的3D系統(tǒng)。它結(jié)合了動(dòng)作匹配(Motion Matching)和動(dòng)作生成(Motion Generation)技術(shù),在數(shù)字大腦的驅(qū)動(dòng)下,讓角色能根據(jù)場(chǎng)景做出合理的反應(yīng)。
CVPR最佳論文發(fā)布在即
本次CVPR共有來(lái)自全球的2719篇論文被接收,錄用率為23.6%,相較去年下降2.2%。可以看到,其他國(guó)內(nèi)玩家也表現(xiàn)不俗,都有不少論文入選。
比如像騰訊優(yōu)圖實(shí)驗(yàn)室,此前曝光稱有20篇入選,覆蓋多模態(tài)、人臉識(shí)別、視覺(jué)分割等多個(gè)方向。
這周,CVPR2024在美國(guó)西雅圖正在進(jìn)行中。
也就在這兩天,CVPR最佳論文獎(jiǎng)即將出爐,可以期待一下。