理想開卷新榜單:4篇論文入選AI頂會CVPR
理想All in AI,隱秘布局浮出水面
一凡 發(fā)自 副駕寺
智能車參考 | 公眾號 AI4Auto
AI正在成為車企競爭的新戰(zhàn)場。
CVPR 2025放榜,智能車參考最新獲悉,其中理想汽車中稿了4篇。
CVPR(Computer Vision and Pattern Recognition)是計算機視覺領域的頂級學術(shù)會議,今年競爭較之以往更加激烈。
據(jù)了解,此次共有13008篇工作進入了評審流程,最終只錄用了2878篇。
錄用率僅為22.1%,相比2024年再度下降了1.5個百分點。
在這樣的條件下,一家車企竟然殺出重圍,也難怪DeepSeek經(jīng)過深度思考后,會做出這樣的評價:

中稿的4篇工作,主要是自動駕駛模擬仿真方面的創(chuàng)新:
- StreetCrafter:利用車載傳感器收集數(shù)據(jù),生成高保真街景視圖
- DriveDreamer4D:利用世界模型合成新視頻片段,補充現(xiàn)實數(shù)據(jù)集
- ReconDreamer:修復場景生成時大幅度動作導致的“偽影”問題
- DrivingSphere:搭建多智能體場景,訓練自動駕駛算法
StreetCrafter
首先是StreetCrafter,由理想、浙江大學和康奈爾大學合作,提出了一種利用車載傳感器采集的數(shù)據(jù),生成高保真街景視圖的方法。

具體來說,StreetCrafter輸入激光雷達點云數(shù)據(jù)和校準圖像后,先將相鄰幀的激光雷達點云聚合為全局點云,然后在給定相機姿態(tài)下,將其渲染為彩色圖像。
這些渲染而成的彩色圖像,會在模型生成新的視頻幀時,作為限制條件,來確保生成視頻幀的幾何一致性,精確控制相機姿態(tài)。
同時,得益于激光雷達點云提供了精確的幾何信息,當調(diào)整輸入模型的相機姿態(tài)時,模型能夠生成與輸入新姿態(tài)一致的新視圖。
即便相機姿態(tài)偏離了原有的訓練軌跡,依然能夠生成高質(zhì)量的視圖,解決了以往工作的一大痛點。
值得一提的是,StreetCrafter生成的場景還支持自定義,可以對圖像中的對象進行平移、替換和移除。

這項工作在Waymo Open Dataset和PandaSet進行了實驗對比,超越了過去的傳統(tǒng)方法。

DriveDreamer4D
然后是DriveDreamer4D,整合了世界模型的先驗知識,生成新的車輛行駛軌跡視頻數(shù)據(jù),用來補充現(xiàn)實世界的駕駛數(shù)據(jù)集。
相比NeRF和3D高斯散射(3DGS)等方式,DriveDreamer4D能處理更多樣化的復雜場景,比如變道、加速和減速,提升4D場景的生成質(zhì)量和時空一致性。
核心工作有兩項,新軌跡生成模塊NTGM和數(shù)據(jù)訓練策略CDTS。
其中,NTGM(Novel Trajectory Generation Module)提供兩種輸入方式生成新的行駛軌跡。
一種是文本描述(Text-to-trajectory),通過文本自動生成包括變道、加速或減速等操作下的軌跡。
一種是自定義設計(Custom-designed),根據(jù)特定需求,手動定制設計行駛路徑。

輸出行駛軌跡后,NTGM還會負責對齊,將軌跡輸入仿真環(huán)境比如CARLA,模擬車輛運動并檢測碰撞風險,以及使用預測模型,評估與其他車輛的交互是否安全。
最后,在世界模型的驅(qū)動下,檢查合格的安全軌跡會轉(zhuǎn)換為剎車、轉(zhuǎn)向和踩油門等控制信號,結(jié)合環(huán)境狀態(tài)信息,比如車輛位置、光照等,生成行車視頻。

CDTS(Cousin Data Training Strategy)則與NTGM的工作相輔相成。

NTGM生成的軌跡和視頻會被“打包”成合成數(shù)據(jù)集,然后CDTS引入正則化損失確保合成的數(shù)據(jù)集與真實數(shù)據(jù)的感知一致性。
其中存在的誤差會反饋給NTGM,促進其軌跡生成策略迭代。
DriveDreamer4D的評估基準比較多樣,包括數(shù)據(jù)集的對比測試和用戶調(diào)研等形式。
在與PVG、S^3Gaussian、以及Deformable-GS對比后,DriveDreamer4D的時空一致性和真實性均有所提升。

此外,作者還讓用戶比較不同方法生成的駕駛視頻,場景包括變道和加減速,視頻左右對照,隨機分配,讓用戶選出其中最優(yōu)的結(jié)果,評價匯總?cè)缦拢?/p>

DriveDreamer4D能夠處理常規(guī)場景,但是應對更復雜的變化有點力不從心,比如跨多車道變道時,一跨跨6米,類似這種大幅度動作,重建起來會出問題。
因此,極佳、北大、中科院自動化所和理想等單位聯(lián)合,推出了適用于“大動作”場景的方法。
ReconDreamer
重建動態(tài)駕駛場景時,較大幅度的動作會引起場景出現(xiàn)扭曲、模糊和細節(jié)丟失等問題,稱作“偽影”,具體表現(xiàn)為遠方小樹扭曲和前景車輛部分遮擋等。
針對這一類問題,ReconDreamer依然是利用世界模型的知識,通過在線修復(DriveRestore)和漸進數(shù)據(jù)更新策略( Progressive Data Update Strategy以下簡稱PDUS)兩大手段,解決復雜動作的渲染質(zhì)量問題。

第一步,構(gòu)建一個修復數(shù)據(jù)集。
首先用開放數(shù)據(jù)集中的特定片段,做一個原始軌跡數(shù)據(jù)集,訓練出一個動態(tài)場景重建模型。
由于該模型僅適配了原始軌跡,因此當其去渲染新生成的軌跡時,即便軌跡跨度比較小,假設為1.5米,仍然會出現(xiàn)帶有“偽影”的“殘次視頻”。
然后拿著這些渲染出的“殘次視頻”,與其對應的正常視頻片段逐幀比對,找出有問題的“退化幀”,一一對應形成這樣的修復數(shù)據(jù)集{(正常幀1,退化幀1),(正常幀2,退化幀2),(正常幀i,退化幀i)…}。
第二步,用修復數(shù)據(jù)集訓練DriveRestorer。
將修復數(shù)據(jù)集和結(jié)構(gòu)條件比如3D box序列或者高精地圖,輸入DriveRestorer訓練,目標是讓模型學會修復“偽影”,修復過程有點像擴散模型中的去噪。
在一過程中引入了脫敏策略,重點針對問題嚴重區(qū)域的“偽影”,比如遠景和天空,更有效地修復這些區(qū)域的“偽影”提升渲染質(zhì)量。
通過最小化正常幀和退化幀之間的損失,優(yōu)化DriveStorer的參數(shù)。
當DriveStore完成微調(diào)后,模型已經(jīng)初步學會怎么修復視頻了。
第三步,將早前的“殘次視頻”和結(jié)構(gòu)條件輸入模型中,輸出修復后的高質(zhì)量視頻。
再將修復后的視頻放入原始數(shù)據(jù)集,實現(xiàn)數(shù)據(jù)集擴大。
接下來,在數(shù)據(jù)集中生成更大跨度的軌跡,比如第一輪是1.5米,接下來可以是3米,然后6米,重復上述步驟,漸進更新數(shù)據(jù),讓模型適應更復雜的機動場景,直至模型收斂。

這是因為引入了漸進數(shù)據(jù)更新策略,因此DriveRestorer在處理大幅度機動動作時,相較之前的DriveDreamer4D有更好的表現(xiàn)。

DrivingSphere
最后,是自動駕駛系統(tǒng)的驗證問題。
DrivingSphere,一種生成式閉環(huán)仿真框架,構(gòu)建了一個多智能體環(huán)境,智能體主要有兩類:
- 主智能體:被測試的自動駕駛系統(tǒng)
- 環(huán)境智能體:各種交通參與者
框架主要通過兩大模塊和一個機制,為智能體構(gòu)建了高保真4D世界,評估自動駕駛算法。

兩大模塊,包括構(gòu)建動態(tài)環(huán)境的DEC模塊(Dynamic Environment Composition module),以及合成視覺場景的VSS模塊Visual Scene Synthesis module)。

首先,DEC將BEV圖像和文本描述輸入到模型OccDreamer中。

OccDreamer是基于占用網(wǎng)絡的擴散模型,利用擴散模型迭代去噪,逐步生成高保真的靜態(tài)場景,并且支持城市場景的無縫擴展。
然后,DEC會根據(jù)語義相似性或者隨機從“演員庫”(Actor Bank)中選擇車輛和行人,作為動態(tài)的交通參與者,也就是環(huán)境智能體,與主智能體交互。
每個環(huán)境智能體具有唯一的ID和時空位置,根據(jù)控制信號動態(tài)更新,反映其在不同時間幀下的位置變化。

最后,DEC會將靜態(tài)的背景、動態(tài)的參與者以及他們的位置,整合為一個完整的4D世界,相比傳統(tǒng)方式還原細節(jié)更豐富,場景更真實。
DEC的任務到此基本完成,VSS接力將生成的4D世界轉(zhuǎn)換為多視角下的高保真視頻,用于自動駕駛感知:
核心是視頻擴散模型VideoDreamer。

首先,VideoDreamer采用雙路徑條件編碼策略,在全局分支下,使用預訓練的4D編碼器從4D世界中提取出幾何信息和時空關系,獲取全局特征,確保靜態(tài)場景的整體結(jié)構(gòu)和動態(tài)元素的位置和交互關系正確。
然后還有局部映射分支,該分支負責生成特定視角的語義圖,在像素級別上實現(xiàn)對齊,捕捉遮擋關系和深度變化。
這種策略解決的是時空一致性的問題,確保視覺一致性,VSS還有一套ID識別演員編碼機制。
前面提到,每個環(huán)境智能體都具有唯一的ID號碼,該機制將參與者的ID、語義描述和位置信息進行傅里葉編碼,將參與者的外觀和ID和場景中的位置綁定起來。
這樣,VSS能夠在不同視角和時間幀下,確保參與者外觀的一致性,從而實現(xiàn)時空上的視覺一致性。
為了進一步提升生成視頻的流暢度和精度,模塊最后還集成了ST-DiT(Spatial-Temporal Diffusion Transformer),
ST-DiT來自Open Sora,采用了時空自注意力機制、視圖感知空間自注意力、交叉注意力機制、自回歸生成策略和控制網(wǎng)絡分支等技術(shù),確保生成無偽影的幀序列。

在兩大模塊背后,還有一套閉環(huán)反饋機制。
前面提到,DEC模塊中的智能體的控制信號,就是這套格局視覺輸入信號生成的,用來改變環(huán)境智能體的狀態(tài)。
智能體的信號動態(tài)改變了環(huán)境,環(huán)境的變化又生成視覺輸入反饋給智能體,這樣智能體就能在一個動態(tài)的交互環(huán)境中測試驗證。
DrivingSphere在nuScenes數(shù)據(jù)集上的對比結(jié)果如下:

一家車企在AI頂會同時中稿4篇工作,理想為什么能在2024年智駕飛升,恍然大明白了。
然而,自動駕駛只是理想AI轉(zhuǎn)型的冰山一角。
理想AI賽道的隱秘布局
所有人都感知到了,理想正在All in AI:
組織架構(gòu)上,李想本人重心轉(zhuǎn)移,交棒整車產(chǎn)銷供決策權(quán),All in AI。
AI應用層,智駕模型迅速升級,VLA模型蓄勢待發(fā),1000萬Clips版本推送。
李想自信迎戰(zhàn)FSD:
歡迎和理想在全國任何地方一起對比。

細扒過年一年理想?yún)⑴c的AI論文,會發(fā)現(xiàn)更隱秘、更全面的布局。
既有Drive VLM這種引領智駕新范式的自動駕駛理論成果:

也有文本生成3D圖像,AI虛擬人物一鍵換裝等其他領域的工作:

還有AI的交叉學科應用:

這些成果主要集中在2024年下半年,有基礎模型,有落地應用,還有其他行業(yè)的能力延伸。
這意味著,理想汽車正在從車企轉(zhuǎn)向AI企業(yè)。
全民智駕的這一年,AI普及加速上車,車企正在從看得見的銷量競爭,轉(zhuǎn)向更隱秘的AI技術(shù)競爭。
論文&對應項目地址:
DriveDreamer4D
https://arxiv.org/abs/2410.135712
https://drivedreamer4d.github.io
ReconDreamer
https://arxiv.org/abs/2411.19548
https://recondreamer.github.io
DrivingSphere
https://arxiv.org/abs/2411.11252
https://yanty123.github.io/DrivingSphere/
StreetCrafter
https://arxiv.org/abs/2412.13188
https://zju3dv.github.io/street_crafter/
理想開源項目地址:
https://github.com/LiAutoADhttps://github.com/LiAutoAD
- 蔚來新ES8售價降低是因為減配?李斌回應了2025-08-22
- 31萬!蔚來開賣國產(chǎn)最大純電SUV,網(wǎng)友排隊給CEO李斌道歉2025-08-22
- 行業(yè)首個AI座艙:能嘮嗑會辦事兒,吉利銀河M9率先搭載,杭州出品2025-08-21
- 20個要點,看完李想4小時超長訪談2025-08-20