他在同濟(jì)學(xué)汽車,今年拿下CVPR最佳學(xué)生論文獎
“太偏數(shù)學(xué)了,投稿時以為會很冷門,根本沒想到能獲獎”
夢晨 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
從汽車動力學(xué)“轉(zhuǎn)行”智能視覺感知,3年斬獲2篇CVPR論文。
其中一篇,還是今年CVPR論文的最佳學(xué)生論文獎。
獎項頒了二十多屆,今年第一次頒給來自中國高校的學(xué)生一作,打敗了哈佛大學(xué)博士生&谷歌的另一篇論文研究。
這是同濟(jì)大學(xué)在讀二年級碩士、阿里達(dá)摩院實習(xí)生陳涵晟的真實經(jīng)歷。
轉(zhuǎn)方向前,他對汽車動力學(xué)同樣興趣十足,曾經(jīng)加入過賽車隊,主導(dǎo)空氣動力學(xué)開發(fā),最終團(tuán)隊在大學(xué)生國際賽事上獲了獎;
讀研第一年,論文就入選了CVPR,但卻因為理論不夠充分,轉(zhuǎn)而繼續(xù)深入研究,才有了今年這篇最佳學(xué)生論文獎。
在與陳涵晟同學(xué)的交流中,我們了解了更多關(guān)于他的故事。
本科第五年才轉(zhuǎn)型自動駕駛
陳涵晟就讀的同濟(jì)汽車學(xué)院,本科是五年制。
一入學(xué)他就參加了同濟(jì)翼馳車隊。這是一個上百人組成的學(xué)生社團(tuán),在學(xué)校、學(xué)院和贊助商支持下,每年都會設(shè)計、制造賽車并參加國內(nèi)和國際比賽。
在車隊里陳涵晟負(fù)責(zé)的是空氣動力學(xué)開發(fā),主要涉及仿真計算、曲面建模等技術(shù)。
他漸漸成為車隊的骨干,還助力團(tuán)隊在2018年的日本大學(xué)生方程式賽車上拿了最佳空氣動力學(xué)獎。
其實汽車和計算機(jī)都是陳涵晟從小開始就有的愛好,他表示自己也搞不清楚更喜歡哪個,另外數(shù)學(xué)也是他一直感興趣的學(xué)科。
高考后他也曾考慮過計算機(jī)專業(yè),不過最終還是選擇了汽車。
到畢業(yè)那年,他看到一個把這些愛好更緊密結(jié)合起來的新道路。
智能汽車、自動駕駛的大潮來了。
當(dāng)時,同濟(jì)剛成立不久的智能汽車研究所也在招生,他的畢業(yè)設(shè)計就選擇了自動駕駛方向。
有機(jī)遇,就想嘗試一下新東西。
陳涵晟加入了熊璐教授的課題組開始學(xué)習(xí)新知識,熊璐老師也將成為他后來在研究生階段的導(dǎo)師。
熊璐現(xiàn)任同濟(jì)大學(xué)新能源汽車工程中心副主任,長期從事汽車底盤控制、分布式驅(qū)動電動汽車動力學(xué)控制相關(guān)科研工作,
在研究生階段陳涵晟還有一位副指導(dǎo)老師,同濟(jì)大學(xué)汽車學(xué)院助理教授田煒,他主要研究智能駕駛的環(huán)境目標(biāo)感知技術(shù)和軌跡預(yù)測技術(shù)。
轉(zhuǎn)方向、學(xué)習(xí)交叉學(xué)科壓力會很大嗎?陳涵晟認(rèn)為對他來講并不會很累,反而兩個領(lǐng)域的碰撞總能讓他產(chǎn)生更多靈感。
畢業(yè)那年是這些年來最舒服最輕松的那年,完全地去學(xué)習(xí)新知識,有很大的收獲感。
不滿足煉丹要搞懂理論,一連斬獲2篇CVPR
到了研一,田煒老師給他布置的課題方向是在傳統(tǒng)模型中中加入概率和不確定性。
陳涵晟將之與自己感興趣的3D物體位姿問題結(jié)合起來,發(fā)表了他的第一篇CVPR。
雖然中了頂會,不過陳涵晟還是覺得差了些什么。
這篇文章是根據(jù)經(jīng)驗設(shè)計的,雖然模型效果好但我不明白他為什么效果好,也無法用數(shù)學(xué)理論去證明這個方法就是最優(yōu)的。
這次獲獎的第二篇論文與之前相比最大的突破點,陳涵晟認(rèn)為在于“從理論出發(fā)去解決問題”。
我們把各種方法都統(tǒng)一起來,套在一個大框架里面。
然后又從這個框架里找到了一個更通用、效果更好的方法,第二篇論文就誕生了。
陳涵晟的這兩篇CVPR論文,具體來說研究的都是通過單張2D圖像估計3D物體位姿的問題。
對于人類來說,通過一張2D照片,判斷里面各物體大致的位置很簡單。
但對于計算機(jī)來說,這是個頗為復(fù)雜的問題,像下面這些車在它看來,并沒有遠(yuǎn)/近的距離感:
因此,如何讓計算機(jī)學(xué)會通過2D照片估計3D物體的位置和朝向,就變成了一個需要解決的問題,像自動駕駛(用攝像頭估計車輛位置)、AR(判斷虛擬物體距離)等領(lǐng)域都要用到:
然而,現(xiàn)有的兩類解決方法幾何推理和深度學(xué)習(xí),都有一定缺陷。
幾何推理,最常見的就是PnP(Perspective-n-Point)算法,具體指通過已知的n個3D空間點(c1、c2、c3、c4)的坐標(biāo)、對應(yīng)2D平面上點的坐標(biāo),結(jié)合相機(jī)內(nèi)參來反推相機(jī)的位姿。
本質(zhì)上來說,就是找到3D空間點的坐標(biāo)系w以及相機(jī)坐標(biāo)系c的對應(yīng)關(guān)系,來推導(dǎo)出相機(jī)和這些3D點的空間距離:
△PnP圖示,來源OpenCV文檔
這個方法非常簡潔,原理也好理解,然而必須得有一大堆參數(shù)(3D、2D坐標(biāo)和對應(yīng)的相機(jī)內(nèi)參)才能計算出結(jié)果。現(xiàn)實是往往只能用一張2D照片做估計,沒有對應(yīng)的3D坐標(biāo)。
深度學(xué)習(xí)方法倒是不需要這么多參數(shù),直接用AI搞預(yù)測就行。
但這樣問題又來了,不僅模型可解釋性差,預(yù)測結(jié)果不一定準(zhǔn)確,而且數(shù)據(jù)集樣本量少的時候,還非常容易過擬合。
他的第一篇論文,便是在PnP算法中引入了不確定性,在此基礎(chǔ)上提出MonoRUn檢測算法。
相比用自監(jiān)督方法直接學(xué)習(xí)位姿,這篇論文先用自監(jiān)督方法學(xué)習(xí)2D和3D坐標(biāo)之間的關(guān)系,再用PnP算法求解。
論文估計了坐標(biāo)預(yù)測結(jié)果的不確定性,并用不確定性PnP算法,讓模型學(xué)會關(guān)注不確定性較低的前景點(檢測對象的點)。
MonoRUn做出來后,效果很好,不需要提前知道物體的幾何形狀,就能預(yù)測3D位姿,直接登上CVPR 2021。
但這卻讓陳涵晟有點懵:為啥用不確定性PnP算法,效果就這么好?
這一方向上繼續(xù)深入研究之后,他最終發(fā)現(xiàn)了“盲點”:PnP算法本質(zhì)上在某些點是不可導(dǎo)的。
也就是說,上一篇論文把不確定性引入PnP算法,雖然效果很好,但本質(zhì)上將PnP視為確定性這一操作并不可導(dǎo)。
這會導(dǎo)致PnP算法求解得到模糊的位姿解,從而導(dǎo)致反向傳播(收斂過程)不穩(wěn)定。
一番思索后,陳涵晟突然意識到,為什么不將這種確定性問題轉(zhuǎn)化成概率密度的問題呢?
也就是說,將PnP的輸出視為位姿的概率密度函數(shù),這樣問題就從不可導(dǎo)變成了可導(dǎo),這便是End-to-end Probabilistic Perspective-n-Points(EPro-PnP)算法的由來。
這次的模型做出來后,靈活性和可解釋性都得到了很大的提升,收斂也穩(wěn)定多了,最終在CVPR 2022中獲得最佳學(xué)生論文獎。
據(jù)陳涵晟介紹,第二篇論文是他在阿里達(dá)摩院做研究型實習(xí)生期間完成的。
達(dá)摩院的研究氛圍很好,與他同期的一組實習(xí)生雖然做的都是不同方向,但經(jīng)常和帶他們的幾位老師在一起討論問題。
論文里面雖然沒有掛上那么多人的名字,但很多細(xì)節(jié)都是在平時的討論中獲得靈感,再完善出來。
相比之下,今年疫情封校期間他一直待在宿舍,“缺少了和人的交流,研究靈感反而少了很多”。
陳涵晟還提到了實習(xí)期間“算力充足”的快樂——
搞這項研究期間,達(dá)摩院的導(dǎo)師王丕超還特意幫他多申請了一臺服務(wù)器,才能順利完成整個模型的研究訓(xùn)練。
還以為比較冷門,沒想到能夠獲獎
這次成果能獲獎,陳涵晟和導(dǎo)師、達(dá)摩院的幾位合作者都沒有預(yù)料到。
我原來以為這篇論文可能比較冷門,因為太偏數(shù)學(xué),沒想到能夠獲獎。
整個作者團(tuán)隊沒有人在美國新奧爾良的CVPR現(xiàn)場,領(lǐng)獎還是遠(yuǎn)程接入的。
不過從這屆CVPR整體風(fēng)格來看,確實更傾向于基礎(chǔ)理論而不是更熱門的模型結(jié)構(gòu)調(diào)整方向。
像最佳論文獎,也是頒給了一項用神經(jīng)網(wǎng)絡(luò)解決傳統(tǒng)幾何問題的研究。
就陳涵晟觀察,CVPR的評委可能更多的是在鼓勵理論上具有突破傳統(tǒng)范式的貢獻(xiàn)。
對于獲獎時有什么想法,陳涵晟的回答很實在:
最大的感觸就是以后的路更好走了。
如今面臨研究生畢業(yè),陳涵晟對未來的打算很明確,想繼續(xù)做科研。
不過以后不一定是做自動駕駛領(lǐng)域的科研,可能還會嘗試新東西,主要還是按自己的興趣去做。
在交流中,我們觀察到興趣是陳涵晟做事最大的驅(qū)動力,一旦開始做事他就會非常投入。
有達(dá)摩院的同事爆料他推導(dǎo)公式時不時會拍自己大腿,甚至嚇到周圍的人。
陳涵晟覺得可能是因為自己太專注了,成功或者出錯都會情不自禁表達(dá)一下激動或沮喪的心情。
除了專注,他還擅長把不同興趣結(jié)合起來。
他在本科時參加了合唱團(tuán),那時他也會利用編程創(chuàng)作音樂作品、或者用計算機(jī)模擬管風(fēng)琴。
最后,我們問了問他對于做科研有什么心得。
陳涵晟認(rèn)為獨立思考是最值得一說的。
很多時候他面對一個課題不是先把領(lǐng)域內(nèi)的文章通通看一遍,而是自己先嘗試,有了比較完善的想法之后再去讀論文。
如果有人做的話,至少說明我的思路是正確的。如果沒有人做的話,有可能我發(fā)現(xiàn)了一個新的東西。
論文鏈接:
https://arxiv.org/abs/2203.13254
參考鏈接:
[1]https://cvpr2022.thecvf.com/cvpr-2022-paper-awards
[2]https://wap.peopleapp.com/article/6767948/6638309
[3]https://arxiv.org/abs/2103.12605
[4]https://weibo.com/2027586097/Gyx9dp8lN
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18