陳怡然力薦《關(guān)于我博士畢業(yè)的這件小事》,Waymo研究員2年半心路分享火了
兩件“小事”讓我走上科研開掛人生
編者按:搞科研、讀博士,這從來都不是一條輕松的路。今年9月,UCLA博士生葉小飛終于通過答辯,正式成為自動駕駛領(lǐng)域的一位“刀客特”。
兩年半讀博期間,葉小飛經(jīng)歷了一次重大的思維方式轉(zhuǎn)變,才得以“一改前非”、獲得高度自驅(qū)的科研原動力。
這讓他每天保持13小時工作時長也樂在其中,最終畢業(yè)之前拿下數(shù)篇頂會文章、引用從個位數(shù)漲到4位數(shù),畢業(yè)后則直接加入谷歌旗下的明星公司W(wǎng)aymo擔(dān)任研究員。
他將其中心路歷程化為一篇《關(guān)于我博士畢業(yè)這件小事》分享在知乎上,字字干貨,一經(jīng)發(fā)布便引發(fā)了大量關(guān)注和共鳴。連杜克大學(xué)的陳怡然教授看完也力薦:“非常值得一讀”。
那么,具體是什么改變了他?他又分享了那些有用的讀博經(jīng)驗?一起來看看。
注:本文經(jīng)授權(quán)轉(zhuǎn)載。
在2023年九月里的平凡的一日,我通過了答辯,正式成為了一名刀客特。
我朋友問我答辯成功后怎么慶祝,我說我要先把自己知乎頭銜“UCLA在讀博士”的“在讀”倆字去掉。
今天我在這里寫下這篇文章,一是想和大家,尤其是那些博一博二處于迷茫、或者正在苦苦掙扎的小伙伴分享一些自己的經(jīng)驗心得,二是為自己此時此刻一些微不足道的感悟做個記錄。
這篇文章或許和以前的文風(fēng)相比更感性、條理性弱了點(diǎn),但句句都會是肺腑之言。
我的博士生涯其實很短,有時我自己都覺得恍然如夢。我在2021年入學(xué)1月入學(xué),2023年9月畢業(yè),其中還夾雜著半年在Waymo的實習(xí)。
我的博士生涯又很漫長,我的過去兩年可能頂別人的四年——我靠著自己近乎瘋狂的熱忱每天都保持著將近13個小時的工作時間。
在這13個小時里,我的身體雖然被限制在家里的方寸之地,但是精神卻是前所無比的自由、不羈。
得益于這種熱忱,我在過去的兩年半里發(fā)表了不少頂會頂刊文章,引用從個位數(shù)漲到了4位數(shù)。
但這些身外之物絕不是我讀博最大的收獲,我最大的收獲應(yīng)是思考方式的一種重塑。
讀博中最重要的事
讀博里最重要的事情是什么?我想大部分新入學(xué)的PhD會回答說發(fā)表論文、做好項目、順利畢業(yè)。
但我個人覺得這些事都是表,并非根。在我看來,讀博中最重要的事是重塑你的思維方式。
博士學(xué)位的英文是Doctor of Philosophy, 而不是Doctor of Engineering:
這就代表讀博的最終目標(biāo),是學(xué)會以一種新的目光看待科研、甚至看待整個世界。
拿我自己舉例子。如果有心的朋友讀過我讀博前的文章,可以發(fā)現(xiàn)他們真的非常Boring。
那時的我做科研就一個想法:
找一個熱門的CV問題搭積木刷榜單,先把分?jǐn)?shù)提上去再編故事,結(jié)果就是我只能發(fā)一些垃圾會議。
這種做法其實在計算機(jī)視覺領(lǐng)域很常見,而它最大的問題在于,你從未認(rèn)認(rèn)真真、獨(dú)立思考過問題本身。
你做科研的原動力要么為了刷文章幫自己以后找工作,要么為了滿足自己勝過別人的欲望。
我?guī)е@種思維讀博讀了半年,直到我做到一個車路協(xié)同感知的文章遇到瓶頸才得以突破。
當(dāng)時我一直很苦惱一件事:
路端傳感器由于擺放位置較高,看什么都是一馬平川,它如果把自己的感知信息傳給經(jīng)過的無人汽車,隨便用個transformer一融合,那感知的問題不全都迎刃而解了?
這么簡單的課題我怎么才能發(fā)頂會?
這個苦惱困擾了我整整一周,直到有一天我開車經(jīng)過一個十字路口,忽遇大風(fēng),整個交通桿被晃的搖搖欲墜,我就在此刻突然開竅了:
車路協(xié)同遠(yuǎn)遠(yuǎn)不是我想象的那樣完美—這樣大的晃動一定會造成定位誤差極大,導(dǎo)致路段設(shè)施傳導(dǎo)的感知信息有著較大的偏差,直接影響融合效果。
這樣一來,這個課題不是有更多的研究點(diǎn)了嘛?
從這一刻起,我的思維開始改變。
我不再想當(dāng)然地去攻克一個已知的科研問題,而是先捫心自問:
我是否足夠深入地思考這個領(lǐng)域有哪些真正的痛點(diǎn)問題?已有的問題本身是否就有問題?
關(guān)于第一個捫心自問,即我是否足夠深入地思考這個領(lǐng)域有哪些真正的痛點(diǎn)問題,我可以拿自動駕駛里的現(xiàn)在很流行的純相機(jī)BEV感知檢測來舉個例子。
大部分人的想法還是停留在如何魔改網(wǎng)絡(luò)結(jié)構(gòu)來刷榜單,這種做法不是發(fā)不了頂會,而是只有少部分擁有雄厚資源的研究人員才有機(jī)會。
但其實做科研完全不必如此硬卷,你只要稍微深入思考一下,就知道這個領(lǐng)域還有很多實際問題沒有被人探索。
舉個例子,相機(jī)擺放的位置是否會直接影響你的表現(xiàn)結(jié)果?
多個相機(jī)直接有一個掛掉該如何處理?多個相機(jī)出現(xiàn)嚴(yán)重異步怎么辦?
我可以不可以用谷歌地圖的prior knowledge幫助表現(xiàn)?
這些問題我其實在兩年前腦子里就有了,礙于時間有限未來得及探索,但在今年的CVPR和ICCV中,我確實看到了有論文去探索這些問題并且成功中獎,這也證實了這種思路的有效性。
關(guān)于第二個捫心自問,已有的問題本身是否就有問題,我個人認(rèn)為是推動整個科研領(lǐng)域每一次質(zhì)的飛躍的原動力。
飛飛教授在做ImageNet的時候,她認(rèn)為大家一直集中在如何設(shè)計好的算法在狹小的數(shù)據(jù)集上刷到高分的思路是意義不大的,所以她換了一種思路:直接從數(shù)據(jù)本身下功夫。
當(dāng)時她收到了很多質(zhì)疑,但最后的結(jié)果大家都知道:ImageNet促成了AI新紀(jì)元。
再比如大火的Transformer, 正當(dāng)大家在關(guān)心如何把LSTM設(shè)計的更好這個問題時,谷歌的研究員直接摒棄LSTM,打破原有框架,提出使用attention機(jī)制。
我最崇拜的Raquel教授也做過類似的事情,她在V2VNet這篇ECCV2020文章中指出單車智能實現(xiàn)L4可能是個偽命題,多車協(xié)同可能才是最終方案。
她這篇文章也直接促使了自動駕駛協(xié)同感知這個領(lǐng)域的興起,可以說我的整個PhD都是靠她這篇文章養(yǎng)活的。
那么如何才能鍛造這種科研思維?我認(rèn)為有4點(diǎn):
1、學(xué)會批判。
無論是你眼中的大佬同行,或者你的導(dǎo)師,他們的觀點(diǎn)都有可能是錯的。
你讀到的論文里面那些精彩的故事可能都是湊巧編出來的,換一個數(shù)據(jù)集或者環(huán)境可能就完全不work了。
看待一切的research work,哪怕是CVPR best paper這樣的文章都要帶著批判的眼光去看:
他們還有哪些問題沒有考慮到?他們的設(shè)計是否還有瑕疵?他們那精彩的故事是否在某個特定條件下就完全失效了?
2、永遠(yuǎn)不要限制你的想象力,想的越大膽越有奇效。
在2021年初,自動駕駛BEV鳥瞰圖感知還完全沒有一點(diǎn)影子的時候,我文科專業(yè)的女友曾經(jīng)就問我,為什么一定要用LiDAR,直接讓AI把相機(jī)信息變成俯視圖的一個判斷不就行了嗎?
我當(dāng)時很嗤之以鼻,說這個太難了,相機(jī)只有2D,直接用網(wǎng)絡(luò)推測俯視圖結(jié)果肯定很爛。
結(jié)果沒過多久特斯拉就公布了它們的方案,和我女友所講的思路是一致的。
3、多讀好論文,而且讀的要廣。
正如古人所言,思而不學(xué)則怠。
只是空想永遠(yuǎn)鍛煉不了你的科研思維,一定要多讀論文再結(jié)合自己的思考才有用,而且很多時候要跨領(lǐng)域去讀,譬如現(xiàn)在大火的vision transformer很多都是從NLP借鑒來的。
4、多和其他resaercher交流。
這不僅僅限于自己實驗室,其實天南海北,從北極到赤道的人你都可以去交流。有時候你會驚奇的發(fā)現(xiàn), 一封郵件會帶來很多新的朋友。
熱愛你所做的
讀博的時候會有各種各樣的壓力和不確定性,包括導(dǎo)師的push, 同行的壓力,抽風(fēng)一樣的審稿意見。
我在寫自己開竅、也是讀博期間最滿意的那篇V2X-ViT時曾經(jīng)遇到過各種阻力—導(dǎo)師對初稿的不滿、靈感枯竭,甚至我第一次投CVPR時還遭到了同行惡意審稿,他對協(xié)同感知很了解,卻單以我們沒有video demo作為理由,用中式英文給我這篇嘔心瀝血之作strong reject。
當(dāng)時的我真的很難熬,是對自己研究領(lǐng)域的熱愛讓我支撐了下來。
同時,如果這個惡意審稿的asshole現(xiàn)在看到了這篇文章,我想對你說,像你這樣的跳梁小丑無論用怎樣的卑劣的手段,都無法阻擋一個真正熱愛科研的人前進(jìn)的步伐。
熱愛你所做的會帶來很多附加品質(zhì),包括堅韌、不知疲倦、樂觀,甚至可以幫你克服焦慮。
我日常生活里是一個很懶的人,喜歡嚴(yán)重拖延,而且我打小上課走神特別嚴(yán)重,精力很難集中。
但是當(dāng)我開始做CV領(lǐng)域之后,這些問題就忽然消失了:
我愿意去做那些最雜碎的數(shù)據(jù)處理,總是迫不及待地去跑完實驗,寫代碼上網(wǎng)課時精力也變得高度集中——這就是熱愛所帶來的力量。
我讀博期間因為超長的工作時間和驚人的輸出量曾被人戲稱“卷王”,paper machine之類的,這些稱號多少帶著一些戲謔,但是我打心底一點(diǎn)也不care他們的看法。
因為我每天都在做著自己熱愛的事,這本身已是足夠了。
能定義你上限的,只有你自己
將近三年前,我從北美奔馳研究院辭去高薪工作,前往UCLA讀博時曾有很多反對的聲音。
有的人說讀完博都得過去了六七年,你現(xiàn)在的同事可能都成manager賺了大筆鈔票了,你才又從頭干起。
也有的人說,因為你選的導(dǎo)師并非是EECS(交通專業(yè)出身的),他都沒發(fā)過一篇CVPR,你憑什么能發(fā)?
甚至連讀博初期我寫知乎分享時都有前輩說我不務(wù)正業(yè)。
事實證明他們是錯的:
我的導(dǎo)師雖然不是CV領(lǐng)域的專家,卻促進(jìn)了我重塑思維模式,而且給了我較短時間畢業(yè)的機(jī)會;我在知乎的分享看似與學(xué)術(shù)無關(guān),卻讓我結(jié)識了很多志同道合的朋友,而在知乎的宣傳也讓我的作品更廣為人知,更好打造了一套生態(tài)系統(tǒng)。
這些人的反對其實是出于好意的,只是他們在用一個他們以為的上限在定義別人,而真正能定義那個上限的人,只有你自己。
不僅是剛讀博時,讀博中期也有類似的事情發(fā)生。
我在做OPV2V這篇協(xié)同感知奠基文章時,是八月初開始做的,而ICRA的DDL是九月15號,也就是我只有一個半月的時間。
我需要在這一個半月里完成以下幾件事:
收集大量的仿真數(shù)據(jù),從零學(xué)習(xí)3D LiDAR檢測,制作一個digital town, 從無到有構(gòu)建史上第一個開源的協(xié)同檢測代碼庫,提出一個可行的融合算法并且跑大量的實驗,以及高質(zhì)量的寫完這篇論文。
幾乎所有人,甚至包括我的導(dǎo)師,都認(rèn)為這是不可能完成的任務(wù),就算完成了,質(zhì)量也不會太好。
但是我沒有就此放棄,我找到了靠譜的合作者分配一些次要任務(wù),找到了外校的朋友借到GPU資源,自己則拼了命地工作去攻克最核心的問題,最后一同完成了這篇文章。
截止至今日,這篇文章已經(jīng)有近130次引用,500+star, 全球一共有超過四十個不同的學(xué)術(shù)機(jī)構(gòu)/公司/政府使用過這套數(shù)據(jù)集和相關(guān)的代碼庫,甚至今年的ICCV有八篇中了的文章都在基于這個數(shù)據(jù)集做實驗。
所以如果你在讀博的過程中,有些想法遇到眾人的阻力,自己內(nèi)心深處卻篤定這個想法是對的,那就放手去做,不要讓別人來定義你未來的路怎么走。
因為如果你的一舉一動都是按照眾人滿意的方向去做,那你最后也會是眾人的一員。
請保持鍛煉
讀博的強(qiáng)度很高,作為一個像我這樣的普通人,想長時間的高效工作就必須有鍛煉的習(xí)慣。
我基本保持著一周至少6個小時的健身/有氧運(yùn)動時間,這也為我?guī)砹朔浅:玫木Α?/p>
我每天只需要六個小時的睡眠,不需要午睡,從早到晚基本不會感覺到疲憊,效率基本也是保持在一個較高的水準(zhǔn),經(jīng)常被人戲稱為“永動機(jī)”。
寫在最后
PhD結(jié)束地像一場夢,有時候回想起來覺得很不真實,那段時光仿佛從未發(fā)生過,但它對我產(chǎn)生的巨大影響卻又是實實在在的存在。
關(guān)于未來,我會加入Waymo Research繼續(xù)從事自動駕駛的研究,因為我內(nèi)心對自動駕駛的未來非常篤定:
它一定會實現(xiàn),而且一定會讓這個世界變得更好,我愿意將自己的青春獻(xiàn)給這個行業(yè)。
原文鏈接:
https://zhuanlan.zhihu.com/p/661406115
陳怡然薦語:
https://weibo.com/2199733231/Np5Ro9wWS