對話任少卿:世界模型是自動駕駛與機器人的新范式
“AI發(fā)展,本質(zhì)就這兩件事”
一凡 整理自 凹非寺隔壁的副駕寺
量子位 | 公眾號 QbitAI
和任少卿的對話,是從最基本的一個智能駕駛使用場景開始的——
在北上廣城市快速路的限時段公交車道,智能駕駛系統(tǒng)如何能像人類一樣,限制的時間段避開,非限制時段高效利用?
在過去,AI系統(tǒng)會嚴(yán)格按照人類寫好的規(guī)則駕駛。但現(xiàn)在,端到端自動駕駛模型的范式之下,手寫規(guī)則的方法開始被剔除,意味著AI系統(tǒng)需要自己去學(xué)習(xí)“限時公交車道”的特殊路況和場景,這需要時間,也可能短期內(nèi)無法直接滿足需求。
所以是不是智能汽車業(yè)內(nèi)業(yè)外,過于迷信“端到端”了?
自動駕駛作為一個綜合工程,為什么要端到端?
端到端又為何會出現(xiàn)在此時此刻?其本質(zhì)是什么?
對智能汽車研發(fā)和車圈變革又會帶來怎樣的影響?
上述問題,沒有人比任少卿更有發(fā)言權(quán)了。他既是世界級AI科學(xué)家,深度學(xué)習(xí)經(jīng)典成果ResNet作者之一,近十年來也躬身產(chǎn)業(yè)一線,見證和實踐自動駕駛技術(shù)從研發(fā)到上車,當(dāng)前是蔚來智能駕駛副總裁、蔚來自動駕駛研發(fā)的負(fù)責(zé)人。
任少卿認(rèn)為端到端是一種必然,類似造車會走向一體化的必然,有技術(shù)難度但不存在誰有獨家秘籍,甚至“被強調(diào)太多了”……在他分享的四大關(guān)鍵技術(shù)要素中,模型只是第一點——數(shù)據(jù)、優(yōu)化機制和功能體驗,四位一體,缺一不可。
在他的視角里,AI也好,自動駕駛也好,這幾年有變化,但本質(zhì)沒有變化。于是對于很多業(yè)內(nèi)熱議的具體問題,他都有著從本質(zhì)出發(fā)的回答。
以下是對話實錄:
聊端到端
量子位:端到端怎么識別公交車道,實現(xiàn)按時段規(guī)避和利用?
任少卿:方法肯定很多,但如果要特別精確地識別,可能還要學(xué)習(xí)怎么識別文字。
量子位:現(xiàn)在還不行?
任少卿:現(xiàn)在更多的是以歷史的經(jīng)驗去看,歷史的經(jīng)驗里可能噪聲比較多。
什么叫噪聲呢?現(xiàn)在的系統(tǒng)其實一部分是靠歷史的經(jīng)驗,一部分是實際感知的結(jié)果。比如說旁邊如果有個車進到公交車道了,那系統(tǒng)可能考慮是不是也可以開進去;那如果旁邊的沒有車走進公交車道,那系統(tǒng)就也不會進去。那其實按交通規(guī)則是不應(yīng)該開進公交車道的, 那這就是噪聲。
我覺得這確實是一個核心的點,怎么去精準(zhǔn)地識別,這個是需要去解決的。
量子位:這兩年大家都在聊端到端, 很多玩家All In進去。
假設(shè)沒那么原教旨主義,就寫一條規(guī)則,告訴系統(tǒng)什么時間能走公交車道,從而解決這個問題不是也挺好嗎?為什么一定要把手寫的規(guī)則都剔除掉?
任少卿:舉個例子,比如說不同城市,北京(公交車道)可能相對來說還規(guī)則一些。大部分都是早上7點到 9 點,晚上5-7點在高峰期(不能走)。
再比如上海,上海延安路上是專門有一條給71路公交車行駛的車道的,在任何時間非71路是都不可以行駛的。而且這條車道還有專屬的交通信號燈,可能信號燈長得都和普通信號燈不一樣。
所以不同的城市對于“公交車道”是有各種各樣的規(guī)則和場景的,而且如果今天這個規(guī)則變化了,那怎么弄?所以讓工程師針對每一個場景去寫一條規(guī)則得去搞,這個顯然很難搞定。
其實這種案例非常非常多。那為什么原來大家都沒考慮走端到端呢?這個和功能和場景都有關(guān)系。
比如三五年前,大家都在高速NOA的時候,場景比較簡單。在高速上大部分的場景,就看前面三臺車:
本車前面那臺車,左邊車道一臺車,右邊車道一臺車,然后三輛車一起建模,寫個規(guī)則。雖然也得寫好幾萬行的代碼,但是它畢竟場景簡單。
那現(xiàn)在到了城區(qū)道路的領(lǐng)航輔助,還有我們NIOIN展示的、大家都在說的主動安全功能,那面對的是要處理各種各樣的復(fù)雜場景,如果一個一個規(guī)則去寫,這個顯然非常難。從根本上來說,第一個是效率的問題,第二個是效果的問題。
我覺得更好更擬人地去應(yīng)對全面的、復(fù)雜的場景,是自動駕駛要搞端到端的核心原因。
如果我們跳出自動駕駛的領(lǐng)域來看這個事兒,走向端到端技術(shù)還有一個原因,就是大家要做更統(tǒng)一的東西。
其實只有自動駕駛領(lǐng)域的人才會說端到端和非端到端,別的AI應(yīng)用領(lǐng)域好像大家都不怎么說。比如做語言模型的、做機器人的,大家基本聽不到說“今天我端到端了”這樣的描述。
自動駕駛的歷史比較長,在很多年前算法模型的能力沒有這么強,大家更多把這件事情變成一個流水線。因為自動駕駛用自回歸模型用得比較早,早期開發(fā)比較初期,所以自動駕駛就有非端到端的架構(gòu)。到了今天大家覺得模型性能提升了,就把它給整合起來。
就跟造車一樣,比如說壓鑄件,之前工藝沒現(xiàn)在先進,就分成好多小塊,先造出來,然后再焊上。那現(xiàn)在有了一體壓鑄的機器和技術(shù),而且很成熟了,從時間效率上就高了非常多。
所以說回到自動駕駛,端到端本質(zhì)是用一個更統(tǒng)一的方式去提升計劃效率,包括時間的效率,包括人的效率。
再進一步說的話, 從AI的發(fā)展來看,其實深度學(xué)習(xí)也是這個邏輯。最近10到15 年,所有AI 算法的發(fā)展,包括應(yīng)用,本質(zhì)上就是兩件事:第一件事情是產(chǎn)生更好的效果,第二件事情是產(chǎn)生更好的泛化性。
第一件事情比較容易理解。原來一個任務(wù),可能AI去執(zhí)行效果差很多,比如說大家現(xiàn)在用得最多的是人臉識別,特別是通用的、對陌生人臉的識別,一開始AI沒有人做得好,后來跟人差不多,現(xiàn)在絕對比人識別要好。
AI一步一步縮小和人的差距,然后做得比人更好,這是性能提升,是AI發(fā)展的第一個方向。
第二個發(fā)展方向,就是通用性。
比如說一個圖像識別的算法,和物體檢測的算法,分別用來判斷一張圖是什么類別和判斷這張圖里面有什么物體,開始都是不同的算法、不同的框架。那后來這倆圖像和物體檢測就可以融合了,再后來所有圖像類的任務(wù)基本上都融合了,可能后續(xù)說圖像類的任務(wù)和語音類的任務(wù)也快融合了。
實際上是希望最后變成所有智能體的任務(wù),自動駕駛開車也好,機器人走路也好,機器狗爬山也好,所有任務(wù)都是用同樣一套框架去做,這也是端到端之后要做的事情。
量子位:所以Transformer是一個很重要的變量,帶來了效果上或者是算法能力上的提升,還帶來了什么?
任少卿:Transformer在其中算是一個工具。
但是我想說AI的發(fā)展,實際上大家都在追求這兩件事情,今天如果沒有Transformer,可能也會有其他的工具,但大家追求的這個方向?qū)嶋H上是沒有變的,就是想追求更好的效果和更通用的能力?;氐轿覀儎偛耪f的這個事情上,自動駕駛的端到端實際上是某種程度上在追求兩件事兒。
另外的就是什么樣的框架,除了自動駕駛外,相關(guān)的所有的智能體或者類機器人的方向,都能用同樣的方式去解決。
這個是我覺得一定會有人去做,也是大家想做的事情。
量子位:現(xiàn)在用戶都會去關(guān)注,車企的智駕是不是端到端的系統(tǒng)。多少有點詭異,因為端到端這個的事情它更大的意義是在于研發(fā),在于廠商本身,對于用戶其實沒有那么大的意義。我不在乎我的這個車是不是端到端的系統(tǒng),我覺得他能處理很多或體驗很好就行。
任少卿:我覺得這是一件挺有意思的事。
用戶愿意去關(guān)注這些工作還挺好的。比如說好多使用語言模型的用戶,甚至開始關(guān)心這個模型怎么訓(xùn)練了。所以大家關(guān)心關(guān)心這事也挺好。尤其是對于早期使用的一些用戶來說,討論的這些話題對他來說是有意思的,他才參與這個過程。
再往后大家也會隨著整個行業(yè)的技術(shù)迭代去討論其他更多的話題,當(dāng)然這些技術(shù)迭代也會帶來一些新的體驗和產(chǎn)品形態(tài)。
量子位:端到端會給你們研發(fā)的流程帶來什么樣改變?
任少卿:這其實是個模型化的事,大家現(xiàn)在可能過多地在關(guān)注研發(fā)流程、架構(gòu)調(diào)整等等這些事情。但是模型化對于自動駕駛研發(fā)而言,絕對不是只是這半年的事。
自動駕駛最早可能2013年就開始用深度學(xué)習(xí),然后逐漸地在增多比例。只是說可能大家最近談起的比較多,所以就多說一說了。
量子位:自動駕駛會不會犯類似“分不清9.11和9.9哪個大”的常識性錯誤?
任少卿:有的,其實是一樣的,語言模型里面叫幻覺,自動駕駛就是大家一直在說的 Corner case,或者說誤檢,漏檢。
比如說,語言模型突然輸出了一句莫名其妙的話,那在自動駕駛的感知模型里就是突然間有一幀沒了,或突然間蹦出來一個實際上不存在的東西,其實都是類似的。
那自動駕駛開始解決這個問題的時間,相對來說是比較早的。更多的就是通過時序的切割機制,通過校驗機制等去解決。
實際上像語言模型里面管控承諾也是這樣, COT(思維鏈) 的一方面的邏輯實際上就是讓系統(tǒng)自我校驗:通過一個更復(fù)雜的輸出表達,然后自我去校驗。
現(xiàn)在也有像MOE ,或者還有其他的一些方法,比如說實際應(yīng)用端的和后端的校驗,都是同樣的邏輯,所以整體來說就是模型訓(xùn)練,性能對齊,輸出一個跟人類偏好差不多東西。
還有就是有錯的問題,通過多次的校驗,用神經(jīng)網(wǎng)絡(luò),非神經(jīng)網(wǎng)絡(luò)的方法,再加上一些人力規(guī)則的方法去校驗這個事情,把錯的東西挑出來變成正確的。
世界模型
量子位:進入系統(tǒng)的視頻數(shù)據(jù),一方面是標(biāo)注的真實數(shù)據(jù),另外一方面就是世界模型的生成數(shù)據(jù),有點像LLM中合成數(shù)據(jù)。
任少卿:如果要定義一個任務(wù)的話,最終要回答一個問題,這個問題就是你定義的任務(wù)有多通用。從自回歸的角度來說,定義的任務(wù)越通用,學(xué)術(shù)的角度上看意義越大,從應(yīng)用的角度看也是一樣。
10 年前大家說計算機視覺領(lǐng)域的三大基礎(chǔ)任務(wù),圖像分類,檢測和分割。去理解一個圖像,能對它進行分類,進行提框,找出里面的物體進行分割,這確實是根本任務(wù)。
但是到了今天,這個基礎(chǔ)任務(wù)的定義不夠了。我們需要一些更根本的問題。
語言問題定義的根本問題,是預(yù)測下一個token,下一個詞。
實際上對視覺也是一樣。如果能定義一個更基礎(chǔ)、更根本的任務(wù)去解決問題,那在這上面找應(yīng)用,它覆蓋的范圍就更廣更通用。
量子位:用視頻生成視頻,本質(zhì)上也是對問題的窮舉?
任少卿:是的,作為一個基礎(chǔ)任務(wù),最根本、最本質(zhì)就是要定義這個東西。所以現(xiàn)在的定義就是,視頻去生成視頻這件事情更本質(zhì),因為它能包含所有的其他可能性。
輸出視頻是一個分類,把中間的物體摳出來,那它就是可以做物體檢測的任務(wù)。輸出的是一個分割的結(jié)果,就是可以做分割的任務(wù)。輸出的是一個三維重建,換個角度的結(jié)果,就可以做三維重建的任務(wù)。所以視頻生成視頻這件事情,實際上從問題的定義上來說是一個更根本的問題。
而且我們認(rèn)為,重建是對于時空理解和對原始數(shù)據(jù)全面理解最深刻的表現(xiàn)形式。
因為基本上原來的信息量,都需要重構(gòu)出來,才能去做中間的事情。
量子位:現(xiàn)在的世界模型和更早前的虛擬仿真,本質(zhì)不同是什么?
任少卿:虛擬仿真我覺得完全是一個另外的邏輯。這實際上是兩個方向,一個方向,我們說計算機視覺,一個方向是計算機圖形學(xué)。
其實是分別干了兩件事,一個事情是理解世界,一個事情是再造世界,就是虛構(gòu)一個視覺。但是最近兩年兩個方向也越來越近了。
總體上來說,完全地理解這個世界是世界模型要干的事。
那現(xiàn)在也有一些用原始視頻的方式來仿真,但它本質(zhì)上不是要完全理解這個事情。不是說給它一個輸入,就要把輸入完全理解,而是說要重構(gòu)一個東西出來。但重構(gòu)的東西不見得是這個世界的全部。所以仿真的問題是仿真不包含這個世界的全部信息。
比如說最早的仿真,拿游戲來舉例,游戲其實某種情況下就是仿真。最早的仿真就是像大家打紅白機游戲,有(像素化)粗的信息,但是很多精細的東西是沒有的。所以仿真一直存在的問題,就是它不斷地逼近真實世界,但它離真實世界還有距離。
量子位:蔚來講世界模型的時候,用了類人腦的方式,將其劃分成兩個部分,這是為了方便聽眾理解,還是系統(tǒng)本身就是劃分成了兩塊?
任少卿:分這么開是為了方便大家理解。實際上做的時候是耦合在一起做的,不是完全分開。
實際上我們講的時候,第一部分關(guān)于空間重構(gòu),其實也是重構(gòu)成視頻。那重構(gòu)成視頻,某種程度上里面也包含時間的信息,只是說我們給大家講例子它不會那么長。
那講第二部分時間認(rèn)知的時候,我們更強調(diào)時間認(rèn)知,想象推演的能力。那推演出來的結(jié)果時間長,變化多,但是實際上它是和第一部分空間重構(gòu)的能力耦合在一起的。
量子位:對生成式AI關(guān)注多嗎?
任少卿:我覺得挺好,最近實際上變化很大呀。就是為什么要去說世界模型這件事,為什么會往這個方向走。
因為就是回到剛才那個話題,端到端、非端到端只是智能駕駛領(lǐng)域的一個大家討論的事。從技術(shù)角度來說,我們會想實際上從更大的范圍之內(nèi),那自動駕駛和機器人與大語言模型的融合會是什么樣的方式?
量子位:世界模型,就是你們給出的一個方式。
任少卿:對,它是一個更貼近通用的一個方式,自動駕駛能用,之后機器人也能用。那語言模型,后面的原生規(guī)模也會是類似的框架。
當(dāng)然其實還有更激進的方式,就融合所有域,但是這個咱們就后面再說啦。
量子位:規(guī)模很宏大,會遇到工程問題嗎?
任少卿:會遇到很多工程問題,所以現(xiàn)在給大家講的世界模型,它會更貼近于下一個階段的機器人、自動駕駛,以及語言模型的基本框架。
量子位:什么是世界模型的多元自回歸生成結(jié)構(gòu)?
任少卿:其實這里面的這三個東西,和大家實際上都在研發(fā)的語言模型,機器人框架,很類似。
里邊有三個關(guān)鍵詞,從右往左說,第一個是生成,這個生成的方式,它有很多的優(yōu)勢,不用標(biāo)數(shù)據(jù)了,學(xué)習(xí)效率更高,所以語言模型早就已經(jīng)是生成式的了。
那自回歸本質(zhì)上可以解決長時序的問題,所以語言模型long contents也是類似的方式。自動駕駛和機器人要解決長時序的問題,也得用這種方式。
多元是什么呢?多元就是這個multivariable input 和output(多模態(tài)輸入與輸出),本質(zhì)上是要解決多數(shù)據(jù)源的問題,那之后自動駕駛想用互聯(lián)網(wǎng)的數(shù)據(jù),或者互聯(lián)網(wǎng)想用更多領(lǐng)域的數(shù)據(jù),其實都要用類似的這種方式。
我們是希望通過這些框架,去打通跨領(lǐng)域的事。
智能駕駛四大關(guān)鍵技術(shù)要素
量子位:現(xiàn)在都在做城區(qū)NOA,但每一家最后呈現(xiàn)的體驗不同,你覺得是什么因素決定的?
任少卿:可以認(rèn)為大概四大因素吧:
第一是模型,第二是數(shù)據(jù),第三是優(yōu)化——模型總還是會出問題,出了問題之后怎么用其他的方式、基于優(yōu)化的方式去做聯(lián)動。
第四個是功能的多少,feature 有多少,實際上就是基于前面三塊,但也并不是完全相關(guān)。
所以第一點來說,模型的角度實際上就是我們這次所說的核心。每家其實會有不一樣,甚至說每家不一樣的點還不少,這是模型的角度。
第二個就是數(shù)據(jù)的角度,數(shù)據(jù)多還是少、頻率快還是慢。對于我們來說,蔚來的數(shù)據(jù)閉環(huán),我覺得可能是全球最好。
第三,模型輸出的結(jié)果也會有問題,那處理的方式,導(dǎo)致的效果更好還是更差?怎么能做到效果好,其實有兩點,一個是指不要誤殺模型輸出的好的結(jié)果,一個是指如果沒有誤殺模型的結(jié)果,模型做得不好的時候相對來說更絲滑:肯定不要出現(xiàn)這個模型前半段這么開的,后半段就不是了,或者說后半段輸出的軌跡不平緩了。
就比如說,如果突然有個障礙物出現(xiàn),系統(tǒng)打方向盤,雖然也沒撞墻、是做對了的,但是對用戶來說肯定體感不好,明顯有段落感,這種體驗就不好。那怎么去做優(yōu)化就是很重要的一件事。
第四個就是說基于以上,還能有什么新的功能,從用戶體驗的角度來說,能不能做得更好。這就包括用戶使用情況的追蹤,跟用戶的交互等等。
總結(jié)來看,技術(shù)能不能做到在一個層級上,這個事情很重要。
某種程度上來說,模型根本上是為了提高效率。模型提升了上限,但是實際上它并不能保證它的下限一定在提高,它有可能下限在下降。
所以后面包括融合模型和優(yōu)化方法,實際上就要保證下限能保持或者提得更高,同時又不降低效率。同時需要讓用戶用得好,需要讓用戶有更多可用、愛用的功能。
自動駕駛與機器人
量子位:現(xiàn)在好多機器人創(chuàng)業(yè)公司,說要打通虛擬世界跟物理世界,和打通不同領(lǐng)域有什么不一樣?
任少卿:那個是另外一個工程模型。
說打通不同領(lǐng)域,實際是在說打通不同應(yīng)用。就比如說自動駕駛和機器人、大語言模型這些技術(shù)的融合,就他得徹底用同樣一套框架去做。
其實大家很容易理解——實際上自動駕駛是一個特殊的“機器人”,是所有機器人應(yīng)用里面最大的一個應(yīng)用之一,也是目前價值最大的。其實大家發(fā)現(xiàn)說之前的自動駕駛,或者直到現(xiàn)在自動駕駛,為了做它的這個研發(fā)成本是非常非常高的。那大家現(xiàn)在都在深耕自動駕駛,因為它前期的商業(yè)場景是非常大的。
如果用目前自動駕駛的同一代技術(shù)棧去做機器人,可能沒有任何一個機器人的應(yīng)用在當(dāng)下能撐得起來這個投入。
但是我們認(rèn)為說長期再往后走,自動駕駛也是個泛機器人領(lǐng)域,所以那能不能用同樣一套框架、用更高的可共享度,然后用更低的成本去做所有的機器人,就泛機器人能力這個事情,我們覺得一定是能做的。
但要找到相應(yīng)的技術(shù),本質(zhì)上前面說的這些世界模型,我們覺得我們自己的框架也能去做機器人。
量子位:暗示蔚來也能做機器人?
任少卿:主要是我覺得從技術(shù)的維度上來說,這件事情它基本就是這個路徑實現(xiàn)的。
那如果機器人探索出來它統(tǒng)一的框架,它一定能回來做自動駕駛。因為本身是很相似的,同時這些方式肯定都是要用大量的數(shù)據(jù)的。
那在自動駕駛上把這樣的一套充分認(rèn)知的框架,做出來的可能性更大,因為它的數(shù)據(jù)量更大了。
做機器人來說,我覺得還是要分三層,我們認(rèn)為它實際上有三層的能力,第一層能力叫做概念認(rèn)知,第二層叫時空認(rèn)知,第三層叫做運動的,或者說叫交互。
第一層的概念認(rèn)知實際上就是大于模型解讀,第二層的時空認(rèn)知就是剛才我們說的這些。第三層的運動能力從某種程度上看,就是怎么去控制輪子,怎么去控制腿,怎么去用某一只手,或者怎么去拿一個工具或者物品,拿起工具來了又要去把它用起來。但是通用來說我們說道的第二層的能力,就是這個時空認(rèn)知的能力,是一個很通用的能力。
量子位:如何看待這幾年整個產(chǎn)業(yè)的變化?
任少卿:其實我覺得在整個產(chǎn)業(yè)上,從技術(shù)的角度來說,自動駕駛前面幾年技術(shù)都沒什么特別大的變化,最近這半年一年倒是變化挺大。很多的變化本質(zhì)也并不來自于自動駕駛領(lǐng)域,更多源于我們前面說的這些AI科技在其他領(lǐng)域上的發(fā)展。
量子位:可能最后還是會追求變成一個通用的模型,打造一個像人一樣的這種智能體?
任少卿:是這樣的,剩下的問題是怎么把它打造出來。AI 通用模型和機器人等類型的科技交叉越來越多,所以我覺得做智能駕駛也不能只關(guān)注智能駕駛。
- 蔚來新ES8售價降低是因為減配?李斌回應(yīng)了2025-08-22
- 31萬!蔚來開賣國產(chǎn)最大純電SUV,網(wǎng)友排隊給CEO李斌道歉2025-08-22
- 行業(yè)首個AI座艙:能嘮嗑會辦事兒,吉利銀河M9率先搭載,杭州出品2025-08-21
- 20個要點,看完李想4小時超長訪談2025-08-20