清華率先發(fā)布首份汽車行業(yè)大模型白皮書
大模型是生產(chǎn)工具,而非“奇技淫巧”的上車噱頭
賈浩楠 發(fā)自 副駕寺智能車參考 | 公眾號(hào) AI4Auto
大模型威力滲透各行各業(yè),汽車人在躁動(dòng)和焦急中期待行業(yè)巨變。但截至目前大模型上車的尷尬現(xiàn)狀是:與車無關(guān)。
類似“文生圖”之類功能,和核心行車用車場(chǎng)景不搭邊,甚至算不上好的車內(nèi)娛樂。至于車企的AI轉(zhuǎn)型,顯然更幫不上忙。
大模型重塑生產(chǎn)力,汽車工業(yè)不能夠也不應(yīng)該被落下。AI界產(chǎn)學(xué)研其實(shí)一直在思考、實(shí)踐。
近期,一份由產(chǎn)學(xué)研各界共同發(fā)布的《大模型驅(qū)動(dòng)的汽車行業(yè)群體智能技術(shù)白皮書》,首次說清楚了汽車工業(yè)全流程中,大模型到底該怎么用。

汽車行業(yè)大模型,有什么用?
先斷一下句:汽車·行業(yè)大模型,這樣理解更為準(zhǔn)確。
因?yàn)檫@份白皮書中提出的大模型,不是面向普通用戶的“文生圖”之類的應(yīng)用,而是為車企生產(chǎn)運(yùn)營(yíng)流程提供服務(wù)的群體智能產(chǎn)品。
什么是群體智能?
針對(duì)特定任務(wù)的AI模型是一個(gè)智能體,群體智能是指多個(gè)智能體通過協(xié)作和信息共享,形成的集體智慧,能夠處理更加復(fù)雜的任務(wù),展現(xiàn)出超越單個(gè)智能體的能力。自然界中的蜂、蟻等物種都表現(xiàn)出這樣的群體智能。

而大模型能力加持的群體智能,能夠更高效地溝通,處理規(guī)模更大、種類更多的任務(wù)。
車企運(yùn)營(yíng)流程中的整車制造、供應(yīng)鏈、 研發(fā)和工程、銷售和分銷、市場(chǎng)營(yíng)銷、售后服務(wù)、貿(mào)易與物流、租賃和金融服務(wù)、回收跟再創(chuàng)造等各個(gè)環(huán)節(jié),群體智能不僅僅是簡(jiǎn)單的自動(dòng)化工具,它可以為汽車行業(yè)帶來前所未有的效率提升和個(gè)性化體驗(yàn)。
比如汽車制造環(huán)節(jié),通過多智能體的自動(dòng)交互,可以實(shí)時(shí)監(jiān)測(cè)生產(chǎn)線的運(yùn)作狀態(tài),能夠預(yù)測(cè)設(shè)備的維護(hù)需求,從而顯著減少意外停機(jī)時(shí)間。
此外,智能體們還能通過智能分析生產(chǎn)數(shù)據(jù),幫助制造商優(yōu)化零部件的庫存管理和供應(yīng)鏈,這不僅減少了庫存成本,也提高了生產(chǎn)效率。
以及,跨部門的智能體們,還可以根據(jù)市場(chǎng)需求、原材料的供應(yīng)狀況和生產(chǎn)能力,智能調(diào)整生產(chǎn)計(jì)劃, 確保生產(chǎn)線的高效運(yùn)轉(zhuǎn)。
除了“造好車”,以大語言模型為基礎(chǔ)的群體智能,價(jià)值更加體現(xiàn)在幫車企“賣好車”上。
汽車的營(yíng)銷環(huán)節(jié),通常分為獲客、清洗、轉(zhuǎn)化、接待和成交五個(gè)方面。

前期通過廣告、品牌活動(dòng)、汽車垂媒、品牌私域、 內(nèi)容種草等等手段獲客,可以迅速獲得大量的潛在客戶基礎(chǔ)畫像與聯(lián)系方式。接下來就是一系列溝通、實(shí)車、講解的“孵化培育”工作。
周期較長(zhǎng)、轉(zhuǎn)化率較低,尤其依賴銷售個(gè)人溝通能力、精力,有很大不確定性。

《白皮書》中,構(gòu)建了五大智慧營(yíng)銷解決方案,分別為數(shù)智研究院場(chǎng)景解決方案、新媒體運(yùn)營(yíng)場(chǎng)景解決方案、用戶運(yùn)營(yíng)場(chǎng)景解決方案、集約DDC場(chǎng)景解決方案、與情運(yùn)營(yíng)場(chǎng)景解決方案。
全部以銷售結(jié)果為導(dǎo)向,形成自動(dòng)化的流水線式工作流,重點(diǎn)是采用不同的多智能體組合,模擬各階段的工作角色。
例如對(duì)于客戶定制化的購(gòu)車需求,“銷售智能體會(huì)”收集用戶個(gè)人情況,分析出高匹配度的需求車型,再以專業(yè)的話術(shù)表達(dá)出結(jié)果,并采用多輪對(duì)話的方式, 與客戶一起討論出最佳的銷售方案。
同時(shí),運(yùn)營(yíng)主管智能體可以在環(huán)節(jié)中實(shí)時(shí)檢查智能體跟進(jìn)情況,進(jìn)行跟進(jìn)情況、質(zhì)量分析、檢視客戶畫像,反饋給智能體監(jiān)控平臺(tái)。任何客戶運(yùn)營(yíng)智能體和客戶交流的經(jīng)驗(yàn)都會(huì)隨著案例的增加而沉淀下來,形成智能體工作流的迭代機(jī)制,從而使得智能體孵化客戶的效率在沉淀中不斷提高。
所以在在智能體智慧銷售場(chǎng)景下,一個(gè)人類銷售經(jīng)理,可以僅通過多智能體監(jiān)控平臺(tái)實(shí)時(shí)查看整個(gè)組織多智能體的工作情況,工作能力邊界與范圍得到了極大拓展。

最后總結(jié)一下,清華自然語言處理實(shí)驗(yàn)室、易慧智能、面壁智能在白皮書書中提出了一種全新、To B的大模型“上車”模式:
用不同的AI模型替代車企業(yè)務(wù)流程中的不同工種,簡(jiǎn)單地說,就是數(shù)字員工。
但創(chuàng)新之處在于,它們不是針對(duì)簡(jiǎn)單重復(fù)任務(wù)的自動(dòng)化替代,而是一群數(shù)字員工[6] 之間,通過自然語言相互交流協(xié)作,在沒有形式上的“主腦”控制情況下,發(fā)揮出提質(zhì)增效的作用。
并且,這樣的協(xié)同可適用于從生產(chǎn)到銷售的幾乎各個(gè)環(huán)節(jié)。
是這樣一群數(shù)字員工具有基本工作能力和溝通能力的,就是具備一定AGI(通用人工智能)的大模型。
怎么實(shí)現(xiàn)的?
單個(gè)智能體相對(duì)好做,針對(duì)不同任務(wù)有不同的基礎(chǔ)模型,比如用在分類目標(biāo)檢測(cè)的ResNet、用來產(chǎn)生樣本的GAN等等……只要有合適的數(shù)據(jù)來訓(xùn)練。
但一個(gè)業(yè)務(wù)流程,或一個(gè)系統(tǒng)工程,需要很多這樣的基礎(chǔ)模型發(fā)揮作用。以往,這些模型幾乎談不上溝通聯(lián)系,協(xié)作基本靠人為書寫的規(guī)則。這就造成信息處理能力有限,輸出決策片面分散,以及維護(hù)成本很高。
而《白皮書》中提出的群體智能之所以能work,關(guān)鍵是組織孿生。

包括三個(gè)關(guān)鍵部分:崗位孿生、架構(gòu)孿生和 業(yè)務(wù)孿生。
其中,崗位孿生利用大模型技術(shù)創(chuàng)建數(shù)字員工,這些虛擬人能模擬真人的交流方式,包 括聲音和表情,并具備“感性智能”。它們能夠執(zhí)行內(nèi)容生成、基礎(chǔ)交流、客戶服務(wù)等工作。
智能體系統(tǒng)有專用的提示詞框架,通過按照提升詞框架來巧妙設(shè)計(jì)與崗位相關(guān)的提示詞,并精準(zhǔn)限定基座大模型回答問題的范圍、方式等等。
不過基座大模型是通用語言模型,其內(nèi)置的知識(shí)是通用的,對(duì)于特定領(lǐng)域的問題可能無法給出準(zhǔn)確的答案。為此,還特地引入檢索增強(qiáng)生成(RAG)技術(shù),可以將特定領(lǐng)域的文檔和問答灌入系統(tǒng),形成“長(zhǎng)期記憶”存儲(chǔ)于向量數(shù)據(jù)庫或搜索系統(tǒng)中。在生成過程中,將相關(guān)記憶注入到提詞中,使數(shù)字員工能夠精準(zhǔn)回答特定領(lǐng)域的問題,從而彌補(bǔ)基座大模型的潛在不足。
比如在在汽車領(lǐng)域,可以讓智能體調(diào)用 API 接口,并根據(jù)接口返回的行業(yè)知識(shí),進(jìn)行專業(yè)、可溯源的內(nèi)容生成。而當(dāng)提示詞工程和知識(shí)庫類的長(zhǎng)期記憶補(bǔ)充依然不能完全滿足業(yè)務(wù)需求時(shí),還能夠采用高效后預(yù)訓(xùn)練和高效微調(diào)技術(shù)。通過微調(diào)和后預(yù)訓(xùn)練,我們能夠“教給”大模型相關(guān)的垂直領(lǐng)域知識(shí),為數(shù)字員工賦予個(gè)性化,使其更好地適應(yīng)不同的業(yè)務(wù)場(chǎng)景和用戶需求。

架構(gòu)孿生則是在數(shù)字世界中映射真實(shí)公司的組織架構(gòu),通過智能體網(wǎng)絡(luò)技術(shù)定義智能體間的交流和邏輯。可以形象地理解為上面那群數(shù)字員工需要遵循的“OA流程”。
基于大模型群體智能體技術(shù),如 AgentVerse(清華自然語言處理實(shí)驗(yàn)室和面壁智能共同研發(fā)),不僅能夠定義智能體本身的記憶、能力,還能夠定義智能體之間交流的方式和邏輯,能夠一定程度把現(xiàn)實(shí)人類的組織架構(gòu)映射到數(shù)字孿生世界,生成對(duì)應(yīng)真實(shí)公司架構(gòu)的數(shù)字孿生架構(gòu)。
這種技術(shù)架構(gòu),通常將多智能體環(huán)境劃分為數(shù)個(gè)功能模塊,包括靈活代碼擴(kuò)展及定制化功能設(shè)計(jì)框架、 智能體語言交互協(xié)同合作機(jī)制、智能體系統(tǒng)功能與結(jié)構(gòu)演化機(jī)制等。
整體工作流程分為四個(gè)階段:專家招募階段,根據(jù)問題解決的進(jìn)展情況確定和調(diào)整座席人員組成。協(xié)作決策階段,選定的智能體進(jìn)行聯(lián)合討論以制定解決問題的策略。行動(dòng)執(zhí)行階段,智能體與環(huán)境交互以實(shí)施決策階段計(jì)劃的行動(dòng)。評(píng)估和反饋階段,對(duì)當(dāng)前狀態(tài)與期望結(jié)果之間的差異進(jìn)行評(píng)估, 如果當(dāng)前狀態(tài)不理想,則給出反饋,以便在下一次迭代中進(jìn)一步細(xì)化。

技術(shù)框架技術(shù)上,定義了各自的接口,用戶可以根據(jù)自身需求重新定義不同模塊的功能。這種可定制性使得數(shù)字孿生的架構(gòu)不再受到固定的限制,而能夠根據(jù)不同行業(yè)和企業(yè)的需求進(jìn)行靈活調(diào)整。用戶可以根據(jù)特定的場(chǎng)景和任務(wù)要求,定制數(shù)字孿生的架構(gòu),使其更好地適應(yīng)實(shí)際應(yīng)用場(chǎng)景。
業(yè)務(wù)孿生通過整合大語言模型、搜索增強(qiáng)技術(shù)和智能體構(gòu)建等,自動(dòng)執(zhí)行實(shí)際業(yè)務(wù),優(yōu)化業(yè)務(wù)執(zhí)行效果。這一部分仍然是利用大模型的“工具”,給數(shù)字員工[10] 增強(qiáng)戰(zhàn)斗力。
比如X Agent是面壁智能創(chuàng)新的AI智能體框架,基于強(qiáng)大的大語言模型核心,設(shè)計(jì)創(chuàng)新性地引入了一種“雙循環(huán)機(jī)制”,使其在處理復(fù)雜任務(wù)時(shí)能夠從“宏觀”和 “微觀”兩個(gè)視角進(jìn)行全面考慮,類似于人類“左腦”和“右腦”的協(xié)同工作方式。
外循環(huán)承擔(dān)著全局任務(wù)規(guī)劃的責(zé)任,將復(fù)雜任務(wù)巧妙地分解為可操作的簡(jiǎn)單任務(wù),使得 X Agent 能夠高效地完成全局的任務(wù)分解和規(guī)劃,展現(xiàn)出宏觀任務(wù)處理的領(lǐng)導(dǎo)力。

在內(nèi)循環(huán)中,X Agent 迅速轉(zhuǎn)變身份,充當(dāng)高效的「執(zhí)行者」,確保外循環(huán)傳遞的子任務(wù)能夠順利達(dá)到預(yù)期。它能夠靈活地檢索外部系統(tǒng)中的工具,并根據(jù)子任務(wù)性質(zhì)逐步求解。
完成子任務(wù)后, 內(nèi)循環(huán)生成詳細(xì)的反思,并將反饋信息傳遞給外循環(huán),指示當(dāng)前任務(wù)是否完成,以及在任務(wù)執(zhí)行中的潛在優(yōu)化點(diǎn)。
所以,一切的關(guān)鍵,就在大模型上。這里不妨再簡(jiǎn)單科普一下大模型:
現(xiàn)有的大語言模型幾乎全部是以 Transformer 模型作為基礎(chǔ)架構(gòu)來構(gòu)建的。其主要思想是通過自注意力機(jī)制獲取輸入序列(可以是文本、語音、圖像、視頻等等)的全局信息,并對(duì)序列中的每個(gè)元素進(jìn)行全局建模,并在各個(gè)元素之間建立聯(lián)系**。
翻譯一下,就是Transformer在感知之外,擁有了基本的歸納因果的能力,使人工智能向認(rèn)知這個(gè)世界邁出第一步。

所以《白皮書》中構(gòu)提出的群體智能,它的基礎(chǔ)就是清華自然語言處理實(shí)驗(yàn)室、易慧智能、面壁智能的具有一定通識(shí)能力的大模型。
傳統(tǒng)AI Agent,也就是單一人工智能體,同樣具有感知、決策、知行的能力,但它的任務(wù)目標(biāo)單一,輸入的數(shù)據(jù)也比較固定。
而對(duì)于大模型來說,與人類之間的交互是基于提示(Prompt)實(shí)現(xiàn)的, 用戶提示是否清晰明確會(huì)影響大模型回答的效果。大模型“大”在以巨大參數(shù)規(guī)模捕捉復(fù)雜語言結(jié)構(gòu),實(shí)現(xiàn)上下文理解和連貫文本輸出。這一“能力涌現(xiàn)”現(xiàn)象體現(xiàn)在大模型能進(jìn)行高級(jí)認(rèn)知任務(wù),如抽象思考和創(chuàng)造性寫作。ChatGPT橫空出世震驚世人,正是因?yàn)樗鼘?duì)幾乎人類涉足的各領(lǐng)域都有準(zhǔn)確的認(rèn)知。
如果這樣的能力灌注到一群不同的智能體中,它們就可以直接使?復(fù)雜的?然語?進(jìn)?交流。
并?持抽象思維、復(fù)雜問題解決和豐富的信息交換?;趯?duì)語?信息的深?理解和分析,可以在決策中考慮更?泛和深?的因素。
比如軟件開發(fā)任務(wù),就可以分解為一連串的“生產(chǎn)線”,子任務(wù)通過角色扮演交流實(shí)現(xiàn)智能體間的方案提議和決策研討過程:
首先設(shè)計(jì)三個(gè)角色CEO、CTO和CPO討論軟件設(shè)計(jì)方案,決定智能駕駛算法的功能體驗(yàn)使用的編程語言。
然后進(jìn)入編程,程序員進(jìn)行代碼撰寫,設(shè)計(jì)師進(jìn)行GPU設(shè)計(jì) 。
測(cè)試:代碼的審查和實(shí)際運(yùn)行兩步,涉及「代碼審查員」和「測(cè)試工程師」兩個(gè)角色。
文檔:環(huán)境說明和用戶手冊(cè)兩類,前者說明了智駕算法所依賴的環(huán)境,由CTO指導(dǎo)程序員完 成。而后者則由是CEO決定包含的內(nèi)容,交由PRD進(jìn)行生成。

這樣的框架特別適用于復(fù)雜的行業(yè)場(chǎng)景,尤其是汽車行業(yè)。
智能車好做,智能車企難做
的確,以如今中國(guó)制造業(yè)實(shí)力和供應(yīng)鏈齊備水平,“攢”出一輛智能車沒什么難的。比如小米用了3年時(shí)間,其實(shí)都不算快的。
但“智能”車企,卻是擺在新勢(shì)力求存和老車企轉(zhuǎn)型路上最難的挑戰(zhàn)。
因?yàn)檐浖惴ā⒂布蚩刈匝械鹊冗@些,錢花到位,團(tuán)隊(duì)人才自然就到位。但怎么把大模型變成生產(chǎn)力,整體運(yùn)營(yíng)流程提質(zhì)增效,是目前車企最迫切的需求。

易慧智能向智能車參考透露,他們接觸的車企,無一例外對(duì)AI Agent在提高工作效率、優(yōu)化成本、提升客戶體驗(yàn)等方面的落地應(yīng)用展現(xiàn)出興趣。
其實(shí)從前面幾個(gè)例子就能看出,車企頭疼的是精細(xì)化運(yùn)營(yíng)效果和可控的運(yùn)營(yíng)成本之間,憑借人為部署操作,很難摸索出一個(gè)最佳平衡點(diǎn),無論是生產(chǎn)、采購(gòu)、營(yíng)銷等等環(huán)節(jié)。
從這一點(diǎn)來看,這份產(chǎn)學(xué)研聯(lián)合發(fā)布的首份汽車行業(yè)大模型白皮書,最大的意義是嘗試用大模型的能力,解決汽車行業(yè)、制造業(yè)的實(shí)際問題。
并且提出了具體方式:通過大模型的通識(shí)能力和自然語言處理能力,讓過去一群各自獨(dú)立的數(shù)字員工高效交流協(xié)作。
而且還有具體模式架構(gòu):組織孿生,有流程有工具有方法論。
這也是汽車工業(yè)第一次認(rèn)真把大模型作為生產(chǎn)工具對(duì)待,以終為始找解決方案,而非“奇技淫巧”的上車噱頭。

根據(jù)麥肯錫測(cè)算,到2030年,數(shù)字勞動(dòng)力將形成價(jià)值1.73萬億元的市場(chǎng),這其中自然包括汽車行業(yè)。
而汽車工業(yè)的經(jīng)驗(yàn),又幾乎可以無損復(fù)制到一切大制造業(yè)。
大模型驅(qū)動(dòng)的群體智能技術(shù),是汽車工業(yè)AI轉(zhuǎn)型的“星星之火”,而它首創(chuàng)的模式和理念,又豈止于汽車。
- 具身智能洶涌,激光雷達(dá)爆單:頭部玩家600%年增長(zhǎng),出貨超20萬臺(tái)2025-08-08
- 智能座艙率先L3!AI Agent上車顛覆體驗(yàn),千里科技WAIC交卷2025-07-28
- 千里科技聯(lián)手階躍星辰、吉利發(fā)布下一代智能座艙Agent OS2025-07-26
- 老黃剛走,全球最強(qiáng)算力Robotaxi方案落地中國(guó)2025-07-24