京東大模型交卷:天生離產(chǎn)業(yè)更近一步
用知識減少AI幻覺
楊凈 夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
做大模型的公司不少,能明確給出產(chǎn)業(yè)落地時間線的還是頭一次見。
剛剛,在2023京東全球科技探索者大會暨京東云峰會上,京東推出了言犀大模型+言犀大模型開放計算平臺,并展示了零售、健康、物流、營銷、金融、客服等多個產(chǎn)業(yè)場景的階段性實踐成果。
一開場,就欣賞了一段由大模型驅(qū)動的數(shù)字人歌舞表演。

電商場景下,支持AIGC商品內(nèi)容生成。

還有AI增長營銷平臺,幾句話構(gòu)建出營銷方案、推廣網(wǎng)站。

醫(yī)療場景下,通過多輪對話即確定用戶腰疼的的原因。

除了現(xiàn)場演示之外,三步走的落地路線圖也格外引人關(guān)注——
今年下半年在京東內(nèi)部高復(fù)雜場景中反復(fù)打磨錘煉,并針對重點場景的標(biāo)桿客戶進(jìn)行對外服務(wù),主要目的是發(fā)現(xiàn)那些看起來“不起眼”,但產(chǎn)業(yè)應(yīng)用中又非常關(guān)鍵的問題。
2024年上半年,就能針對嚴(yán)肅商業(yè)場景將大模型能力全面對外開放 。

劃重點了,這里的對外開放不只是提供API,而是連產(chǎn)業(yè)應(yīng)用一起打包,讓企業(yè)開箱即用的那種。
京東不會把沒做好的菜端上餐桌。
而京東之所以有底氣制定這樣路線,也是頗有不少干貨在里面的。
產(chǎn)業(yè)伙伴需要什么樣的大模型?
通用大模型火過半年之后,整個產(chǎn)業(yè)已經(jīng)把目光聚焦到下個階段——產(chǎn)業(yè)大模型。
隨著最早提出產(chǎn)業(yè)大模型的京東交出答卷,關(guān)于「產(chǎn)業(yè)伙伴需要什么樣的大模型」的問題也可以得到階段性解答。
大模型時代到來,C端應(yīng)用層出不窮,普通大眾有了直觀感知,對其所存在的“胡說八道”等問題,也有了切身體會。
但對于B端企業(yè)而言,由于身處行業(yè)不同以及自身業(yè)務(wù)考慮,到底「用什么?如何用?」始終沒有很好的答案,大多都“還是不知道怎么用”。
當(dāng)大家談到產(chǎn)業(yè)大模型,第一反應(yīng)是聚焦某個行業(yè)做小模型。
但何曉冬告訴量子位,這可能是一個誤解,做產(chǎn)業(yè)模型的時候還是需要一個通用域的數(shù)據(jù),通用域數(shù)據(jù)對行業(yè)應(yīng)用也非常關(guān)鍵,它提供了背景常識性的知識。否則如果用戶突然提出一些跟這個領(lǐng)域不相關(guān)的詢問的時候,話題的跳躍性比較大,原來領(lǐng)域小模型就會很茫然。
所以,企業(yè)所需要的產(chǎn)業(yè)大模型也必須建立在通用能力基礎(chǔ)上。
大模型于企業(yè)而言,大都是降本增效之用。比如可以自動化處理數(shù)據(jù)和任務(wù)、分析大量數(shù)據(jù)給出更精準(zhǔn)的決策、擴(kuò)展到新的業(yè)務(wù)領(lǐng)域等等。
而要實現(xiàn)這些用處,大模型就必須滿足兩個原則:可信、可用。
- 可信,意味著模型的預(yù)測結(jié)果是可靠的,可以被企業(yè)信任;
- 可用,則表示模型可以在實際業(yè)務(wù)中發(fā)揮作用,為企業(yè)創(chuàng)造價值。
這兩點,不僅是企業(yè)用什么大模型的選擇基準(zhǔn);也是實現(xiàn)大模型產(chǎn)業(yè)化的兩個基礎(chǔ)特性。
首先來看可信。
針對性地解決大模型可信問題,市面上仍未形成完整的解決方案。
過去幾個月大模型從亮相到應(yīng)用以來,始終存在的幻覺問題。而早在2020年京東基于Transformer做的K-PLUG模型實體屬性抽取準(zhǔn)確率達(dá)到了95%,已經(jīng)達(dá)到了商用的水平。
這各中原因,在于京東走出了自己一條路——知識注入。
當(dāng)時放在業(yè)內(nèi),屬于首創(chuàng)。
它大幅改善了此前AI生成長文本任務(wù)中文本多樣性、篇章連貫性,以及在商品賣點文案的生成中尤其需要關(guān)注的賣點獨(dú)特性、屬性一致性,給予商品“真實的贊美”。
最終在一系列NLP任務(wù)中,比如實體屬性抽取準(zhǔn)確率、生成式多輪對話ROUGE-L、多輪問答知識檢索率,其性能明顯優(yōu)于其他基線模型。
之所以能這么早地發(fā)現(xiàn)“幻覺”問題并解決,這與他們一直以來圍繞產(chǎn)業(yè)實踐有關(guān)。
市面上一般生成式語言模型生成的內(nèi)容正確率是83%、85%左右。一般toC用戶用起來覺得還可以,十個里面錯一個,但是商用是不可接受的。
同樣的思路,也集成到了可用的實踐上。
從提供大模型企業(yè)的視角下,這個問題就轉(zhuǎn)變成如何讓大模型創(chuàng)造普惠價值。任何一項技術(shù)實現(xiàn)普惠,意味著技術(shù)門檻和使用成本的盡可能降低。
算法的泛化+向量數(shù)據(jù)庫+SaaS,這是京東給出的一套組合拳。
前兩者自不必多說,一方面算法泛化能力,可以讓模型處理多種任務(wù),解決行業(yè)中復(fù)雜長尾場景。
2022年,針對模型泛化性不足,京東提出百億級Vega模型。并于2023年在通用語言理解基礎(chǔ)模型方面對織女大模型進(jìn)行再升級,提出規(guī)模更大、性能更強(qiáng)、遷移性更好的Vega v2模型。
向量數(shù)據(jù)庫則可以實時更新知識庫,補(bǔ)齊大模型的長期記憶,還能降低訓(xùn)練成本,可以說一舉多得。
而向量數(shù)據(jù)庫,2019年京東就在業(yè)內(nèi)率先研發(fā)了Vearch。目前服務(wù)超100家大中型企業(yè)用戶。數(shù)據(jù)顯示,將京東的向量數(shù)據(jù)庫用于大模型預(yù)訓(xùn)練,相比傳統(tǒng)方式,通過優(yōu)化模型推理效率,推理成本降低80%。

目前大模型在應(yīng)用上的主流思路,就是調(diào)用API。何曉冬在接受采訪時表示,這對于一些傳統(tǒng)行業(yè)客戶來說,這依舊有一定的技術(shù)門檻。
而客戶唯一關(guān)心的就是服務(wù)效率,只要能將產(chǎn)品用起來就行。
于是團(tuán)隊決定直接將技術(shù)解耦形成“言犀AI開發(fā)計算平臺”,并在內(nèi)部實踐中打磨產(chǎn)品模塊??蛻羯踔敛恍枰莆丈詈竦腁I知識,跳過中間步驟直接引入成熟的大模型能力。
之前需要10余人的科學(xué)家團(tuán)隊工作,現(xiàn)在只需要1-2個算法人員,通過平臺即可完成從數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練到模型部署的全流程,訓(xùn)練效率提升2倍,推理提效6.2倍,成本節(jié)約近90%。
從可信、可用這兩個角度來看,京東給出的解決方案,在整個行業(yè)中打了個樣兒。

從語言大模型走向多模態(tài)數(shù)字人交互
這種圍繞產(chǎn)業(yè)實踐發(fā)現(xiàn)問題、解決問題的方法,不光體現(xiàn)在大語言模型上,也體現(xiàn)在京東產(chǎn)業(yè)AI發(fā)展的各個階段。
前深度學(xué)習(xí)時代,還很少有人期望AI能像今天一樣獨(dú)立成為一個功能甚至產(chǎn)品,當(dāng)時的目標(biāo)主要集中在降本增效、體驗優(yōu)化上。
2012年京東開始應(yīng)用智能客服中心,著力于用技術(shù)輔助客服提升人效,優(yōu)化客戶體驗?;厥卓磥恚渲刑剿鞯娜齻€具體任務(wù)方向:
ASR語音識別技術(shù)、NLP語義分析技術(shù)、數(shù)據(jù)挖掘技術(shù)。
時至今日,這三類技術(shù)對大模型的訓(xùn)練影響頗深。

進(jìn)入深度學(xué)習(xí)時代,AI開始能在更綜合、復(fù)雜的場景下發(fā)揮作用。
2015年,京東智能客服正式應(yīng)用了深度神經(jīng)網(wǎng)絡(luò)技術(shù)。2018年,首度升級無人客服實現(xiàn)人機(jī)結(jié)合。在同樣“深度”的實踐過程中,言犀團(tuán)隊逐漸認(rèn)識到了這樣一個問題:
客服對話屬于任務(wù)導(dǎo)向性對話,最終是要解決真實場景的問題,與一般閑聊有本質(zhì)區(qū)別。而且不同的場景,用戶對于對話的要求也不一樣,僅售前和售后就差別很大。
于是,早在AlphaGo掀起上一輪人工智能熱潮的那段時間,何曉冬就提出“對話的本質(zhì)就是推理和決策”,后來他在各種場合常用“圍棋也叫手談”來解釋這個觀點。
在此思想指導(dǎo)下,何曉冬帶領(lǐng)團(tuán)隊融合聲學(xué)、語義、時間等多模態(tài)特征,開發(fā)出一系列人機(jī)交互場景的“話語權(quán)決策“(Turn taking)技術(shù)路線。
最近谷歌整合旗下谷歌大腦與DeepMind團(tuán)隊,提出要用AlphaGo技術(shù)與Transformer結(jié)合開發(fā)下一代大模型“雙子星”Gemini,也標(biāo)志著這條路線的價值終于被更多人認(rèn)識到。

再后來就到了現(xiàn)在Transformer大模型時代,京東的布局也很早。
京東在AI工程化方面,每天服務(wù)數(shù)億活躍用戶。以智能客服領(lǐng)域為例,每年產(chǎn)生數(shù)百億的動態(tài)交互數(shù)據(jù),一是數(shù)據(jù)規(guī)模大,每天提供1000萬智能客戶服務(wù),每月200萬小時通話語音,今年京東618期間累計服務(wù)超7億次,在各種高負(fù)載考驗下,京東沉淀出了最佳實踐。
加上京東其他領(lǐng)域的人機(jī)交互,數(shù)據(jù)量級達(dá)到了數(shù)百億。
2022年,京東以言犀2.0——人工智能應(yīng)用平臺的方式將內(nèi)部驗證過的技術(shù)解耦出來,開始對外輸出。
如今的言犀AI開發(fā)計算平臺,也是延續(xù)著這個思路。
何曉冬介紹,今年起,言犀大模型正在強(qiáng)大工程化能力基礎(chǔ)上于京東場景內(nèi)深度落地,在健康、金融、物流等京東眾多優(yōu)勢行業(yè)可復(fù)制性的場景中率先錘煉能力,打磨出成熟可靠的技術(shù)能力。
以健康領(lǐng)域為例,靠著言犀大模型的多輪交互、工具調(diào)用、總結(jié)摘要、圖文多模態(tài)等能力,打造了健康助手及輔助診療應(yīng)用。
目前,健康助手及輔助診療已積累超3千萬高質(zhì)量臨患對話,構(gòu)建起百萬級規(guī)模醫(yī)學(xué)知識圖譜,涵蓋超千種疾病專業(yè)性服務(wù),20種評價標(biāo)準(zhǔn)保障醫(yī)療安全。
在物流領(lǐng)域,在言犀大模型的支撐下,京東物流超腦實現(xiàn)實時交互、根因分析和智能決策,并更新迭代至具備實時自動生成全局最優(yōu)的供應(yīng)鏈解決方案的能力。
在營銷領(lǐng)域,京東科技市場和平臺運(yùn)營團(tuán)隊打造了AI增長營銷增長平臺,運(yùn)用大模型解決了諸如關(guān)鍵性任務(wù),動態(tài)適應(yīng)性、用戶體驗等問題,大幅優(yōu)化了營銷運(yùn)營流程,實現(xiàn)方案生產(chǎn)效率上百倍提高;將過去涉及產(chǎn)品/研發(fā)/算法/設(shè)計/分析師等5類以上職能才能完成的流程,壓縮至1人;同時,一個入口的全新交互模式,讓人機(jī)交互次數(shù)從2000次降低至少于50次,將操作效率提升了超過40倍。
接下來是正在加速到來的通用人工智能時代,何曉冬認(rèn)為一定是往多模態(tài)方向走。
當(dāng)AI的通用能力達(dá)到一定程度,就可以不只停留在幕后提供技術(shù)支持,而是形成產(chǎn)品直接面對人類用戶,甚至像未來智能體一樣更深層次與人類交互。
對此,京東云在言犀大模型的基礎(chǔ)上整合了多項多模態(tài)數(shù)字人交互能力,也在數(shù)字人客服、直播等場景實踐中找到出一些心得。
比如實現(xiàn)了語義驅(qū)動的肢體動作編輯,通過與大模型結(jié)合讓數(shù)字人說話時的動作與語義匹配,交互更加自然。
又比如數(shù)字人動態(tài)局部高清技術(shù),利用了人類視覺感知并不均勻的特點,對臉部特別是眼睛周圍格外敏感。通過重點區(qū)域提高分辨率,其他區(qū)域適當(dāng)降低分辨率,從而降低部署成本。
在JDD上他們表示,言犀會進(jìn)一步降低操作門檻與操作難度,讓更多中小商家與個人能夠用得起、用得上數(shù)字人服務(wù)。
……
如此看來,言犀大模型落地路線圖中強(qiáng)調(diào)要有“半年打磨期“的原因就呼之欲出了:
不能只提供API告訴外界有這么個AI能力,最終目標(biāo)是為合作伙伴提供直接可用、有端到端價值的產(chǎn)品模塊。
大模型時代下的京東路線
幾個月前,企業(yè)們還在紛紛搶發(fā)大模型,到世界人工智能大會搖身一變“大模型主場”,各家紛紛給出自己的行業(yè)落地解決方案。
雖然看上去琳瑯滿目,但若進(jìn)一步了解就會發(fā)現(xiàn),這些方案不可避免存在業(yè)務(wù)場景趨同、落地進(jìn)展仍處于起跑階段等問題。
這與大模型技術(shù)產(chǎn)業(yè)化難點有關(guān),尤其是最后一公里的問題,往往就是能用與否的邊界。這牽涉到整個系統(tǒng)工程難題,并非傳統(tǒng)AI三要素就可解決。
作為最早提出聚焦產(chǎn)業(yè)大模型的京東,早已感知到這種轉(zhuǎn)變,并將其更新為全新“三要素”內(nèi)涵:
- 場景,以往靜態(tài)的數(shù)據(jù)無法適應(yīng)動態(tài)的交互,只有活的在行業(yè)應(yīng)用中的場景數(shù)據(jù),才得以實現(xiàn)。
- 產(chǎn)品,單點算法不足以支撐起新的大模型。最終產(chǎn)品形態(tài)才具有核心競爭力,并能帶動體系算法的創(chuàng)新和突破。
- 算力,單個AI芯片進(jìn)步的速度慢于大模型算力需求的井噴,算力集群成為更好的解決方案。
至此大模型時代下的京東路線,也就此明晰:
產(chǎn)業(yè)原生。源于產(chǎn)業(yè)、服務(wù)產(chǎn)業(yè)。
于是在這場峰會上,京東將自身底層能力解耦,從基礎(chǔ)層、模型層、到MaaS、SaaS一攬子技術(shù)產(chǎn)品和解決方案都給釋出亮相給產(chǎn)業(yè)伙伴。

甚至于,已經(jīng)給出了明確的“三步走”戰(zhàn)略:
- 第一步,基于核心產(chǎn)業(yè)數(shù)據(jù),內(nèi)部構(gòu)建基座大模型;
- 第二步,在零售、金融、健康、物流等京東內(nèi)部核心業(yè)務(wù)應(yīng)用;
- 第三步,針對金融、政務(wù)、健康等京東域外重點產(chǎn)業(yè)場景全面開放大模型能力,向產(chǎn)業(yè)輸出可用可控可信可負(fù)擔(dān)的定制化模型。
這樣一條落地路徑,也是京東再次向業(yè)內(nèi)重申了自己的技術(shù)追求:
成本、效率、體驗、可信、普惠、突破。
早在2017年,京東提出“技術(shù)、技術(shù)、技術(shù)”口號,這三個技術(shù)代表了三個層次:
第一個層次是服務(wù)自己業(yè)務(wù)的需要;第二層次是服務(wù)產(chǎn)業(yè)的技術(shù);第三層是探索未來的技術(shù)。
這三者兩兩耦合,形成技術(shù)與產(chǎn)業(yè)的閉環(huán)——基于產(chǎn)業(yè)的前沿創(chuàng)新突破,隨后在內(nèi)部打磨沉淀實現(xiàn)“可信”,最終服務(wù)產(chǎn)業(yè)創(chuàng)造普惠價值。
也正是因為基于產(chǎn)業(yè)的思考,自今年2月業(yè)內(nèi)首宣產(chǎn)業(yè)大模型之后,京東沒再透露更多進(jìn)展,直至現(xiàn)在才首次將自身技術(shù)積累首次亮相。
畢竟從現(xiàn)在發(fā)展情況來看,大模型落地的難點并不在于技術(shù)追趕,而在于產(chǎn)業(yè)突破。
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18