用大模型“百度一下”,是種什么體驗(yàn)?
搜索+大模型的產(chǎn)品
金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
百度最擅長(zhǎng)、最知名的搜索,要“變味”了。
因?yàn)檫@一次,他們決定把大火的大模型也丟進(jìn)去做成產(chǎn)品了。
這個(gè)大模型,就是百度自家的“最強(qiáng)兵器”——文心大模型。
AI大模型應(yīng)用在搜索場(chǎng)景,帶來(lái)的新產(chǎn)品則叫做文心百中。
好奇的小伙伴肯定要問(wèn)了,那它跟我們傳統(tǒng)搜索會(huì)有什么不同呢?
舉個(gè)例子。
針對(duì)“山城是指的哪個(gè)城市”這個(gè)問(wèn)題,傳統(tǒng)基于關(guān)鍵詞搜索的結(jié)果可能會(huì)是這樣的:
(注:“相關(guān)度”采用ES默認(rèn)計(jì)算方式,分值為0~1區(qū)間,分值越高說(shuō)明模型認(rèn)為結(jié)果越符合檢索需求)
但很顯然,傳統(tǒng)搜索的結(jié)果并不是我們想要的那個(gè)答案。
而這個(gè)問(wèn)題到了文心百中手里,得到的答案就通靈了:
(注:置信度由百中搜索模型計(jì)算得出,分值為0~1區(qū)間,分值越高說(shuō)明模型認(rèn)為結(jié)果越符合檢索需求)
這只是文心百中在“知識(shí)搜索”里的能力展現(xiàn),它對(duì)于開發(fā)者還制定了特定的搜索功能。
例如在“開發(fā)者搜索”里輸個(gè)“Java”,會(huì)得到這樣的結(jié)果:
可以說(shuō)搜索的結(jié)果是相當(dāng)垂直、相當(dāng)“技術(shù)流”的那種了:清一色都是概念介紹、熱門GitHub項(xiàng)目、官網(wǎng)介紹等。
但縱觀文心百中所涵蓋的其它領(lǐng)域,一個(gè)非常明顯的特點(diǎn)就是很To B。
換言之,它的發(fā)力點(diǎn)不單是普通用戶、開發(fā)者,還聚焦在了許多產(chǎn)業(yè)領(lǐng)域之中。
這一點(diǎn),在近期WAVE SUMMIT+ 2022深度學(xué)習(xí)開發(fā)者峰會(huì)上百度對(duì)它的介紹不謀而合——大模型驅(qū)動(dòng)的產(chǎn)業(yè)級(jí)搜索系統(tǒng)。
文心百中的特點(diǎn)可以總結(jié)為三點(diǎn):“極簡(jiǎn)的系統(tǒng)”、“強(qiáng)大的語(yǔ)義理解”和“極低的人力成本”。
百度CTO、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心主任王海峰還提到:
具有算法、算力和數(shù)據(jù)綜合優(yōu)勢(shì)的企業(yè),可以將模型生產(chǎn)的復(fù)雜過(guò)程封裝起來(lái),通過(guò)低門檻、高效率的生產(chǎn)平臺(tái),為千行百業(yè)提供大模型服務(wù),從而形成一條大模型產(chǎn)業(yè)化路徑。
這也正是百度文心大模型產(chǎn)業(yè)化路徑的一個(gè)縮影,而鋪設(shè)這么一條路百度已有數(shù)載時(shí)間。
那么站在現(xiàn)在這個(gè)時(shí)間節(jié)點(diǎn),大模型的產(chǎn)業(yè)之路,或者更廣泛的來(lái)說(shuō)是AI的產(chǎn)業(yè)化之路,都有啥新進(jìn)展?
我們不妨一同來(lái)看下。
百度的大模型之路:越發(fā)親民、易用
“親民”、“易用”,是縱觀整場(chǎng)WAVE SUMMIT后,對(duì)百度大模型最為直觀的感受。
這里可以從兩個(gè)方面來(lái)理解。
其中之一便是越發(fā)接地氣,“文心一格”的能力升級(jí)便是很好的體現(xiàn)。
文心一格是百度今年8月推出的AI藝術(shù)與輔助創(chuàng)作平臺(tái),用戶只需要往里面丟自然語(yǔ)言,就能生成風(fēng)格多變的畫作——
把“鳳凰”相關(guān)的表述輸入進(jìn)去,再選擇相應(yīng)風(fēng)格,就能得到下面這張恢弘絢麗的作品:
而這一次,百度把文心一格變得更加親民、功能更加豐富。
例如可以“以圖生圖”,通過(guò)用戶輸入的圖,可以生成按用戶指定要求風(fēng)格的一些新圖。
還可以“文字編輯圖片”,只需要簡(jiǎn)單描述下文字,就可以極簡(jiǎn)地對(duì)圖片進(jìn)行編輯。
不僅如此,還可以讓圖片一鍵生成視頻。
這便是文心大模型“接地氣”產(chǎn)品化的其中一面。
而另一面,則是在固有大模型的“根節(jié)點(diǎn)”基礎(chǔ)上,以“產(chǎn)業(yè)級(jí)”、“知識(shí)增強(qiáng)”為路徑,不斷向下繁衍出更多“葉節(jié)點(diǎn)”——聚焦產(chǎn)業(yè)的大模型。
整體而言,這次文心大模型又發(fā)布了11個(gè)全新大模型:
- 5個(gè)基礎(chǔ)大模型
- 1個(gè)任務(wù)大模型
- 5個(gè)行業(yè)大模型
五個(gè)新基礎(chǔ)大模型
首先是在NLP大模型方面。
這次推出了知識(shí)增強(qiáng)輕量級(jí)大模型ERNIE 3.0 Tiny,它是以ERNIE 3.0千億參數(shù)大模型為“教師”,通過(guò)多任務(wù)知識(shí)蒸餾手段,將“畢生所學(xué)”濃縮到了一個(gè)輕量級(jí)模型(10億級(jí)、億級(jí)和千萬(wàn)級(jí))。
ERNIE 3.0 Tiny一大特點(diǎn)就是具備較強(qiáng)的泛化能力,相對(duì)于超大參數(shù)模型而言,推理速度提升數(shù)十倍到百倍,能夠顯著降低超大參數(shù)模型落地的成本。
跨模態(tài)方面,新增了3款大模型。
跨模態(tài)理解大模型ERNIE ViL 2.0,采用多視角對(duì)比學(xué)習(xí)方法,同時(shí)構(gòu)建模態(tài)內(nèi)部與模態(tài)之間的表示對(duì)齊,在中文、英文效果上均超越業(yè)界最優(yōu)模型。
據(jù)了解,ERNIE-ViL 2.0已在飛槳企業(yè)版EasyDL上線,支持一站式的精調(diào)訓(xùn)練、推理,可用于多種圖文匹配應(yīng)用場(chǎng)景。
跨模態(tài)生成大模型ERNIE ViLG 2.0,屬于知識(shí)增強(qiáng)的混合降噪專家模型。
它的訓(xùn)練過(guò)程引入了視覺(jué)知識(shí)和語(yǔ)言知識(shí),可以提升模型跨模態(tài)語(yǔ)義理解能力與可控生成能力。
在擴(kuò)散降噪過(guò)程中,ERNIE ViLG 2.0通過(guò)混合專家網(wǎng)絡(luò)建模,增強(qiáng)了模型建模能力,提升了圖像的生成質(zhì)量。
文檔智能大模型ERNIE-Layout,它是以文心多語(yǔ)言ERNIE為基礎(chǔ),融合了文本、圖像、布局等信息進(jìn)行跨模態(tài)聯(lián)合建模,還引入了布局知識(shí)增強(qiáng),提出閱讀順序預(yù)測(cè)、細(xì)粒度圖文匹配等自監(jiān)督預(yù)訓(xùn)練任務(wù),并最大支持96種語(yǔ)言。
它所擅長(zhǎng)且已應(yīng)用的領(lǐng)域包括金融、保險(xiǎn)、能源、物流、醫(yī)療等行業(yè)。
最后是在生物計(jì)算大模型上,推出了單序列蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大模型HelixFold-Single,它是業(yè)界首個(gè)開源的、基于單序列語(yǔ)言模型建模的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大模型。
從近3億的無(wú)標(biāo)注蛋白質(zhì)數(shù)據(jù)中提取信息,建模蛋白質(zhì)之間的關(guān)系,從而將MSA同源信息隱式的學(xué)習(xí)在預(yù)訓(xùn)練大模型中,進(jìn)而有效地替代MSA信息檢索模塊,使得模型推理速度提升數(shù)百倍。
從效果上來(lái)看,HelixFold-Single在抗體蛋白結(jié)構(gòu)預(yù)測(cè)上比AlphaFold2更優(yōu),更有助于抗體藥物的設(shè)計(jì) 。
一個(gè)新任務(wù)大模型
代碼大模型ERNIE-Code,它是在海量代碼和文本數(shù)據(jù)基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練,采用多語(yǔ)言多代碼聯(lián)合學(xué)習(xí)。
由于ERNIE-Code基于中間語(yǔ)言的翻譯語(yǔ)言模型,因此它還具備跨多種自然語(yǔ)言和編程語(yǔ)言的語(yǔ)義理解和生成能力。
據(jù)了解,ERNIE-Code在代碼生成任務(wù)、代碼搜索任務(wù),多語(yǔ)言代碼摘要和代碼文檔翻譯等多個(gè)公開的評(píng)估基準(zhǔn)上取得領(lǐng)先效果。
5個(gè)行業(yè)大模型
在此之前,文心行業(yè)大模型已經(jīng)發(fā)布過(guò)6個(gè),而這次,又有5位成員被涵蓋了進(jìn)來(lái)。
它們分別是:
- 深燃-百度·文心:知識(shí)增強(qiáng)的燃?xì)庑袠I(yè)大模型
- 吉利-百度·文心:知識(shí)增強(qiáng)的汽車行業(yè)大模型
- 泰康-百度·文心:知識(shí)增強(qiáng)的保險(xiǎn)行業(yè)大模型
- TCL-百度·文心:知識(shí)增強(qiáng)的電子制造行業(yè)大模型
- 辭海-百度·文心:知識(shí)增強(qiáng)的社科行業(yè)大模型
……
除此之外,在工具與平臺(tái)層面上,百度還將大模型的開發(fā)套件全面升級(jí),開箱即可用的建模、定制、精調(diào)和可信學(xué)習(xí)工具。
再如飛槳企業(yè)版EasyDL零門檻AI開發(fā)平臺(tái)和BML全功能AI開發(fā)平臺(tái),升級(jí)提供全流程開箱即用的大模型能力。
這就是此次百度在大模型上的最新動(dòng)作,也是大模型應(yīng)用的最新風(fēng)向標(biāo)。
不難看出的一點(diǎn)是,百度的文心大模型產(chǎn)業(yè)味道非常濃厚,它的“葉節(jié)點(diǎn)”正在向千行百業(yè)蔓延開來(lái)。
或許對(duì)于百度而言,大模型和行業(yè)大模型之間的關(guān)系,也展現(xiàn)出面向產(chǎn)業(yè)開放和賦能的一面。
好比武林至尊把自家的兵工廠、鑄劍池,對(duì)外開放,幫助需要的任何產(chǎn)業(yè)方打造趁手兵器。
如果說(shuō)文心大模型是百度自家打造的“獨(dú)門寶劍”,完全是基于自身的武功、特點(diǎn)、需求打造的工具,主要為自己服務(wù)。
那么產(chǎn)業(yè)大模型,就是百度給產(chǎn)業(yè)各方提供了鑄劍服務(wù),幫助打造所需的工具,來(lái)自產(chǎn)業(yè)需求,用于產(chǎn)業(yè)痛點(diǎn),而且產(chǎn)業(yè)方完全不需要掌握大模型這樣的高門檻技術(shù),借助百度就能完成符合自己需求的大模型。
而如此能力背后,還離不開大模型背后更為底層的一個(gè)東西,那便是深度學(xué)習(xí)平臺(tái)飛槳。
在這次的WAVE SUMMIT中,飛槳同樣也有了較大的升級(jí)。
飛槳升級(jí)2.4版本,“產(chǎn)業(yè)味”更重了
用王海峰的話來(lái)說(shuō),飛槳這個(gè)深度學(xué)習(xí)平臺(tái)是基礎(chǔ)共性平臺(tái),下接芯片,上承應(yīng)用,相當(dāng)于智能時(shí)代的操作系統(tǒng)。
其在AI技術(shù)應(yīng)用、AI產(chǎn)業(yè)化進(jìn)程中的重要性可見(jiàn)一斑。
而且飛槳作為一個(gè)深度學(xué)習(xí)平臺(tái),雖與文心大模型“異曲”,但從出發(fā)點(diǎn)和目標(biāo)來(lái)看,卻又有著“同工”之妙——加速AI的落地。
為此,時(shí)隔半年之后,飛槳已經(jīng)步入到了2.4版本的階段。
若是將這次的升級(jí)提煉出三個(gè)關(guān)鍵詞,它們分別是技術(shù)、功能和生態(tài)。
首先是在技術(shù)方面的“三部曲”:
- 開發(fā):新增稀疏計(jì)算、圖學(xué)習(xí)API;升級(jí)高階自動(dòng)微分能力,支持科學(xué)計(jì)算應(yīng)用;動(dòng)態(tài)圖轉(zhuǎn)靜態(tài)圖技術(shù)升級(jí),支持復(fù)雜模型導(dǎo)出和部署。
- 訓(xùn)練:業(yè)界首個(gè)同時(shí)支持復(fù)雜算法+超大圖+超大離散模型的大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù),單機(jī)即可支持百億節(jié)點(diǎn)、數(shù)百億邊的采樣和訓(xùn)練,并可通過(guò)多機(jī)擴(kuò)展支持更大規(guī)模
- 部署:高擴(kuò)展、自動(dòng)化、高性能推理技術(shù)助力大模型應(yīng)用;新發(fā)布AI部署工具FastDeploy。
這是在技術(shù)層面上的能力提升,也是飛槳每年在WAVE SUMMIT上必秀的一塊肌肉。
其次是在功能體驗(yàn)方面,可以說(shuō)是“產(chǎn)業(yè)味”越發(fā)濃郁。
例如飛槳這次發(fā)布了業(yè)界首個(gè)一站式開源大模型開發(fā)套件PaddleFleetX,可以全流程支撐大模型生產(chǎn)落地。
不僅如此,從百度透露出來(lái)的幾組數(shù)據(jù),也能夠體現(xiàn)飛槳越發(fā)濃重的產(chǎn)業(yè)味:
- 產(chǎn)業(yè)級(jí)模型庫(kù)開源低代碼模型新增至600+個(gè)
- 產(chǎn)業(yè)級(jí)特色PP系列模型新增至42個(gè)
- 發(fā)布飛槳產(chǎn)業(yè)級(jí)模型庫(kù)一站式入口
- 產(chǎn)業(yè)實(shí)踐范例即產(chǎn)業(yè)落地全流程“樣板間”新增至68個(gè),覆蓋金融、工業(yè)、交通、互聯(lián)網(wǎng)等重點(diǎn)行業(yè)。
最后是生態(tài)建設(shè)方面,可以分為三個(gè)方面。
在產(chǎn)業(yè)生態(tài)上,飛槳已經(jīng)聯(lián)合了行業(yè)眾多龍頭企業(yè),包括國(guó)家能源集團(tuán)、中國(guó)工商銀行、中國(guó)聯(lián)通、中國(guó)石油、中國(guó)鐵道科學(xué)研究院、中國(guó)移動(dòng)、中國(guó)一汽,發(fā)布產(chǎn)業(yè)范例征集計(jì)劃。
在硬件生態(tài)上,飛槳硬件生態(tài)共創(chuàng)計(jì)劃”硬件伙伴由13家增至28家。
其中12家(包括英偉達(dá)、英特爾、昆侖芯、Arm、天數(shù)智芯、清微智能等)已經(jīng)發(fā)布飛槳生態(tài)發(fā)行版,為開發(fā)者提供軟硬一體化體驗(yàn)。
在人才生態(tài)上,“飛槳AIStudio人工智能學(xué)習(xí)與實(shí)訓(xùn)社區(qū)”新增了“企業(yè)實(shí)訓(xùn)”與“生態(tài)異構(gòu)算力中心”。
二者同樣是已經(jīng)與國(guó)家電網(wǎng)、OPPO、英特爾、英偉達(dá)和曙光等龍頭企業(yè)展開了合作。
……
由此可見(jiàn),無(wú)論是大模型亦或是飛槳,它們現(xiàn)在所聚焦的內(nèi)容無(wú)不在圍繞著“產(chǎn)業(yè)”二字在展開。
那么接下來(lái),就要回到最初我們提到的那個(gè)問(wèn)題:
AI產(chǎn)業(yè)化之路,現(xiàn)在什么階段了?
要回答這個(gè)問(wèn)題,我們不妨先將四年來(lái)的Wave Summit鋪開來(lái)看下。
在2019年第一屆峰會(huì)中,王海峰就提到:
深度學(xué)習(xí)正在推動(dòng)人工智能進(jìn)入工業(yè)大生產(chǎn)階段。
王海峰當(dāng)時(shí)認(rèn)為,正因深度學(xué)習(xí)具備通用性,以及深度學(xué)習(xí)平臺(tái)在不斷發(fā)展,所以它們正在推動(dòng)AI步入一種新的模式。
這種模式可以歸結(jié)為“三化”,即標(biāo)準(zhǔn)化、自動(dòng)化和規(guī)?;?,這也就意味著人工智能在進(jìn)入工業(yè)大生產(chǎn)階段。
到了2020年,“企業(yè)版平臺(tái)”被納入到了飛槳的全景圖之中,并且還發(fā)布了預(yù)訓(xùn)練模型的開發(fā)模式。
這也就邁出了通過(guò)預(yù)訓(xùn)練大模型來(lái)降低AI門檻的重要一步。
而在去年,百度集團(tuán)副總裁吳甜在峰會(huì)中提出企業(yè)AI應(yīng)用三階段:AI先行者探路、AI工作坊應(yīng)用、AI工業(yè)大生產(chǎn)。
并且針對(duì)每一個(gè)階段分別闡述了企業(yè)將面臨的困難和挑戰(zhàn),以及相應(yīng)的解決方案。
與此同時(shí),在同年的12月份,文心大模型也隨之正式亮相。
就在今年5月的峰會(huì)中,吳甜還提到“今年是大模型產(chǎn)業(yè)落地的關(guān)鍵年”,并給出了她認(rèn)為的一種解法:
要做好落地,需要解決的關(guān)鍵問(wèn)題是,前沿的大模型技術(shù)如何與真實(shí)場(chǎng)景的方方面面要求相匹配。
而到了今天這個(gè)時(shí)間節(jié)點(diǎn),在AI產(chǎn)業(yè)化這條道路上,百度正在發(fā)出一個(gè)非常明顯的信號(hào)——
框架、模型不僅要用起來(lái),更重要是要打出去,用吳甜的話來(lái)說(shuō)就是“生態(tài)太重要了”。
對(duì)于這一點(diǎn)其實(shí)并不難理解,正如歷史中每一次的工業(yè)大革命,都是有通用技術(shù)的普及一樣,例如機(jī)械技術(shù)、電氣技術(shù)和信息技術(shù)。
而要做人工智能時(shí)代下的普及,就需要先讓框架、大模型在企業(yè),尤其是龍頭企業(yè)鋪展開來(lái);而后通過(guò)反饋和優(yōu)化,逐層向下更深入的應(yīng)用起來(lái)。
這或許也是百度不遺余力降低AI技術(shù)使用門檻,并且把自家“最強(qiáng)兵工廠”對(duì)外營(yíng)業(yè),與產(chǎn)業(yè)眾多企業(yè)強(qiáng)強(qiáng)聯(lián)手的原因了。
那么在如此發(fā)力之下,AI產(chǎn)業(yè)化又走到了什么階段?
或許借鑒更為大眾所熟悉的移動(dòng)通信發(fā)展史,可以更好得出結(jié)論。我們知道,智能手機(jī)之前,有過(guò)最初的大哥大、小靈通、功能機(jī),最后才是我們所處的智能手機(jī)時(shí)代。
有人認(rèn)為即將來(lái)到功能機(jī),也有人認(rèn)為一切才剛開始。
換個(gè)角度來(lái)說(shuō),歷史性的一頁(yè)才剛剛拉開序幕,廣闊的產(chǎn)業(yè)化機(jī)遇才剛剛開始。就像瓦特完成蒸汽機(jī)改良時(shí),沒(méi)有人能意識(shí)到,會(huì)進(jìn)入一個(gè)生產(chǎn)力大爆炸的新時(shí)代。
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08