大模型產(chǎn)業(yè)落地關(guān)鍵戰(zhàn)打響!百度首發(fā)行業(yè)大模型,外加一口氣十連發(fā)
“今年是大模型產(chǎn)業(yè)落地關(guān)鍵年”
金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
1、2、3、4、5、6、7、8、9、10……
誰(shuí)能想到,在現(xiàn)如今大模型當(dāng)?shù)赖墓?jié)點(diǎn)上,別家都是一次發(fā)布一個(gè)或幾個(gè)。
百度呢?
一口氣,10個(gè)!
如果把它們歸攏歸攏,打開(kāi)方式是這樣的,主要涵蓋三大類:
- 基礎(chǔ)大模型
- 任務(wù)大模型
- 行業(yè)大模型
值得一提的是,“行業(yè)大模型”是屬于業(yè)界首發(fā)的那種。
然后百度還說(shuō)了,“好馬得配好鞍”啊。
于是乎,為了能讓開(kāi)發(fā)者使用大模型時(shí)用得舒服,順便推出了一系列開(kāi)發(fā)套件、大模型API、開(kāi)放平臺(tái)。
還為了讓開(kāi)發(fā)者們基于大模型迸發(fā)更多富有想象力的新事物,打造了一個(gè)新社區(qū)——旸谷大模型創(chuàng)意與探索社區(qū)。
而作為支撐大模型的底座,位居中國(guó)深度學(xué)習(xí)平臺(tái)綜合市場(chǎng)份額第一的飛槳,也迎來(lái)了六個(gè)方面的全新升級(jí)。
這就是在每年約定俗成的深度學(xué)習(xí)開(kāi)發(fā)者盛會(huì)——WaveSummit 2022中,百度提交的最新“AI大作業(yè)”。
除此之外,縱觀整場(chǎng)發(fā)布會(huì),百度提及的兩個(gè)關(guān)鍵詞顯得格外醒目:
一個(gè)是“AI越來(lái)越普惠”;另一個(gè)是“大模型產(chǎn)業(yè)落地關(guān)鍵年”。
通俗點(diǎn)來(lái)說(shuō),可以理解為把AI門檻降下去(降維),讓強(qiáng)模型用起來(lái)(出擊)。
那么百度真的讓“用AI”這事,變得夠easy了嗎?
以“難用”著稱的大模型,今年要在產(chǎn)業(yè)落地的解法又該是什么?
我們不妨一同來(lái)看一看。
時(shí)隔半年,大模型要規(guī)?;吧蠉彙?/h1>
說(shuō)起搞大模型這事,早在去年12月份,飛槳便有過(guò)一次大動(dòng)作。
當(dāng)時(shí)發(fā)布的是全球第一個(gè)千億級(jí)知識(shí)增強(qiáng)大模型——鵬城-百度·文心大模型(下文簡(jiǎn)稱“文心大模型”),參數(shù)量達(dá)到了2600億之多。
而此次時(shí)隔僅半年再發(fā)的10個(gè)大模型,正是基于此。
對(duì)比著來(lái)看,“基礎(chǔ)通用大模型”和“任務(wù)大模型”有8個(gè)新的大模型上線:
例如:
- NLP大模型
新增了ERNIE 3.0 Zeus,它是一個(gè)任務(wù)知識(shí)增強(qiáng)千億級(jí)大模型。
可以使用統(tǒng)一的接口和方式同時(shí)處理各類應(yīng)用任務(wù),包括開(kāi)放問(wèn)答、信息抽取、情感分析、語(yǔ)義匹配等。
- 跨模態(tài)大模型
ERNIE-SAT,語(yǔ)音-語(yǔ)言跨模態(tài)大模型。在預(yù)訓(xùn)練過(guò)程中將中英雙語(yǔ)對(duì)應(yīng)的音素作為輸入,讓模型學(xué)習(xí)不同語(yǔ)言間音素的對(duì)齊以及語(yǔ)言與語(yǔ)音的對(duì)齊,同時(shí)對(duì)語(yǔ)言和語(yǔ)音做聯(lián)合掩碼學(xué)習(xí)。
ERNIE-GeoL,地理-語(yǔ)言跨模態(tài)大模型。有了它,像搜索“北京西火車站”這樣不規(guī)范詞語(yǔ)時(shí),可以理想地對(duì)應(yīng)到真實(shí)地理坐標(biāo)上的“北京西站”(已經(jīng)用在了百度地圖)。
- CV大模型
VIMER-UFO 2.0,參數(shù)規(guī)模170億,是業(yè)界規(guī)模最大的多任務(wù)統(tǒng)一視覺(jué)大模型。
它的一大特點(diǎn),是在訓(xùn)練的時(shí)候可以把多個(gè)任務(wù)放到一起來(lái)聯(lián)合學(xué)習(xí),例如可以同時(shí)完成機(jī)動(dòng)車、非機(jī)動(dòng)車、行人等特征的提取。
VIMER-UMS,可以通過(guò)融合編碼來(lái)學(xué)習(xí)圖像及其相應(yīng)文字的統(tǒng)一表征(已經(jīng)用到了商品搜索)。
VIMER-StrucTexT 2.0,可以融合學(xué)習(xí)“語(yǔ)義”和“結(jié)構(gòu)”信息,支持文檔圖像理解的全場(chǎng)景任務(wù)。
- 生物計(jì)算大模型
HELIX-GEM,是融合了幾何級(jí)別的自監(jiān)督學(xué)習(xí)策略,學(xué)習(xí)化合物鍵長(zhǎng)、鍵角等空間結(jié)構(gòu)知識(shí),提升化合物性質(zhì)預(yù)測(cè)的效果(例如提升藥物篩選成功率)。
HELIX-Fold,是蛋白結(jié)構(gòu)分析大模型,在國(guó)產(chǎn)DCU環(huán)境,可以將千萬(wàn)級(jí)別蛋白的訓(xùn)練時(shí)間從AlphaFold2的7天縮短到2.6天。
從上面的大模型不難看出,飛槳文心大模型一個(gè)非常明顯的標(biāo)簽便是“知識(shí)增強(qiáng)”。
這就使得文心大模型不僅擁有解決基礎(chǔ)問(wèn)題的能力,在面對(duì)專有任務(wù)問(wèn)題時(shí),也能處理得游刃有余。
而除了8個(gè)擴(kuò)充之外,文心大模型還多了2個(gè)“新增”——行業(yè)大模型。
具體來(lái)說(shuō),包括聯(lián)合國(guó)家電網(wǎng)研發(fā)的知識(shí)增強(qiáng)的能源行業(yè)NLP大模型國(guó)網(wǎng)-百度·文心,以及聯(lián)合浦發(fā)銀行研發(fā)的知識(shí)增強(qiáng)的金融行業(yè)NLP大模型浦發(fā)-百度·文心。也正如剛才所述,這是業(yè)內(nèi)史無(wú)前例的行業(yè)大模型。
行業(yè)大模型也是先基于文心大模型的通用能力,來(lái)挖掘相關(guān)行業(yè)中的知識(shí);而后再結(jié)合實(shí)際行業(yè)特色的數(shù)據(jù)和知識(shí),進(jìn)行大規(guī)模無(wú)監(jiān)督的聯(lián)合訓(xùn)練。
而且在算法層面上,團(tuán)隊(duì)針對(duì)不同行業(yè)領(lǐng)域設(shè)計(jì)了具有特色的算法,這就讓訓(xùn)練后的行業(yè)大模型能夠更好的解決實(shí)際場(chǎng)景中的“疑難雜癥”。
可以說(shuō),百度已經(jīng)找到了大模型應(yīng)用產(chǎn)業(yè)落地的關(guān)竅。
用吳甜的話來(lái)講:
大模型如果能學(xué)習(xí)到行業(yè)特有數(shù)據(jù)和知識(shí),會(huì)更接近于行業(yè)場(chǎng)景的需要,有利于大規(guī)模產(chǎn)業(yè)落地。
例如在保險(xiǎn)行業(yè)這個(gè)真實(shí)場(chǎng)景中,一個(gè)老大難的問(wèn)題便是合同數(shù)量龐大且重要。
但在行業(yè)大模型能力的加持之下,保險(xiǎn)公司可以合同中的條款文本進(jìn)行自動(dòng)解析識(shí)別,關(guān)鍵信息的維度可以高達(dá)39個(gè)。
如此能力之下,業(yè)務(wù)的效率也是猛增,以前一份合同人工處理要花上30分鐘的時(shí)間,而現(xiàn)在僅需1分鐘!
這也更加印證了飛槳文心大模型“知識(shí)增強(qiáng)”標(biāo)簽之外的另一個(gè)特點(diǎn)——“產(chǎn)業(yè)級(jí)”。
除此之外,不難看出此次這10個(gè)新大模型具有一個(gè)共性,那便是都基于文心大模型的通用性。
頗有一種“一生二,二生三,三生萬(wàn)物”的感覺(jué)了。
但百度飛槳要做的可不只是打造大模型這么簡(jiǎn)單,他們還要讓大模型用著方便。
就像我們剛才提到的“好馬配好鞍”,在這方面,百度飛槳所提出的是一套工具平臺(tái):
- 大模型開(kāi)發(fā)套件
- 大模型API服務(wù)
- 開(kāi)發(fā)平臺(tái)EasyDL和BML
據(jù)了解,開(kāi)發(fā)平臺(tái)EasyDL和BML能夠涵蓋30000多個(gè)任務(wù),并且可以讓數(shù)據(jù)標(biāo)注量平均下降70%、效果平均提升10.7%。
這就讓開(kāi)發(fā)者在不挑算法能力的情況下,就可以“絲滑”地去用文心大模型。
值得一提的是,與飛槳雖“異曲”卻“同工”的文心大模型,也是共享飛槳生態(tài)的升級(jí),同步發(fā)布了一個(gè)生態(tài)系統(tǒng)——旸谷大模型創(chuàng)意與探索社區(qū)。
(旸谷在古書、神話中是指“日出的地方”。)
在這個(gè)社區(qū)里,開(kāi)發(fā)者可以通過(guò)大模型的創(chuàng)意產(chǎn)品,擦碰出更多富有想象力的新事物。
……
而細(xì)品百度飛槳這一波操作之后,不難提煉出“量產(chǎn)”、“易用”這兩個(gè)關(guān)鍵詞。
由此,百度飛槳大模型“上崗”的路徑也逐步明朗了起來(lái)——開(kāi)始構(gòu)建并走向規(guī)?;a(chǎn)和產(chǎn)業(yè)級(jí)應(yīng)用。
但要走好這條路,單是在文心大模型上發(fā)力還是不夠的,還需要它背后關(guān)鍵的支撐點(diǎn),飛槳。
飛槳:我最懂中國(guó)AI場(chǎng)景
百度飛槳作為一個(gè)深度學(xué)習(xí)平臺(tái),雖與文心大模型“異曲”,但從出發(fā)點(diǎn)和目標(biāo)來(lái)看,卻又有著“同工”之妙——加速AI的落地。
為此,在今年的Wave Summit峰會(huì)中,飛槳也由內(nèi)到外地來(lái)了個(gè)六大全新發(fā)布。其中特別亮眼的,當(dāng)屬飛槳與硬件伙伴進(jìn)一步深化合作、全面共創(chuàng),推出了飛槳硬件生態(tài)共創(chuàng)計(jì)劃。
同樣也是“歸攏歸攏”著來(lái)看,飛槳全新發(fā)布可以分為三大類,分別是技術(shù)、場(chǎng)景和生態(tài)。
首先是飛槳框架升級(jí)到了2.3版本,在開(kāi)發(fā)、訓(xùn)練、推理部署全面升級(jí),提升深度定制開(kāi)發(fā)和自動(dòng)化能力。
這是在技術(shù)層面上的能力提升,也是飛槳每年在WaveSummit上必秀的一塊肌肉。
而與往年有所不同之處的是,它在場(chǎng)景層面上還喊出了“最懂中國(guó)AI場(chǎng)景”的口號(hào)。
為此,百度飛槳先是發(fā)布了一張訓(xùn)推一體導(dǎo)航圖。
這張導(dǎo)航圖是基于去年發(fā)布的推理部署導(dǎo)航圖升級(jí)而來(lái),目的就是為AI 產(chǎn)業(yè)應(yīng)用落地提供從開(kāi)發(fā)、訓(xùn)練到推理部署的全流程智能導(dǎo)航。
其次,百度飛槳推出了一個(gè)產(chǎn)業(yè)模型選型工具。有了它,就有一種“媽媽再也不用擔(dān)心我選模型了”的感覺(jué)。
因?yàn)楫a(chǎn)業(yè)模型選擇工具,是飛槳長(zhǎng)期在產(chǎn)業(yè)長(zhǎng)期“打拼”所總結(jié)的經(jīng)驗(yàn)心得,還手把手教你的那種。
緊接著,飛槳還把產(chǎn)業(yè)級(jí)模型庫(kù)做了開(kāi)源。
這個(gè)模型庫(kù)包含超過(guò)500個(gè)開(kāi)源算法,而且以產(chǎn)業(yè)場(chǎng)景出發(fā),能夠在性能和精度做到平衡的特色模型,也從原先的13個(gè)增添到了23個(gè)。
在更聚焦的賽道上,飛槳在已有的量槳(量子機(jī)器學(xué)習(xí))、螺旋槳(生物計(jì)算)基礎(chǔ)上,還再添了一位新成員——PaddleScience賽槳。
賽槳是飛槳在面向AI for Science領(lǐng)域的全新發(fā)布,具備支持多領(lǐng)域多場(chǎng)景算例、算法和開(kāi)發(fā)接口、端到端核心框架功能支持、廣泛適配異構(gòu)硬件四大優(yōu)勢(shì)。
而它的作用,依舊是為了加速加速前沿技術(shù)在產(chǎn)業(yè)中的應(yīng)用落地。
為了讓上述模型能夠更方便地開(kāi)發(fā)、部署和迭代,飛槳又推出了移動(dòng)工作站。
只需預(yù)裝飛槳EasyDL桌面版和智能邊緣控制臺(tái),便可實(shí)現(xiàn)本地化開(kāi)發(fā)和邊端部署。
而在技術(shù)、場(chǎng)景之后,飛槳最后的一大升級(jí),便是來(lái)自生態(tài)。
具體而言,包括三大“共創(chuàng)”計(jì)劃,均是基于飛槳大航海計(jì)劃2.0而來(lái):
- 飛槳產(chǎn)業(yè)實(shí)踐范例庫(kù)共創(chuàng)計(jì)劃:聯(lián)合更多伙伴打造深度學(xué)習(xí)行業(yè)應(yīng)用標(biāo)桿,共享生態(tài)收益。
- 飛槳AI for Science共創(chuàng)計(jì)劃:協(xié)同產(chǎn)學(xué)研合作伙伴打造AI for Science開(kāi)源生態(tài),推動(dòng)科研創(chuàng)新與產(chǎn)業(yè)賦能。
- 飛槳硬件生態(tài)共創(chuàng)計(jì)劃:從共聚、共研到共創(chuàng),攜手合作伙伴,軟硬融合創(chuàng)新,共建繁榮硬件生態(tài)。
以上便是百度飛槳在Wave Summit 2022中的核心發(fā)布內(nèi)容。
但隨之而來(lái)的一個(gè)問(wèn)題便是:
為什么非要把AI門檻降下去?
落地,落地,還是落地。
這也是從此次發(fā)布會(huì)中,能夠感受到的最強(qiáng)信號(hào)。
但若是回溯到2019年那個(gè)最初的起點(diǎn),將這三年的Wave Summit鋪開(kāi)來(lái)看,個(gè)中原因就會(huì)一目了然。
在第一屆峰會(huì)中,百度CTO王海峰便提及:
深度學(xué)習(xí)正在推動(dòng)人工智能進(jìn)入工業(yè)大生產(chǎn)階段。
王海峰當(dāng)時(shí)認(rèn)為,正因深度學(xué)習(xí)具備通用性,以及深度學(xué)習(xí)平臺(tái)在不斷發(fā)展,所以它們正在推動(dòng)AI步入一種新的模式。
這種模式可以歸結(jié)為“三化”,即標(biāo)準(zhǔn)化、自動(dòng)化和規(guī)?;?,這也就意味著人工智能在進(jìn)入工業(yè)大生產(chǎn)階段。
到了2020年,“企業(yè)版平臺(tái)”被納入到了飛槳的全景圖之中,并且還發(fā)布了預(yù)訓(xùn)練模型的開(kāi)發(fā)模式。
這也就邁出了通過(guò)預(yù)訓(xùn)練大模型來(lái)降低AI門檻的重要一步。
而在去年,吳甜在峰會(huì)中則是提出企業(yè)AI應(yīng)用三階段:AI先行者探路、AI工作坊應(yīng)用、AI工業(yè)大生產(chǎn)。
并且針對(duì)每一個(gè)階段分別闡述了企業(yè)將面臨的困難和挑戰(zhàn),以及相應(yīng)的解決方案。
與此同時(shí),在同年的12月份,文心大模型也隨之正式亮相。
……
從百度走了三年的這條路來(lái)看,一個(gè)大的BGM便是“AI工業(yè)大生產(chǎn)”,而主旋律可以說(shuō)是“降低AI門檻、應(yīng)用落地”。
而能夠嫁接二者的“橋梁”,便是具備通用性質(zhì)的人工智能技術(shù)。
正如歷史中每一次的工業(yè)大革命,都是有通用技術(shù)的普及一樣,例如機(jī)械技術(shù)、電氣技術(shù)和信息技術(shù)。
而在人工智能時(shí)代的當(dāng)下,這種信號(hào)也是越發(fā)的強(qiáng)烈:
- 深度學(xué)習(xí)技術(shù):通用性越來(lái)越強(qiáng)
- 深度學(xué)習(xí)技術(shù)平臺(tái):標(biāo)準(zhǔn)化、自動(dòng)化和模塊化越來(lái)越顯著
- 深度學(xué)習(xí)應(yīng)用:產(chǎn)業(yè)智能化越來(lái)越廣泛和深入
正如飛槳三年的觀察那般,AI工業(yè)大生產(chǎn)已然如火如荼開(kāi)展起來(lái)。
以文心大模型為例,目前已經(jīng)在諸如保險(xiǎn)、銀行、農(nóng)業(yè)、生物醫(yī)藥、工業(yè)、搜索,甚至是智能音箱等領(lǐng)域和場(chǎng)景中有所涉足,在提高垂直業(yè)務(wù)效率的道路上各顯神通。
平臺(tái)方面,據(jù)IDC的報(bào)告,飛槳已經(jīng)取得了國(guó)內(nèi)深度學(xué)習(xí)平臺(tái)綜合市場(chǎng)份額第一的成績(jī)。
而且開(kāi)發(fā)者社區(qū)已經(jīng)凝聚477萬(wàn)開(kāi)發(fā)者、服務(wù)18萬(wàn)個(gè)企業(yè),并且已經(jīng)創(chuàng)建56萬(wàn)個(gè)模型。
基于此,接下來(lái)的一步,就是要讓人工智能技術(shù)更廣泛地走進(jìn)千行百業(yè)。
但以大模型為代表的人工智能通用技術(shù),因?yàn)橐?guī)模過(guò)大、算力需求過(guò)強(qiáng)等原因,長(zhǎng)久以來(lái)一直成為開(kāi)發(fā)者詬病之處。
那么這一局,又該如何破解?
吳甜在此次峰會(huì)中說(shuō)“今年是大模型產(chǎn)業(yè)落地的關(guān)鍵年”,與此同時(shí)她也給出了一種“解法”:
要做好落地,需要解決的關(guān)鍵問(wèn)題是,前沿的大模型技術(shù)如何與真實(shí)場(chǎng)景的方方面面要求相匹配。
而剛才我們提到的10個(gè)新大模型、1個(gè)配套工具平臺(tái)和1個(gè)生態(tài)系統(tǒng),正是此“解法”的具體內(nèi)容:
- 首先,是建設(shè)更適配應(yīng)用場(chǎng)景的模型體系,包含學(xué)習(xí)了足夠多數(shù)據(jù)與知識(shí)的基礎(chǔ)大模型,面向常見(jiàn)AI任務(wù)專門學(xué)習(xí)的任務(wù)大模型,以及引入行業(yè)特色數(shù)據(jù)和知識(shí)的行業(yè)大模型。
- 其次,是要有更有效的工具和方法論來(lái)讓大模型發(fā)揮作用,充分考慮落地應(yīng)用的全流程問(wèn)題。
- 最后,是要有開(kāi)放的生態(tài),以生態(tài)促創(chuàng)新。
若是歸結(jié)為一句話,或許可以是“框架打出去,模型用起來(lái)”。
以上便是百度飛槳為什么要致力于不斷降低AI門檻的原因了。
值得一提的是,雖然此次百度飛槳“前無(wú)古人后無(wú)來(lái)者”地提出了行業(yè)大模型,但它并不是否定其它大模型廠商的分類模式。
這更像是站在傳統(tǒng)大模型的基礎(chǔ)上,為了讓它更好地能被產(chǎn)業(yè)用起來(lái),而提出的一種新范式。
……
那么最后,百度飛槳已經(jīng)在大模型該如何“上崗”、人工智能在工業(yè)大生產(chǎn)階段發(fā)展路徑等問(wèn)題上,交出了一份“AI大作業(yè)”。
你覺(jué)得值得參考嗎?
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08