大模型產(chǎn)業(yè)落地關(guān)鍵戰(zhàn)打響!百度首發(fā)行業(yè)大模型,外加一口氣十連發(fā)
“今年是大模型產(chǎn)業(yè)落地關(guān)鍵年”
金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
1、2、3、4、5、6、7、8、9、10……
誰能想到,在現(xiàn)如今大模型當(dāng)?shù)赖墓?jié)點上,別家都是一次發(fā)布一個或幾個。
百度呢?
一口氣,10個!
如果把它們歸攏歸攏,打開方式是這樣的,主要涵蓋三大類:
- 基礎(chǔ)大模型
- 任務(wù)大模型
- 行業(yè)大模型
值得一提的是,“行業(yè)大模型”是屬于業(yè)界首發(fā)的那種。
然后百度還說了,“好馬得配好鞍”啊。
于是乎,為了能讓開發(fā)者使用大模型時用得舒服,順便推出了一系列開發(fā)套件、大模型API、開放平臺。
還為了讓開發(fā)者們基于大模型迸發(fā)更多富有想象力的新事物,打造了一個新社區(qū)——旸谷大模型創(chuàng)意與探索社區(qū)。
而作為支撐大模型的底座,位居中國深度學(xué)習(xí)平臺綜合市場份額第一的飛槳,也迎來了六個方面的全新升級。
這就是在每年約定俗成的深度學(xué)習(xí)開發(fā)者盛會——WaveSummit 2022中,百度提交的最新“AI大作業(yè)”。
除此之外,縱觀整場發(fā)布會,百度提及的兩個關(guān)鍵詞顯得格外醒目:
一個是“AI越來越普惠”;另一個是“大模型產(chǎn)業(yè)落地關(guān)鍵年”。
通俗點來說,可以理解為把AI門檻降下去(降維),讓強模型用起來(出擊)。
那么百度真的讓“用AI”這事,變得夠easy了嗎?
以“難用”著稱的大模型,今年要在產(chǎn)業(yè)落地的解法又該是什么?
我們不妨一同來看一看。
時隔半年,大模型要規(guī)模化“上崗”
說起搞大模型這事,早在去年12月份,飛槳便有過一次大動作。
當(dāng)時發(fā)布的是全球第一個千億級知識增強大模型——鵬城-百度·文心大模型(下文簡稱“文心大模型”),參數(shù)量達到了2600億之多。
而此次時隔僅半年再發(fā)的10個大模型,正是基于此。
對比著來看,“基礎(chǔ)通用大模型”和“任務(wù)大模型”有8個新的大模型上線:
例如:
- NLP大模型
新增了ERNIE 3.0 Zeus,它是一個任務(wù)知識增強千億級大模型。
可以使用統(tǒng)一的接口和方式同時處理各類應(yīng)用任務(wù),包括開放問答、信息抽取、情感分析、語義匹配等。
- 跨模態(tài)大模型
ERNIE-SAT,語音-語言跨模態(tài)大模型。在預(yù)訓(xùn)練過程中將中英雙語對應(yīng)的音素作為輸入,讓模型學(xué)習(xí)不同語言間音素的對齊以及語言與語音的對齊,同時對語言和語音做聯(lián)合掩碼學(xué)習(xí)。
ERNIE-GeoL,地理-語言跨模態(tài)大模型。有了它,像搜索“北京西火車站”這樣不規(guī)范詞語時,可以理想地對應(yīng)到真實地理坐標上的“北京西站”(已經(jīng)用在了百度地圖)。
- CV大模型
VIMER-UFO 2.0,參數(shù)規(guī)模170億,是業(yè)界規(guī)模最大的多任務(wù)統(tǒng)一視覺大模型。
它的一大特點,是在訓(xùn)練的時候可以把多個任務(wù)放到一起來聯(lián)合學(xué)習(xí),例如可以同時完成機動車、非機動車、行人等特征的提取。
VIMER-UMS,可以通過融合編碼來學(xué)習(xí)圖像及其相應(yīng)文字的統(tǒng)一表征(已經(jīng)用到了商品搜索)。
VIMER-StrucTexT 2.0,可以融合學(xué)習(xí)“語義”和“結(jié)構(gòu)”信息,支持文檔圖像理解的全場景任務(wù)。
- 生物計算大模型
HELIX-GEM,是融合了幾何級別的自監(jiān)督學(xué)習(xí)策略,學(xué)習(xí)化合物鍵長、鍵角等空間結(jié)構(gòu)知識,提升化合物性質(zhì)預(yù)測的效果(例如提升藥物篩選成功率)。
HELIX-Fold,是蛋白結(jié)構(gòu)分析大模型,在國產(chǎn)DCU環(huán)境,可以將千萬級別蛋白的訓(xùn)練時間從AlphaFold2的7天縮短到2.6天。
從上面的大模型不難看出,飛槳文心大模型一個非常明顯的標簽便是“知識增強”。
這就使得文心大模型不僅擁有解決基礎(chǔ)問題的能力,在面對專有任務(wù)問題時,也能處理得游刃有余。
而除了8個擴充之外,文心大模型還多了2個“新增”——行業(yè)大模型。
具體來說,包括聯(lián)合國家電網(wǎng)研發(fā)的知識增強的能源行業(yè)NLP大模型國網(wǎng)-百度·文心,以及聯(lián)合浦發(fā)銀行研發(fā)的知識增強的金融行業(yè)NLP大模型浦發(fā)-百度·文心。也正如剛才所述,這是業(yè)內(nèi)史無前例的行業(yè)大模型。
行業(yè)大模型也是先基于文心大模型的通用能力,來挖掘相關(guān)行業(yè)中的知識;而后再結(jié)合實際行業(yè)特色的數(shù)據(jù)和知識,進行大規(guī)模無監(jiān)督的聯(lián)合訓(xùn)練。
而且在算法層面上,團隊針對不同行業(yè)領(lǐng)域設(shè)計了具有特色的算法,這就讓訓(xùn)練后的行業(yè)大模型能夠更好的解決實際場景中的“疑難雜癥”。
可以說,百度已經(jīng)找到了大模型應(yīng)用產(chǎn)業(yè)落地的關(guān)竅。
用吳甜的話來講:
大模型如果能學(xué)習(xí)到行業(yè)特有數(shù)據(jù)和知識,會更接近于行業(yè)場景的需要,有利于大規(guī)模產(chǎn)業(yè)落地。
例如在保險行業(yè)這個真實場景中,一個老大難的問題便是合同數(shù)量龐大且重要。
但在行業(yè)大模型能力的加持之下,保險公司可以合同中的條款文本進行自動解析識別,關(guān)鍵信息的維度可以高達39個。
如此能力之下,業(yè)務(wù)的效率也是猛增,以前一份合同人工處理要花上30分鐘的時間,而現(xiàn)在僅需1分鐘!
這也更加印證了飛槳文心大模型“知識增強”標簽之外的另一個特點——“產(chǎn)業(yè)級”。
除此之外,不難看出此次這10個新大模型具有一個共性,那便是都基于文心大模型的通用性。
頗有一種“一生二,二生三,三生萬物”的感覺了。
但百度飛槳要做的可不只是打造大模型這么簡單,他們還要讓大模型用著方便。
就像我們剛才提到的“好馬配好鞍”,在這方面,百度飛槳所提出的是一套工具平臺:
- 大模型開發(fā)套件
- 大模型API服務(wù)
- 開發(fā)平臺EasyDL和BML
據(jù)了解,開發(fā)平臺EasyDL和BML能夠涵蓋30000多個任務(wù),并且可以讓數(shù)據(jù)標注量平均下降70%、效果平均提升10.7%。
這就讓開發(fā)者在不挑算法能力的情況下,就可以“絲滑”地去用文心大模型。
值得一提的是,與飛槳雖“異曲”卻“同工”的文心大模型,也是共享飛槳生態(tài)的升級,同步發(fā)布了一個生態(tài)系統(tǒng)——旸谷大模型創(chuàng)意與探索社區(qū)。
(旸谷在古書、神話中是指“日出的地方”。)
在這個社區(qū)里,開發(fā)者可以通過大模型的創(chuàng)意產(chǎn)品,擦碰出更多富有想象力的新事物。
……
而細品百度飛槳這一波操作之后,不難提煉出“量產(chǎn)”、“易用”這兩個關(guān)鍵詞。
由此,百度飛槳大模型“上崗”的路徑也逐步明朗了起來——開始構(gòu)建并走向規(guī)模化生產(chǎn)和產(chǎn)業(yè)級應(yīng)用。
但要走好這條路,單是在文心大模型上發(fā)力還是不夠的,還需要它背后關(guān)鍵的支撐點,飛槳。
飛槳:我最懂中國AI場景
百度飛槳作為一個深度學(xué)習(xí)平臺,雖與文心大模型“異曲”,但從出發(fā)點和目標來看,卻又有著“同工”之妙——加速AI的落地。
為此,在今年的Wave Summit峰會中,飛槳也由內(nèi)到外地來了個六大全新發(fā)布。其中特別亮眼的,當(dāng)屬飛槳與硬件伙伴進一步深化合作、全面共創(chuàng),推出了飛槳硬件生態(tài)共創(chuàng)計劃。
同樣也是“歸攏歸攏”著來看,飛槳全新發(fā)布可以分為三大類,分別是技術(shù)、場景和生態(tài)。
首先是飛槳框架升級到了2.3版本,在開發(fā)、訓(xùn)練、推理部署全面升級,提升深度定制開發(fā)和自動化能力。
這是在技術(shù)層面上的能力提升,也是飛槳每年在WaveSummit上必秀的一塊肌肉。
而與往年有所不同之處的是,它在場景層面上還喊出了“最懂中國AI場景”的口號。
為此,百度飛槳先是發(fā)布了一張訓(xùn)推一體導(dǎo)航圖。
這張導(dǎo)航圖是基于去年發(fā)布的推理部署導(dǎo)航圖升級而來,目的就是為AI 產(chǎn)業(yè)應(yīng)用落地提供從開發(fā)、訓(xùn)練到推理部署的全流程智能導(dǎo)航。
其次,百度飛槳推出了一個產(chǎn)業(yè)模型選型工具。有了它,就有一種“媽媽再也不用擔(dān)心我選模型了”的感覺。
因為產(chǎn)業(yè)模型選擇工具,是飛槳長期在產(chǎn)業(yè)長期“打拼”所總結(jié)的經(jīng)驗心得,還手把手教你的那種。
緊接著,飛槳還把產(chǎn)業(yè)級模型庫做了開源。
這個模型庫包含超過500個開源算法,而且以產(chǎn)業(yè)場景出發(fā),能夠在性能和精度做到平衡的特色模型,也從原先的13個增添到了23個。
在更聚焦的賽道上,飛槳在已有的量槳(量子機器學(xué)習(xí))、螺旋槳(生物計算)基礎(chǔ)上,還再添了一位新成員——PaddleScience賽槳。
賽槳是飛槳在面向AI for Science領(lǐng)域的全新發(fā)布,具備支持多領(lǐng)域多場景算例、算法和開發(fā)接口、端到端核心框架功能支持、廣泛適配異構(gòu)硬件四大優(yōu)勢。
而它的作用,依舊是為了加速加速前沿技術(shù)在產(chǎn)業(yè)中的應(yīng)用落地。
為了讓上述模型能夠更方便地開發(fā)、部署和迭代,飛槳又推出了移動工作站。
只需預(yù)裝飛槳EasyDL桌面版和智能邊緣控制臺,便可實現(xiàn)本地化開發(fā)和邊端部署。
而在技術(shù)、場景之后,飛槳最后的一大升級,便是來自生態(tài)。
具體而言,包括三大“共創(chuàng)”計劃,均是基于飛槳大航海計劃2.0而來:
- 飛槳產(chǎn)業(yè)實踐范例庫共創(chuàng)計劃:聯(lián)合更多伙伴打造深度學(xué)習(xí)行業(yè)應(yīng)用標桿,共享生態(tài)收益。
- 飛槳AI for Science共創(chuàng)計劃:協(xié)同產(chǎn)學(xué)研合作伙伴打造AI for Science開源生態(tài),推動科研創(chuàng)新與產(chǎn)業(yè)賦能。
- 飛槳硬件生態(tài)共創(chuàng)計劃:從共聚、共研到共創(chuàng),攜手合作伙伴,軟硬融合創(chuàng)新,共建繁榮硬件生態(tài)。
以上便是百度飛槳在Wave Summit 2022中的核心發(fā)布內(nèi)容。
但隨之而來的一個問題便是:
為什么非要把AI門檻降下去?
落地,落地,還是落地。
這也是從此次發(fā)布會中,能夠感受到的最強信號。
但若是回溯到2019年那個最初的起點,將這三年的Wave Summit鋪開來看,個中原因就會一目了然。
在第一屆峰會中,百度CTO王海峰便提及:
深度學(xué)習(xí)正在推動人工智能進入工業(yè)大生產(chǎn)階段。
王海峰當(dāng)時認為,正因深度學(xué)習(xí)具備通用性,以及深度學(xué)習(xí)平臺在不斷發(fā)展,所以它們正在推動AI步入一種新的模式。
這種模式可以歸結(jié)為“三化”,即標準化、自動化和規(guī)?;?,這也就意味著人工智能在進入工業(yè)大生產(chǎn)階段。
到了2020年,“企業(yè)版平臺”被納入到了飛槳的全景圖之中,并且還發(fā)布了預(yù)訓(xùn)練模型的開發(fā)模式。
這也就邁出了通過預(yù)訓(xùn)練大模型來降低AI門檻的重要一步。
而在去年,吳甜在峰會中則是提出企業(yè)AI應(yīng)用三階段:AI先行者探路、AI工作坊應(yīng)用、AI工業(yè)大生產(chǎn)。
并且針對每一個階段分別闡述了企業(yè)將面臨的困難和挑戰(zhàn),以及相應(yīng)的解決方案。
與此同時,在同年的12月份,文心大模型也隨之正式亮相。
……
從百度走了三年的這條路來看,一個大的BGM便是“AI工業(yè)大生產(chǎn)”,而主旋律可以說是“降低AI門檻、應(yīng)用落地”。
而能夠嫁接二者的“橋梁”,便是具備通用性質(zhì)的人工智能技術(shù)。
正如歷史中每一次的工業(yè)大革命,都是有通用技術(shù)的普及一樣,例如機械技術(shù)、電氣技術(shù)和信息技術(shù)。
而在人工智能時代的當(dāng)下,這種信號也是越發(fā)的強烈:
- 深度學(xué)習(xí)技術(shù):通用性越來越強
- 深度學(xué)習(xí)技術(shù)平臺:標準化、自動化和模塊化越來越顯著
- 深度學(xué)習(xí)應(yīng)用:產(chǎn)業(yè)智能化越來越廣泛和深入
正如飛槳三年的觀察那般,AI工業(yè)大生產(chǎn)已然如火如荼開展起來。
以文心大模型為例,目前已經(jīng)在諸如保險、銀行、農(nóng)業(yè)、生物醫(yī)藥、工業(yè)、搜索,甚至是智能音箱等領(lǐng)域和場景中有所涉足,在提高垂直業(yè)務(wù)效率的道路上各顯神通。
平臺方面,據(jù)IDC的報告,飛槳已經(jīng)取得了國內(nèi)深度學(xué)習(xí)平臺綜合市場份額第一的成績。
而且開發(fā)者社區(qū)已經(jīng)凝聚477萬開發(fā)者、服務(wù)18萬個企業(yè),并且已經(jīng)創(chuàng)建56萬個模型。
基于此,接下來的一步,就是要讓人工智能技術(shù)更廣泛地走進千行百業(yè)。
但以大模型為代表的人工智能通用技術(shù),因為規(guī)模過大、算力需求過強等原因,長久以來一直成為開發(fā)者詬病之處。
那么這一局,又該如何破解?
吳甜在此次峰會中說“今年是大模型產(chǎn)業(yè)落地的關(guān)鍵年”,與此同時她也給出了一種“解法”:
要做好落地,需要解決的關(guān)鍵問題是,前沿的大模型技術(shù)如何與真實場景的方方面面要求相匹配。
而剛才我們提到的10個新大模型、1個配套工具平臺和1個生態(tài)系統(tǒng),正是此“解法”的具體內(nèi)容:
- 首先,是建設(shè)更適配應(yīng)用場景的模型體系,包含學(xué)習(xí)了足夠多數(shù)據(jù)與知識的基礎(chǔ)大模型,面向常見AI任務(wù)專門學(xué)習(xí)的任務(wù)大模型,以及引入行業(yè)特色數(shù)據(jù)和知識的行業(yè)大模型。
- 其次,是要有更有效的工具和方法論來讓大模型發(fā)揮作用,充分考慮落地應(yīng)用的全流程問題。
- 最后,是要有開放的生態(tài),以生態(tài)促創(chuàng)新。
若是歸結(jié)為一句話,或許可以是“框架打出去,模型用起來”。
以上便是百度飛槳為什么要致力于不斷降低AI門檻的原因了。
值得一提的是,雖然此次百度飛槳“前無古人后無來者”地提出了行業(yè)大模型,但它并不是否定其它大模型廠商的分類模式。
這更像是站在傳統(tǒng)大模型的基礎(chǔ)上,為了讓它更好地能被產(chǎn)業(yè)用起來,而提出的一種新范式。
……
那么最后,百度飛槳已經(jīng)在大模型該如何“上崗”、人工智能在工業(yè)大生產(chǎn)階段發(fā)展路徑等問題上,交出了一份“AI大作業(yè)”。
你覺得值得參考嗎?
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08