百度萬(wàn)億級(jí)圖檢索引擎發(fā)布!四大預(yù)訓(xùn)練模型開(kāi)源,還“發(fā)糖”15億元
百度的“520”禮物
金磊 夢(mèng)晨 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
又一年520,又一年情……
Stop!不是這種打開(kāi)方式。
瞧~同樣是為了“過(guò)節(jié)”,卻吸引了五湖四海的開(kāi)發(fā)者聚集在此。
這就是已經(jīng)“約定俗成”的深度學(xué)習(xí)開(kāi)發(fā)者盛會(huì)——WAVE SUMMIT 2021。
而百度飛槳,作為國(guó)產(chǎn)最大深度學(xué)習(xí)平臺(tái),同樣也在520這樣的日子,給開(kāi)發(fā)者們帶來(lái)了不少“糖”吃:
- 發(fā)布全新飛槳開(kāi)源框架2.1版本
- 發(fā)布全新大規(guī)模圖檢索引擎
- 開(kāi)源文心ERNIE四大預(yù)訓(xùn)練模型
- 全新發(fā)布推理部署導(dǎo)航圖
- ……
除此之外,還有15億元資金,其中10億要“發(fā)”給10萬(wàn)家企業(yè)和百萬(wàn)產(chǎn)業(yè)AI人才。
與以往不同,此次峰會(huì)揭示了一種全新定調(diào)——大融合、大創(chuàng)新。
百度首席技術(shù)官王海峰表示:
從技術(shù)的角度,多技術(shù)融合創(chuàng)新,知識(shí)與深度學(xué)習(xí)相結(jié)合,突破了知識(shí)增強(qiáng)的深度語(yǔ)義理解,在參數(shù)規(guī)模相同的情況下效果大幅提升,可解釋性更強(qiáng)。
從平臺(tái)的角度,深度學(xué)習(xí)平臺(tái)與芯片軟硬一體融合創(chuàng)新,面向不同硬件配置的各種生產(chǎn)環(huán)境,滿(mǎn)足不同算力、功耗、時(shí)延等的多樣化需求,取得AI應(yīng)用的最佳效果。
從產(chǎn)業(yè)的角度,人工智能技術(shù)越來(lái)越深入與產(chǎn)業(yè)融合,以產(chǎn)業(yè)需求為牽引,持續(xù)打磨 AI 技術(shù)及平臺(tái)能力,與應(yīng)用場(chǎng)景融合創(chuàng)新發(fā)展。
△百度首席技術(shù)官,王海峰
此外,降低AI門(mén)檻,也是此次峰會(huì)的另一重點(diǎn),是加快多樣性和產(chǎn)業(yè)進(jìn)程的核心。
而之于融合創(chuàng)新和降低AI門(mén)檻,如何把AI價(jià)值帶入到產(chǎn)業(yè)中,實(shí)現(xiàn)高效率高質(zhì)量的大生產(chǎn),百度集團(tuán)副總裁吳甜認(rèn)為:
AI工業(yè)大生產(chǎn)首先在企業(yè)生產(chǎn)活動(dòng)中逐階段實(shí)現(xiàn),進(jìn)一步發(fā)展,將會(huì)從企業(yè)內(nèi)部的多人多任務(wù)分工協(xié)同,走向全社會(huì)的AI大生產(chǎn)大協(xié)同。
△百度集團(tuán)副總裁,吳甜
接下來(lái),便來(lái)一文看盡WAVE SUMMIT 2021。
六大全新發(fā)布
飛槳開(kāi)源框架2.1版本
作為國(guó)產(chǎn)最大的深度學(xué)習(xí)平臺(tái),在此次峰會(huì)中,再次迎來(lái)升級(jí)——2.1版本。
劃重點(diǎn)!
四大功能著重優(yōu)化:
- 集自動(dòng)混合精度優(yōu)化:以ResNet50和BERT為例,啟動(dòng)該功能后,訓(xùn)練速度可提升3倍。
- 動(dòng)態(tài)圖功能增強(qiáng):新增inplace操作功能,顯存占用降低17%;優(yōu)化Python/C++交互開(kāi)銷(xiāo),訓(xùn)練速度提升10%。
- 高層API:新增支持GPU預(yù)處理、混合精度和模型共享機(jī)制。
- 尤其是在自定義算子功能上的升級(jí),讓開(kāi)發(fā)者自定義算子的學(xué)習(xí)、開(kāi)發(fā)成本大幅降低,也大大提高了開(kāi)發(fā)的靈活性。
由此,也就展開(kāi)了此次2.1版本升級(jí)后,百度飛槳的一張全景圖。
而在這張全景圖中,除上述核心框架開(kāi)發(fā)功能優(yōu)化之外,百度飛槳此次的升級(jí),還遠(yuǎn)不止于此。
大規(guī)模圖檢索引擎
此次百度飛槳2.1版本,在分布式訓(xùn)練方面的發(fā)布,便是大規(guī)模圖檢索引擎,核心亮點(diǎn)如下:
支持萬(wàn)億邊的分布式圖存儲(chǔ)和檢索,支持線(xiàn)性擴(kuò)展。
例如在與網(wǎng)易云音樂(lè)的合作過(guò)程中,“主播推薦”便用到了該功能。
支撐了十億邊圖模型訓(xùn)練,有效地解決了冷啟動(dòng)問(wèn)題,提高了主播推薦場(chǎng)景的有效播放率。
不難看出,大規(guī)模圖檢索引擎的發(fā)布,讓百度飛槳具備更強(qiáng)的產(chǎn)業(yè)場(chǎng)景應(yīng)用特性。
文心ERNIE四大預(yù)訓(xùn)練模型開(kāi)源
框架層之后,便是模型套件層方面。
開(kāi)源了文心ERNIE的四大預(yù)訓(xùn)練模型:
- ERNIE-Gram:提出顯式的n-gram掩碼語(yǔ)言模型,通過(guò)引入多粒度語(yǔ)言知識(shí)增強(qiáng)預(yù)訓(xùn)練模型效果,在5項(xiàng)典型中文文本任務(wù)中領(lǐng)先。
- ERNIE-Doc:針對(duì)篇章長(zhǎng)文本建模不充分問(wèn)題,提出回顧式建模技術(shù)和增強(qiáng)記憶模型機(jī)制,在13項(xiàng)長(zhǎng)文本理解任務(wù)上取得領(lǐng)先效果。
- ERNIE-ViL:針對(duì)跨模態(tài)理解難題,基于知識(shí)增強(qiáng)思想,實(shí)現(xiàn)了融合場(chǎng)景知識(shí)的跨模態(tài)預(yù)訓(xùn)練,在5項(xiàng)跨模態(tài)理解任務(wù)上取得效果領(lǐng)先
- ERNIE-UNIMO:進(jìn)一步增強(qiáng)不同模態(tài)間的知識(shí)融合,通過(guò)跨模態(tài)對(duì)比學(xué)習(xí),同時(shí)提升跨模態(tài)語(yǔ)義理解與生成、文本理解與生成的效果,在13項(xiàng)跨模態(tài)和文本任務(wù)上實(shí)現(xiàn)領(lǐng)先。
而在復(fù)雜的語(yǔ)義理解需求下,這四大預(yù)訓(xùn)練模型可各自發(fā)揮它們的所長(zhǎng)。
與此同時(shí),還可以做到技術(shù)融合,達(dá)到“1+1>2”的創(chuàng)新效果。
不僅能理解語(yǔ)言,還可以理解圖像,實(shí)現(xiàn)統(tǒng)一的跨模態(tài)語(yǔ)義理解。
飛槳推理部署工具鏈、導(dǎo)航圖
除了開(kāi)發(fā)、訓(xùn)練和套件之外,在推理部署工具鏈的各個(gè)節(jié)點(diǎn)上,也有所升級(jí):
- PaddleSlim:進(jìn)一步優(yōu)化剪枝壓縮技術(shù),新增非結(jié)構(gòu)化稀疏工具;率先支持OFA壓縮模式,保障壓縮后的精度。
- Paddle Lite:發(fā)布了面向移動(dòng)開(kāi)發(fā)者的“開(kāi)箱即用”工具集 LiteKit,大大降低端側(cè)AI開(kāi)發(fā)者的開(kāi)發(fā)成本。
- Paddle Serving:新增全異步設(shè)計(jì)的Pipeline模式,更好地支持現(xiàn)實(shí)業(yè)務(wù)中模型組合使用的問(wèn)題。
- Paddle.js:新增支持多種 Backend和主流圖像分割及分類(lèi)模型,在高兼容性的同時(shí)也兼顧了高性能。
飛槳除了在已有推理部署工具鏈上做了升級(jí)外,還提供了一張推理部署導(dǎo)航圖。
據(jù)了解,目前已經(jīng)涵蓋了300多條充分驗(yàn)證的部署通路,由此才形成了如下圖般的導(dǎo)航圖。
這棵樹(shù)當(dāng)中,從根部到每一個(gè)樹(shù)枝都是一個(gè)完整打通的路徑,可以幫助開(kāi)發(fā)者順利實(shí)現(xiàn)AI部署。
而做出如此之舉的原因,百度飛槳給出了他的理由:
每一次“走得通”都有跡可循,每一次“走不通”都能溯本求源。
硬件生態(tài)成果
在部署方面的發(fā)布,除了“軟”的一面,還有“硬”的一面。
據(jù)了解,飛槳已經(jīng)和包括百度昆侖在內(nèi)的22家國(guó)內(nèi)外硬件廠商,開(kāi)展適配和聯(lián)合優(yōu)化工作,已經(jīng)完成或正在適配的芯片或IP達(dá)到31款。
這其中就包括了英特爾、英偉達(dá)、華為、海光、瑞芯微、安霸等芯片企業(yè)。
更具體的例子,飛槳在海光DCU上適配的模型已經(jīng)超過(guò)50個(gè)。
由此可見(jiàn),在部署環(huán)節(jié)的硬件生態(tài)方面,百度飛槳已經(jīng)做到了全面覆蓋國(guó)內(nèi)外硬件廠商。
云原生機(jī)器學(xué)習(xí)核心PaddleFlow
隨著人工智能技術(shù)深入到產(chǎn)業(yè)應(yīng)用,產(chǎn)生了更廣泛AI開(kāi)發(fā)場(chǎng)景,對(duì)平臺(tái)提出了更多樣化的需求:
- 針對(duì)更廣泛的垂直行業(yè)AI應(yīng)用開(kāi)發(fā)需求
- 針對(duì)深度定制的AI開(kāi)發(fā)平臺(tái)需求
- 具備AI原生的容器服務(wù)
基于此,百度AI產(chǎn)品研發(fā)部總監(jiān)忻舟宣布,正式開(kāi)放飛槳企業(yè)版的“核”——PaddleFlow。
△百度AI產(chǎn)品研發(fā)部總監(jiān),忻舟
簡(jiǎn)而言之,這是一個(gè)專(zhuān)為AI平臺(tái)開(kāi)發(fā)者打造、易被集成的云原生機(jī)器學(xué)習(xí)核心系統(tǒng)。
所具備的特色也是非常明顯,即云原生、性能優(yōu)異、輕量易用等。
可以幫助AI平臺(tái)開(kāi)發(fā)者,高效構(gòu)建更多細(xì)分場(chǎng)景和深度定制的AI平臺(tái)。
……
除了上述的六大發(fā)布之外,還有一些重磅升級(jí)。
螺旋槳PaddleHelix于去年正式發(fā)布,而在今天正式升級(jí)到1.0版本,新增了化合物預(yù)訓(xùn)練模型ChemRL,還將ChemRL模型應(yīng)用到更多的下游任務(wù)。
憑借螺旋槳的能力,百度在今年3月國(guó)際權(quán)威的圖神經(jīng)網(wǎng)絡(luò)OGB上,在HIV和PCBA兩個(gè)藥物相關(guān)的數(shù)據(jù)集上,獲得雙冠軍。
而作為國(guó)內(nèi)率先加持量子機(jī)器學(xué)習(xí)的量槳,與飛槳框架2.0及其之后的版本同步更新,整體運(yùn)行速度得到了大幅提升,在核心應(yīng)用場(chǎng)景平均提升達(dá)到 21.9%,最高提升達(dá)到 40.5%。
與此同時(shí),量槳還新增了量子核方法等特征提取方式等。
而對(duì)于難度很大的糾纏提純?nèi)蝿?wù),量槳新增了最優(yōu)化量子糾纏處理框架,給出了目前業(yè)界最優(yōu)且可實(shí)施的提純方案。
還要“發(fā)糖”15億元
除了上述的“六大發(fā)布”之外,在此次WAVE SUMMIT 2021上,百度飛槳的“發(fā)糖”還在繼續(xù)。
而且是非常實(shí)在的那種“糖”——發(fā)錢(qián),15億元。
在百度飛槳“大航?!庇?jì)劃中,除了去年年底已推出的面向高校AI人才培養(yǎng)的“啟航”之外,還包括:
- “大航?!?strong>護(hù)航計(jì)劃
- “大航海”領(lǐng)航計(jì)劃
“大航海”護(hù)航計(jì)劃
10億元,這是護(hù)航計(jì)劃要在未來(lái)三年內(nèi)資金投入。
給誰(shuí)?
10萬(wàn)企業(yè)和百萬(wàn)產(chǎn)業(yè)AI人才。
怎么給?
整體來(lái)看,分為三個(gè)方面,包括技術(shù)、人才和生態(tài)。
護(hù)航之于企業(yè),要達(dá)到的是智能升級(jí),通過(guò)技術(shù)賦能、市場(chǎng)推廣和資源導(dǎo)入,縮短技術(shù)創(chuàng)新到商業(yè)落地的路徑,包括:飛槳技術(shù)伙伴計(jì)劃、飛槳企業(yè)版?(萬(wàn)有引力)、飛槳中國(guó)行。
而護(hù)航之于人才,則是AI私享會(huì)、AI快車(chē)道和AICA首席AI架構(gòu)師培養(yǎng)計(jì)劃。
△ 百度AI技術(shù)生態(tài)部總經(jīng)理,劉倩
“大航海”領(lǐng)航計(jì)劃
這項(xiàng)計(jì)劃的面向群體,則是核心開(kāi)發(fā)者,目標(biāo)是與社區(qū)開(kāi)發(fā)者一起共建開(kāi)源生態(tài),并探索前沿技術(shù)。
包括PPDE(飛槳開(kāi)發(fā)者技術(shù)專(zhuān)家計(jì)劃)、PPSIG(飛槳社區(qū)特殊興趣小組)、飛槳領(lǐng)航團(tuán)、博士會(huì)等組織形式。
與業(yè)界優(yōu)秀的開(kāi)源社區(qū)和開(kāi)源項(xiàng)目合作,系統(tǒng)化地設(shè)立研究和研發(fā)方向,包括探索生物計(jì)算、量子計(jì)算等前沿方向。
據(jù)了解,目前已認(rèn)證了120位PPDE,飛槳城市/高校領(lǐng)航團(tuán)已覆蓋150個(gè)城市。
《AI人才產(chǎn)教融合培養(yǎng)方案》正式發(fā)布
其實(shí),在此次發(fā)布“領(lǐng)航”和“護(hù)航”之前,早在去年年底的WAVE SUMMIT+2020上,百度飛槳便已經(jīng)推出了“大航海”系列的啟航計(jì)劃:
未來(lái)三年,飛槳將投入總價(jià)值5億元的資金與資源,支持全國(guó)500所高校,重點(diǎn)培訓(xùn)5000位高校AI師資,聯(lián)合培養(yǎng)50萬(wàn)AI學(xué)子。
時(shí)隔近半年之久,這項(xiàng)計(jì)劃又取得了怎么樣的成績(jī)?
飛槳基于豐富的產(chǎn)業(yè)實(shí)踐,在高校人工智能實(shí)踐課的開(kāi)展中新增開(kāi)放了包含人工智能全技術(shù)方向的50多個(gè)實(shí)戰(zhàn)案例,到7月底將累積超過(guò)100個(gè)。
面向高校老師的深度學(xué)習(xí)師資培訓(xùn),目前飛槳已累計(jì)舉辦了14期、培養(yǎng)了570所高校的2000+名老師,助力226所高校開(kāi)設(shè)學(xué)分課。
承辦中國(guó)高校計(jì)算機(jī)大賽等多項(xiàng)賽事,還為高校學(xué)生提供實(shí)習(xí)計(jì)劃、就業(yè)指導(dǎo),培育適應(yīng)產(chǎn)業(yè)需求的復(fù)合型人才。
在會(huì)上,還舉行了飛槳與三大高校創(chuàng)新創(chuàng)業(yè)實(shí)驗(yàn)室合作簽約儀式。
包括清華大學(xué)基礎(chǔ)工業(yè)訓(xùn)練中心、吉林大學(xué)創(chuàng)新創(chuàng)業(yè)實(shí)驗(yàn)室、鄭州大學(xué)人工智能工程應(yīng)用實(shí)驗(yàn)室。
它們將與飛槳一起,共同推進(jìn)產(chǎn)學(xué)研用一體化發(fā)展,打造產(chǎn)業(yè)智能化預(yù)備軍,開(kāi)啟產(chǎn)教融合新紀(jì)元。
最后,此次WAVE SUMMIT除了六大發(fā)布和三大生態(tài)計(jì)劃外,還聯(lián)合信通院,發(fā)布飛槳開(kāi)源生態(tài)報(bào)告(后臺(tái)對(duì)話(huà)框回復(fù)“信通院”獲取)。
報(bào)告指出,人工智能產(chǎn)業(yè)已進(jìn)入工程化應(yīng)用爆發(fā)的窗口期。開(kāi)源框架能夠降低全行業(yè)智能化升級(jí)的難度,提高其廣度和深度。
飛槳開(kāi)啟區(qū)域化、特色化、規(guī)模化發(fā)展的中國(guó)開(kāi)源新生態(tài),加速產(chǎn)業(yè)鏈跨界協(xié)同創(chuàng)新,構(gòu)建人才培養(yǎng)體系。
現(xiàn)場(chǎng)還正式宣布了開(kāi)源框架前沿模型復(fù)現(xiàn)賽。
這是通信院主辦的人工智能創(chuàng)新應(yīng)用大賽的分賽道,將由百度承辦,希望能挖掘和培育更多人才,沉淀更多前沿模型,促進(jìn)整個(gè)人工智能的發(fā)展。
融合是為了更好的創(chuàng)新
融合創(chuàng)新,這是正常峰會(huì)從開(kāi)始到結(jié)束所貫穿的一個(gè)“主旋律”。
那么百度飛槳力推“融合創(chuàng)新”的背后,又是怎樣的一個(gè)邏輯?
首先,融合創(chuàng)新是時(shí)代發(fā)展的需求。
不同于以往的算法優(yōu)先,人工智能進(jìn)入工業(yè)大生產(chǎn)階段,需要算法、數(shù)據(jù)和算力合力才能發(fā)揮、碰撞出更具創(chuàng)新的新價(jià)值。
此次百度飛槳在開(kāi)發(fā)、訓(xùn)練、部署等環(huán)節(jié)中,細(xì)節(jié)技術(shù)上的升級(jí),正是本著這樣的一個(gè)原則。
例如文心ERNIE開(kāi)源的四大預(yù)訓(xùn)練模型,在技術(shù)角度不是走“單線(xiàn)程”路線(xiàn),而是以“1+1>2”的方式產(chǎn)生更多的創(chuàng)新價(jià)值。
其次,企業(yè)發(fā)展到了一定程度之后,單單是技術(shù)的發(fā)展,在行業(yè)激烈競(jìng)爭(zhēng)面前,是無(wú)力突破固有瓶頸的。
唯有跨界的融合和模式的創(chuàng)新,才能適應(yīng)越來(lái)越嚴(yán)峻的競(jìng)爭(zhēng)發(fā)展。
但除了技術(shù)、跨界等方面的融合,還有一點(diǎn)非常重要,也是必不可缺的。
那就是深度學(xué)習(xí)平臺(tái)開(kāi)源生態(tài)的融合創(chuàng)新,包括產(chǎn)業(yè)、開(kāi)發(fā)者社區(qū)和人才培養(yǎng)等。
這對(duì)應(yīng)的便是百度飛槳“大航?!毕盗杏?jì)劃。
截至目前,飛槳凝聚了320萬(wàn)開(kāi)發(fā)者,服務(wù)12萬(wàn)企業(yè),創(chuàng)建36萬(wàn)個(gè)模型,涉足醫(yī)療、金融、娛樂(lè)、環(huán)境、能源、工業(yè)制造等諸多領(lǐng)域。
而之所以能夠達(dá)到如此規(guī)模,正是因?yàn)榧夹g(shù)、模式、人才、跨界等諸多方面的融合創(chuàng)新,讓AI開(kāi)發(fā)的門(mén)檻大大降低,所產(chǎn)生的價(jià)值也更為豐富。
不僅可以打造靈活全面的建模方式,還可以滿(mǎn)足自定義場(chǎng)景需求。
那么融合創(chuàng)新之下的AI價(jià)值帶入到產(chǎn)業(yè)生產(chǎn)活動(dòng)中,該是怎樣的一條路線(xiàn)?
對(duì)此,百度集團(tuán)副總裁吳甜總結(jié)了一條三階段路線(xiàn):
- 為支持先行者探路階段的快速驗(yàn)證落地,飛槳為產(chǎn)業(yè)引入AI驗(yàn)證提供了在真實(shí)場(chǎng)景中打磨的產(chǎn)業(yè)級(jí)模型庫(kù),并通過(guò)便捷的多端多平臺(tái)部署推理引擎,解決AI落地的“最后一公里”問(wèn)題。
- 為助力工作坊應(yīng)用階段的團(tuán)隊(duì)?wèi)?yīng)用AI創(chuàng)新,百度飛槳降低了門(mén)檻,使小型團(tuán)隊(duì)不用重復(fù)造輪子,從移植復(fù)用開(kāi)始,到針對(duì)性改寫(xiě),再到完全自研的全流程提供支持。
- 為支撐工業(yè)大生產(chǎn)階段的多人多任務(wù)協(xié)同,飛槳通過(guò)對(duì)算力資源的高效管理、開(kāi)發(fā)者的集成開(kāi)發(fā)環(huán)境,全流程效能提升。開(kāi)源開(kāi)放,支持多種硬件更是可以實(shí)現(xiàn)多企業(yè)之間社會(huì)化協(xié)同生產(chǎn)。
由此可見(jiàn),飛槳已經(jīng)走通了AI產(chǎn)業(yè)化應(yīng)用全階段,為大家找出一條可參考、可實(shí)現(xiàn)的道路。
這樣的百度飛槳,這樣的520,你覺(jué)得夠誠(chéng)意了嗎?