專訪英特爾戴金權(quán) | AI和大數(shù)據(jù)正在這樣重塑英特爾
軟件如何硬塑英特爾
允中 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
漢堡也能用大數(shù)據(jù)賣(mài)?
沒(méi)錯(cuò),而且可以賣(mài)得更好。
漢堡王就正在展開(kāi)這樣的實(shí)踐,在他們的菜單顯示屏,可以基于用戶的點(diǎn)餐行為、背景信息,給出個(gè)性化推薦。
而且還能結(jié)合時(shí)間、地點(diǎn)、氣候等因素……用戶下單更省心,賣(mài)家業(yè)績(jī)還更好。
懂技術(shù)的朋友或許早已看穿,背后必然有Transformer模型加持,但可能意料之外的是,實(shí)現(xiàn)消費(fèi)級(jí)商用的精準(zhǔn)推薦,漢堡王這套系統(tǒng)不光是單純套用。
Transformer Cross Transformer(TxT),這是漢堡王推薦系統(tǒng)背后的核心模型技術(shù)。
此外,這套模型系統(tǒng)還是拿來(lái)就用的那種。
因?yàn)樘鏉h堡王打造這套模型的,是一個(gè)名為Analytics Zoo的端到端平臺(tái),而這個(gè)端到端平臺(tái)的打造者,是不常出現(xiàn)在“軟件”新聞里的英特爾。
但隨著AI浪潮深入、數(shù)據(jù)和軟件算法當(dāng)紅,這家過(guò)去以硬件奪目的公司,軟的那一面開(kāi)始被更多注目。
而且這一面的代表人物,還是一位中國(guó)技術(shù)專家:
戴金權(quán),英特爾Fellow、大數(shù)據(jù)技術(shù)全球CTO,大數(shù)據(jù)分析和人工智能創(chuàng)新院院長(zhǎng)。
以及兩大知名機(jī)器學(xué)習(xí)平臺(tái)BigDL和Analytics Zoo的項(xiàng)目創(chuàng)始人。
但在戴院長(zhǎng)看來(lái),軟件硬件只是技術(shù)的不同形式承載,背后更本質(zhì)的趨勢(shì)是數(shù)據(jù)。
在量子位專訪中,他還強(qiáng)調(diào),在AI和5G作用力之下,數(shù)據(jù)洪流所至,軟件在變,硬件更開(kāi)放,過(guò)去按照軟硬劃分的疆界格局,變化已再明顯不過(guò)。
英特爾的軟實(shí)力
戴金權(quán)院長(zhǎng)從大數(shù)據(jù)領(lǐng)域來(lái)舉例。
他說(shuō)英特爾在該領(lǐng)域的研發(fā)投入,核心是源自需求的驅(qū)動(dòng)。
分為三個(gè)階段:
第一階段:存儲(chǔ)和處理數(shù)據(jù)。
第二階段:查詢和分析數(shù)據(jù),并且對(duì)于時(shí)延的要求越來(lái)越高,最終需要的是實(shí)時(shí)查詢和分析。
第三階段:預(yù)測(cè)和推薦。
戴院長(zhǎng)說(shuō),特別是在大數(shù)據(jù)平臺(tái)上進(jìn)行各種機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的數(shù)據(jù)建模和預(yù)測(cè),成為了當(dāng)前非常重要的技術(shù)和應(yīng)用方向。
而從產(chǎn)業(yè)應(yīng)用上看,消費(fèi)互聯(lián)網(wǎng)領(lǐng)域,沒(méi)有哪家互聯(lián)網(wǎng)公司不在強(qiáng)化預(yù)測(cè)和推薦方面的能力。產(chǎn)業(yè)互聯(lián)網(wǎng)一側(cè),也在追求更多業(yè)務(wù)數(shù)字化之后,能夠展現(xiàn)預(yù)測(cè)和推薦之力。
比如一開(kāi)始提到的漢堡王。
所以對(duì)于英特爾而言,在此基礎(chǔ)上希望高舉高打,提供一個(gè)大數(shù)據(jù)統(tǒng)一應(yīng)用平臺(tái)。
這種思路之下,誕生了BigDL和Analytics Zoo。
特別是Analytics Zoo,作為開(kāi)源大數(shù)據(jù)AI軟件平臺(tái),核心要解決的就是幫助用戶將機(jī)器學(xué)習(xí)或深度學(xué)習(xí)等算法模型,直接在分布式大數(shù)據(jù)平臺(tái)上運(yùn)行,而且可以做到無(wú)縫擴(kuò)展。
沒(méi)有這樣的平臺(tái),路徑就會(huì)曲折得多。
通常情況下,會(huì)先建立一個(gè)分離架構(gòu),并以大數(shù)據(jù)集群的方式訪問(wèn)和處理數(shù)據(jù)湖數(shù)據(jù)。
大數(shù)據(jù)集群處理之后,還可能需要深度學(xué)習(xí)集群把存儲(chǔ)系統(tǒng)中的數(shù)據(jù)讀取出來(lái),再進(jìn)行深度學(xué)習(xí)或機(jī)器學(xué)習(xí)處理。
那Analytics Zoo能帶來(lái)什么不同?
可以提供一個(gè)統(tǒng)一架構(gòu)來(lái)支持端到端AI流水線。
用戶的數(shù)據(jù)還是存儲(chǔ)在數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中,可以運(yùn)行在K8S上或Hadoop集群上,或者部分用戶在云里面可能有幾臺(tái)虛擬機(jī)實(shí)例,就可以有一個(gè)集群,在這個(gè)集群上利用Analytics Zoo就可以把基于Spark的大數(shù)據(jù)分析和基于TensorFlow、PyTorch、BigDL或OpenVINO等這樣的深度學(xué)習(xí)框架直接統(tǒng)一在一個(gè)架構(gòu)中。
整個(gè)流程里,一方面可以可以大大減少中間數(shù)據(jù)傳輸?shù)拈_(kāi)銷(xiāo)。
另一方面還能提升開(kāi)發(fā)、部署和處理的整體效率。
這種效率的提升,戴金權(quán)引用了浪潮的實(shí)踐效率——
以前可能需要幾個(gè)季度才能開(kāi)發(fā)完的一個(gè)應(yīng)用,現(xiàn)在只需要兩三個(gè)月就可以了。
端到端的開(kāi)發(fā)效率,顯著大幅提升。
而這種開(kāi)發(fā)效率提升,在當(dāng)前技術(shù)發(fā)展趨勢(shì)下,戴金權(quán)認(rèn)為更加關(guān)鍵。
一方面是無(wú)論是5G還是AI,相關(guān)行業(yè)中的需求使數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。
另一方面,統(tǒng)一的大數(shù)據(jù)和AI處理分析,是下一個(gè)十年的關(guān)鍵性應(yīng)用需求。
所以理解了這種對(duì)于未來(lái)確實(shí)的判斷,也就能看懂當(dāng)前英特爾正在呈現(xiàn)的變化。
這家以硬件知名的巨頭,正在從硬件、軟件和整個(gè)生態(tài)層面,提供大數(shù)據(jù)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面的長(zhǎng)期支持。
更加概括地來(lái)說(shuō),軟件和硬件不本質(zhì),本質(zhì)的是如何處理、分析和使用數(shù)據(jù)。
而基于數(shù)據(jù)出發(fā)的本質(zhì)認(rèn)知,自然能理解英特爾何以越來(lái)越多元、開(kāi)放和無(wú)處不在。
專訪戴金權(quán)院長(zhǎng)
量子位:大數(shù)據(jù)和AI,給英特爾帶來(lái)的變化是什么?
戴金權(quán):英特爾很早就開(kāi)始投入大數(shù)據(jù)領(lǐng)域研發(fā),比如跟UC伯克利基于Apache Spark,進(jìn)行了許多技術(shù)開(kāi)發(fā)和應(yīng)用合作。
到后來(lái)隨著大數(shù)據(jù)的發(fā)展,我們明確了趨勢(shì):從一開(kāi)始的擴(kuò)展、處理大量數(shù)據(jù),到如何進(jìn)行分析,再到如何在上面進(jìn)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的建模和預(yù)測(cè)未來(lái)。
我認(rèn)為這和AI發(fā)展的趨勢(shì)也非常吻合。如果說(shuō)現(xiàn)在AI有什么趨勢(shì)?我覺(jué)得是AI變得無(wú)處不在。
可能開(kāi)始是在一些互聯(lián)網(wǎng)公司,或者一家自動(dòng)駕駛公司會(huì)使用大量AI技術(shù)……
但是今天不管餐飲行業(yè)還是電信運(yùn)營(yíng)商以及制造業(yè),他們?cè)絹?lái)越多希望把AI用到各種各樣的應(yīng)用場(chǎng)景中,所以AI從實(shí)驗(yàn)室就慢慢進(jìn)入了生產(chǎn)環(huán)節(jié)。
在實(shí)驗(yàn)室中,很多時(shí)候大家關(guān)心的是用各種各樣的方法提高數(shù)據(jù)集上模型的準(zhǔn)確率。
量子位:AI在現(xiàn)實(shí)場(chǎng)景應(yīng)用中會(huì)有什么挑戰(zhàn)?
戴金權(quán):挑戰(zhàn)會(huì)很多,比如最直觀的大數(shù)據(jù)。現(xiàn)實(shí)環(huán)境中的數(shù)據(jù)量非常大,這就需要和現(xiàn)有生產(chǎn)數(shù)據(jù)結(jié)合。
我們?cè)?jīng)和一家大型互聯(lián)網(wǎng)公司合作,他們有很多AI研究員開(kāi)發(fā)了AI模型后,想把其模型在生產(chǎn)數(shù)據(jù)上運(yùn)行。
但是后來(lái)他們發(fā)現(xiàn)生產(chǎn)數(shù)據(jù)都在大數(shù)據(jù)系統(tǒng)中,他們根本不知道如何把AI運(yùn)行在那些大數(shù)據(jù)上,于是就做數(shù)據(jù)拷貝,把數(shù)據(jù)從一個(gè)集群拷貝到另外一個(gè)集群。
很多時(shí)候我們需要跨數(shù)據(jù)中心的拷貝,那么如何直接應(yīng)用AI并將其擴(kuò)展到相應(yīng)大數(shù)據(jù)平臺(tái)上是一個(gè)很大挑戰(zhàn)。
量子位:這也是為什么會(huì)有Analytics Zoo這樣的平臺(tái)?
戴金權(quán):對(duì),端到端的流水線非常重要。
并非只有一個(gè)AI模型,比如對(duì)模型進(jìn)行訓(xùn)練或者推理時(shí),經(jīng)常出現(xiàn)很長(zhǎng)的端到端鏈路,包括數(shù)據(jù)導(dǎo)入、數(shù)據(jù)處理、特征提取、特征轉(zhuǎn)換等。如何使端到端流水線更有效率也是很重要的因素。
當(dāng)然,還有針對(duì)各種各樣的AI應(yīng)用,如何使這些智能計(jì)算支撐上層AI應(yīng)用場(chǎng)景。
量子位:所以英特爾開(kāi)源開(kāi)放一面越來(lái)越被關(guān)注。
戴金權(quán):英特爾其實(shí)做了非常多開(kāi)源的工作,比如在Linux操作系統(tǒng)、虛擬化方面。
在大數(shù)據(jù)方面也是如此,我們基于大數(shù)據(jù)AI開(kāi)源軟件生態(tài)做了非常多工作,英特爾在開(kāi)源社區(qū)做了非常大的投入,目標(biāo)是能夠?qū)㈤_(kāi)源軟件應(yīng)用在整個(gè)生態(tài)系統(tǒng)中,使用應(yīng)用或技術(shù)得到很大提升。
比如當(dāng)英特爾和加州大學(xué)伯克利分校開(kāi)始合作的時(shí)候,Spark只是他們的一個(gè)博士項(xiàng)目,我們共同做了很多開(kāi)源和開(kāi)發(fā),最終Spark成為了一個(gè)Apache軟件基金會(huì)頂級(jí)開(kāi)源項(xiàng)目。
包括在AI方面,在PyTorch、TensorFlow各個(gè)開(kāi)源框架中的優(yōu)化,以及我們構(gòu)建的BigDL、Analytics Zoo開(kāi)源平臺(tái),英特爾一直希望通過(guò)開(kāi)源的工作推動(dòng)整個(gè)大數(shù)據(jù)和AI的生態(tài)建設(shè)。
量子位:這個(gè)過(guò)程中,會(huì)有什么其他收獲嗎?
戴金權(quán):我們會(huì)和很多用戶合作或交互,也會(huì)更加關(guān)注如何將下一代的技術(shù)發(fā)展趨勢(shì)和技術(shù)方向融合到軟件平臺(tái)中來(lái)。
福特曾經(jīng)說(shuō),“如果問(wèn)我們的用戶想要什么,他們永遠(yuǎn)說(shuō)想要更快的馬車(chē)。但事實(shí)上他們要的是汽車(chē)?!?/p>
其實(shí)也是一樣的道理,我們會(huì)和很多用戶合作,當(dāng)我們?cè)谧鯝pache Hadoop的時(shí)候,用戶提了很高要求,他們說(shuō)需要更快的Hadoop,你們需要把它優(yōu)化的更好。
但是我們意識(shí)到他們要的是類似Spark這樣的下一代大數(shù)據(jù)處理分析引擎,因?yàn)樗芡ㄟ^(guò)新技術(shù)、新架構(gòu)解決其現(xiàn)有問(wèn)題,而非在現(xiàn)有平臺(tái)上進(jìn)行優(yōu)化。
而我們?cè)谧鯞igDL和Analytics Zoo的時(shí)候也是如此。我們發(fā)現(xiàn)用戶的需求,就考慮如何將AI應(yīng)用到大規(guī)模分布式的大數(shù)據(jù)場(chǎng)景和平臺(tái)中,以幫助其解決問(wèn)題。
量子位:現(xiàn)在有一種觀點(diǎn)是AI軟件正在重塑英特爾,你怎么看?
戴金權(quán):無(wú)論在軟件還是硬件上,英特爾在AI領(lǐng)域都有非常多的工作,AI是英特爾非常重要的方向。
比如我們的XPU、CPU、GPU等,這些是硬件方面的工作。
在軟件方面,我們考慮的是如何提供更好的支持,因?yàn)榻窈蟮闹悄苡?jì)算肯定是一個(gè)超異構(gòu)的XPU架構(gòu)。
對(duì)于軟件開(kāi)發(fā)者,他們希望有統(tǒng)一的編程接口。作為數(shù)據(jù)科學(xué)家,我們并不希望處理不同的硬件。所以我們基于OneAPI這種能夠統(tǒng)一XPU的編程模式會(huì)做很多工作。
在此之前,我們針對(duì)各種硬件平臺(tái)以及深度學(xué)習(xí)、機(jī)器學(xué)習(xí)的庫(kù)或框架優(yōu)化也會(huì)做很多工作,包括在PyTorch、TensorFlow等領(lǐng)域的各種各樣的優(yōu)化。
我們希望為用戶不同的AI應(yīng)用場(chǎng)景提供支持,以提高他們端到端的性能效率和開(kāi)發(fā)效率。
包括大數(shù)據(jù)AI,其實(shí)我們的目標(biāo)就是幫助用戶將端到端的AI流水線打通,使其能夠擴(kuò)展到一個(gè)分布式的架構(gòu)上。
量子位:效率提升這條主線上,AutoML近年很火。
戴金權(quán):英特爾有一個(gè)工具是做低精度轉(zhuǎn)換的,在低精度上可以大幅提高效率,但需要大量人工操作才可以達(dá)到這個(gè)效果……于是我們利用AutoML,利用一個(gè)自動(dòng)化工具把低精度的事情完成。
很多時(shí)間序列的應(yīng)用場(chǎng)景,都可以自動(dòng)化特征提取、模型選擇、超參調(diào)整等。
量子位:這其實(shí)也是降低AI應(yīng)用門(mén)檻的需求反映,甚至在開(kāi)發(fā)側(cè),大家都在談低代碼\無(wú)代碼?
戴金權(quán):還是那句話,不存在一個(gè)解決方案可以支持所有場(chǎng)景。
業(yè)內(nèi)會(huì)有不同的開(kāi)發(fā)人員,有一些開(kāi)發(fā)人員是硬核開(kāi)發(fā)人員,基于OneAPI這樣的工具,可以幫助他們?cè)诘讓有阅芎涂蚣苌线M(jìn)行開(kāi)發(fā)。
有一些是數(shù)據(jù)科學(xué)家或數(shù)據(jù)工程師,他們會(huì)基于Python或Java這樣的平臺(tái)開(kāi)發(fā)。還有更高層次的分析師,甚至一些人完全不是編程人員,比如希望對(duì)X光片進(jìn)行分析的醫(yī)生。
這可能需要一些更高層次的應(yīng)用,可能就不想寫(xiě)代碼,或者只是做一些簡(jiǎn)單的工作,這是另外一個(gè)方向。
英特爾有一些工作會(huì)做得比較多,比如OneAPI,或是基于框架、大數(shù)據(jù)平臺(tái)的工作。
我們還有很多合作伙伴,包括在去年年底我們收購(gòu)了一家專門(mén)做超參優(yōu)化的公司叫SigOpt,它是業(yè)界對(duì)機(jī)器學(xué)習(xí)參數(shù)進(jìn)行自動(dòng)化優(yōu)化的領(lǐng)先公司,還提供云服務(wù)。
這樣的技術(shù)就可以整合到英特爾很多工具里,進(jìn)而把很多工作自動(dòng)化,大幅提高開(kāi)發(fā)效率。
我覺(jué)得這個(gè)可能在不同層面以及針對(duì)不同的受眾、開(kāi)發(fā)人員會(huì)提供不同的技術(shù)給他們。
量子位:上面談到的這種滿足需求,是現(xiàn)在英特爾“異構(gòu)”談得越來(lái)越多的原因嗎?
戴金權(quán):AI有不同的細(xì)分市場(chǎng)。有CPU AI、GPU AI、以及各種各樣專用的加速器AI。英特爾有CPU、GPU、加速器(比如Habana方面的工作),也有邊緣和客戶端的一些工作。
其實(shí)各自有其更適合的場(chǎng)景,我們希望通過(guò)類似OneAPI這樣的軟件,可以將這些不同的超異構(gòu)硬件結(jié)合起來(lái)。
比如我們也有可以使用FPGA來(lái)進(jìn)行加速的場(chǎng)景。我們希望利用OneAPI將編程模式統(tǒng)一,而且OneAPI本身也是一個(gè)工業(yè)界的標(biāo)準(zhǔn),并非英特爾獨(dú)有。
除支持英特爾自身的XPU硬件之外,它也可以支持其他硬件。比如有人在上面做ARM的支持等等。
從英特爾角度來(lái)說(shuō),我們看到的是XPU的超異構(gòu)架構(gòu),不同的GPU、CPU、加速器等,針對(duì)不同場(chǎng)景的應(yīng)用會(huì)有更好效果。
我們通過(guò)類似OneAPI這樣的軟件平臺(tái)不僅能夠幫助用戶輕松實(shí)現(xiàn)各個(gè)硬件平臺(tái)的高效率和高性能,還能高效開(kāi)發(fā)跨平臺(tái)應(yīng)用場(chǎng)景。
當(dāng)你看到整個(gè)端到端的AI流水線,不能說(shuō)它只能在某種場(chǎng)景下工作。CPU AI有CPU AI的優(yōu)勢(shì),GPU AI有GPU AI的應(yīng)用場(chǎng)景,加速器AI有加速器AI的應(yīng)用場(chǎng)景。
量子位:所以如果從端到端的AI流水線、數(shù)據(jù)維度來(lái)看英特爾,其實(shí)軟件方面的努力是容易被忽視的?
戴金權(quán):我認(rèn)為,對(duì)開(kāi)發(fā)人員或數(shù)據(jù)科學(xué)家來(lái)說(shuō)最看重的是軟件生態(tài),這是英特爾過(guò)去幾十年一直在做的,包括我剛剛說(shuō)的開(kāi)源軟件以及各種各樣的工作,關(guān)鍵就是如何打造一個(gè)軟件生態(tài)。
比如BigDL更適合的軟件生態(tài)是Spark。我是Spark的用戶,很多數(shù)據(jù)工程師原來(lái)用Spark做了非常多數(shù)據(jù)處理、數(shù)據(jù)分析甚至機(jī)器學(xué)習(xí)相關(guān)工作。采用BigDL這樣的工具可以在Spark大數(shù)據(jù)生態(tài)中實(shí)現(xiàn)很高效的開(kāi)發(fā)。
我們研發(fā)并推出BigDL,不是說(shuō)要和TensorFlow或者誰(shuí)競(jìng)爭(zhēng),這不是我們的目的。
我們希望針對(duì)不同的軟件生態(tài)用戶社區(qū)可以提供最好的工具給他們,所以在Analytics Zoo當(dāng)中,我們會(huì)把像BigDL、TensorFlow、PyTorch或OpenVINO整合進(jìn)來(lái),最終幫助用戶解決問(wèn)題。
我們的目的是采用所需工具解決新問(wèn)題,也就是如何在大規(guī)模、分布式的大數(shù)據(jù)平臺(tái)上更好地?cái)U(kuò)展。
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
免費(fèi)報(bào)名 | 快速入門(mén)NLP、讓你的文字會(huì)說(shuō)話!
7.28晚8點(diǎn),英偉達(dá)專家將在線講解“語(yǔ)音合成技術(shù)”的工作流程與原理、深度學(xué)習(xí)模型在語(yǔ)音合成中的應(yīng)用,并代碼實(shí)戰(zhàn)演示如何快速實(shí)現(xiàn)自然語(yǔ)言生成。掃碼-關(guān)注,根據(jù)提示即可報(bào)名~

點(diǎn)這里??關(guān)注我,記得標(biāo)星哦~

量子位
一鍵三連「分享」、「點(diǎn)贊」和「在看」
科技前沿進(jìn)展日日相見(jiàn)~
- 腦機(jī)接口走向現(xiàn)實(shí),11張PPT看懂中國(guó)腦機(jī)接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫(kù)2021-08-10
- 張朝陽(yáng)開(kāi)課手推E=mc2,李永樂(lè)現(xiàn)場(chǎng)狂做筆記2022-03-11
- 阿里數(shù)學(xué)競(jìng)賽可以報(bào)名了!獎(jiǎng)金增加到400萬(wàn)元,題目面向大眾公開(kāi)征集2022-03-14
- 英偉達(dá)遭黑客最后通牒:今天必須開(kāi)源GPU驅(qū)動(dòng),否則公布1TB機(jī)密數(shù)據(jù)2022-03-05