專訪英特爾戴金權(quán) | AI和大數(shù)據(jù)正在這樣重塑英特爾
軟件如何硬塑英特爾
允中 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
漢堡也能用大數(shù)據(jù)賣?
沒錯,而且可以賣得更好。
漢堡王就正在展開這樣的實踐,在他們的菜單顯示屏,可以基于用戶的點餐行為、背景信息,給出個性化推薦。
而且還能結(jié)合時間、地點、氣候等因素……用戶下單更省心,賣家業(yè)績還更好。
懂技術(shù)的朋友或許早已看穿,背后必然有Transformer模型加持,但可能意料之外的是,實現(xiàn)消費級商用的精準推薦,漢堡王這套系統(tǒng)不光是單純套用。
Transformer Cross Transformer(TxT),這是漢堡王推薦系統(tǒng)背后的核心模型技術(shù)。
此外,這套模型系統(tǒng)還是拿來就用的那種。
因為替漢堡王打造這套模型的,是一個名為Analytics Zoo的端到端平臺,而這個端到端平臺的打造者,是不常出現(xiàn)在“軟件”新聞里的英特爾。
但隨著AI浪潮深入、數(shù)據(jù)和軟件算法當(dāng)紅,這家過去以硬件奪目的公司,軟的那一面開始被更多注目。
而且這一面的代表人物,還是一位中國技術(shù)專家:
戴金權(quán),英特爾Fellow、大數(shù)據(jù)技術(shù)全球CTO,大數(shù)據(jù)分析和人工智能創(chuàng)新院院長。
以及兩大知名機器學(xué)習(xí)平臺BigDL和Analytics Zoo的項目創(chuàng)始人。
但在戴院長看來,軟件硬件只是技術(shù)的不同形式承載,背后更本質(zhì)的趨勢是數(shù)據(jù)。
在量子位專訪中,他還強調(diào),在AI和5G作用力之下,數(shù)據(jù)洪流所至,軟件在變,硬件更開放,過去按照軟硬劃分的疆界格局,變化已再明顯不過。
英特爾的軟實力
戴金權(quán)院長從大數(shù)據(jù)領(lǐng)域來舉例。
他說英特爾在該領(lǐng)域的研發(fā)投入,核心是源自需求的驅(qū)動。
分為三個階段:
第一階段:存儲和處理數(shù)據(jù)。
第二階段:查詢和分析數(shù)據(jù),并且對于時延的要求越來越高,最終需要的是實時查詢和分析。
第三階段:預(yù)測和推薦。
戴院長說,特別是在大數(shù)據(jù)平臺上進行各種機器學(xué)習(xí)、深度學(xué)習(xí)的數(shù)據(jù)建模和預(yù)測,成為了當(dāng)前非常重要的技術(shù)和應(yīng)用方向。
而從產(chǎn)業(yè)應(yīng)用上看,消費互聯(lián)網(wǎng)領(lǐng)域,沒有哪家互聯(lián)網(wǎng)公司不在強化預(yù)測和推薦方面的能力。產(chǎn)業(yè)互聯(lián)網(wǎng)一側(cè),也在追求更多業(yè)務(wù)數(shù)字化之后,能夠展現(xiàn)預(yù)測和推薦之力。
比如一開始提到的漢堡王。
所以對于英特爾而言,在此基礎(chǔ)上希望高舉高打,提供一個大數(shù)據(jù)統(tǒng)一應(yīng)用平臺。
這種思路之下,誕生了BigDL和Analytics Zoo。
特別是Analytics Zoo,作為開源大數(shù)據(jù)AI軟件平臺,核心要解決的就是幫助用戶將機器學(xué)習(xí)或深度學(xué)習(xí)等算法模型,直接在分布式大數(shù)據(jù)平臺上運行,而且可以做到無縫擴展。
沒有這樣的平臺,路徑就會曲折得多。
通常情況下,會先建立一個分離架構(gòu),并以大數(shù)據(jù)集群的方式訪問和處理數(shù)據(jù)湖數(shù)據(jù)。
大數(shù)據(jù)集群處理之后,還可能需要深度學(xué)習(xí)集群把存儲系統(tǒng)中的數(shù)據(jù)讀取出來,再進行深度學(xué)習(xí)或機器學(xué)習(xí)處理。
那Analytics Zoo能帶來什么不同?
可以提供一個統(tǒng)一架構(gòu)來支持端到端AI流水線。
用戶的數(shù)據(jù)還是存儲在數(shù)據(jù)湖、數(shù)據(jù)倉庫當(dāng)中,可以運行在K8S上或Hadoop集群上,或者部分用戶在云里面可能有幾臺虛擬機實例,就可以有一個集群,在這個集群上利用Analytics Zoo就可以把基于Spark的大數(shù)據(jù)分析和基于TensorFlow、PyTorch、BigDL或OpenVINO等這樣的深度學(xué)習(xí)框架直接統(tǒng)一在一個架構(gòu)中。
整個流程里,一方面可以可以大大減少中間數(shù)據(jù)傳輸?shù)拈_銷。
另一方面還能提升開發(fā)、部署和處理的整體效率。
這種效率的提升,戴金權(quán)引用了浪潮的實踐效率——
以前可能需要幾個季度才能開發(fā)完的一個應(yīng)用,現(xiàn)在只需要兩三個月就可以了。
端到端的開發(fā)效率,顯著大幅提升。
而這種開發(fā)效率提升,在當(dāng)前技術(shù)發(fā)展趨勢下,戴金權(quán)認為更加關(guān)鍵。
一方面是無論是5G還是AI,相關(guān)行業(yè)中的需求使數(shù)據(jù)呈現(xiàn)指數(shù)級增長。
另一方面,統(tǒng)一的大數(shù)據(jù)和AI處理分析,是下一個十年的關(guān)鍵性應(yīng)用需求。
所以理解了這種對于未來確實的判斷,也就能看懂當(dāng)前英特爾正在呈現(xiàn)的變化。
這家以硬件知名的巨頭,正在從硬件、軟件和整個生態(tài)層面,提供大數(shù)據(jù)、機器學(xué)習(xí)和深度學(xué)習(xí)方面的長期支持。
更加概括地來說,軟件和硬件不本質(zhì),本質(zhì)的是如何處理、分析和使用數(shù)據(jù)。
而基于數(shù)據(jù)出發(fā)的本質(zhì)認知,自然能理解英特爾何以越來越多元、開放和無處不在。
專訪戴金權(quán)院長
量子位:大數(shù)據(jù)和AI,給英特爾帶來的變化是什么?
戴金權(quán):英特爾很早就開始投入大數(shù)據(jù)領(lǐng)域研發(fā),比如跟UC伯克利基于Apache Spark,進行了許多技術(shù)開發(fā)和應(yīng)用合作。
到后來隨著大數(shù)據(jù)的發(fā)展,我們明確了趨勢:從一開始的擴展、處理大量數(shù)據(jù),到如何進行分析,再到如何在上面進行機器學(xué)習(xí)和深度學(xué)習(xí)的建模和預(yù)測未來。
我認為這和AI發(fā)展的趨勢也非常吻合。如果說現(xiàn)在AI有什么趨勢?我覺得是AI變得無處不在。
可能開始是在一些互聯(lián)網(wǎng)公司,或者一家自動駕駛公司會使用大量AI技術(shù)……
但是今天不管餐飲行業(yè)還是電信運營商以及制造業(yè),他們越來越多希望把AI用到各種各樣的應(yīng)用場景中,所以AI從實驗室就慢慢進入了生產(chǎn)環(huán)節(jié)。
在實驗室中,很多時候大家關(guān)心的是用各種各樣的方法提高數(shù)據(jù)集上模型的準確率。
量子位:AI在現(xiàn)實場景應(yīng)用中會有什么挑戰(zhàn)?
戴金權(quán):挑戰(zhàn)會很多,比如最直觀的大數(shù)據(jù)。現(xiàn)實環(huán)境中的數(shù)據(jù)量非常大,這就需要和現(xiàn)有生產(chǎn)數(shù)據(jù)結(jié)合。
我們曾經(jīng)和一家大型互聯(lián)網(wǎng)公司合作,他們有很多AI研究員開發(fā)了AI模型后,想把其模型在生產(chǎn)數(shù)據(jù)上運行。
但是后來他們發(fā)現(xiàn)生產(chǎn)數(shù)據(jù)都在大數(shù)據(jù)系統(tǒng)中,他們根本不知道如何把AI運行在那些大數(shù)據(jù)上,于是就做數(shù)據(jù)拷貝,把數(shù)據(jù)從一個集群拷貝到另外一個集群。
很多時候我們需要跨數(shù)據(jù)中心的拷貝,那么如何直接應(yīng)用AI并將其擴展到相應(yīng)大數(shù)據(jù)平臺上是一個很大挑戰(zhàn)。
量子位:這也是為什么會有Analytics Zoo這樣的平臺?
戴金權(quán):對,端到端的流水線非常重要。
并非只有一個AI模型,比如對模型進行訓(xùn)練或者推理時,經(jīng)常出現(xiàn)很長的端到端鏈路,包括數(shù)據(jù)導(dǎo)入、數(shù)據(jù)處理、特征提取、特征轉(zhuǎn)換等。如何使端到端流水線更有效率也是很重要的因素。
當(dāng)然,還有針對各種各樣的AI應(yīng)用,如何使這些智能計算支撐上層AI應(yīng)用場景。
量子位:所以英特爾開源開放一面越來越被關(guān)注。
戴金權(quán):英特爾其實做了非常多開源的工作,比如在Linux操作系統(tǒng)、虛擬化方面。
在大數(shù)據(jù)方面也是如此,我們基于大數(shù)據(jù)AI開源軟件生態(tài)做了非常多工作,英特爾在開源社區(qū)做了非常大的投入,目標是能夠?qū)㈤_源軟件應(yīng)用在整個生態(tài)系統(tǒng)中,使用應(yīng)用或技術(shù)得到很大提升。
比如當(dāng)英特爾和加州大學(xué)伯克利分校開始合作的時候,Spark只是他們的一個博士項目,我們共同做了很多開源和開發(fā),最終Spark成為了一個Apache軟件基金會頂級開源項目。
包括在AI方面,在PyTorch、TensorFlow各個開源框架中的優(yōu)化,以及我們構(gòu)建的BigDL、Analytics Zoo開源平臺,英特爾一直希望通過開源的工作推動整個大數(shù)據(jù)和AI的生態(tài)建設(shè)。
量子位:這個過程中,會有什么其他收獲嗎?
戴金權(quán):我們會和很多用戶合作或交互,也會更加關(guān)注如何將下一代的技術(shù)發(fā)展趨勢和技術(shù)方向融合到軟件平臺中來。
福特曾經(jīng)說,“如果問我們的用戶想要什么,他們永遠說想要更快的馬車。但事實上他們要的是汽車。”
其實也是一樣的道理,我們會和很多用戶合作,當(dāng)我們在做Apache Hadoop的時候,用戶提了很高要求,他們說需要更快的Hadoop,你們需要把它優(yōu)化的更好。
但是我們意識到他們要的是類似Spark這樣的下一代大數(shù)據(jù)處理分析引擎,因為它能通過新技術(shù)、新架構(gòu)解決其現(xiàn)有問題,而非在現(xiàn)有平臺上進行優(yōu)化。
而我們在做BigDL和Analytics Zoo的時候也是如此。我們發(fā)現(xiàn)用戶的需求,就考慮如何將AI應(yīng)用到大規(guī)模分布式的大數(shù)據(jù)場景和平臺中,以幫助其解決問題。
量子位:現(xiàn)在有一種觀點是AI軟件正在重塑英特爾,你怎么看?
戴金權(quán):無論在軟件還是硬件上,英特爾在AI領(lǐng)域都有非常多的工作,AI是英特爾非常重要的方向。
比如我們的XPU、CPU、GPU等,這些是硬件方面的工作。
在軟件方面,我們考慮的是如何提供更好的支持,因為今后的智能計算肯定是一個超異構(gòu)的XPU架構(gòu)。
對于軟件開發(fā)者,他們希望有統(tǒng)一的編程接口。作為數(shù)據(jù)科學(xué)家,我們并不希望處理不同的硬件。所以我們基于OneAPI這種能夠統(tǒng)一XPU的編程模式會做很多工作。
在此之前,我們針對各種硬件平臺以及深度學(xué)習(xí)、機器學(xué)習(xí)的庫或框架優(yōu)化也會做很多工作,包括在PyTorch、TensorFlow等領(lǐng)域的各種各樣的優(yōu)化。
我們希望為用戶不同的AI應(yīng)用場景提供支持,以提高他們端到端的性能效率和開發(fā)效率。
包括大數(shù)據(jù)AI,其實我們的目標就是幫助用戶將端到端的AI流水線打通,使其能夠擴展到一個分布式的架構(gòu)上。
量子位:效率提升這條主線上,AutoML近年很火。
戴金權(quán):英特爾有一個工具是做低精度轉(zhuǎn)換的,在低精度上可以大幅提高效率,但需要大量人工操作才可以達到這個效果……于是我們利用AutoML,利用一個自動化工具把低精度的事情完成。
很多時間序列的應(yīng)用場景,都可以自動化特征提取、模型選擇、超參調(diào)整等。
量子位:這其實也是降低AI應(yīng)用門檻的需求反映,甚至在開發(fā)側(cè),大家都在談低代碼\無代碼?
戴金權(quán):還是那句話,不存在一個解決方案可以支持所有場景。
業(yè)內(nèi)會有不同的開發(fā)人員,有一些開發(fā)人員是硬核開發(fā)人員,基于OneAPI這樣的工具,可以幫助他們在底層性能和框架上進行開發(fā)。
有一些是數(shù)據(jù)科學(xué)家或數(shù)據(jù)工程師,他們會基于Python或Java這樣的平臺開發(fā)。還有更高層次的分析師,甚至一些人完全不是編程人員,比如希望對X光片進行分析的醫(yī)生。
這可能需要一些更高層次的應(yīng)用,可能就不想寫代碼,或者只是做一些簡單的工作,這是另外一個方向。
英特爾有一些工作會做得比較多,比如OneAPI,或是基于框架、大數(shù)據(jù)平臺的工作。
我們還有很多合作伙伴,包括在去年年底我們收購了一家專門做超參優(yōu)化的公司叫SigOpt,它是業(yè)界對機器學(xué)習(xí)參數(shù)進行自動化優(yōu)化的領(lǐng)先公司,還提供云服務(wù)。
這樣的技術(shù)就可以整合到英特爾很多工具里,進而把很多工作自動化,大幅提高開發(fā)效率。
我覺得這個可能在不同層面以及針對不同的受眾、開發(fā)人員會提供不同的技術(shù)給他們。
量子位:上面談到的這種滿足需求,是現(xiàn)在英特爾“異構(gòu)”談得越來越多的原因嗎?
戴金權(quán):AI有不同的細分市場。有CPU AI、GPU AI、以及各種各樣專用的加速器AI。英特爾有CPU、GPU、加速器(比如Habana方面的工作),也有邊緣和客戶端的一些工作。
其實各自有其更適合的場景,我們希望通過類似OneAPI這樣的軟件,可以將這些不同的超異構(gòu)硬件結(jié)合起來。
比如我們也有可以使用FPGA來進行加速的場景。我們希望利用OneAPI將編程模式統(tǒng)一,而且OneAPI本身也是一個工業(yè)界的標準,并非英特爾獨有。
除支持英特爾自身的XPU硬件之外,它也可以支持其他硬件。比如有人在上面做ARM的支持等等。
從英特爾角度來說,我們看到的是XPU的超異構(gòu)架構(gòu),不同的GPU、CPU、加速器等,針對不同場景的應(yīng)用會有更好效果。
我們通過類似OneAPI這樣的軟件平臺不僅能夠幫助用戶輕松實現(xiàn)各個硬件平臺的高效率和高性能,還能高效開發(fā)跨平臺應(yīng)用場景。
當(dāng)你看到整個端到端的AI流水線,不能說它只能在某種場景下工作。CPU AI有CPU AI的優(yōu)勢,GPU AI有GPU AI的應(yīng)用場景,加速器AI有加速器AI的應(yīng)用場景。
量子位:所以如果從端到端的AI流水線、數(shù)據(jù)維度來看英特爾,其實軟件方面的努力是容易被忽視的?
戴金權(quán):我認為,對開發(fā)人員或數(shù)據(jù)科學(xué)家來說最看重的是軟件生態(tài),這是英特爾過去幾十年一直在做的,包括我剛剛說的開源軟件以及各種各樣的工作,關(guān)鍵就是如何打造一個軟件生態(tài)。
比如BigDL更適合的軟件生態(tài)是Spark。我是Spark的用戶,很多數(shù)據(jù)工程師原來用Spark做了非常多數(shù)據(jù)處理、數(shù)據(jù)分析甚至機器學(xué)習(xí)相關(guān)工作。采用BigDL這樣的工具可以在Spark大數(shù)據(jù)生態(tài)中實現(xiàn)很高效的開發(fā)。
我們研發(fā)并推出BigDL,不是說要和TensorFlow或者誰競爭,這不是我們的目的。
我們希望針對不同的軟件生態(tài)用戶社區(qū)可以提供最好的工具給他們,所以在Analytics Zoo當(dāng)中,我們會把像BigDL、TensorFlow、PyTorch或OpenVINO整合進來,最終幫助用戶解決問題。
我們的目的是采用所需工具解決新問題,也就是如何在大規(guī)模、分布式的大數(shù)據(jù)平臺上更好地擴展。
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。
免費報名 | 快速入門NLP、讓你的文字會說話!
7.28晚8點,英偉達專家將在線講解“語音合成技術(shù)”的工作流程與原理、深度學(xué)習(xí)模型在語音合成中的應(yīng)用,并代碼實戰(zhàn)演示如何快速實現(xiàn)自然語言生成。掃碼-關(guān)注,根據(jù)提示即可報名~

點這里??關(guān)注我,記得標星哦~

量子位
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見~