騰訊大數(shù)據(jù)回答2019:鵝廠開源先鋒,日均計(jì)算量超30萬億
乾明 發(fā)自 騰訊匯
量子位 報(bào)道 | 公眾號(hào) QbitAI
開源,開源,開源。
這就是騰訊2019年技術(shù)領(lǐng)域最直觀的變化。
最新代表事件,來自于騰訊首個(gè)開源的AI項(xiàng)目Angel,完成3.0版本進(jìn)化后,得到全球技術(shù)專家認(rèn)可,從開源基金會(huì)LF AI畢業(yè),成為業(yè)內(nèi)頂級(jí)AI開源項(xiàng)目。
這是中國首個(gè)得此認(rèn)可的項(xiàng)目,消息傳來自是引發(fā)好評(píng)熱議。不過,這只是騰訊過去這一年開源成績(jī)的注腳之一。
過去一年,騰訊開源勢(shì)頭愈發(fā)兇猛。截止12月份,對(duì)外開源項(xiàng)目超過92個(gè),覆蓋所有BG(事業(yè)群),微信、騰訊云、大數(shù)據(jù)、游戲、AI、安全等業(yè)務(wù)都在其中,累計(jì)獲得超27萬標(biāo)星,贏得一片贊譽(yù)。
騰訊已然成為全球開源大廠之一。在這其中,騰訊大數(shù)據(jù)貢獻(xiàn)不小。
騰訊業(yè)務(wù)的技術(shù)支撐方,騰訊大數(shù)據(jù)接連將自身核心組件開源,推動(dòng)騰訊走向中國大數(shù)據(jù)領(lǐng)域開源最全面的廠商。
騰訊數(shù)據(jù)平臺(tái)部總經(jīng)理、AMS平臺(tái)總經(jīng)理、智慧零售戰(zhàn)略合作部總經(jīng)理蔣杰說,接下來將會(huì)持續(xù)推進(jìn),將整個(gè)大數(shù)據(jù)平臺(tái)的所有東西全部開源。
為什么要如此“激進(jìn)”開源?具體到業(yè)務(wù)中,他們發(fā)展如何?又有怎樣的開源邏輯?
蔣杰對(duì)過去一年的總結(jié)回答,能夠給出參考答案。
△?蔣杰
作為騰訊開源先鋒,騰訊大數(shù)據(jù)的回答,也傳遞著整個(gè)騰訊的開源策略與邏輯。所以鵝廠開源如何,不妨看下騰訊大數(shù)據(jù)。
開源底氣:每日數(shù)據(jù)計(jì)算量超 30 萬億
2019年,是騰訊大數(shù)據(jù)平臺(tái)成立的第十個(gè)年頭,已經(jīng)從零發(fā)展成為了整個(gè)集團(tuán)業(yè)務(wù)的關(guān)鍵支撐:
每天有 1500 萬的分析任務(wù)、30 萬億次的實(shí)時(shí)計(jì)算量,并且每天數(shù)據(jù)接入條數(shù)達(dá) 35 萬億條數(shù)據(jù)?;隍v訊云的分布式機(jī)器學(xué)習(xí)平臺(tái),能支撐 1 萬億維度的數(shù)據(jù)訓(xùn)練。
為什么能夠做到這一點(diǎn)?來自于強(qiáng)大的技術(shù)實(shí)力。騰訊官方說法,經(jīng)歷10年發(fā)展,大數(shù)據(jù)平臺(tái)已經(jīng)建立起了“大數(shù)據(jù) +AI”雙引擎技術(shù)架構(gòu),立身于行業(yè)第一梯隊(duì)。
尤其是核心項(xiàng)目之一騰訊第三代計(jì)算平臺(tái)Angel,發(fā)展到3.0版本之后,已經(jīng)能支持萬億維度數(shù)據(jù),同樣也可以兼容 Spark、PyTorch、TensorFlow 等生態(tài),進(jìn)一步降低了使用門檻,可擴(kuò)大了兼容性。
雖然只需幾句話,就能描述出系統(tǒng)概況,但想要打造這樣一個(gè)系統(tǒng),并不簡(jiǎn)單。
“整個(gè)過程中,你會(huì)遇到網(wǎng)卡的瓶頸,存儲(chǔ)瓶頸,包括丟數(shù)據(jù)各種問題,”蔣杰說,“做系統(tǒng)是靠踩的一堆坑,有血的教訓(xùn),一堆故障,才慢慢磨煉出來的。”
蔣杰解釋稱,對(duì)于騰訊這樣體量的公司,也是如此。其開放出去的能力和技術(shù),更是經(jīng)歷了很多考驗(yàn)。
原因也很簡(jiǎn)單,別人在你這踩坑了, 還會(huì)對(duì)你有信任感嗎?“我們想要當(dāng)領(lǐng)先者,但不是先烈,”蔣杰說。
如何做?他給出了一個(gè)關(guān)鍵詞:“價(jià)值驅(qū)動(dòng)”。
平臺(tái)的發(fā)展不是閉門造車,而是跟著業(yè)務(wù)發(fā)展來發(fā)展,基于數(shù)據(jù)價(jià)值的驅(qū)動(dòng)來演進(jìn)。整個(gè)過程,是技術(shù)依賴于業(yè)務(wù)成長(zhǎng),技術(shù)回過頭去反哺業(yè)務(wù)發(fā)展。
這也是騰訊大數(shù)據(jù)10年發(fā)展的路徑。
從引進(jìn)到自研再開源:騰訊大數(shù)據(jù)迎來轉(zhuǎn)折點(diǎn)
從2009年開始,騰訊大數(shù)據(jù)平臺(tái)經(jīng)歷離線計(jì)算、實(shí)時(shí)計(jì)算與機(jī)器學(xué)習(xí)三個(gè)階段。
第一階段,基于開源的Hadoop體系,離線計(jì)算平臺(tái),主要發(fā)力規(guī)?;?。主要的業(yè)務(wù)導(dǎo)向是替代傳統(tǒng)的數(shù)據(jù)倉庫,做基于報(bào)表的服務(wù)。
這一階段持續(xù)了3年,實(shí)現(xiàn)了從關(guān)系型數(shù)據(jù)庫到自建大數(shù)據(jù)平臺(tái)的全面遷移。
但到了2012年左右,移動(dòng)互聯(lián)網(wǎng)開始火爆起來,用戶特征與用戶畫像方面的數(shù)據(jù)進(jìn)一步豐富。
電商商品推薦,新聞的推薦等算法對(duì)數(shù)據(jù)平臺(tái)提出了更高要求,第一階段只有T+1的報(bào)表顯然不夠用,需要小時(shí)級(jí)、分鐘級(jí)、秒級(jí)的實(shí)時(shí)監(jiān)控。
因此,原來的Hadoop轉(zhuǎn)向Spark和Storm體系,在吸收開源技術(shù)的基礎(chǔ)上,結(jié)合騰訊自身的需求進(jìn)行重寫,提供實(shí)時(shí)報(bào)表,實(shí)時(shí)查詢、實(shí)時(shí)監(jiān)控等支持。
并開始了探索流式計(jì)算、秒級(jí)采集系統(tǒng)的建設(shè),構(gòu)建企業(yè)級(jí)的實(shí)時(shí)數(shù)據(jù)分析體系。
這一階段同樣是持續(xù)了3年。蔣杰說,這一階段完成后,騰訊大數(shù)據(jù)能力就已經(jīng)位于國內(nèi)第一梯隊(duì)了。
到了2015年,數(shù)據(jù)量進(jìn)一步增長(zhǎng),人群特征維度更多,廣告推薦體系出現(xiàn)了一定的瓶頸。大數(shù)據(jù)平臺(tái)向第三階段發(fā)展,建設(shè)機(jī)器學(xué)習(xí)平臺(tái),支持騰訊各業(yè)務(wù)數(shù)據(jù)挖掘的需求。
并于2016年推出了自研機(jī)器學(xué)習(xí)平臺(tái)Angel,專攻復(fù)雜計(jì)算場(chǎng)景,可進(jìn)行大規(guī)模的數(shù)據(jù)訓(xùn)練,支撐內(nèi)容推薦、廣告推薦等AI應(yīng)用場(chǎng)景,建立起了“大數(shù)據(jù) +AI”雙引擎技術(shù)架構(gòu)。
整個(gè)過程中騰訊大數(shù)據(jù)提升了集群可擴(kuò)展性,相對(duì)于原生調(diào)度器性能提升150倍,2016 年,騰訊打破 Sort Benchmark 四項(xiàng)世界紀(jì)錄,標(biāo)志著算力已經(jīng)達(dá)到世界領(lǐng)先水平。
從業(yè)務(wù)中來,到業(yè)務(wù)中去,形成了騰訊大數(shù)據(jù)平臺(tái)技術(shù)迭代的循環(huán)。
得益于開源,回饋于開源,是騰訊大數(shù)據(jù)甚至騰訊在技術(shù)社區(qū)中循環(huán),也是其不斷推動(dòng)開源的驅(qū)動(dòng)力之一。
全力打破數(shù)據(jù)墻,開源中向第四代大數(shù)據(jù)平臺(tái)迭代
2019年,也是騰訊大數(shù)據(jù)平臺(tái)第四代升級(jí)的元年。
蔣杰介紹稱,騰訊正在研究以批流融合、ABC融合、以及數(shù)據(jù)湖和聯(lián)邦學(xué)習(xí)為方向的下一代大數(shù)據(jù)平臺(tái)的研究。
同樣,這一平臺(tái)的迭代也是來自于業(yè)務(wù)價(jià)值驅(qū)動(dòng)——數(shù)據(jù)覆蓋面更廣更大,數(shù)據(jù)安全和隱私保護(hù)成為新的問題。
在物聯(lián)網(wǎng)、云計(jì)算以及人工智能技術(shù)的推廣應(yīng)用下,平臺(tái)需要具備混合部署、跨域數(shù)據(jù)共享和邊緣計(jì)算等能力。
這背后也隱藏著大數(shù)據(jù)行業(yè)最大的障礙:數(shù)據(jù)墻。
“把數(shù)據(jù)共享出來,其實(shí)把自己的后背交給別人,誰也不愿意,這是最大的困難。”蔣杰說。
這也是環(huán)境使然,過去一年,數(shù)據(jù)泄露席卷各行各業(yè),從金融保險(xiǎn)、教育、醫(yī)療、科技到政府無一幸免,規(guī)模甚至達(dá)到十幾億。
另一方面,歐洲發(fā)布《通用數(shù)據(jù)保護(hù)條例》之后,整個(gè)行業(yè)對(duì)數(shù)據(jù)保護(hù)的重視度越來越高。
“不在共享情況下能夠得到共享,聯(lián)邦學(xué)習(xí)是一個(gè)方向。我們希望通過混合部署,漂移計(jì)算,加上整個(gè)聯(lián)邦學(xué)習(xí),構(gòu)建嚴(yán)格的安全管控體系,打破這個(gè)數(shù)據(jù)墻。”
業(yè)務(wù)價(jià)值已經(jīng)明確, 騰訊大數(shù)據(jù)平臺(tái)也開始展開了行動(dòng)。蔣杰表示,明年將會(huì)把聯(lián)邦學(xué)習(xí)落實(shí)到場(chǎng)景中。與此同時(shí),相關(guān)的研究成果也會(huì)同步開源出來。
鵝廠開源忙,大數(shù)據(jù)平臺(tái)為先鋒
所以騰訊為何開源?騰訊大數(shù)據(jù)的2019,能夠給出部分答案:
首先,騰訊大數(shù)據(jù)早期發(fā)展得益于開源項(xiàng)目,從第一階段的Hadoop到第二階段的Spark等等,開源項(xiàng)目都提供了幫助。
其次,騰訊大數(shù)據(jù)在發(fā)展過程中,技術(shù)實(shí)力快速發(fā)展,技術(shù)實(shí)力能夠拿出來,給更多的人使用,從而讓社區(qū)不再重復(fù)造輪子踩坑。
這是具體業(yè)務(wù)層面上的考慮,但提高視角,放到整個(gè)騰訊甚至整個(gè)行業(yè)來說,又能得到不同角度的答案。
開源協(xié)同是騰訊當(dāng)下最重要的技術(shù)戰(zhàn)略之一。
對(duì)于騰訊來說,內(nèi)部的開源協(xié)同,實(shí)際上是對(duì)最底層和共性技術(shù)能力的一次梳理和拉通,一方面是減少重復(fù)造輪子,另一方面提升公司的研發(fā)效能和運(yùn)營效率。
在內(nèi)部協(xié)同共建的基礎(chǔ)上,騰訊在推動(dòng)更底層、更重磅的技術(shù)對(duì)外開放,不斷完善開源治理,打造開發(fā)者共建的生態(tài)。
2019年,由騰訊大數(shù)據(jù)主導(dǎo)的協(xié)同小組Oteam,共建了一個(gè)名為“天穹”的大數(shù)據(jù)項(xiàng)目,將騰訊六大事業(yè)群的大數(shù)據(jù)相關(guān)的系統(tǒng)做了統(tǒng)一,希望打造成一個(gè)具有統(tǒng)一技術(shù)棧的公司級(jí)大數(shù)據(jù)平臺(tái)體系。
蔣杰介紹說:“一項(xiàng)開源的技術(shù)能夠有良好的發(fā)展,常常需要背靠一個(gè)強(qiáng)大的公司,具有一定的經(jīng)濟(jì)實(shí)力和良好的業(yè)務(wù)發(fā)展。騰訊有強(qiáng)大的業(yè)務(wù)支撐,這使得我們能夠去投入研發(fā)最好的技術(shù),走在行業(yè)的最前沿。
目前,騰訊內(nèi)部已協(xié)同的項(xiàng)目橫跨了各個(gè)技術(shù)領(lǐng)域,經(jīng)過海量用戶驗(yàn)證。騰訊正在源源不斷向開源社區(qū)輸出優(yōu)質(zhì)開源項(xiàng)目。
今年8月份,馬化騰首次對(duì)外談起騰訊開源,進(jìn)一步表明了騰訊對(duì)待開源的態(tài)度:
騰訊希望在科研領(lǐng)域投入更多力量,把“科技向善”納入公司新的使命與愿景。我們將通過內(nèi)外部開放源代碼等方式,積極參與“全球科技共同體”的共建。
當(dāng)然,對(duì)于騰訊來說,開源也是戰(zhàn)略的體現(xiàn),不僅僅在于“科技向善”愿景的落實(shí),更有布局產(chǎn)業(yè)互聯(lián)網(wǎng)的考慮。
通過有價(jià)值的開源項(xiàng)目,會(huì)吸引更多的用戶加入騰訊生態(tài),推動(dòng)機(jī)器學(xué)習(xí)和人工智能的廣泛應(yīng)用。
騰訊開源也在與騰訊云緊密結(jié)合,為開發(fā)者提供更多便利的基礎(chǔ)服務(wù)、工具和開源項(xiàng)目。
目前,騰訊已經(jīng)把網(wǎng)絡(luò)、存儲(chǔ)、數(shù)據(jù)庫等IaaS能力,大數(shù)據(jù)、機(jī)器學(xué)習(xí)等PaaS的能力,以及上層的圖像、語音、NLP、BI等SaaS能力,通過騰訊云對(duì)外開放。
小爭(zhēng)爭(zhēng)事,大爭(zhēng)爭(zhēng)勢(shì),起于2010年的騰訊開放戰(zhàn)略,在2020年到來之時(shí),也變得愈發(fā)成熟,騰訊的格局也變得越來越大。