把視頻玩出花的快手來到CVPR ,解密背后AI能力,落地空間有多大?
“讓村里的老大爺體驗到AI樂趣”這件事,快手做到了。
郭一璞 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
AI研究,從論文到應(yīng)用有多遠?
我們見到的不少有趣的AI應(yīng)用,修改圖片,編輯視頻,生成音樂,絕大多數(shù)都是乖乖躺在論文里,好心的作者會開源到GitHub上,分享Demo讓大家體驗。
但感受AI技術(shù)帶來的樂趣,門檻還是很高,普通人,比如你老家的大爺大媽,是很難去打開一個Colab,運行Demo的。
不過,“讓村里的老大爺體驗到AI樂趣”這件事,快手做到了。無論他們用的是硬件多么低配的千元機、百元機,通過快手一系列的AI技術(shù)積累和算法優(yōu)化,普通人也能夠體驗到基于人臉識別、肢體識別、手勢識別、人體分割、AR等技術(shù)的魔法表情,享受前沿科技帶來的樂趣。
比如讓“哥斯拉”來到工地現(xiàn)場。
△來自快手用戶 星云『Xy』
又比如,用“萌面”魔法表情,闔家換上綠色爆炸頭跳一段最流行的拳擊舞,帶上頭套也不耽誤展示各種表情。
△來自快手用戶 張小姐教穿搭
近日,快手一項最新AI互動裝置更是引爆了美國加州CVPR2019的會場,引得全場參會者駐足體驗,連聲稱贊:nice! 有趣!甚至被本屆CVPR主席朱松純教授贊為最出色的展廳。
通過多模態(tài)融合人臉識別技術(shù)、肢體識別技術(shù)、手部動作識別三項AI技術(shù)的識別結(jié)果,該互動裝置能夠讓虛擬3D形象實時復(fù)制體驗者面部表情、肢體動作、手部動作。
通過人臉關(guān)鍵點識別和人臉表情識別,虛擬形象能跟隨體驗者實時做出微笑、閉眼、張嘴、吐舌頭等50余種細微表情。
通過三維人臉重建技術(shù),恢復(fù)出人臉的三維幾何信息及人頭在世界坐標空間中的姿態(tài),用來精準的驅(qū)動人頭轉(zhuǎn)動和人臉朝向。
此外,也充分考慮了肢體運動的物理限制,有效規(guī)避出現(xiàn)真實人體無法完成的動作。
這一技術(shù)也早在兩個月前使用在快手APP中,讓多個知名短視頻動漫IP形象開啟直播,跟用戶實時互動。一禪小和尚3D形象首次直播的49分鐘時間里,就獲得了64.9萬個點贊,觀看人數(shù)超過25萬人,不少用戶都被暖心的一禪小和尚治愈。
這些多種多樣的AI玩法,背后都有怎樣的技術(shù)基礎(chǔ)?
在今年的CVPR上,快手Y-tech西雅圖人工智能實驗室和FeDA商業(yè)化Y-tech聯(lián)合實驗室負責(zé)人劉霽、快手Y-tech硅谷實驗室負責(zé)人王華彥兩位揭開了背后的秘密。
七大支撐,三大實驗室
在快手,AI技術(shù)不僅被用于常規(guī)的內(nèi)容分發(fā)、廣告推薦上,更為重要的則是短視頻、直播相關(guān)的內(nèi)容生產(chǎn)。
這背后,倚賴的是快手的計算機視覺、圖像處理、語音識別、多模態(tài)理解等多重技術(shù),以及七大AI技術(shù)構(gòu)成的技術(shù)平臺與底層支撐。
針對用戶行為的推薦,需要高效的離線及在線學(xué)習(xí)訓(xùn)練服的推薦系統(tǒng),能將萬億級特征大數(shù)據(jù)進行全鏈路實時在線學(xué)習(xí)。這里,快手的廣告推薦離線訓(xùn)練系統(tǒng)達到了百T數(shù)據(jù),百G特征,1小時以內(nèi)訓(xùn)練完成。
將技術(shù)落地到手機端,需要基于深度學(xué)習(xí)的模型壓縮與AutoML,快手利用自創(chuàng)的端到端模型壓縮算法,不僅發(fā)表了多篇論文,更是在線上的實際表現(xiàn)中,超越了以往常用的經(jīng)典算法。
而從游戲到廣告出價,AI系統(tǒng)的決策能力也在受到考驗,快手的專家團隊用強化學(xué)習(xí)的方法,將多種智能決策技術(shù)應(yīng)用在用戶每天看到的短視頻中。
而背后的神經(jīng)網(wǎng)絡(luò)基礎(chǔ),則是依靠快手自研的YCNN深度學(xué)習(xí)推理引擎,針對不同手機硬件做了適配與優(yōu)化,這樣,無論哪里的用戶,在拍攝各種特效時都能保證實時性和流暢性。
此外,在機器學(xué)習(xí)方面,快手有自己的機器學(xué)習(xí)平臺,結(jié)合自研的服務(wù)器資源虛擬化技術(shù)、RDMA高速網(wǎng)絡(luò)、CPU/GPU/F- PGA異構(gòu)計算系統(tǒng)與共享存儲系統(tǒng),提供了快手公司內(nèi)部的AI基礎(chǔ)功能。還專門推出亞瑟自助式機器學(xué)習(xí)開發(fā)平臺,用全自助的方式簡化機器學(xué)習(xí)開發(fā)的操作。
有了工具,還需數(shù)據(jù)的支持??焓肿杂?strong>大數(shù)據(jù)平臺,提供了海量多模式數(shù)據(jù)存儲、異構(gòu)資源調(diào)度,以及Tensorflow/Mxnet/XDL/MPI等多種主流機器學(xué)習(xí)引擎 的分布式化訓(xùn)練與預(yù)測。
在7大平臺之外,快手在美國還有西雅圖、硅谷、圣地亞哥三大實驗室的人才與技術(shù)支撐。
快手Y-tech西雅圖人工智能實驗室
快手Y-tech西雅圖人工智能實驗室、FeDA商業(yè)化Y-tech聯(lián)合實驗室負責(zé)人劉霽教授從事機器學(xué)習(xí)以及人工智能研究已經(jīng)超過15年了。
此前,劉霽教授和快手創(chuàng)始人宿華一同獲得了2017麻省理工中國35歲以下35位最佳創(chuàng)新人才獎,兩人也剛好在頒獎時相遇。同樣研究機器學(xué)習(xí)領(lǐng)域,相似的經(jīng)歷讓他們一見如故。
在這樣的緣分之下,劉霽教授在去年10月加入快手,成為西雅圖兩個實驗室的負責(zé)人,同時他現(xiàn)在還在羅切斯特大學(xué)計算機系和電子工程系任教。
西雅圖實驗室是快手在美國的三個實驗室之一,主要聚焦于智能決策問題,承擔(dān)了大量快手的主要業(yè)務(wù),如商業(yè)化廣告推薦、競價、大規(guī)模離線訓(xùn)練平臺,游戲AI以及游戲關(guān)卡自動生成,手機端的AI模型優(yōu)化以及AutoML,視頻圖像的分析、理解與生成等。
對于一項AI技術(shù)的研發(fā)來說,在有數(shù)據(jù)的基礎(chǔ)上,必須合理的設(shè)計模型并訓(xùn)練,才能讓AI系統(tǒng)真正運行起來。不過,對于快手來說,要讓AI模型服務(wù)于使用千元機的大眾群體,模型壓縮是關(guān)鍵的一步(Model compression)。
劉霽教授介紹說,讓AI技術(shù)落地,越是在這樣效果性能并不是那么好的機型上面,對技術(shù)的挑戰(zhàn)越大,而模型壓縮這項任務(wù)就是專門為了讓AI能力服務(wù)每一個用戶的關(guān)鍵一步,這也是西雅圖實驗室除了訓(xùn)練AI模型之外主要承當(dāng)?shù)囊豁椚蝿?wù)。
因此,像這樣的娛樂效果,把熊二帶入現(xiàn)實,或是變身雷神,無論是強大的旗艦機,還是普通的千元機,快手都能保證實現(xiàn)。
△?來自快手用戶 任性卟卟乖巧
△?來自快手用戶 拉面哥-辛拉面
除了短視頻平臺,快手的業(yè)務(wù)也涉及廣告和游戲。在廣告方面,西雅圖實驗室主要運用強化學(xué)習(xí)等方法,實現(xiàn)廣告的推薦、競價等功能。
劉霽也帶領(lǐng)FeDa商業(yè)化Ytech聯(lián)合實驗室也在廣告推薦方面做了一些技術(shù)革新。此前,針對一種廣告推薦商業(yè)化平臺,行業(yè)內(nèi)的通行做法是用CPU做,效率較低。劉霽團隊改良了這一做法,換成了GPU方法來做,單機的效率提高了640多倍。此前需要50臺CPU機器訓(xùn)練20個小時的數(shù)據(jù),現(xiàn)在只要一塊GPU訓(xùn)練1個小時就夠了。
在游戲方面,快手擁有近100款自己開發(fā)的小游戲,AI也被應(yīng)用在游戲方面,一塊是游戲AI,另一部分是游戲關(guān)卡的自動生成和難度評定,還有游戲數(shù)據(jù)分析和智能運營。
比如三消類游戲,需要更新全新的關(guān)卡,但人工設(shè)計關(guān)卡、測試關(guān)卡工作量非常大,因此,在快手,通過AI系統(tǒng)來自動生成關(guān)卡、自動測試難度,得出的通關(guān)率相當(dāng)精準,誤差率只在7~8%左右。
目前,雖然西雅圖實驗室只有十余人,但效率非常高,在研究方面,今年已經(jīng)有7篇論文被各大會議接收;而在落地方面,通常只要一周左右,就能把實驗結(jié)果落地,并正式投放市場。
快手Y-tech硅谷實驗室
快手Y-tech硅谷實驗室負責(zé)人王華彥本碩皆畢業(yè)于北大,后來到斯坦福AI Lab讀博,在加入快手前,王華彥曾在硅谷AI創(chuàng)業(yè)公司Vicarious任高級研究員。
硅谷實驗室坐落在斯坦福校園附近,與前面介紹的西雅圖實驗室不同,快手硅谷實驗室更注重計算機視覺,用AI的方式創(chuàng)造各種特效,供用戶在創(chuàng)作短視頻的時候增添豐富多彩的內(nèi)容。
比如有這樣:
還可以實現(xiàn)這樣的變化,將一張靜態(tài)照片直接變成延時攝影,白天變夜景:
將這些功能實現(xiàn)并部署在用戶的手機上,就是硅谷實驗室的核心技術(shù)挑戰(zhàn)。
“這個里面就有兩個很大的挑戰(zhàn),一個是我們需要以非常高效的方式來訓(xùn)練和開發(fā)模型,另一個是我們也需要讓這些模型以最高的效率在移動的設(shè)備上運行起來,所以就需要在數(shù)據(jù)和計算上都達到非常高的效率”王華彥說。
比如,在視頻圖像分割人物中,現(xiàn)行的方法是通過標注大量圖像,作為數(shù)據(jù)集進行監(jiān)督學(xué)習(xí),訓(xùn)練出模型。但這種方式并不十分有效,相比人類的只需要少量樣本的學(xué)習(xí)方式,效率更低。
也正是因此,快手硅谷實驗室正在不斷延攬人才,提升AI算法,提高數(shù)據(jù)和計算兩方面的效率,讓模型的訓(xùn)練和部署都能高效完成。
傳送門
最后,快手Y-Tech西雅圖AI Lab聯(lián)合羅切斯特大學(xué)等研究者提出了一種基于能耗建模的壓縮方法,該工作的論文也被CVPR2019收錄,需要的朋友可自取~
ECC: Platform-Independent Energy-Constrained Deep Neural Network Compression via a Bilinear Regression Model
作者:Haichuan Yang, Yuhao Zhu, and Ji Liu
https://arxiv.org/abs/1812.01803