把視頻玩出花的快手來到CVPR ,解密背后AI能力,落地空間有多大?
“讓村里的老大爺體驗到AI樂趣”這件事,快手做到了。
郭一璞 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
AI研究,從論文到應用有多遠?
我們見到的不少有趣的AI應用,修改圖片,編輯視頻,生成音樂,絕大多數(shù)都是乖乖躺在論文里,好心的作者會開源到GitHub上,分享Demo讓大家體驗。
但感受AI技術帶來的樂趣,門檻還是很高,普通人,比如你老家的大爺大媽,是很難去打開一個Colab,運行Demo的。
不過,“讓村里的老大爺體驗到AI樂趣”這件事,快手做到了。無論他們用的是硬件多么低配的千元機、百元機,通過快手一系列的AI技術積累和算法優(yōu)化,普通人也能夠體驗到基于人臉識別、肢體識別、手勢識別、人體分割、AR等技術的魔法表情,享受前沿科技帶來的樂趣。
比如讓“哥斯拉”來到工地現(xiàn)場。
△來自快手用戶 星云『Xy』
又比如,用“萌面”魔法表情,闔家換上綠色爆炸頭跳一段最流行的拳擊舞,帶上頭套也不耽誤展示各種表情。
△來自快手用戶 張小姐教穿搭
近日,快手一項最新AI互動裝置更是引爆了美國加州CVPR2019的會場,引得全場參會者駐足體驗,連聲稱贊:nice! 有趣!甚至被本屆CVPR主席朱松純教授贊為最出色的展廳。
通過多模態(tài)融合人臉識別技術、肢體識別技術、手部動作識別三項AI技術的識別結果,該互動裝置能夠讓虛擬3D形象實時復制體驗者面部表情、肢體動作、手部動作。
通過人臉關鍵點識別和人臉表情識別,虛擬形象能跟隨體驗者實時做出微笑、閉眼、張嘴、吐舌頭等50余種細微表情。
通過三維人臉重建技術,恢復出人臉的三維幾何信息及人頭在世界坐標空間中的姿態(tài),用來精準的驅動人頭轉動和人臉朝向。
此外,也充分考慮了肢體運動的物理限制,有效規(guī)避出現(xiàn)真實人體無法完成的動作。
這一技術也早在兩個月前使用在快手APP中,讓多個知名短視頻動漫IP形象開啟直播,跟用戶實時互動。一禪小和尚3D形象首次直播的49分鐘時間里,就獲得了64.9萬個點贊,觀看人數(shù)超過25萬人,不少用戶都被暖心的一禪小和尚治愈。
這些多種多樣的AI玩法,背后都有怎樣的技術基礎?
在今年的CVPR上,快手Y-tech西雅圖人工智能實驗室和FeDA商業(yè)化Y-tech聯(lián)合實驗室負責人劉霽、快手Y-tech硅谷實驗室負責人王華彥兩位揭開了背后的秘密。
七大支撐,三大實驗室
在快手,AI技術不僅被用于常規(guī)的內容分發(fā)、廣告推薦上,更為重要的則是短視頻、直播相關的內容生產。
這背后,倚賴的是快手的計算機視覺、圖像處理、語音識別、多模態(tài)理解等多重技術,以及七大AI技術構成的技術平臺與底層支撐。
針對用戶行為的推薦,需要高效的離線及在線學習訓練服的推薦系統(tǒng),能將萬億級特征大數(shù)據(jù)進行全鏈路實時在線學習。這里,快手的廣告推薦離線訓練系統(tǒng)達到了百T數(shù)據(jù),百G特征,1小時以內訓練完成。
將技術落地到手機端,需要基于深度學習的模型壓縮與AutoML,快手利用自創(chuàng)的端到端模型壓縮算法,不僅發(fā)表了多篇論文,更是在線上的實際表現(xiàn)中,超越了以往常用的經典算法。
而從游戲到廣告出價,AI系統(tǒng)的決策能力也在受到考驗,快手的專家團隊用強化學習的方法,將多種智能決策技術應用在用戶每天看到的短視頻中。
而背后的神經網絡基礎,則是依靠快手自研的YCNN深度學習推理引擎,針對不同手機硬件做了適配與優(yōu)化,這樣,無論哪里的用戶,在拍攝各種特效時都能保證實時性和流暢性。
此外,在機器學習方面,快手有自己的機器學習平臺,結合自研的服務器資源虛擬化技術、RDMA高速網絡、CPU/GPU/F- PGA異構計算系統(tǒng)與共享存儲系統(tǒng),提供了快手公司內部的AI基礎功能。還專門推出亞瑟自助式機器學習開發(fā)平臺,用全自助的方式簡化機器學習開發(fā)的操作。
有了工具,還需數(shù)據(jù)的支持??焓肿杂?strong>大數(shù)據(jù)平臺,提供了海量多模式數(shù)據(jù)存儲、異構資源調度,以及Tensorflow/Mxnet/XDL/MPI等多種主流機器學習引擎 的分布式化訓練與預測。
在7大平臺之外,快手在美國還有西雅圖、硅谷、圣地亞哥三大實驗室的人才與技術支撐。
快手Y-tech西雅圖人工智能實驗室
快手Y-tech西雅圖人工智能實驗室、FeDA商業(yè)化Y-tech聯(lián)合實驗室負責人劉霽教授從事機器學習以及人工智能研究已經超過15年了。
此前,劉霽教授和快手創(chuàng)始人宿華一同獲得了2017麻省理工中國35歲以下35位最佳創(chuàng)新人才獎,兩人也剛好在頒獎時相遇。同樣研究機器學習領域,相似的經歷讓他們一見如故。
在這樣的緣分之下,劉霽教授在去年10月加入快手,成為西雅圖兩個實驗室的負責人,同時他現(xiàn)在還在羅切斯特大學計算機系和電子工程系任教。
西雅圖實驗室是快手在美國的三個實驗室之一,主要聚焦于智能決策問題,承擔了大量快手的主要業(yè)務,如商業(yè)化廣告推薦、競價、大規(guī)模離線訓練平臺,游戲AI以及游戲關卡自動生成,手機端的AI模型優(yōu)化以及AutoML,視頻圖像的分析、理解與生成等。
對于一項AI技術的研發(fā)來說,在有數(shù)據(jù)的基礎上,必須合理的設計模型并訓練,才能讓AI系統(tǒng)真正運行起來。不過,對于快手來說,要讓AI模型服務于使用千元機的大眾群體,模型壓縮是關鍵的一步(Model compression)。
劉霽教授介紹說,讓AI技術落地,越是在這樣效果性能并不是那么好的機型上面,對技術的挑戰(zhàn)越大,而模型壓縮這項任務就是專門為了讓AI能力服務每一個用戶的關鍵一步,這也是西雅圖實驗室除了訓練AI模型之外主要承當?shù)囊豁椚蝿铡?/p>
因此,像這樣的娛樂效果,把熊二帶入現(xiàn)實,或是變身雷神,無論是強大的旗艦機,還是普通的千元機,快手都能保證實現(xiàn)。
△?來自快手用戶 任性卟卟乖巧
△?來自快手用戶 拉面哥-辛拉面
除了短視頻平臺,快手的業(yè)務也涉及廣告和游戲。在廣告方面,西雅圖實驗室主要運用強化學習等方法,實現(xiàn)廣告的推薦、競價等功能。
劉霽也帶領FeDa商業(yè)化Ytech聯(lián)合實驗室也在廣告推薦方面做了一些技術革新。此前,針對一種廣告推薦商業(yè)化平臺,行業(yè)內的通行做法是用CPU做,效率較低。劉霽團隊改良了這一做法,換成了GPU方法來做,單機的效率提高了640多倍。此前需要50臺CPU機器訓練20個小時的數(shù)據(jù),現(xiàn)在只要一塊GPU訓練1個小時就夠了。
在游戲方面,快手擁有近100款自己開發(fā)的小游戲,AI也被應用在游戲方面,一塊是游戲AI,另一部分是游戲關卡的自動生成和難度評定,還有游戲數(shù)據(jù)分析和智能運營。
比如三消類游戲,需要更新全新的關卡,但人工設計關卡、測試關卡工作量非常大,因此,在快手,通過AI系統(tǒng)來自動生成關卡、自動測試難度,得出的通關率相當精準,誤差率只在7~8%左右。
目前,雖然西雅圖實驗室只有十余人,但效率非常高,在研究方面,今年已經有7篇論文被各大會議接收;而在落地方面,通常只要一周左右,就能把實驗結果落地,并正式投放市場。
快手Y-tech硅谷實驗室
快手Y-tech硅谷實驗室負責人王華彥本碩皆畢業(yè)于北大,后來到斯坦福AI Lab讀博,在加入快手前,王華彥曾在硅谷AI創(chuàng)業(yè)公司Vicarious任高級研究員。
硅谷實驗室坐落在斯坦福校園附近,與前面介紹的西雅圖實驗室不同,快手硅谷實驗室更注重計算機視覺,用AI的方式創(chuàng)造各種特效,供用戶在創(chuàng)作短視頻的時候增添豐富多彩的內容。
比如有這樣:
還可以實現(xiàn)這樣的變化,將一張靜態(tài)照片直接變成延時攝影,白天變夜景:
將這些功能實現(xiàn)并部署在用戶的手機上,就是硅谷實驗室的核心技術挑戰(zhàn)。
“這個里面就有兩個很大的挑戰(zhàn),一個是我們需要以非常高效的方式來訓練和開發(fā)模型,另一個是我們也需要讓這些模型以最高的效率在移動的設備上運行起來,所以就需要在數(shù)據(jù)和計算上都達到非常高的效率”王華彥說。
比如,在視頻圖像分割人物中,現(xiàn)行的方法是通過標注大量圖像,作為數(shù)據(jù)集進行監(jiān)督學習,訓練出模型。但這種方式并不十分有效,相比人類的只需要少量樣本的學習方式,效率更低。
也正是因此,快手硅谷實驗室正在不斷延攬人才,提升AI算法,提高數(shù)據(jù)和計算兩方面的效率,讓模型的訓練和部署都能高效完成。
傳送門
最后,快手Y-Tech西雅圖AI Lab聯(lián)合羅切斯特大學等研究者提出了一種基于能耗建模的壓縮方法,該工作的論文也被CVPR2019收錄,需要的朋友可自取~
ECC: Platform-Independent Energy-Constrained Deep Neural Network Compression via a Bilinear Regression Model
作者:Haichuan Yang, Yuhao Zhu, and Ji Liu
https://arxiv.org/abs/1812.01803