面向5G,虎牙AI的技術(shù)準(zhǔn)備
郭一璞 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
“當(dāng)5G到來(lái)時(shí),普通用戶的流量不再是限制看直播的因素,就像短視頻今日的火熱一樣,整個(gè)直播市場(chǎng)會(huì)有5~10倍的巨大增長(zhǎng)空間?!?/p>
這是虎牙CEO董榮杰最新給出的機(jī)遇判斷,他十分看好5G對(duì)整個(gè)直播業(yè)的助力作用。有了5G,流量不設(shè)限,用戶心里沒(méi)負(fù)擔(dān),而在通信基礎(chǔ)設(shè)施之上,借助AI技術(shù)衍生出的諸多新應(yīng)用,也將會(huì)是直播的新生機(jī)。
比如,虎牙自己上周就一口氣推出了小程序開(kāi)放平臺(tái)和虛實(shí)結(jié)合開(kāi)放平臺(tái)HERO兩大平臺(tái),前者讓第三方開(kāi)發(fā)者們都能利用虎牙技術(shù)接口開(kāi)發(fā)直播中使用的各類小程序應(yīng)用,后者則使得各家都能讓自己的IP“活過(guò)來(lái)”,在虛實(shí)結(jié)合中成為直播的主角。
如果說(shuō),前幾年的直播還是聚焦在優(yōu)質(zhì)公會(huì)、主播的“單兵作戰(zhàn)”,那么在近幾年,隨著技術(shù)要求的不斷提高和更多潛在的衍生技術(shù)應(yīng)用,直播平臺(tái)的競(jìng)爭(zhēng)已經(jīng)進(jìn)入了圍繞主播、公會(huì)、賽事、活動(dòng)的“集群作戰(zhàn)”時(shí)代。
新技術(shù)、新能力、新應(yīng)用作為現(xiàn)代武器,給單一主播公會(huì)的能力乘上了巨大的倍數(shù),而對(duì)于平臺(tái)而言,技術(shù)加持的直播“集團(tuán)軍”,更需要如同制造業(yè)產(chǎn)業(yè)鏈一般成體系、成規(guī)模的運(yùn)作方式。
虎牙也展露了他們?cè)谶@個(gè)新時(shí)代的技術(shù)野心。兩大平臺(tái)發(fā)布后,量子位也和虎牙CTO賴立高、AI總經(jīng)理許佳聊了聊虎牙在這兩大新發(fā)布背后的技術(shù)與實(shí)踐。
IP數(shù)字化,重現(xiàn)真實(shí)世界
借助生成對(duì)抗網(wǎng)絡(luò)(GAN)、語(yǔ)音合成等AI技術(shù)的虛擬主播,虎牙并非業(yè)內(nèi)頭一家,然而應(yīng)用在直播上,卻是開(kāi)天辟地之舉。
究其緣由,還是業(yè)務(wù)驅(qū)動(dòng),“很多真人主播確實(shí)在才藝上可能擅長(zhǎng)一點(diǎn),但我們?cè)跇I(yè)務(wù)上有很多對(duì)于真人不會(huì)的才藝進(jìn)行賦能的需求”許佳談到,而虎牙的第一個(gè)數(shù)字人“數(shù)字晚玉”的原型虎牙主播晚玉,本身確實(shí)是沒(méi)有跳舞技能的游戲主播,而數(shù)字人的存在補(bǔ)充了晚玉的技能樹(shù)。
而實(shí)現(xiàn)“讓數(shù)字人跳舞”這個(gè)功能,則是基于兩種方式,一種是捕捉真人舞蹈演員的動(dòng)作,另一種是把已有的舞蹈視頻中的動(dòng)作提煉出來(lái)。
未來(lái),除了在外觀細(xì)節(jié)上重現(xiàn)真人的外表,虎牙技術(shù)團(tuán)隊(duì)也在準(zhǔn)備加入語(yǔ)音識(shí)別等NLP功能。
基于此,虎牙打造了虛實(shí)結(jié)合開(kāi)放平臺(tái)HERO,“從技術(shù)上看,我們做的是非常通用的流程,現(xiàn)在有很多IP,你可以把你的形象拿過(guò)來(lái),我們通過(guò)驅(qū)動(dòng)技術(shù)把這些形象驅(qū)動(dòng)起來(lái),渲染給觀眾。我們的方案是平臺(tái),能夠把所有的已經(jīng)有的數(shù)字人IP拿到我們的平臺(tái),通過(guò)我們的驅(qū)動(dòng)渲染,最后呈現(xiàn)給觀眾。”許佳介紹。
也就是說(shuō),用通用的方法給各種IP創(chuàng)建虛擬形象,實(shí)現(xiàn)技術(shù)上可復(fù)制,降低成本和使用門檻。
而這一切,歸根結(jié)底是在重現(xiàn)真實(shí)世界,不僅包括人物,也包括真實(shí)世界中的場(chǎng)景。
正如許佳所言,虎牙主要的AI技術(shù)方向是“把直播間的物理世界結(jié)構(gòu)化”,不僅包含人臉和人體,也有針對(duì)場(chǎng)景的理解。
直播內(nèi)容生態(tài)與技術(shù)的淵源
重現(xiàn)物理世界的技術(shù)基礎(chǔ),則是要應(yīng)用在行業(yè)側(cè),基于主播、觀眾、流量的虎牙生態(tài)支撐,AI技術(shù)能夠創(chuàng)造更多應(yīng)用?!盎⒀赖膬?yōu)勢(shì)是有主播、有用戶,有流量,一旦效果可以觸動(dòng)用戶,將會(huì)產(chǎn)生很強(qiáng)的驅(qū)動(dòng)力。”賴立高說(shuō),“直播把兩個(gè)空間的信息做了互通,但是距離感還是很大的,網(wǎng)絡(luò)逐步降低時(shí)延感,數(shù)字化進(jìn)一步提升空間融合,并能打開(kāi)更多交互方式,消除人際隔閡。”
而在這片由主播、公會(huì)、觀眾等有機(jī)元素構(gòu)成的生態(tài)中,內(nèi)容生產(chǎn)金字塔的不同位置,其技術(shù)利用能力有著天差地別。
“虎牙是一個(gè)直播平臺(tái),我們有大主播、超大主播和小主播,平臺(tái)在能力上會(huì)想辦法降低成本,讓更多的主播用上最新的技術(shù),”賴立高說(shuō),“現(xiàn)在頭部主播自己有很多的投入,有很多的能力和工具,但這些能力難普及到中小主播,因此我們有第三方開(kāi)發(fā)者給他們提供幫助。”這也是虎牙小程序開(kāi)放平臺(tái)的意義與價(jià)值之一。
而幫助中小主播和公會(huì),也意味著對(duì)成本和門檻的要求。
由于數(shù)字虛擬人正處在驗(yàn)證市場(chǎng)過(guò)程中,因此虎牙技術(shù)團(tuán)隊(duì)一直在降低AI數(shù)字人的門檻,做到不用太高端的攝像頭等硬件也,可以將任意一名主播乃至觀眾的數(shù)字人形象重現(xiàn)出來(lái),這樣,在未來(lái)的直播中,主播和觀眾可能都是數(shù)字虛擬化的了,能像觀看現(xiàn)場(chǎng)演出一樣出現(xiàn)在同一個(gè)場(chǎng)景中。
“今天展示的AI技術(shù),把虛擬的數(shù)字人形象和現(xiàn)實(shí)中結(jié)合,我們現(xiàn)在看到的是從觀眾的維度,但從主播的內(nèi)容生產(chǎn)角度看,未來(lái)可能整個(gè)直播間內(nèi)無(wú)論是主播還是直播背景都是數(shù)字化的,觀眾信息可以虛擬化進(jìn)到里面,和主播在同一空間進(jìn)行游戲式的互動(dòng)。像玩云游戲一樣體驗(yàn)直播,這也許是AI+5G+AR在直播的最佳詮釋?!辟嚵⒏哒f(shuō)。
虎牙對(duì)直播寄予的不僅僅是娛樂(lè)能力。賴立高強(qiáng)調(diào),虎牙對(duì)直播的定義不是純娛樂(lè),直播的價(jià)值在于和行業(yè)的連接,具體是娛樂(lè)還是其他功能服務(wù),虎牙不會(huì)設(shè)定限制。
此外,在虎牙的直播互動(dòng)中,技術(shù)在平臺(tái)的運(yùn)營(yíng)上也時(shí)刻都在發(fā)揮著作用。比如談及推薦機(jī)制,賴立高感觸頗深:“信息流和短視頻的推薦邏輯相對(duì)清晰,原因在于內(nèi)容的生產(chǎn)和消費(fèi)是分開(kāi)的,用戶消費(fèi)的時(shí)候,內(nèi)容已經(jīng)是確定的,重點(diǎn)是選擇看什么。對(duì)直播推薦來(lái)說(shuō),復(fù)雜度更大,我們花了兩年時(shí)間去試錯(cuò),才尋找到比較合適的評(píng)估模型?!?/p>
鎖定優(yōu)秀AI人才
支撐龐大直播生態(tài)的技術(shù)體系,對(duì)人才的需求自然不低。
不過(guò),在技術(shù)人才的招聘方面,除了技術(shù)上的優(yōu)秀之外,虎牙也十分看重候選人對(duì)直播業(yè)務(wù)的熱情,以便形成技術(shù)閉環(huán)。
“我們認(rèn)為很多技術(shù)一定要形成閉環(huán),在過(guò)去我們看到AI,可能是做一個(gè)特定的東西,但是閉環(huán)會(huì)出問(wèn)題。我們花了很長(zhǎng)時(shí)間去探索AI在直播里起什么作用,怎么落地,我們的業(yè)務(wù)開(kāi)發(fā)部門會(huì)用AI去做內(nèi)容檢測(cè)、識(shí)別、推薦、風(fēng)控等,基本上常規(guī)業(yè)務(wù)系統(tǒng)都盡量去做智能決策,AI普及是比較廣的。核心是AI真正起到驅(qū)動(dòng)作用,這個(gè)地方如何形成閉環(huán),是一個(gè)系統(tǒng)工程,我們花了很長(zhǎng)時(shí)間去思考,以算力與網(wǎng)絡(luò)為突破口,去重構(gòu)直播的底層技術(shù)架構(gòu)。這對(duì)人才的專業(yè)能力與自驅(qū)力要求是非常高的?!辟嚵⒏哌@樣說(shuō)。
而落到實(shí)處,曾經(jīng)是騰訊T4的許佳有著宏大的想法,除了目前的視頻理解和視頻生成類算法人才,也正在朝著語(yǔ)音方面進(jìn)軍,“視覺(jué)和語(yǔ)音方面,我們對(duì)于優(yōu)秀的、有潛力的年輕人一直在積極的招募著,”這位虎牙AI的負(fù)責(zé)人坦言。