愛(ài)奇藝多模態(tài)技術(shù)沙龍 | 愛(ài)奇藝路香菊:視頻人物識(shí)別關(guān)鍵技術(shù)及其應(yīng)用
主講人 | 路香菊 愛(ài)奇藝科學(xué)家
張康 編輯整理
量子位編輯 | 公眾號(hào) QbitAI
近日,愛(ài)奇藝技術(shù)沙龍“多模態(tài)視頻人物識(shí)別的關(guān)鍵技術(shù)及應(yīng)用”成功舉辦,愛(ài)奇藝科學(xué)家路香菊出席并作出精彩分享。
路香菊博士,愛(ài)奇藝科學(xué)家,PersonAI團(tuán)隊(duì)負(fù)責(zé)人,專(zhuān)注人物識(shí)別及視頻分析,創(chuàng)建百萬(wàn)人物庫(kù)及兩萬(wàn)卡通庫(kù)。組織創(chuàng)辦“愛(ài)奇藝多模態(tài)視頻人物識(shí)別賽”,開(kāi)放全球首個(gè)影視視頻人物數(shù)庫(kù)iQIYI-VID。
以下為路香菊分享實(shí)錄:
今天給大家分享的主題是“愛(ài)奇藝多模態(tài)人物識(shí)別及其應(yīng)用”,主要有三個(gè)方面:
人物識(shí)別:主要指人的身份識(shí)別;
智能創(chuàng)作:優(yōu)質(zhì)信息流內(nèi)容是比較寶貴的,給大家分享AI在創(chuàng)作里的能力;
多模態(tài)AI競(jìng)賽:愛(ài)奇藝多模態(tài)視頻人物識(shí)別AI競(jìng)賽,以及iQIYI-VID人物視頻庫(kù)。
人物識(shí)別
人臉識(shí)別可能大家都不陌生,但人物識(shí)別并不等同于人臉識(shí)別。人物識(shí)別除了通過(guò)人臉識(shí)別,也可以采用其他技術(shù),比如說(shuō)人體(reID)、聲紋等。當(dāng)然愛(ài)奇藝主要是視頻資源,針對(duì)明星會(huì)采用人臉識(shí)別,針對(duì)動(dòng)漫等卡通劇,會(huì)采用虛擬人物識(shí)別。
這是愛(ài)奇藝人物識(shí)別簡(jiǎn)單的技術(shù)總藍(lán)圖,通過(guò)這張圖可以比較形象的認(rèn)識(shí)人物識(shí)別,分為FaceAI,BodyAI,AudioAI。
FaceAI是廣義的人臉識(shí)別,但是除了人臉,還包含更多屬性,如五官定位、是否戴眼鏡、表情,以及人臉質(zhì)量、姿態(tài)、顏值、種族等等之類(lèi)的,是廣義的人臉信息。
BodyAI除了我剛才說(shuō)的reID(人的姿態(tài)、身體特征),還可以通過(guò)服飾、職業(yè)、體型等屬性來(lái)確定一個(gè)人的身份。
AudioAI主要是指聲紋,比如音樂(lè)類(lèi)型,聲音類(lèi)型,音頻分類(lèi)等工作,是指比較立體的AI信息。
愛(ài)奇藝人臉識(shí)別模型
愛(ài)奇藝的人臉識(shí)別模型,除了人臉的身份之外,還有其屬性信息,目前線上跑的模型包含12個(gè)屬性,比工業(yè)界的其他公司模型要更全面。愛(ài)奇藝人臉識(shí)別與屬性模型十五合一,其每個(gè)屬性的指標(biāo)都在行業(yè)內(nèi)領(lǐng)先,一個(gè)模型可以同時(shí)識(shí)別身份屬性,且各項(xiàng)屬性的識(shí)別精度也比較高。
愛(ài)奇藝的人物庫(kù),包含120萬(wàn)名人,2萬(wàn)虛擬形象(卡通人物)。目前人臉識(shí)別精度最高的是ArcFace,可以達(dá)到99.8的精度。愛(ài)奇藝和ArcFace做過(guò)比較,是領(lǐng)先于它的。
愛(ài)奇藝的模型之所以達(dá)到這么高的精度,主要是因?yàn)槲覀冇幸粋€(gè)大規(guī)模的明星數(shù)據(jù)庫(kù),這個(gè)數(shù)據(jù)庫(kù)的噪聲小于0.02。
此外像分布式訓(xùn)練,還有量化、剪枝、蒸餾,還有CPU版本的OpenVINO優(yōu)化,也都是我們?cè)谶@個(gè)模型的尺寸大小上做的一些優(yōu)化的工作,這個(gè)模型一天可以分析2000以上的長(zhǎng)視頻,一個(gè)月可以分析幾十萬(wàn)的視頻總量。這對(duì)處理海量視頻是一個(gè)非常重要的一個(gè)指標(biāo)。
大家都比較熟悉這種表情包,愛(ài)奇藝這項(xiàng)技術(shù)實(shí)現(xiàn)了業(yè)內(nèi)首個(gè)表情和文案的自動(dòng)生成。一個(gè)長(zhǎng)視頻平均能提取出來(lái)100多個(gè)明星表情包,文案也是自動(dòng)生成的。除了明星,我們也在做卡通人物相關(guān)的實(shí)驗(yàn),可以做到40多個(gè)表情包。
目前生成對(duì)抗網(wǎng)絡(luò)的應(yīng)用較多,比如GAN生成的人臉?lè)浅1普?,其?shí)生成的人臉雖然在某些樣本上取得非常逼真的效果,但目前在標(biāo)題自動(dòng)生成、畫(huà)面自動(dòng)生成領(lǐng)域都還沒(méi)有十分成熟。舉例來(lái)說(shuō),生成卡通形象,有些生成的很好,但有時(shí)鼻子就跑到腦袋上了。
愛(ài)奇藝表情文案生成采用了配準(zhǔn)的方式。對(duì)于明星表情包,我們首先檢測(cè)出他的Action Unit,然后將AU的特征向量與GIF庫(kù)中的特征向量配準(zhǔn),再根據(jù)顏值、性別等信息,把相應(yīng)GIF上的文案放到明星的表情包上。配準(zhǔn)的效果要好很多,不會(huì)出現(xiàn)特別怪異的文字或畫(huà)面。
愛(ài)奇藝人臉識(shí)別的應(yīng)用
愛(ài)奇藝有海量的明星資源,需要把視頻的信息結(jié)構(gòu)化,需要知道視頻里人物的相關(guān)信息。下面分享幾個(gè)應(yīng)用場(chǎng)景。
“愛(ài)創(chuàng)媒資系統(tǒng)”應(yīng)用于后期制作,“藝匯”可應(yīng)用于導(dǎo)演智能選角。這兩個(gè)應(yīng)用在2018年分別獲得CCF科學(xué)技術(shù)進(jìn)步杰出獎(jiǎng)和優(yōu)秀獎(jiǎng)。
舉例說(shuō)明:
AI剪輯師綜藝的制作方式:有幾個(gè)人在舞臺(tái)上跳舞,臺(tái)下有很多機(jī)器進(jìn)行拍攝,而拍攝的視頻資源跟節(jié)目資源比例大約是1000:1以上。也就是說(shuō)你看到的一個(gè)小時(shí)的節(jié)目,后期制作人員要處理一千個(gè)小時(shí)以上的視頻素材。因此后期人員如果想在這大量的視頻素材中找到某個(gè)人的一些鏡頭,非常耗人力、耗時(shí)間。而通過(guò)人臉識(shí)別就可以快速實(shí)現(xiàn)某個(gè)人的鏡頭索引,還可以對(duì)其表情、首飾等打標(biāo)簽,實(shí)現(xiàn)視頻編目的自動(dòng)化。
在愛(ài)奇藝APP中,通過(guò)“只看Ta”功能,可以實(shí)現(xiàn)只看某個(gè)演員或者某對(duì)CP的功能,這是AI人物識(shí)別在愛(ài)奇藝的典型應(yīng)用之一。此外還有助于演員回顧自己演戲的內(nèi)容。
另一個(gè)應(yīng)用是AI雷達(dá)功能,用戶(hù)在看電視的時(shí)候,可以通過(guò)按遙控器識(shí)別畫(huà)面中的人物,識(shí)別同款服飾、車(chē)等實(shí)現(xiàn)商品的檢測(cè)。
智能創(chuàng)作
智能創(chuàng)作是一個(gè)非常綜合的AI應(yīng)用,想要讓AI生成一個(gè)觀賞性很強(qiáng)的視頻,需要我們對(duì)畫(huà)面、聲音、文本以及畫(huà)面效果等進(jìn)行綜合分析,才能產(chǎn)出比較有觀賞性的視頻。
人工剪輯視頻,需要在音頻素材、音樂(lè)類(lèi)型、海量視頻素材中挑選、剪輯,非常耗時(shí),而且不同剪輯師的差異非常大。
而AI更方便利用海量的素材,做成模板、量化生產(chǎn),而且可以實(shí)現(xiàn)任意技術(shù)的組合,能制作出很多不同風(fēng)格的視頻。
AIWorks可以實(shí)現(xiàn)根據(jù)劇本自動(dòng)搜索素材,智能生成符合某個(gè)話題的視頻集錦,支持不同畫(huà)面的不同輸出方式,如橫豎屏效果、自動(dòng)卡點(diǎn)配樂(lè)、臺(tái)詞集錦、CP 等。
比如臺(tái)詞搜索功能,涉及到的技術(shù)主要包括人臉識(shí)別、人臉表情等屬性識(shí)別、場(chǎng)景識(shí)別、服飾和職業(yè)識(shí)別、臺(tái)詞 OCR、NLP、聲音和音樂(lè)檢測(cè)、音樂(lè)節(jié)拍點(diǎn)提取、鏡頭切分、專(zhuān)場(chǎng)特效、視頻濾鏡等模態(tài)。
臺(tái)詞分析是很好的劇情統(tǒng)計(jì)解決方案,對(duì)與智能創(chuàng)作也非常有幫助。
漫威老爺子在他導(dǎo)演的100 多部大片中,均有幾秒鐘的客串鏡頭,如果想剪輯出只有他出現(xiàn)的鏡頭并拼接成短視頻,純?nèi)斯ぜ糨嫀煹墓ぷ髁亢凸ぷ麟y度有多大可想而知。但是AIWorks通過(guò)人物識(shí)別,可以在1分鐘內(nèi)完成,這也是AI的優(yōu)勢(shì)之一:AI可以在海量的素材中,精準(zhǔn)找到我們想要的特定內(nèi)容。
我們可以看到,上述智能創(chuàng)作應(yīng)用了非常多技術(shù),包括美學(xué)的,鏡頭切分的,人物識(shí)別的,表情分析的,音樂(lè)卡點(diǎn)的等等。一個(gè)完整的智能創(chuàng)作解決方案,基本上用到了目前所有的AI技術(shù)。
有很多人問(wèn)過(guò)我,AI是不是會(huì)取代剪輯師?我覺(jué)得這是永遠(yuǎn)不可能的。比如一些復(fù)雜場(chǎng)景的畫(huà)面,AI很難去理解其中的含義。人類(lèi)的創(chuàng)造力非常強(qiáng),AI取代不了高水準(zhǔn)的藝術(shù)家、創(chuàng)作師、內(nèi)容制作群體,但是AI可以幫助他們提高制作效率,創(chuàng)作出高品質(zhì)的作品。
愛(ài)奇藝AI競(jìng)賽
多模態(tài)技術(shù)和應(yīng)用難點(diǎn)
最后我介紹一下愛(ài)奇藝“多模態(tài)視頻人物識(shí)別挑戰(zhàn)賽”以及iQIYI-VID數(shù)據(jù)庫(kù)。
為什么多模態(tài)是必要的?通過(guò)上述介紹,可以發(fā)現(xiàn),單純的人臉識(shí)別,或者聲紋模型,或者五官定位,都只是單一的問(wèn)題。而我們希望AI能為我們提供一些solution,是技術(shù)的綜合使用。
目前國(guó)內(nèi)多模態(tài)研究的發(fā)展速度非??欤⑶胰〉昧艘欢ǖ倪M(jìn)展,但是還有非常大的發(fā)展空間。多模態(tài)信息之間怎么融合,如何訓(xùn)練、加速等問(wèn)題還在探索當(dāng)中。
因此愛(ài)奇藝從2018年開(kāi)始舉辦多模態(tài)人物識(shí)別競(jìng)賽,并發(fā)布了視頻數(shù)據(jù)庫(kù)iQIYI-VID,希望引起學(xué)術(shù)界對(duì)人物識(shí)別的持續(xù)關(guān)注和研究。借助iQIYI-VID數(shù)據(jù)集,可以拓展人臉識(shí)別技術(shù),推進(jìn)多模態(tài)人物識(shí)別技術(shù)創(chuàng)新,以解決大數(shù)據(jù)時(shí)代實(shí)際視頻媒體人物信息結(jié)構(gòu)化的需求,把更多的學(xué)術(shù)成果轉(zhuǎn)化成實(shí)際中的生產(chǎn)力。
愛(ài)奇藝多模態(tài)視頻人物識(shí)別挑戰(zhàn)賽
今年,愛(ài)奇藝與ACMMM聯(lián)合舉辦多模態(tài)挑戰(zhàn)賽,向全球參賽者開(kāi)放最接近實(shí)際媒體應(yīng)用場(chǎng)景的視頻人物數(shù)據(jù)集(iQIYI-VID-2019)。
數(shù)據(jù)集包含復(fù)雜場(chǎng)景下10000名明星人物、200小時(shí)、20萬(wàn)條影視劇與短視頻。經(jīng)過(guò)嚴(yán)格的人工標(biāo)注,抽樣精度大于99.8,有利于評(píng)價(jià)模型性能,也非常有挑戰(zhàn)性。
iQIYI-VID數(shù)據(jù)集在業(yè)界難度比較大,能夠給大家提供更好的發(fā)揮空間,并且參賽者在后續(xù)也可以發(fā)出很好的論文。去年Arcface的一個(gè)團(tuán)隊(duì)參加了愛(ài)奇藝多模態(tài)視頻人物識(shí)別挑戰(zhàn)賽,取得了第一名,并且今年發(fā)表了一篇論文,中了2019 CVPR的Oral Paper。
參加本次挑戰(zhàn)賽,能在視頻人物識(shí)別算法上利用頭部、聲音、人體等多模態(tài)特征融合信息和更少的模型,進(jìn)一步將精準(zhǔn)度提高,能夠在視頻人物身份識(shí)別技術(shù)上取得重要突破。
本次大賽,目前已有來(lái)自世界各地的235支隊(duì)伍參與報(bào)名。參賽隊(duì)伍有來(lái)自Nvidia、ReadSens、百度、科大訊飛,網(wǎng)易等公司的企業(yè)團(tuán)隊(duì),也不乏來(lái)自UCL、??巳卮髮W(xué)、清華大學(xué)、中科院等海內(nèi)外知名學(xué)府的高校團(tuán)隊(duì)。
iQIYI-VID-2019已于4月29日開(kāi)放結(jié)果入口,具體上傳方式參見(jiàn)Help_Document。文檔下載鏈接:http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7&tabIndex=1
本次大賽的報(bào)名截止日期為5月10日,歡迎有志團(tuán)隊(duì)把握好時(shí)間,報(bào)名參與。報(bào)名鏈接:http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7
— 完 —
誠(chéng)摯招聘
量子位正在招募編輯/記者,工作地點(diǎn)在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細(xì)節(jié),請(qǐng)?jiān)诹孔游还娞?hào)(QbitAI)對(duì)話界面,回復(fù)“招聘”兩個(gè)字。
量子位 QbitAI · 頭條號(hào)簽約作者
?’?’ ? 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)
- 天云數(shù)據(jù)CEO雷濤:從軟件到數(shù)件,AI生態(tài)如何建立自己的“Android”?| 量子位·視點(diǎn)分享回顧2022-03-23
- 火熱報(bào)名中丨2022實(shí)景三維創(chuàng)新峰會(huì)成都站將于4月13日召開(kāi)!2022-03-21
- 從軟件到數(shù)件,AI生態(tài)如何建立自己的“Android”?天云數(shù)據(jù)CEO直播詳解,可預(yù)約 | 量子位·視點(diǎn)2022-03-11
- 什么樣的AI制藥創(chuàng)企才能走得更遠(yuǎn)?來(lái)聽(tīng)聽(tīng)業(yè)內(nèi)怎么說(shuō)|直播報(bào)名2022-03-03