騰訊微視AI新技術(shù)曝光:斬獲VCR榜單第一
模型大小相當于多模型中的單個模型
楊凈 蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
近日,視覺常識推理任務(wù)VCR(Visual Commonsense Reasoning)榜單又被刷新了。
VCR是華盛頓大學(xué)研究人員2018年提出的推理任務(wù),是多模態(tài)理解領(lǐng)域最權(quán)威的排行榜之一。它不僅要求模型識別出圖中人物的屬性和關(guān)系,還需要在此基礎(chǔ)上,去進一步推理人物的意圖等。
騰訊微視視頻理解團隊在多模態(tài)領(lǐng)域長期耕耘,此次以BLENDer單模型,奪得高分「81.6,86.4,70.8」,占領(lǐng)榜首。據(jù)團隊介紹,BLENDer研發(fā)時間不到3個月。
百度微軟曾稱霸的VCR榜單被微視刷新
傳統(tǒng)的視覺問答(VQA)任務(wù)主要面向識別(recognition)層面的問題,例如,「一張圖里有幾個橘子?」
而VCR的目標是將識別提升到認知(cognition),例如「為什么人物4指向人物1?」,更進一步,計算機在第一步做出答案選擇之后,還要在第二步解釋選擇這個答案的理由(rationale)。如下圖分別展示了這兩步的問題和答案選項。
這就要求機器同時理解圖像中的視覺內(nèi)容以及問題對應(yīng)的文本內(nèi)容。
目前,VCR榜單上的任務(wù)給出的場景圖片有11萬張,問題一共有29萬個。而給出的問題,都需要對圖片中的人物和場景進行一定程度的理解和推理,才能得到正確的答案。
正因如此,VCR任務(wù)對機器的多模態(tài)理解和推導(dǎo)能力提出了相當大的挑戰(zhàn),是當前圖像理解和多模態(tài)領(lǐng)域層次最深、門檻最高的任務(wù)之一。
在此之前,包括谷歌、Facebook、微軟、百度在內(nèi)的很多企業(yè)和團隊曾參與VCR競賽,但以往最好效果都是基于多模型融合,包括百度(15個模型)、微軟(10個模型)。騰訊微視的BLENDer單模型超越了此前榜單上的多模型提交結(jié)果,讓這項技術(shù)有了更強的應(yīng)用價值。
騰訊微視如何憑單模型霸榜?
團隊參賽成員介紹到,BLENDer是在流行的視覺-語言Bert模型的基礎(chǔ)上進行了改進。
△BLENDer第一階段算法模型
訓(xùn)練主要分為三個階段:
- 以NLP BERT為起點,采用150萬張圖像+文本,采用詞語/物體掩膜等技術(shù),進行預(yù)訓(xùn)練,使模型能夠?qū)W習(xí)到圖像和文本兩個模態(tài)的語義信息和關(guān)聯(lián)。
- 在VCR數(shù)據(jù)集上進行類似第一階段的預(yù)訓(xùn)練,使模型熟悉VCR的圖像和語料,為第三階段的特定任務(wù)訓(xùn)練做準備。
- 針對最終的視覺常識推理任務(wù),進行微調(diào)訓(xùn)練。
為了同時在VCR榜單要求的三個任務(wù)上做到性能最優(yōu),騰訊微視在模型中額外加入了人物-物體的關(guān)系推理部分。該模型的速度和大小都很優(yōu)秀:BLENDer模型在運算速度方面,每秒鐘可以推理50-60張圖片。而且,這一個模型的大小約為1.3G,只相當于其他團隊多融合模型中的單個模型。
在模型訓(xùn)練的過程中,該團隊也解決了很多難題。
例如,在第一和第二階段的預(yù)訓(xùn)練,團隊為每一個子任務(wù)設(shè)計了權(quán)重和訓(xùn)練參數(shù)能夠自動調(diào)節(jié)的算法機制。讓模型能夠有效地從各個任務(wù)中學(xué)到有價值信息。
為了讓模型能夠更加有的放矢地訓(xùn)練,團隊設(shè)計了更有針對性的文本和圖像的掩膜技術(shù),提升了重要詞匯和物體的預(yù)測精度。
而只是預(yù)訓(xùn)練效果好,還不夠。在最終的任務(wù)訓(xùn)練時,模型又出現(xiàn)了過擬合現(xiàn)象。為了解決過擬合的問題,團隊用反向翻譯技術(shù)對文本進行了擴增,還加入了對抗噪聲進行訓(xùn)練。
騰訊微視團隊還透露,目前團隊還在對模型進行優(yōu)化,也是為了日后更好地將模型應(yīng)用到業(yè)務(wù)中。而BLENDer模型,還不是該團隊的最優(yōu)模型。
本次競賽奪得榜首,得益于技術(shù)方案的創(chuàng)新、以及團隊長期基于短視頻業(yè)務(wù)場景所積累的海量跨模態(tài)數(shù)據(jù)。
微視語義理解團隊輸出的多項技術(shù),已經(jīng)應(yīng)用在包括審核、推薦、多媒體信息挖掘等多個微視業(yè)務(wù)場景中,此次的BLENDer方案賦予了機器更強大的理解和認知能力,將進一步推動AI技術(shù)在短視頻業(yè)務(wù)中智能交互場景的落地。
在更好地服務(wù)產(chǎn)品的同時,團隊也計劃向業(yè)界開源相關(guān)技術(shù)方案,助力多模態(tài)語義理解領(lǐng)域的技術(shù)研究和落地,進一步提高AI能力的通用性。
據(jù)了解,騰訊微視技術(shù)團隊關(guān)于AI相關(guān)研究還有很多,也希望吸引更多技術(shù)精英人才加入。