讓AI學(xué)會(huì)“哦買(mǎi)尬,買(mǎi)它!”,清北中科院CMU爭(zhēng)相角逐頂會(huì)Workshop競(jìng)賽,淘系技術(shù)&浙大聯(lián)手舉辦
淘系技術(shù)還開(kāi)源大型數(shù)據(jù)集
蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
看場(chǎng)直播或視頻,結(jié)果卻看中了主播的衣服、褲子甚至裙子?
現(xiàn)在,你不再需要手動(dòng)截圖識(shí)別了——
已經(jīng)有人將AI用在直播商品識(shí)別技術(shù)中,幫你自動(dòng)“挑出”其中的商品。
為了提升AI識(shí)別直播商品的準(zhǔn)確率,阿里淘系技術(shù)聯(lián)手浙江大學(xué),在全球頂會(huì)ACM MM 2021的Workshop上搞了個(gè)AI識(shí)別大賽,甚至拿出1萬(wàn)美金(6.3萬(wàn)人民幣)獎(jiǎng)勵(lì)TOP 3。
來(lái)自清華、北大、中科院、CMU、浙大、哈工大、華科等高校的587支隊(duì)伍紛紛參賽,力圖研究出更好的算法。
最終,來(lái)自中科院計(jì)算所的「mcg」奪得冠軍,來(lái)自北大、南京大學(xué)、湖南大學(xué)的「寫(xiě)的代碼都隊(duì)」奪得亞軍,來(lái)自中南大學(xué)、DGUT和華南理工大學(xué)的「百億補(bǔ)貼matchmatchmatch」獲得第三名。
這場(chǎng)比賽究竟比了些什么,背后的Workshop又有些什么內(nèi)容?
我們一起來(lái)看看。
多模態(tài)技術(shù)識(shí)別主播帶貨
相比于用一張截圖進(jìn)行商品識(shí)別,直播的商品識(shí)別還需要考慮更多因素。
從難度來(lái)看,直播時(shí)主播并非完全不動(dòng),而是會(huì)走動(dòng)、轉(zhuǎn)動(dòng)來(lái)展示商品的形態(tài),衣服非常容易發(fā)生形變、模糊;
同時(shí),畫(huà)面背景中還存在其它衣服的干擾、同時(shí)還可能面臨直播遮擋、服裝相似等問(wèn)題。
從優(yōu)勢(shì)來(lái)看,直播時(shí)呈現(xiàn)給AI的信息量也會(huì)更多,包括主播的語(yǔ)音、帶貨商品標(biāo)題等,都會(huì)在畫(huà)面直播的同時(shí)呈現(xiàn)出來(lái)。
如果能結(jié)合語(yǔ)音識(shí)別,通過(guò)多模態(tài)技術(shù)增加模型輸入信息量,就能有效提升商品檢索的準(zhǔn)確率。
具體來(lái)說(shuō),直播商品識(shí)別的過(guò)程是這樣的:
首先,對(duì)輸入的視頻解析成視頻幀,再利用AI目標(biāo)檢測(cè)進(jìn)行商品識(shí)別;
然后,再?gòu)囊曨l中提取出語(yǔ)音進(jìn)行AI語(yǔ)音識(shí)別,利用AI模型提取出有用的商品描述信息。
最后,利用多模態(tài)獲取的信息,在商品數(shù)據(jù)集中進(jìn)行檢索,預(yù)測(cè)出最合適的商品,并給出對(duì)應(yīng)的標(biāo)簽。
為了讓選手們更好地識(shí)別商品,淘系技術(shù)還通過(guò)這個(gè)Workshop,開(kāi)源了業(yè)界首個(gè)大規(guī)模的多模態(tài)視頻商品檢索數(shù)據(jù)集,包括50000對(duì)匹配的視頻片段。
其中,這些視頻片段都是從淘寶直播和產(chǎn)品商店的直播中提取的。
標(biāo)注也非常詳細(xì),包括產(chǎn)品類別、邊界框、視點(diǎn)類型、展示類型、實(shí)例ID、標(biāo)題描述和語(yǔ)音識(shí)別文本都有所涉及。
事實(shí)上,這已經(jīng)不是淘系技術(shù)第一次舉辦這項(xiàng)比賽了。
中科院再次奪冠
這場(chǎng)今年4月27日發(fā)起的比賽,是第二屆淘寶直播商品大賽。
這是一個(gè)多模態(tài)領(lǐng)域的國(guó)際挑戰(zhàn)賽,由阿里巴巴淘系技術(shù)聯(lián)合浙江大學(xué)教授莊越挺、悉尼科技大學(xué)教授楊易、天津大學(xué)教授韓亞洪等國(guó)內(nèi)外知名學(xué)者發(fā)起。
相比于第一屆大賽,第二屆大賽在賽題設(shè)計(jì)上,主要做了兩點(diǎn)改進(jìn):
- 注重全類別的識(shí)別效果,尤其是長(zhǎng)尾的商品類別、視覺(jué)紋理簡(jiǎn)單商品的識(shí)別等
- 強(qiáng)調(diào)多模態(tài)等信息(主播講解語(yǔ)音、商品標(biāo)題),對(duì)精確識(shí)別視覺(jué)相似講解商品的重要性
也就是說(shuō),這屆AI模型考驗(yàn)的不止是某幾種商品的識(shí)別準(zhǔn)確率,而是AI對(duì)直播中商品的“整體理解能力”。
除了看清楚商品以外,AI還需要知道這是哪種類別的商品,并盡可能收集視頻中的各種信息,包括語(yǔ)音信息等,來(lái)確認(rèn)自己看到的是哪一種商品。
同時(shí),由于這次更注重長(zhǎng)尾商品類別的識(shí)別,因?yàn)楦黝悇e數(shù)據(jù)集的大小不一樣,評(píng)估方式自然也要有所變化。
這里采用了Macro F1的評(píng)估標(biāo)準(zhǔn),計(jì)算方法如下:
比賽也需要通過(guò)預(yù)賽、半決賽和決賽三場(chǎng)比賽,從最初的提交結(jié)果中依次篩選出20支和10支隊(duì)伍,進(jìn)行最終的測(cè)試集測(cè)試,并進(jìn)行復(fù)現(xiàn)。
最終,來(lái)自中科院計(jì)算所的「mcg」從587支隊(duì)伍中脫穎而出,取得了0.69的高分,超過(guò)baseline 0.22,排名TOP 3的三支隊(duì)伍評(píng)估分?jǐn)?shù)也均超過(guò)0.6。
而在第一屆淘寶直播商品識(shí)別大賽中,同樣也是來(lái)自中科院和吉林大學(xué)的隊(duì)伍奪得冠軍。
這場(chǎng)比賽的目的,是希望能推動(dòng)電商直播場(chǎng)景中多模態(tài)商品檢索識(shí)別的研究、以及AI技術(shù)在實(shí)際應(yīng)用場(chǎng)景中的落地。
當(dāng)然,除了這一場(chǎng)比賽之外,在ACM MM 2021的Workshop中,還有不少收獲。
共收錄5篇論文
一方面,在論文征集部分,這次Workshop一共接收了5篇論文,包括兩篇long paper,三篇short paper:
此外,還有不少AI領(lǐng)域的教授也在這次Workshop上做了演講,其中就包括新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)院的KITHCT講座教授Tat-Seng Chua、北京航空航天大學(xué)的劉偲副教授、悉尼科技大學(xué)青年研究員朱霖潮、淘系技術(shù)高級(jí)算法專家陳志文。
除此之外,來(lái)自中科院、北大、中南大學(xué)、清華、華中科技大學(xué)的五位同學(xué)也在這場(chǎng)Workshop上進(jìn)行了口頭報(bào)告,分享了他們的參賽方案和成果。
對(duì)于這次Workshop的目的,阿里巴巴淘系技術(shù)資深算法專家李曉波表示:
這次Workshop通過(guò)提供真實(shí)的多模態(tài)商品識(shí)別的應(yīng)用場(chǎng)景、數(shù)據(jù),希望能夠促進(jìn)更多學(xué)術(shù)和工業(yè)的結(jié)合,激發(fā)更多創(chuàng)新研究和技術(shù)落地。
對(duì)這個(gè)場(chǎng)景感興趣的小伙伴,可以在下方地址中獲取開(kāi)源數(shù)據(jù)集~
淘寶直播多媒體商品識(shí)別數(shù)據(jù)集:
https://tianchi.aliyun.com/competition/entrance/531893/information
參考鏈接:
https://tianchi.aliyun.com/competition/entrance/531893/introduction