多模態(tài)大咖齊刷刷翻開小紅書
4月20日19:00,由小紅書技術(shù)團(tuán)隊出品的直播節(jié)目,眾多技術(shù)大咖詳細(xì)講解多模態(tài)技術(shù)應(yīng)用,速來圍觀~
在現(xiàn)實世界中,人類通過綜合運用視覺、聽覺、觸覺、嗅覺等多種感官,來接觸和理解大千世界。我們通過不同感官獲得的信息,就是天然地以”多模態(tài)”形式存在的。
從這個意義上說,人工智能的發(fā)展就是向人的智能靠近的過程。多模態(tài)學(xué)習(xí)是一個繞不開的發(fā)展方向。
多模態(tài)學(xué)習(xí)帶來全新應(yīng)用場景
在互聯(lián)網(wǎng)信息爆發(fā)且形式愈加豐富的時代,圖文及短視頻內(nèi)容在互聯(lián)網(wǎng)內(nèi)容中所占比例不斷提高。單一模態(tài),往往難以提供對圖文、視頻等信息的完整描述。與此同時,在應(yīng)用領(lǐng)域?qū)?nèi)容的理解貫穿了整個搜索、推薦系統(tǒng)。
正如,我們已經(jīng)習(xí)慣在購物APP上用“識圖”代替文字搜索;在智能家居領(lǐng)域,語音交互、手勢交互正在成為流行趨勢;與智能機(jī)器人的交流也不再是機(jī)械式的文字對話,而進(jìn)入到更深層次的語音理解、圖片理解階段。
我們需要從多個粒度去理解內(nèi)容,如何融合多個模態(tài)的特征信息,逐漸成為多個領(lǐng)域廣泛存在的新挑戰(zhàn)。因此,關(guān)注多模態(tài)技術(shù)的發(fā)展已經(jīng)是當(dāng)今學(xué)界和工業(yè)界的共識。
如今的挑戰(zhàn)
盡管多模態(tài)從上個世紀(jì)70年代誕生至今,經(jīng)歷了幾十年的發(fā)展,但在當(dāng)下的工業(yè)界多模態(tài)的落地依然面臨著諸多挑戰(zhàn),以致于一些場景呈現(xiàn)“偽多模態(tài)”的應(yīng)用狀態(tài),從而影響了用戶體驗——
- “語義鴻溝”依然存在;
- 如何掌握大量匹配的多模態(tài)數(shù)據(jù);
- 多模態(tài)信息中的不確定性;
- 不同模態(tài)之間的精細(xì)對齊;
- 多模態(tài)預(yù)訓(xùn)練的有效架構(gòu)等等。
所以,如今當(dāng)學(xué)界和業(yè)界再次高度聚焦多模態(tài)的時候,究竟在討論什么?
大咖解讀等你來聽
4月20日19:00,由小紅書技術(shù)團(tuán)隊出品的直播節(jié)目「REDtech 來了」第一期就將圍繞多模態(tài)話題開講。
歡迎關(guān)注“小紅書技術(shù)團(tuán)隊視頻號”預(yù)約
上半期小紅書技術(shù)團(tuán)隊邀請到了來自上海交通大學(xué)電子信息與電氣工程學(xué)院副教授、博導(dǎo)謝偉迪,北京航空航天大學(xué)教授、博導(dǎo)劉偲,上??萍即髮W(xué)信息學(xué)院副教授、博導(dǎo)高盛華就多模態(tài)內(nèi)容理解的相關(guān)研究展開分享。
預(yù)計在4月27日舉辦的下半期直播將聚焦多模態(tài)理解與創(chuàng)作,中國科學(xué)院自動化所研究員赫然,浙江大學(xué)“百人計劃”研究員、博導(dǎo)周曉巍,悉尼理工科技大學(xué)ReLER實驗室講師朱朝霖,將接棒帶來學(xué)界對多模態(tài)的最新研究成果。
上述高校學(xué)者將分享“跨模態(tài)圖像內(nèi)容理解和視頻生成”,“語言指導(dǎo)的視覺定位”,“多模態(tài)視覺內(nèi)容生成”,“多模態(tài)檢索、定位與生成的方法”,“便捷的三維數(shù)字化技術(shù)”,“自監(jiān)督學(xué)習(xí)在多模態(tài)內(nèi)容理解中的技術(shù)與應(yīng)用”等議題,歡迎到直播間互動提問!
解鎖小紅書多模態(tài)密碼
除此之外,小紅書多模算法組負(fù)責(zé)人湯神也將以小紅書的實踐為例,重點介紹小紅書在內(nèi)容質(zhì)量評價、多模態(tài)搜索與交易內(nèi)容理解等領(lǐng)域?qū)Χ嗄B(tài)技術(shù)的探索與研發(fā)應(yīng)用。
小紅書智能算法組負(fù)責(zé)人張德兵則會帶來多模態(tài)技術(shù)在智能創(chuàng)作中的應(yīng)用和挑戰(zhàn),一同探討如何讓理解更精細(xì),讓創(chuàng)作更有個性化、多樣性、表現(xiàn)力、便捷性。
作為國內(nèi)獨樹一幟的內(nèi)容社區(qū),截至2021年10月,小紅書月活躍用戶數(shù)已經(jīng)超過2億。如何處理和理解如此大規(guī)模的UGC內(nèi)容,進(jìn)行更精準(zhǔn)高效的分發(fā),正是多模態(tài)技術(shù)最大的應(yīng)用方向之一。
還可以看到,目前國內(nèi)的互聯(lián)網(wǎng)應(yīng)用中,小紅書的內(nèi)容以圖文筆記和短視頻為主流,每天都會產(chǎn)生大規(guī)模的分享筆記,以及海量的用戶即時行為。這給多模態(tài)人機(jī)交互留下了很大的想象空間。
這種生態(tài)中誕生了非常多的有價值、且極具有挑戰(zhàn)的問題,涉及到視覺、NLP、音頻、用戶行為等多個模態(tài)信息的理解和綜合利用。因此,小紅書也是討論如何更好定義多模態(tài),和充分發(fā)揮多模態(tài)核心價值的絕佳實踐場景。
對內(nèi)容的多模態(tài)理解貫穿了小紅書整個搜索、推薦與交易系統(tǒng)。目前小紅書技術(shù)團(tuán)隊已經(jīng)在短視頻理解、內(nèi)容質(zhì)量評價、多模態(tài)檢索、交易內(nèi)容理解、三維數(shù)字化、智能創(chuàng)作等領(lǐng)域?qū)Χ嗄B(tài)技術(shù)展開了研發(fā)應(yīng)用。
獨一無二的社區(qū)生態(tài),廣泛、復(fù)雜、高實時、真實的用戶場景,海量的多模態(tài)數(shù)據(jù),復(fù)雜多變的即時性用戶行為,這些因素共同創(chuàng)造了小紅書在多模態(tài)實踐方面得天獨厚的優(yōu)勢。小紅書的創(chuàng)新和探索也將為多模態(tài)的真正落地提供新的方向和范式。
關(guān)注【小紅書技術(shù)團(tuán)隊】,準(zhǔn)時開播,不見不散。
我們將在微信群內(nèi)發(fā)布直播鏈接、嘉賓演講精華和抽獎活動, 可提問互動,問題有機(jī)會被嘉賓pick解答哦。
專屬簡歷投遞入口:
REDtech@xiaohongshu.com
— 完 —
- 超詳細(xì)!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠(yuǎn)發(fā)布CASIVIBOT,以九年積累開啟AOI與機(jī)器人協(xié)同的品質(zhì)檢測新時代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機(jī)器人全產(chǎn)業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16