值得買科技與人大高瓴人工智能學院首個多模態(tài)領域聯(lián)合研究成果亮相CNCC2024
提升AIGC內(nèi)容生成尤其是聲音生成方面的質(zhì)量和智能化水平
允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
10月24-26日,2024中國計算機大會(簡稱CNCC2024)在橫店舉行。在24日的“AI+影視創(chuàng)作超級論壇”上,中國人民大學高瓴人工智能學院長聘副教授宋睿華圍繞與值得買科技合作的首個研究成果《TiVA: Time-aligned Video-to-Audio Generation》(《TiVA:時序同步的視頻到音頻生成》)進行了主題演講,具體闡述了該項技術能為內(nèi)容創(chuàng)作所帶來的突破性進展,提升了AIGC內(nèi)容生成尤其是聲音生成方面的質(zhì)量和智能化水平之外,也有望為AIGC內(nèi)容生成帶來更豐富的模態(tài)和更多想象空間。
本次大會由中國計算機學會主辦,是我國計算領域涉及面最廣、規(guī)模最大、影響力最強的學術、技術、教育和產(chǎn)業(yè)盛會。大會以“發(fā)展新質(zhì)生產(chǎn)力,計算引領未來”為主題,邀請圖靈獎獲得者、國內(nèi)外院士、國內(nèi)外計算機領域知名專家和教育家、企業(yè)家及專業(yè)人士匯聚一堂,共享學術新進展、應用新技術、創(chuàng)意新理念,分享創(chuàng)新成果、展望前沿趨勢。
據(jù)悉,此次的研究成果《TiVA: Time-aligned Video-to-Audio Generation》,在今年7月還被國際多媒體學術會議(ACM International Conference on Multimedia 2024,簡稱ACM MM 2024)錄用,并被選為口頭報告,該會議由國際計算機協(xié)會(ACM)發(fā)起,是多媒體處理、分析與計算領域最具影響力的國際頂級會議。同時,此次研究成果已獲得國家發(fā)明專利授權(專利名稱:音頻生成方法、視頻生成方法、裝置、設備和介質(zhì),公開號ZL 202410613827.3)。
早在2023年6月,值得買科技就與中國人民大學高瓴人工智能學院宋睿華團隊達成合作,聚焦大模型、AI內(nèi)容創(chuàng)作等相關內(nèi)容研究。除TiVA外,雙方也將在近期發(fā)布面向電商領域的共享基座檢索增強架構(BSharedRAG)、多模態(tài)知識增強的視覺信息查詢(MuKA)等多個AI研究成果。
此次TiVA研究成果主要聚焦在多模態(tài)內(nèi)容創(chuàng)作和交互領域。當前,視頻和音頻的同步生成一直是多模態(tài)內(nèi)容生成的技術挑戰(zhàn),大多數(shù)現(xiàn)有方法主要關注匹配視覺和聲音模態(tài)的語義,而無法在時間對齊上實現(xiàn)精確同步。值得買科技與中國人民大學宋睿華團隊通過深入研究,提出了新穎的時序同步的視頻到音頻生成框架-TiVA,該框架通過音頻布局的概念,實現(xiàn)了視頻內(nèi)容到音頻的高質(zhì)量生成。其核心在于音頻布局的創(chuàng)新使用,通過低分辨率的Mel頻譜圖來提供粗略的音頻結構布局,幫助模型更好地理解和預測聲音的起始和結束時間,從而實現(xiàn)更精確的時間對齊。

(TiVA架構圖和生成結果示例)
宋睿華具體闡釋了TiVA的實現(xiàn)路徑:通過新的音頻信息表征形式Audio Layout,即極低分辨率的梅爾譜,來表示音頻的粗粒度語義和時間信息。在一個無聲視頻中,可以先對其視覺語義進行編碼并預測Audio Layout,然后利用語義編碼和預測的Audio Layout作為條件信息,學習一個擴散模型生成音頻?!案黜椏陀^和主觀實驗表明,我們的方法在生成質(zhì)量、語義匹配和時間同步精度方面優(yōu)于現(xiàn)有的SOTA方法?!彼晤HA介紹。
在TiVA、BSharedRAG、MuKA等整個創(chuàng)新框架研究的過程中,值得買科技為研究提供了必要的集群算力支持和高質(zhì)量脫敏的數(shù)據(jù)支持;平臺積攢的大量真實用戶圖文、視頻等素材和全方位的用戶行為,也幫助研究人員獲取真實的消費互聯(lián)網(wǎng)驗證場景。實驗結果表明,TiVA在提高語義匹配和精確時間同步的同時,將生成速度加快了約40%。
宋睿華在現(xiàn)場表示,合作的研究項目不僅在技術上取得了突破,更在學術研究和實際應用之間架起了一座橋梁。這離不開研究人員的專業(yè)和嚴謹,離不開值得買科技對學術研究的支持,相信這為學術界與產(chǎn)業(yè)界的合作樹立了典范,“希望雙方持續(xù)攜手探索AI的新邊界,為學術研究與創(chuàng)新應用帶來更多價值。”
作為技術驅動型公司,值得買科技始終堅持以先進技術提升供需兩端的連接效率。值得買科技堅信,優(yōu)質(zhì)內(nèi)容具有不可替代的價值,在消費領域,不僅體現(xiàn)在助力消費者高效決策,也能有效幫助品牌與平臺建立用戶認知與認可。為此,值得買科技始終堅持以內(nèi)容為核心,以技術為驅動,而此次合作成果,正是以AI技術能力提升內(nèi)容創(chuàng)作水平的有機結合。
今年5月,值得買科技正式發(fā)布全面AI戰(zhàn)略,基于AI對現(xiàn)有業(yè)務、產(chǎn)品進行升級重塑,還利用AI重塑內(nèi)容生產(chǎn)流程、不斷提升內(nèi)容生產(chǎn)能力和質(zhì)量。在建設自身AI能力方面,值得買科技構建了由“1個大模型、2個數(shù)據(jù)庫、3個引擎、4類應用”組成的AI產(chǎn)品矩陣;并將“什么值得買APP”升級為“AI原生的什么值得買GEN2”,打造成一個“基于用戶的個性化興趣,應用AI技術對全網(wǎng)消費內(nèi)容進行搜集、分析、提煉、推薦的消費內(nèi)容平臺”,借助AI主動為用戶提取和理解內(nèi)容、商品、價格等消費信息,基于用戶興趣給到消費者真正的“答案”。而已上線的AI購物助手“小值”,能深度理解用戶意圖的基礎上,總結全網(wǎng)實時消費經(jīng)驗與電商信息,提供口碑總結、商品對比、商品推薦、全網(wǎng)比價等服務
除了自身AI能力的持續(xù)提升外,值得買科技還注重連接外部多領域合作伙伴,共建“AI+興趣”雙輪驅動的消費生態(tài):在AI生態(tài)方面,與月之暗面、智譜華章、訊飛星火、MiniMax、騰訊云、百度云等通用大模型企業(yè)合作;在內(nèi)容生態(tài)方面,與36氪、汽車之家、省廣集團等進行合作;在產(chǎn)學研協(xié)同方面,與中國人民大學、南開大學、中歐國際工商學院、中央財經(jīng)大學商學院等高校聯(lián)合進行,共同探索AI創(chuàng)新協(xié)同新路徑,近期與人大共同研究的兩項AI創(chuàng)新成果也即將面世。
未來,值得買科技將堅持全面AI戰(zhàn)略,攜手更廣泛、更多領域的合作伙伴,共同探索AI在學術、技術、商業(yè)上的創(chuàng)新和應用,共同推動AI生態(tài)創(chuàng)新協(xié)同發(fā)展,為創(chuàng)造消費信息自由流動的美好世界做出貢獻。
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18