值得買科技與人大高瓴人工智能學(xué)院首個多模態(tài)領(lǐng)域聯(lián)合研究成果亮相CNCC2024
提升AIGC內(nèi)容生成尤其是聲音生成方面的質(zhì)量和智能化水平
允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
10月24-26日,2024中國計算機大會(簡稱CNCC2024)在橫店舉行。在24日的“AI+影視創(chuàng)作超級論壇”上,中國人民大學(xué)高瓴人工智能學(xué)院長聘副教授宋睿華圍繞與值得買科技合作的首個研究成果《TiVA: Time-aligned Video-to-Audio Generation》(《TiVA:時序同步的視頻到音頻生成》)進行了主題演講,具體闡述了該項技術(shù)能為內(nèi)容創(chuàng)作所帶來的突破性進展,提升了AIGC內(nèi)容生成尤其是聲音生成方面的質(zhì)量和智能化水平之外,也有望為AIGC內(nèi)容生成帶來更豐富的模態(tài)和更多想象空間。
本次大會由中國計算機學(xué)會主辦,是我國計算領(lǐng)域涉及面最廣、規(guī)模最大、影響力最強的學(xué)術(shù)、技術(shù)、教育和產(chǎn)業(yè)盛會。大會以“發(fā)展新質(zhì)生產(chǎn)力,計算引領(lǐng)未來”為主題,邀請圖靈獎獲得者、國內(nèi)外院士、國內(nèi)外計算機領(lǐng)域知名專家和教育家、企業(yè)家及專業(yè)人士匯聚一堂,共享學(xué)術(shù)新進展、應(yīng)用新技術(shù)、創(chuàng)意新理念,分享創(chuàng)新成果、展望前沿趨勢。
據(jù)悉,此次的研究成果《TiVA: Time-aligned Video-to-Audio Generation》,在今年7月還被國際多媒體學(xué)術(shù)會議(ACM International Conference on Multimedia 2024,簡稱ACM MM 2024)錄用,并被選為口頭報告,該會議由國際計算機協(xié)會(ACM)發(fā)起,是多媒體處理、分析與計算領(lǐng)域最具影響力的國際頂級會議。同時,此次研究成果已獲得國家發(fā)明專利授權(quán)(專利名稱:音頻生成方法、視頻生成方法、裝置、設(shè)備和介質(zhì),公開號ZL 202410613827.3)。
早在2023年6月,值得買科技就與中國人民大學(xué)高瓴人工智能學(xué)院宋睿華團隊達成合作,聚焦大模型、AI內(nèi)容創(chuàng)作等相關(guān)內(nèi)容研究。除TiVA外,雙方也將在近期發(fā)布面向電商領(lǐng)域的共享基座檢索增強架構(gòu)(BSharedRAG)、多模態(tài)知識增強的視覺信息查詢(MuKA)等多個AI研究成果。
此次TiVA研究成果主要聚焦在多模態(tài)內(nèi)容創(chuàng)作和交互領(lǐng)域。當前,視頻和音頻的同步生成一直是多模態(tài)內(nèi)容生成的技術(shù)挑戰(zhàn),大多數(shù)現(xiàn)有方法主要關(guān)注匹配視覺和聲音模態(tài)的語義,而無法在時間對齊上實現(xiàn)精確同步。值得買科技與中國人民大學(xué)宋睿華團隊通過深入研究,提出了新穎的時序同步的視頻到音頻生成框架-TiVA,該框架通過音頻布局的概念,實現(xiàn)了視頻內(nèi)容到音頻的高質(zhì)量生成。其核心在于音頻布局的創(chuàng)新使用,通過低分辨率的Mel頻譜圖來提供粗略的音頻結(jié)構(gòu)布局,幫助模型更好地理解和預(yù)測聲音的起始和結(jié)束時間,從而實現(xiàn)更精確的時間對齊。

(TiVA架構(gòu)圖和生成結(jié)果示例)
宋睿華具體闡釋了TiVA的實現(xiàn)路徑:通過新的音頻信息表征形式Audio Layout,即極低分辨率的梅爾譜,來表示音頻的粗粒度語義和時間信息。在一個無聲視頻中,可以先對其視覺語義進行編碼并預(yù)測Audio Layout,然后利用語義編碼和預(yù)測的Audio Layout作為條件信息,學(xué)習(xí)一個擴散模型生成音頻。“各項客觀和主觀實驗表明,我們的方法在生成質(zhì)量、語義匹配和時間同步精度方面優(yōu)于現(xiàn)有的SOTA方法。”宋睿華介紹。
在TiVA、BSharedRAG、MuKA等整個創(chuàng)新框架研究的過程中,值得買科技為研究提供了必要的集群算力支持和高質(zhì)量脫敏的數(shù)據(jù)支持;平臺積攢的大量真實用戶圖文、視頻等素材和全方位的用戶行為,也幫助研究人員獲取真實的消費互聯(lián)網(wǎng)驗證場景。實驗結(jié)果表明,TiVA在提高語義匹配和精確時間同步的同時,將生成速度加快了約40%。
宋睿華在現(xiàn)場表示,合作的研究項目不僅在技術(shù)上取得了突破,更在學(xué)術(shù)研究和實際應(yīng)用之間架起了一座橋梁。這離不開研究人員的專業(yè)和嚴謹,離不開值得買科技對學(xué)術(shù)研究的支持,相信這為學(xué)術(shù)界與產(chǎn)業(yè)界的合作樹立了典范,“希望雙方持續(xù)攜手探索AI的新邊界,為學(xué)術(shù)研究與創(chuàng)新應(yīng)用帶來更多價值?!?/p>
作為技術(shù)驅(qū)動型公司,值得買科技始終堅持以先進技術(shù)提升供需兩端的連接效率。值得買科技堅信,優(yōu)質(zhì)內(nèi)容具有不可替代的價值,在消費領(lǐng)域,不僅體現(xiàn)在助力消費者高效決策,也能有效幫助品牌與平臺建立用戶認知與認可。為此,值得買科技始終堅持以內(nèi)容為核心,以技術(shù)為驅(qū)動,而此次合作成果,正是以AI技術(shù)能力提升內(nèi)容創(chuàng)作水平的有機結(jié)合。
今年5月,值得買科技正式發(fā)布全面AI戰(zhàn)略,基于AI對現(xiàn)有業(yè)務(wù)、產(chǎn)品進行升級重塑,還利用AI重塑內(nèi)容生產(chǎn)流程、不斷提升內(nèi)容生產(chǎn)能力和質(zhì)量。在建設(shè)自身AI能力方面,值得買科技構(gòu)建了由“1個大模型、2個數(shù)據(jù)庫、3個引擎、4類應(yīng)用”組成的AI產(chǎn)品矩陣;并將“什么值得買APP”升級為“AI原生的什么值得買GEN2”,打造成一個“基于用戶的個性化興趣,應(yīng)用AI技術(shù)對全網(wǎng)消費內(nèi)容進行搜集、分析、提煉、推薦的消費內(nèi)容平臺”,借助AI主動為用戶提取和理解內(nèi)容、商品、價格等消費信息,基于用戶興趣給到消費者真正的“答案”。而已上線的AI購物助手“小值”,能深度理解用戶意圖的基礎(chǔ)上,總結(jié)全網(wǎng)實時消費經(jīng)驗與電商信息,提供口碑總結(jié)、商品對比、商品推薦、全網(wǎng)比價等服務(wù)
除了自身AI能力的持續(xù)提升外,值得買科技還注重連接外部多領(lǐng)域合作伙伴,共建“AI+興趣”雙輪驅(qū)動的消費生態(tài):在AI生態(tài)方面,與月之暗面、智譜華章、訊飛星火、MiniMax、騰訊云、百度云等通用大模型企業(yè)合作;在內(nèi)容生態(tài)方面,與36氪、汽車之家、省廣集團等進行合作;在產(chǎn)學(xué)研協(xié)同方面,與中國人民大學(xué)、南開大學(xué)、中歐國際工商學(xué)院、中央財經(jīng)大學(xué)商學(xué)院等高校聯(lián)合進行,共同探索AI創(chuàng)新協(xié)同新路徑,近期與人大共同研究的兩項AI創(chuàng)新成果也即將面世。
未來,值得買科技將堅持全面AI戰(zhàn)略,攜手更廣泛、更多領(lǐng)域的合作伙伴,共同探索AI在學(xué)術(shù)、技術(shù)、商業(yè)上的創(chuàng)新和應(yīng)用,共同推動AI生態(tài)創(chuàng)新協(xié)同發(fā)展,為創(chuàng)造消費信息自由流動的美好世界做出貢獻。
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18