媒體基礎(chǔ):打開(kāi)多模態(tài)大模型的新思路
彌合真實(shí)世界與抽象語(yǔ)義之間的鴻溝
我們希望人工智能能夠像人類(lèi)一樣,從現(xiàn)實(shí)世界的視頻、音頻等媒介中獲得知識(shí)和智能。為了實(shí)現(xiàn)這一目標(biāo),我們需要將復(fù)雜而含有噪音的現(xiàn)實(shí)世界,轉(zhuǎn)化為能夠捕獲世界本質(zhì)信息和動(dòng)態(tài)變化的抽象表示。微軟亞洲研究院正在探索多媒體與人工智能的協(xié)同發(fā)展,從對(duì)媒體基礎(chǔ)(Media Foundation)的創(chuàng)新研究中找到新的突破口,這一探索將為多模態(tài)大模型的研究帶來(lái)新的思路。
——呂巖,微軟亞洲研究院全球研究合伙人

呂巖
自1956年達(dá)特茅斯會(huì)議提出“人工智能”一詞,人類(lèi)足足用了近70年的時(shí)間,才積累了足夠的技術(shù)和資源促成人工智能的爆發(fā)。而當(dāng)我們跨過(guò)“臨界點(diǎn)”,大語(yǔ)言模型(LLMs)在自然語(yǔ)言理解、語(yǔ)音識(shí)別、圖像生成等方面展現(xiàn)出的一系列巨大進(jìn)步令人目不暇接。隨著ChatGPT、DALL-E等應(yīng)用的出現(xiàn),我們看到人工智能開(kāi)始展現(xiàn)出更復(fù)雜的能力,比如觀(guān)察、學(xué)習(xí)和理解真實(shí)世界,并進(jìn)一步實(shí)現(xiàn)推理和創(chuàng)造。
如今我們對(duì)人工智能有了更高的期待。我們不僅希望人工智能能夠進(jìn)行創(chuàng)作,也希望它能如同人類(lèi)一樣,通過(guò)各種渠道從真實(shí)世界中獲取知識(shí)、實(shí)現(xiàn)成長(zhǎng)。然而人工智能與人類(lèi)的認(rèn)知能力還有很大的差距:人腦能夠接收和解析物理世界的絕大多數(shù)現(xiàn)象,如視頻、聲音、語(yǔ)言、文字等,并將其抽象為可保存和積累的信息、知識(shí)或技能。而能完成通用任務(wù)的多模態(tài)人工智能模型,卻還處在蹣跚學(xué)步的早期階段。
我們希望人工智能能夠從現(xiàn)實(shí)世界的數(shù)據(jù)中進(jìn)行學(xué)習(xí)和迭代。然而如何在復(fù)雜且充滿(mǎn)噪聲的真實(shí)世界和人工智能所處在的抽象語(yǔ)義世界之間架起橋梁呢?是否可以為不同類(lèi)型媒體信息構(gòu)建與自然語(yǔ)言平行的,另一種可被人工智能學(xué)習(xí)理解的語(yǔ)言?我認(rèn)為這是非常值得探索的方向。我和微軟亞洲研究院的同事們正致力于從神經(jīng)編解碼器(Neural Codec)入手,構(gòu)建一個(gè)全面的媒體基礎(chǔ)(Media Foundation)框架,通過(guò)提取真實(shí)世界中不同媒體內(nèi)容的表征,形成可被人工智能理解的語(yǔ)義,從而彌合真實(shí)世界與抽象語(yǔ)義之間的鴻溝,為多模態(tài)人工智能研究開(kāi)啟一扇新的大門(mén)。
打破復(fù)雜真實(shí)世界與抽象語(yǔ)義之間的壁壘
人類(lèi)之所以能成為無(wú)出其右的卓越“學(xué)習(xí)者”,是因?yàn)槿祟?lèi)能通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)和語(yǔ)言等多種方式來(lái)觀(guān)察物理世界并與之互動(dòng),從中汲取廣泛的技能和知識(shí),從而不斷提高我們的智能水平。我們希望能將人類(lèi)的這一特征“復(fù)制”到人工智能身上,使其能夠從豐富的真實(shí)世界數(shù)據(jù)中進(jìn)行學(xué)習(xí)和迭代。
目前絕大多數(shù)人工智能大模型的基座模型都建立在大語(yǔ)言模型之上,通過(guò)抽象、緊湊的文本表達(dá)來(lái)獲得對(duì)世界的認(rèn)知。雖然人們陸續(xù)研發(fā)出針對(duì)不同媒體形式的預(yù)訓(xùn)練模型,但它們并不能充分反映真實(shí)世界的動(dòng)態(tài)變化。來(lái)自物理世界的視頻和音頻信號(hào)是復(fù)雜且充滿(mǎn)噪聲的,我們需要找到一種有效方法,將其轉(zhuǎn)換為能夠捕獲真實(shí)世界本質(zhì)信息和動(dòng)態(tài)變化的抽象表示。
過(guò)去一段時(shí)間,我和微軟亞洲研究院的同事們一直在探索與大語(yǔ)言模型平行的人工智能發(fā)展之路。多媒體研究立足于捕捉、壓縮、解釋、重構(gòu)和生成各種模態(tài)的媒體中的豐富信息,如圖像、視頻、音頻和文本等,并自然而然地將復(fù)雜而嘈雜的真實(shí)世界轉(zhuǎn)化為一種抽象表示。我們希望這種抽象表示具有三方面的特性:富有語(yǔ)義、緊湊的大小和信息的完整保留。如果能在該領(lǐng)域有所突破,是否就可以為視頻、音頻等多媒體信號(hào)和抽象且語(yǔ)義化的人工智能模型之間搭建橋梁?
于是我們產(chǎn)生了這樣的想法:建立一個(gè)全面的媒體基礎(chǔ)框架,通過(guò)神經(jīng)編解碼器,將不同模態(tài)的媒體信號(hào)轉(zhuǎn)換為緊湊且語(yǔ)義化的表征標(biāo)記,從而構(gòu)建真實(shí)世界及其動(dòng)態(tài)變化的抽象表示。

神經(jīng)編解碼器構(gòu)建多媒體的抽象表示
我們構(gòu)想的媒體基礎(chǔ)由兩個(gè)組件組成:在線(xiàn)媒體表征標(biāo)記和離線(xiàn)基座模型。其中,在線(xiàn)媒體表征標(biāo)記模型可以動(dòng)態(tài)地將多媒體信息轉(zhuǎn)換為緊湊抽象的語(yǔ)義表示,以供人工智能觀(guān)察現(xiàn)實(shí)世界并與之交互。而離線(xiàn)基座模型可以由現(xiàn)實(shí)世界中提取的媒體表征標(biāo)記來(lái)離線(xiàn)構(gòu)建,并通過(guò)離線(xiàn)學(xué)習(xí)的知識(shí)預(yù)測(cè)動(dòng)態(tài)變化。無(wú)論人工智能用來(lái)學(xué)習(xí)的是語(yǔ)言文本,還是音頻或視頻,盡可能實(shí)現(xiàn)無(wú)損的壓縮都是其智能的源泉。
從本質(zhì)上講,整個(gè)媒體基礎(chǔ)框架可被視為一種更廣泛意義上的神經(jīng)編解碼器。對(duì)此我們?cè)O(shè)計(jì)了三個(gè)階段的發(fā)展計(jì)劃:首先,訓(xùn)練初始的編碼器和解碼器模型,學(xué)習(xí)每種模態(tài)的媒體表征;其次,為每種模態(tài)構(gòu)建基座模型,并進(jìn)一步優(yōu)化編碼器和解碼器;第三,學(xué)習(xí)包括自然語(yǔ)言在內(nèi)的跨模態(tài)關(guān)聯(lián),并構(gòu)建最終的多模態(tài)基座模型。媒體的動(dòng)態(tài)表征標(biāo)記與多模態(tài)基座模型一起構(gòu)成了我們的媒體基礎(chǔ),并為我們邁向多模態(tài)人工智能之路提供一種新的思路。
如前所述,抽象的語(yǔ)義表達(dá)更加緊湊和簡(jiǎn)潔,而視頻和音頻信號(hào)卻復(fù)雜且含有噪聲,我們的媒體基礎(chǔ)框架是否能夠?qū)⒄鎸?shí)世界的動(dòng)態(tài)變化進(jìn)行高效且盡可能無(wú)損的壓縮?至少此前我們所看到的多媒體編解碼器都難以勝任這項(xiàng)工作。因此,我們認(rèn)為當(dāng)務(wù)之急是開(kāi)發(fā)一個(gè)新的神經(jīng)編解碼器框架,用于高效構(gòu)建視頻、音頻及其動(dòng)態(tài)變化的抽象表示。
在過(guò)去的幾年里,我和同事們一直致力于開(kāi)發(fā)高效的神經(jīng)音頻/視頻編解碼器,并取得了令人興奮的進(jìn)展。在利用深度學(xué)習(xí)顛覆傳統(tǒng)編解碼器架構(gòu)的同時(shí),我們也實(shí)現(xiàn)了更低的計(jì)算成本及更優(yōu)的性能。我們開(kāi)發(fā)的神經(jīng)編解碼器的性能不僅超越了傳統(tǒng)的編解碼器,也顯著優(yōu)于現(xiàn)有的其它神經(jīng)編解碼器。
在神經(jīng)音頻編解碼器方面,我們首次實(shí)現(xiàn)了256bps的高質(zhì)量語(yǔ)音信號(hào)壓縮,并在256bps的極低比特率下,通過(guò)信息瓶頸實(shí)現(xiàn)了解耦的抽象語(yǔ)義表征學(xué)習(xí)。其意義不僅在于多媒體技術(shù)層面——通過(guò)這一創(chuàng)新,我們能夠利用捕捉到的音頻表征來(lái)實(shí)現(xiàn)各種音頻和語(yǔ)音任務(wù),例如語(yǔ)音轉(zhuǎn)換或語(yǔ)音到語(yǔ)音的翻譯。
此外,我們還開(kāi)發(fā)了DCVC-DC(Deep Contextual Video Compression-Diverse Contexts) 神經(jīng)視頻編解碼器。它可以將傳統(tǒng)編解碼中通過(guò)規(guī)則組合的不同模塊和算法轉(zhuǎn)換為深度學(xué)習(xí)的自動(dòng)學(xué)習(xí)方式,有效利用不同的上下文來(lái)大幅提高視頻壓縮率,這使得它在性能上超越了此前所有的視頻編解碼器。由于構(gòu)建全面、協(xié)同的媒體基礎(chǔ)對(duì)神經(jīng)視頻編解碼器帶來(lái)了全新的挑戰(zhàn),我們正在對(duì)DCVC-DC進(jìn)行深度改造。
探索隱文本語(yǔ)言之外的另一種可能性
我們開(kāi)發(fā)的神經(jīng)編解碼器,本質(zhì)上是通過(guò)從根本上改變對(duì)隱空間中的對(duì)象、動(dòng)作、情緒或概念等不同類(lèi)型信息的建模方式,讓模型達(dá)到更高的壓縮比。這對(duì)多模態(tài)大模型的意義在于,通過(guò)神經(jīng)編解碼器可以將視覺(jué)、語(yǔ)言和聲音等信息轉(zhuǎn)換為隱空間的神經(jīng)表達(dá)——類(lèi)似于自然語(yǔ)言處理中的抽象而緊湊的語(yǔ)義表征,但這些多媒體表征更符合自然規(guī)律,而且不局限于自然語(yǔ)言順序的簡(jiǎn)單描述,能夠支持更廣泛的應(yīng)用。
我們的探索驗(yàn)證了通過(guò)視頻和音頻構(gòu)建全新的媒體基礎(chǔ)的可行性,這為開(kāi)發(fā)人工智能帶來(lái)了全新的視角。雖然自然語(yǔ)言已被證明是構(gòu)建人工智能的有效方法,但如果我們總是試圖將復(fù)雜的多媒體信號(hào)轉(zhuǎn)化成文本語(yǔ)言或與之相關(guān)聯(lián),不僅過(guò)于繁瑣,還會(huì)限制人工智能的全面發(fā)展。相比之下,構(gòu)建基于神經(jīng)編解碼器的媒體基礎(chǔ)的思路可能更加有效。
當(dāng)然,通過(guò)媒體基礎(chǔ)和自然語(yǔ)言模型實(shí)現(xiàn)多模態(tài)大模型的方式雖然不同,但對(duì)于人工智能發(fā)展來(lái)說(shuō)都有不可替代的價(jià)值。我們不妨將人工智能學(xué)習(xí)的多媒體表征看作是與自然語(yǔ)言并行的另一種“語(yǔ)言”。這樣,大型多模態(tài)模型也可以被視為“大型多媒體語(yǔ)言模型”。我相信,神經(jīng)編解碼器的發(fā)展將成為媒體基礎(chǔ)演進(jìn)的巨大推動(dòng)力,其包含的媒體基座模型與大語(yǔ)言模型將共同構(gòu)建未來(lái)的多模態(tài)大模型,真正實(shí)現(xiàn)我們所期待的全方位、協(xié)同的多模態(tài)媒體基礎(chǔ)與融合,從而更好地釋放人工智能的潛力。
目前,我們?nèi)栽谂μ剿魃窠?jīng)編解碼器在隱空間中對(duì)多媒體信息的更多建模方法,全面、協(xié)同、融合的媒體基礎(chǔ)作為我們的設(shè)想和判斷,任何一個(gè)切入點(diǎn)都充滿(mǎn)了無(wú)窮的可能。如果我們的這一設(shè)想能夠?yàn)槿斯ぶ悄艿倪M(jìn)步帶來(lái)一些激發(fā)靈感的星星之火,那對(duì)我們來(lái)說(shuō)已經(jīng)足以感到欣慰和自豪了!
相關(guān)論文:
[1]Disentangled Feature Learning for Real-Time Neural Speech Coding,https://ieeexplore.ieee.org/abstract/document/10094723
[2]Neural Video Compression with Diverse Contexts,https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Neural_Video_Compression_With_Diverse_Contexts_CVPR_2023_paper.pdf
本文作者:
呂巖,微軟亞洲研究院全球研究合伙人、多媒體計(jì)算方向負(fù)責(zé)人,領(lǐng)導(dǎo)團(tuán)隊(duì)從事多媒體通信、計(jì)算機(jī)視覺(jué)、語(yǔ)音增強(qiáng)、多模態(tài)信息融合、用戶(hù)界面虛擬化及云計(jì)算等方向的關(guān)鍵技術(shù)研究。
自 2004 年加入微軟亞洲研究院以來(lái),呂巖和團(tuán)隊(duì)的多項(xiàng)科研成果和原型系統(tǒng)已轉(zhuǎn)化至 Windows、Office、Teams、Xbox等關(guān)鍵產(chǎn)品中。近年來(lái),呂巖致力于推動(dòng)基于神經(jīng)網(wǎng)絡(luò)的端到端多媒體處理與通信框架和多模態(tài)智能交互系統(tǒng)的研究突破。呂巖在多媒體領(lǐng)域發(fā)表學(xué)術(shù)論文 100 余篇,獲得美國(guó)專(zhuān)利授權(quán) 30 余項(xiàng),有多項(xiàng)技術(shù)被 MPEG-4、H.264、H.265 和 AOM AV-1 等國(guó)際標(biāo)準(zhǔn)和工業(yè)標(biāo)準(zhǔn)所采用,曾獲國(guó)家技術(shù)發(fā)明二等獎(jiǎng)。