AI頂會(huì)ICML收了一篇論文:沒算法沒實(shí)驗(yàn)
自然語言與萬能逼近有何相似之處?
蔡永強(qiáng) 投稿
量子位 | 公眾號(hào) QbitAI
沒有算法沒有實(shí)驗(yàn),從2610篇收錄論文中脫穎而出,成為唯一一篇純理論入選2024 ICML Spotlight的論文。
“Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions(詞的萬能逼近:從語言角度看映射組合)”,這篇純理論論文講了什么,何以入選Spotlight?

簡(jiǎn)單來說,目前基于深度學(xué)習(xí)的序列模型,如語言模型,受到了廣泛關(guān)注并取得了成功,這促使研究人員探索將非序列問題轉(zhuǎn)換為序列形式的可能性。
沿著這一思路,深度神經(jīng)網(wǎng)絡(luò)可以表示為一系列線性或非線性映射的復(fù)合函數(shù),其中每個(gè)映射都可以看作是一個(gè)“詞”。
然而,線性映射的權(quán)重是未確定的,因此需要無限多個(gè)詞。
而這篇論文研究有限情形并構(gòu)造性地證明了存在一個(gè)有限的函數(shù)詞匯表V,用于實(shí)現(xiàn)萬能逼近。
也就是說,對(duì)于任何連續(xù)映射f、緊集Ω和ε>0,存在V中的一個(gè)有限序列,使得它們的復(fù)合映射能夠在Ω上近似f且逼近誤差小于ε。
論文研究結(jié)果展示了函數(shù)復(fù)合的非凡近似能力,并為正則語言提供了新的模型。
這項(xiàng)研究由北京師范大學(xué)蔡永強(qiáng)完成,在2024 ICML的2610篇收錄論文中,144篇是Oral,191篇是Spotlight。但初步盤點(diǎn)在今年的Oral和Spotlight論文中,僅有這一篇是沒有算法沒有實(shí)驗(yàn)的純理論文章。
下面我們來看看具體內(nèi)容。
自然語言與萬能逼近的相似之處
認(rèn)知心理學(xué)家和語言學(xué)家早已認(rèn)識(shí)到語言對(duì)于智能的重要性,而BERT和GPT等語言模型的流行進(jìn)一步凸顯了這一點(diǎn)。
這些基于RNN或Transformer的模型通過將自然語言處理轉(zhuǎn)化為序列學(xué)習(xí)問題,徹底改變了自然語言處理的研究方向。它們可以處理文本中的長(zhǎng)程依賴性,并根據(jù)上下文內(nèi)容生成連貫的文本,這使它們成為語言理解和生成方面的重要工具。
這些模型的成功還催生了一種通過將非序列問題轉(zhuǎn)化為序列問題來解決非序列問題的新方法。
例如,圖像處理可以轉(zhuǎn)化為序列學(xué)習(xí)問題,將圖像分割成小塊,將它們按一定順序排列,然后使用序列學(xué)習(xí)算法處理得到的序列以實(shí)現(xiàn)圖像識(shí)別。
序列學(xué)習(xí)算法的使用還可以擴(kuò)展到強(qiáng)化學(xué)習(xí)領(lǐng)域,例如Decision Transformer通過利用因果掩碼Transformer輸出最佳動(dòng)作,可以取得很好的性能。
序列建模為解決各種問題開辟了新的可能性,這種趨勢(shì)似乎在理論研究領(lǐng)域也得到了體現(xiàn)。
眾所周知,人工神經(jīng)網(wǎng)絡(luò)具有萬能逼近能力,寬或深的前饋網(wǎng)絡(luò)可以任意逼近緊集上的連續(xù)函數(shù)。
然而,在AlphaFold、BERT和GPT等實(shí)際應(yīng)用中,殘差網(wǎng)絡(luò)結(jié)構(gòu)比前饋結(jié)構(gòu)更受青睞。據(jù)觀察,殘差網(wǎng)絡(luò)(ResNet)可以視為動(dòng)力系統(tǒng)的前向歐拉離散,這種關(guān)系催生了一系列基于動(dòng)力系統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),例如連續(xù)情形的Neural ODE等?;趧?dòng)力系統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有望在各個(gè)領(lǐng)域發(fā)揮重要作用。
值得注意的是,語言模型和動(dòng)力系統(tǒng)都與時(shí)間序列建模相關(guān),并且已有效地應(yīng)用于非序列問題。
這一觀察自然會(huì)讓我們產(chǎn)生疑問:
語言模型和時(shí)間序列建模各自的成功之間是否存在內(nèi)在聯(lián)系?
本文這項(xiàng)研究就是在探究這一問題。

通過比較研究,作者從萬能逼近的角度得到了一些初步結(jié)果。具體來說,可以證明存在有限個(gè)映射,稱為詞匯表,(其中的映射可以取為一些自治動(dòng)力系統(tǒng)的流映射),使得任何連續(xù)映射可以通過復(fù)合詞匯表中的一個(gè)系列來近似。
這與自然語言中基于詞來構(gòu)建短語、句子、段落和篇章來傳達(dá)復(fù)雜信息的方式相似。
下表1直觀地體現(xiàn)了這種相似性。

△表 1. 自然語言與萬能逼近的相似之處
總結(jié)來說,研究有以下幾個(gè)貢獻(xiàn):
- 證明了通過復(fù)合有限集 V 中的一系列映射可以實(shí)現(xiàn)萬能逼近性質(zhì)。
- 給出了構(gòu)造性證明,基于動(dòng)力系統(tǒng)流映射構(gòu)造了滿足條件的 V。
- 給出了復(fù)合映射與自然語言中的單詞/短語/句子之間的一個(gè)類比,這可以啟發(fā)逼近理論、動(dòng)力系統(tǒng)、序列建模和語言學(xué)之間的跨學(xué)科研究。
主要結(jié)論
記號(hào)
對(duì)深度學(xué)習(xí)有所了解的讀者應(yīng)該都聽說過萬能逼近定理,它指的是神經(jīng)網(wǎng)絡(luò)可以近似任意的連續(xù)函數(shù)。
“近似”需要明確是在什么意義之下,下面是兩種常見的刻畫,本文稱為C-UAP和L?-UAP,其中C-UAP更強(qiáng)一些。

萬能逼近性質(zhì)
為了表述本文的新型萬能逼近定理,需要給出如下記號(hào):

有限詞匯表

核心是將V稱為詞匯表,V中的映射稱為“詞”,V中一個(gè)序列的復(fù)合稱為“句子”,所有“句子”的集合記為HV。記號(hào)中的實(shí)心點(diǎn)表示的是函數(shù)復(fù)合,計(jì)算時(shí)先復(fù)合最左邊的函數(shù)。與常規(guī)的復(fù)合函數(shù)記號(hào)相比,有下面的關(guān)系:

函數(shù)復(fù)合
這里之所以要引入新的記號(hào),而不是直接用復(fù)合函數(shù)的常規(guī)記號(hào),是因?yàn)槌R?guī)記號(hào)中最先運(yùn)算的函數(shù)是寫在最后邊,這個(gè)相反的順序不便于書寫。
定理
本文的主要定理表述如下:

主要結(jié)論
定理2.2比較技巧性,記號(hào):

表示的是d維保持定向的微分同胚組成的集合,根據(jù)Brenier&Gangbo于2003證明的結(jié)論(保持定向的微分同胚可以近似連續(xù)函數(shù),前提是維數(shù)d大于等于2)可以得到推論2.3。
推論2.3表明“句子”的集合HV具有萬能逼近性質(zhì)。這與傳統(tǒng)的萬能逼近具有本質(zhì)的區(qū)別。
證明思路
定理的證明涉及的知識(shí)要點(diǎn)羅列如下:
(1)保持定向的微分同胚可以近似連續(xù)函數(shù)(Brenier & Gangbo, 2003 )
(2)保持定向的微分同胚可以用微分方程的流映射來近似(Agrachev & Caponigro, 2010)
(3)常微分方程可以使用算子分裂格式來近似求解(Holden et al., 2010)
(4)單隱藏層的神經(jīng)網(wǎng)絡(luò)可以近似任意連續(xù)函數(shù)(Cybenko, 1989)
(5)流映射是單參數(shù)的,對(duì)于單參數(shù)t,可以用形如p+q√2形式的數(shù)來近似,其中p,q是整數(shù)(Kronecker逼近定理)
基于要點(diǎn) (3) 和 (4),作者曾證明了d維流映射可以用寬度為d(深度不限)的全連接神經(jīng)網(wǎng)絡(luò)來近似,并在此基礎(chǔ)上研究了神經(jīng)網(wǎng)絡(luò)具有萬能逼近的最小寬度問題,本文進(jìn)一步結(jié)合其余要點(diǎn)得到了詞匯表的萬能逼近定理。
要點(diǎn) (5) 起到非常關(guān)鍵的作用,它是數(shù)論里面比較基礎(chǔ)的結(jié)論之一,讀者可能比較熟悉的版本是:考慮無理數(shù)(比如圓周率π)的整數(shù)倍,其小數(shù)部分在[0,1]區(qū)間上是稠密的。
備注:作為上述思路的一個(gè)練習(xí),讀者可以嘗試證明矩陣(線性映射)版本的定理:考慮d階方陣,存在有限個(gè)方陣的集合V,使得任意的方陣都可以用V中的一個(gè)序列的乘積來近似(證明見原論文附錄 D,思路是考慮初等矩陣,它們是單參數(shù)的)。
總結(jié)與啟發(fā)
本文主要是證明了萬能逼近可以像使用語言一樣達(dá)到,傳達(dá)的都是“用有限個(gè)字表達(dá)無限的思想”,主要結(jié)論先后投了NeurIPS和ICLR但都被拒了,6+4位審稿人都覺得結(jié)論很有意思但不清楚有什么用(ICLR 的審稿意見見OpenReview)。
作者表示吸取了審稿人的建議,在投ICML的版本中加入了對(duì)正則語言(形式語言中最簡(jiǎn)單的一種)的探討(見定理 5.2),并討論了對(duì)自然語言處理方法的啟發(fā),這才得以接收。
文章之所以被選為Spotlight,可能是因?yàn)槎ɡ戆凳疚覀兛梢钥紤]將詞嵌入為函數(shù)(而非向量),這對(duì)于理解和構(gòu)建人工智能模型具有一定的啟發(fā)性。
在自然語言處理中,準(zhǔn)確刻畫詞和句子的語義至關(guān)重要。
眾所周知的詞向量嵌入提供了一個(gè)很好的基線,具有相似語義的單詞具有相似的詞向量。然而,由于靜態(tài)詞向量無法描述多義詞的不同語義以及上下文的影響,人們開發(fā)了動(dòng)態(tài)詞向量模型以及更復(fù)雜的大語言模型,如BERT和GPT。
然而,如何解釋預(yù)訓(xùn)練語言模型是一個(gè)困難的問題。
作者指出了本文的定理隱含的結(jié)論是,如果將語義表示為函數(shù)(這是一個(gè)比向量空間大得多的空間),那么我們可以通過復(fù)合一序列來自函數(shù)詞匯表中的函數(shù)來近似任何語義。
這就是本文第5節(jié)中提出的復(fù)合流空間模型(CFSM)。
從頭訓(xùn)練這樣一個(gè)CFSM是困難而耗時(shí)的。一種替代方案是直接從LLM(如Llama)中提取嵌入的函數(shù),然后觀察CFSM在多大程度上可以恢復(fù)LLM的功能。
人類的自然語言是非常復(fù)雜的,將詞嵌入為函數(shù)雖然比將詞嵌入為向量更具一般性,但依然是Toy模型。
作者表示本文期望能對(duì)工程師們有所啟發(fā),重新審視“詞嵌入”這個(gè)術(shù)語,或許可以對(duì)理解 Transformer,Mamba,RNN,TTT等模型,以及提出新的模型帶來新的視角。
作者最后還附上1889年4月26日出生于奧地利維也納省的語言哲學(xué)家路德維希?約瑟夫?約翰?維特根斯坦的兩句名言:
“The limits of my language mean the limits of my world.”(我的語言的界限即是我的世界的界限。)
“The meaning of a word is its use in the language.”(一個(gè)詞的意義在于它在語言中的使用。)
論文鏈接:https://proceedings.mlr.press/v235/cai24a.html
- 商湯林達(dá)華萬字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08