NeurIPS 2023 | 騰訊AI Lab 18篇入選論文解讀
含一篇Spotlight,涵蓋ML、CV、NLP等方向,以及AI在游戲、科研等領(lǐng)域的融合探索。
NeurIPS 2023(Neural Information Processing Systems)神經(jīng)信息處理系統(tǒng)大會(huì)是當(dāng)前全球最負(fù)盛名的AI學(xué)術(shù)會(huì)議之一,將于12月10日在美國(guó)新奧爾良召開(kāi)。根據(jù)官網(wǎng)郵件顯示,本屆會(huì)議共有12343篇有效論文投稿,接收率為 26.1%,高于 2022 年的 25.6%。
今年騰訊 AI Lab 共有18篇論文入選,包含一篇 Spotlight,內(nèi)容涵蓋機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等方向,以及AI在科研、游戲等領(lǐng)域的融合探索。
以下為論文概覽。
機(jī)器學(xué)習(xí)
1. GADBench: Revisiting and Benchmarking Supervised Graph Anomaly Detection
GADBench:重新審視和基準(zhǔn)測(cè)試監(jiān)督圖異常檢測(cè)
論文鏈接:https://arxiv.org/abs/2306.12251
本文由AI Lab主導(dǎo),和香港科技大學(xué)(廣州)合作完成。傳統(tǒng)的圖異常檢測(cè)(GAD)算法和最近流行的圖神經(jīng)網(wǎng)絡(luò)(GNN)有著悠久的歷史,但目前尚存在三個(gè)問(wèn)題:1)它們?cè)跇?biāo)準(zhǔn)綜合設(shè)置下的性能如何;2)GNN是否優(yōu)于傳統(tǒng)的算法,如樹(shù)集成;3)它們?cè)诖笠?guī)模圖上的效率如何。
基于此,本文引入了GADBench——一個(gè)專門用于靜態(tài)圖中監(jiān)督異常節(jié)點(diǎn)檢測(cè)的基準(zhǔn)工具。GADBench有助于在10個(gè)真實(shí)世界的GAD數(shù)據(jù)集上進(jìn)行29種不同模型的詳細(xì)比較,包括數(shù)千到數(shù)百萬(wàn)(~ 6M)個(gè)節(jié)點(diǎn)。本文的主要發(fā)現(xiàn)是,具有簡(jiǎn)單鄰域聚合的樹(shù)集成可以優(yōu)于為GAD任務(wù)量身定制的最新GNN。本文闡明了 GAD 當(dāng)前的進(jìn)展,并系統(tǒng)地評(píng)估了圖異常檢測(cè)算法,為后續(xù)圖異常檢測(cè)研究提供了系統(tǒng)的基準(zhǔn)測(cè)試標(biāo)準(zhǔn)。

不同方法的決策邊界比較。 藍(lán)點(diǎn)代表異常節(jié)點(diǎn),紅點(diǎn)代表正常節(jié)點(diǎn)。 同樣,藍(lán)色/紅色區(qū)域?qū)?yīng)于異常/正常類的模型預(yù)測(cè)
2. Does Invariant Graph Learning via Environment Augmentation Learn Invariance?
圖不變學(xué)習(xí)真的學(xué)到了不變性嗎?
論文鏈接:https://openreview.net/forum?id=EqpR9Vtt13
本文由騰訊AI Lab主導(dǎo),與香港中文大學(xué)和香港浸會(huì)大學(xué)合作完成。不變圖表示學(xué)習(xí)旨在學(xué)習(xí)來(lái)自不同環(huán)境/域的圖數(shù)據(jù)之間的不變性,以便于圖上的分布外泛化。由于圖環(huán)境劃分通常難以獲得,因此現(xiàn)有的方法大多通過(guò)增強(qiáng)環(huán)境信息來(lái)彌補(bǔ)這一缺陷。然而,現(xiàn)有各類算法增強(qiáng)得到的環(huán)境信息的有效性從未得到驗(yàn)證。
在這項(xiàng)工作中,作者團(tuán)隊(duì)發(fā)現(xiàn)通過(guò)環(huán)境增強(qiáng)來(lái)學(xué)習(xí)不變圖表示,在沒(méi)有額外假設(shè)的情況下根本是不可能的。為此,本文開(kāi)發(fā)了一套最小假設(shè),包括變化充分性和變化一致性。然后,本文提出了一個(gè)新框架——圖不變學(xué)習(xí)助手(GALA)。GALA包含一個(gè)需要對(duì)圖環(huán)境變化或分布變化敏感的助手模型,助手模型的代理預(yù)測(cè)的正確性因此可以區(qū)分雜散子圖中的變化。
通過(guò)提取對(duì)代理預(yù)測(cè)最大限度不變的子圖,該方法可以在建立的最小假設(shè)下證明地識(shí)別出成功的分布外泛化所需的基礎(chǔ)不變子圖。在包括DrugOOD在內(nèi)的各種圖分布變化的數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)證實(shí)了GALA的有效性,可以解決AI輔助制藥中的分布變化問(wèn)題。

3. Understanding and Improving Feature Learning for Out-of-Distribution Generalization
理解并提升分布外泛化中的特征學(xué)習(xí)
論文鏈接:https://openreview.net/forum?id=eozEoAtjG8
本文由騰訊AI Lab主導(dǎo),與香港中文大學(xué)、RIKEN AIP、香港浸會(huì)大學(xué)合作完成。對(duì)于分布外(OOD)泛化失敗的常見(jiàn)解釋是,采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)訓(xùn)練的模型學(xué)習(xí)了虛假特征而不是不變特征。然而,最近的幾項(xiàng)研究對(duì)這一解釋提出了挑戰(zhàn),并發(fā)現(xiàn)深度網(wǎng)絡(luò)可能已經(jīng)學(xué)習(xí)了足夠好的特征以進(jìn)行OOD泛化。
盡管乍一看似乎存在矛盾,但本文理論上展示了ERM本質(zhì)上學(xué)習(xí)了虛假特征和不變特征,而如果虛假相關(guān)性更強(qiáng),ERM傾向于更快學(xué)習(xí)虛假特征。此外,當(dāng)使用ERM學(xué)習(xí)的特征進(jìn)一步進(jìn)行使用OOD目標(biāo)進(jìn)行訓(xùn)練時(shí),不變特征學(xué)習(xí)的質(zhì)量顯著影響最終的OOD性能,因?yàn)镺OD目標(biāo)很少學(xué)習(xí)新特征。因此,ERM特征學(xué)習(xí)可能成為OOD泛化的瓶頸。
為了減輕這種依賴,本文提出了特征增強(qiáng)訓(xùn)練(FeAT),以促使模型學(xué)習(xí)更豐富的特征,為OOD泛化做好準(zhǔn)備。FeAT迭代地增強(qiáng)模型以學(xué)習(xí)新特征,同時(shí)保留已經(jīng)學(xué)習(xí)的特征。在每一輪中,保留和增強(qiáng)操作在捕獲不同特征的訓(xùn)練數(shù)據(jù)的不同子集上進(jìn)行。廣泛的實(shí)驗(yàn)證明,F(xiàn)eAT有效地學(xué)習(xí)了更豐富的特征,從而提高了各種OOD目標(biāo)的性能。

4. Retaining Beneficial Information from Detrimental Data for Neural Network Repair
基于有益信息提純的模型修復(fù)算法
論文鏈接:https://openreview.net/pdf?id=BJ1vOqh3hJ
本文由騰訊AI Lab 主導(dǎo),與香港中文大學(xué)合作完成。深度學(xué)習(xí)模型的表現(xiàn)很大程度上取決于訓(xùn)練數(shù)據(jù)的質(zhì)量。訓(xùn)練數(shù)據(jù)的不足之處,如損壞的輸入或帶有噪聲的標(biāo)簽,可能導(dǎo)致模型泛化能力不佳。近期的研究提出,通過(guò)找出導(dǎo)致模型失效的訓(xùn)練樣本并消除它們對(duì)模型的影響,可以修復(fù)模型。然而,被識(shí)別出的數(shù)據(jù)可能同時(shí)包含有益和有害信息。簡(jiǎn)單地從模型中刪除被識(shí)別數(shù)據(jù)的信息可能會(huì)對(duì)其性能產(chǎn)生負(fù)面影響,尤其是當(dāng)正確的數(shù)據(jù)被誤認(rèn)為是有害的并被移除時(shí)。
為了應(yīng)對(duì)這一挑戰(zhàn),本文提出了一種新穎的方法,利用保留下來(lái)的干凈數(shù)據(jù)集中的知識(shí)。該方法首先利用干凈數(shù)據(jù)集來(lái)識(shí)別有害數(shù)據(jù),然后在被識(shí)別的數(shù)據(jù)中區(qū)分有益和有害信息。最后,本文利用提取出的有益信息來(lái)提升模型的性能。通過(guò)實(shí)證評(píng)估,該方法在識(shí)別有害數(shù)據(jù)和修復(fù)模型失效方面優(yōu)于基準(zhǔn)方法;特別是在識(shí)別困難且涉及大量良性數(shù)據(jù)的場(chǎng)景中,該方法在保留有益信息的同時(shí)提高了性能,而基準(zhǔn)方法由于錯(cuò)誤地刪除有益信息而性能下降。

5. Secure Out-of-Distribution Task Generalization with Energy-Based Models
基于能量模型的元學(xué)習(xí)算法
論文鏈接:https://openreview.net/pdf?id=tt7bQnTdRm
本文由騰訊AI Lab與香港城市大學(xué),麻省理工大學(xué)合作完成。元學(xué)習(xí)在處理現(xiàn)實(shí)中的分布外(OOD)任務(wù)時(shí),其成功率并不穩(wěn)定。為了確保元學(xué)習(xí)中獲得的先驗(yàn)知識(shí)能夠有效地應(yīng)用到 OOD 任務(wù)上,特別是在注重安全的應(yīng)用時(shí),往往需要先檢測(cè)出 OOD 任務(wù),然后再將這些任務(wù)調(diào)整以適應(yīng)先驗(yàn)知識(shí)。然而,現(xiàn)有的貝葉斯元學(xué)習(xí)方法在評(píng)估 OOD 任務(wù)的不確定性時(shí),由于特征分布偏移的覆蓋不全和元學(xué)習(xí)先驗(yàn)的表達(dá)能力不足,其可靠性受到了限制。此外,這些方法在調(diào)整 OOD 任務(wù)時(shí)也面臨困難,這與跨領(lǐng)域任務(wù)調(diào)整解決方案的情況相似,后者容易出現(xiàn)過(guò)擬合的問(wèn)題。
因此,本文構(gòu)建了一個(gè)統(tǒng)一的框架,既可以檢測(cè)和調(diào)整 OOD 任務(wù),又可以與現(xiàn)有的元學(xué)習(xí)框架兼容。本文提出的基于能量的元學(xué)習(xí)(EBML)框架,通過(guò)兩個(gè)表達(dá)能力強(qiáng)的神經(jīng)網(wǎng)絡(luò)能量函數(shù)的組合,學(xué)習(xí)描述任意元訓(xùn)練任務(wù)分布。本文將這兩個(gè)能量函數(shù)的和作為檢測(cè) OOD 任務(wù)的可靠評(píng)分;在元測(cè)試階段,通過(guò)最小化能量來(lái)將 OOD 任務(wù)調(diào)整為分布內(nèi)的任務(wù)。在四個(gè)回歸和分類數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證明了該方法的有效性。

6. Simplifying and Empowering Transformers for Large-Graph Representations
用于大圖表示學(xué)習(xí)的簡(jiǎn)化且強(qiáng)大的 Transformer 架構(gòu)
論文鏈接: https://openreview.net/forum?id=R4xpvDTWkV
本文由騰訊AI Lab與上海交通大學(xué),伊利諾伊大學(xué)厄巴納-香檳分校和紐約大學(xué)合作完成。由于海量數(shù)據(jù)點(diǎn)之間存在相互依賴的性質(zhì),學(xué)習(xí)大型圖上的表示是一個(gè)長(zhǎng)期存在的挑戰(zhàn)。Transformer 作為一類新興的圖結(jié)構(gòu)數(shù)據(jù)基礎(chǔ)編碼器,由于其全局注意力能夠捕獲相鄰節(jié)點(diǎn)之外的所有對(duì)影響,因此在小圖上表現(xiàn)出了良好的性能。即便如此,現(xiàn)有的方法傾向于繼承 Transformer 在語(yǔ)言和視覺(jué)任務(wù)中的特點(diǎn),并通過(guò)堆疊深度多頭注意力來(lái)?yè)肀?fù)雜的模型。
本文批判性地證明,即使使用單層注意力也可以在節(jié)點(diǎn)屬性預(yù)測(cè)基準(zhǔn)上帶來(lái)令人驚訝的性能,其中節(jié)點(diǎn)數(shù)量范圍從千級(jí)到十億級(jí)。這激發(fā)作者重新思考大圖上 Transformer 的設(shè)計(jì)理念,其中全局注意力是阻礙可擴(kuò)展性的計(jì)算開(kāi)銷。本文將所提出的方案設(shè)計(jì)為Simplified Graph Transformers(SGFormer),它由一個(gè)簡(jiǎn)單的注意力模型支持,可以在一層中的任意節(jié)點(diǎn)之間有效地傳播信息。SGFormer 不需要位置編碼、特征/圖預(yù)處理或增強(qiáng)損失。根據(jù)實(shí)驗(yàn),SGFormer 成功擴(kuò)展到網(wǎng)絡(luò)規(guī)模圖 ogbn-papers100M,并在中型圖上比 SOTA Transformer 產(chǎn)生高達(dá) 141 倍的推理加速。除了當(dāng)前的結(jié)果之外,本文所提出的方法本身預(yù)計(jì)將啟發(fā)在大圖上構(gòu)建 Transformer 的獨(dú)立興趣的新技術(shù)路徑。

7. Deep Insights into Noisy Pseudo Labeling on Graph Data
深入理解圖形數(shù)據(jù)中噪聲偽標(biāo)簽
論文鏈接:https://openreview.net/pdf?id=XhNlBvb4XV
本文由騰訊AI Lab與香港科學(xué)大學(xué)(廣州)合作完成。偽標(biāo)簽(PL)是一種廣泛應(yīng)用的訓(xùn)練策略,通過(guò)在訓(xùn)練過(guò)程中對(duì)潛在樣本進(jìn)行自我標(biāo)注,從而擴(kuò)大標(biāo)記數(shù)據(jù)集。許多研究表明,這種方法通??梢蕴岣邎D學(xué)習(xí)模型的性能。然而,本文作者注意到錯(cuò)誤的標(biāo)簽可能對(duì)圖訓(xùn)練過(guò)程產(chǎn)生嚴(yán)重影響。不恰當(dāng)?shù)?PL 可能導(dǎo)致性能下降,尤其是在噪聲可以傳播的圖數(shù)據(jù)上。令人驚訝的是,文獻(xiàn)中很少對(duì)相應(yīng)的錯(cuò)誤進(jìn)行理論分析。
本文旨在深入探討 PL 在圖學(xué)習(xí)模型中的作用。首先,本文通過(guò)展示 PL 閾值的置信度和多視圖預(yù)測(cè)的一致性來(lái)分析 PL 策略的誤差。接著,本文從理論上闡述了 PL 對(duì)收斂性質(zhì)的影響。基于這些分析,本文提出了一種謹(jǐn)慎的偽標(biāo)簽方法,且為具有最高置信度和多視圖一致性的樣本添加偽標(biāo)簽。最后,大量實(shí)驗(yàn)表明,本文所提出的策略改進(jìn)了圖學(xué)習(xí)過(guò)程,并在鏈接預(yù)測(cè)和節(jié)點(diǎn)分類任務(wù)上優(yōu)于其他 PL 策略。

計(jì)算機(jī)視覺(jué)
8. Inserting Anybody in Diffusion Models via Celeb Basis
在擴(kuò)散模型中插入任何人
論文鏈接:https://openreview.net/pdf?id=OGQWZ3p0Zn
本文由騰訊AI Lab主導(dǎo),與中山大學(xué)、香港科技大學(xué)合作完成。精美的需求存在于定制預(yù)訓(xùn)練的大型文本到圖像模型,以生成創(chuàng)新概念,如用戶自身。然而,在訓(xùn)練期間給定幾張圖像后,與原始概念相比,先前定制方法中新增加的概念往往顯示出較弱的組合能力。
因此,本文提出了一種新的個(gè)性化方法,允許使用一個(gè)面部段落和僅1024個(gè)參數(shù)在3分鐘內(nèi)無(wú)縫集成獨(dú)特個(gè)體到預(yù)訓(xùn)練的擴(kuò)散模型中。該方法可以毫不費(fèi)力地從文本提示中生成這個(gè)人在任何姿勢(shì)或位置、與任何人互動(dòng)和做任何可想象的事情的驚人圖像。為實(shí)現(xiàn)這一目標(biāo),本文首先分析并從預(yù)訓(xùn)練的大型文本編碼器的嵌入空間中構(gòu)建一個(gè)明確的名人基礎(chǔ)。然后,給定一張面部照片作為目標(biāo)身份,通過(guò)優(yōu)化該基礎(chǔ)的權(quán)重并鎖定所有其他參數(shù)來(lái)生成其自身的嵌入。在該定制模型中,由所提議的名人基礎(chǔ)賦予的新身份展示出比以前的個(gè)性化方法更好的概念組合能力。此外,該模型還可以一次學(xué)習(xí)多個(gè)新身份并相互交互,而以前的定制模型無(wú)法實(shí)現(xiàn)這一點(diǎn)。

9. DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection
DeepfakeBench:深度偽造檢測(cè)的全面基準(zhǔn)測(cè)試
論文鏈接:https://openreview.net/forum?id=hizSx8pf0U
本文由騰訊AI Lab主導(dǎo),與香港中文大學(xué)(深圳)、美國(guó)紐約州立大學(xué)布法羅分校合作完成。 在深度偽造檢測(cè)(Deepfake)領(lǐng)域,一個(gè)關(guān)鍵但經(jīng)常被忽視的挑戰(zhàn)是缺乏一個(gè)標(biāo)準(zhǔn)化、統(tǒng)一、全面的基準(zhǔn)。這個(gè)問(wèn)題導(dǎo)致了不公平的性能比較和可能產(chǎn)生誤導(dǎo)的結(jié)果。具體來(lái)說(shuō),數(shù)據(jù)處理流程缺乏一致性,導(dǎo)致檢測(cè)模型的數(shù)據(jù)輸入不一致。此外,實(shí)驗(yàn)設(shè)置存在明顯差異,評(píng)估策略和指標(biāo)缺乏標(biāo)準(zhǔn)化。
為了填補(bǔ)這一空白,本文提出了第一個(gè)全面的深度偽造檢測(cè)基準(zhǔn),稱為DeepfakeBench,它提供了三個(gè)關(guān)鍵貢獻(xiàn):1)一個(gè)統(tǒng)一的數(shù)據(jù)管理系統(tǒng),以確保所有檢測(cè)器的輸入一致;2)一個(gè)集成的最先進(jìn)方法實(shí)現(xiàn)框架;3)標(biāo)準(zhǔn)化的評(píng)估指標(biāo)和協(xié)議,以促進(jìn)透明度和可重復(fù)性。DeepfakeBench具有可擴(kuò)展、基于模塊的代碼庫(kù),包含15種最先進(jìn)的檢測(cè)方法、9個(gè)深度偽造數(shù)據(jù)集、一系列深度偽造檢測(cè)評(píng)估協(xié)議和分析工具,以及全面的評(píng)估。此外,本文還從各種角度(如數(shù)據(jù)增強(qiáng)、主干網(wǎng)絡(luò))對(duì)這些評(píng)估進(jìn)行了廣泛分析,提供了新的見(jiàn)解,以期在該關(guān)鍵的領(lǐng)域推動(dòng)創(chuàng)新。
基準(zhǔn)測(cè)試代碼、評(píng)估和分析已開(kāi)源:https://github.com/SCLBD/DeepfakeBench。

10 .GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction
GPT4Tools: 基于自指引教授大語(yǔ)言模型使用工具
論文鏈接:https://openreview.net/pdf?id=cwjh8lqmOL
本文由騰訊AI Lab主導(dǎo),與清華大學(xué)深圳研究生院、香港中文大學(xué)合作完成。這篇論文的目的是為了高效地使大型語(yǔ)言模型(LLMs)能夠使用多模態(tài)工具。像ChatGPT和GPT-4這樣的高級(jí)專有LLMs已經(jīng)通過(guò)復(fù)雜的提示工程顯示出了使用工具的巨大潛力。然而,這些模型通常依賴于高昂的計(jì)算成本和公眾無(wú)法獲取的數(shù)據(jù)。
為了解決這些挑戰(zhàn),本文提出了基于自我指導(dǎo)的GPT4Tools,使開(kāi)源LLMs(如LLaMA和OPT)能夠使用工具。該方法通過(guò)向一位高級(jí)教師提示多種多模態(tài)情境,生成了一個(gè)指令跟隨數(shù)據(jù)集。通過(guò)使用低秩適應(yīng)(LoRA)優(yōu)化,該方法幫助開(kāi)源LLMs解決一系列視覺(jué)問(wèn)題,包括視覺(jué)理解和圖像生成。此外,本文提供了一個(gè)基準(zhǔn)測(cè)試來(lái)評(píng)估LLMs使用工具的能力,這種測(cè)試既包括零次射擊方式,也包括微調(diào)方式。廣泛的實(shí)驗(yàn)表明,該方法對(duì)各種語(yǔ)言模型都有效,不僅顯著提高了調(diào)用已見(jiàn)工具的準(zhǔn)確性,還實(shí)現(xiàn)了對(duì)未見(jiàn)工具的零次射擊能力。
代碼和演示鏈接:https://github.com/AILab-CVC/GPT4Tools

11.Meta-Adapter: An Online Few-shot Learner for Vision-Language Model
Meta-Adapter: 面向視覺(jué)語(yǔ)言模型的在線小樣本學(xué)習(xí)網(wǎng)路
論文鏈接:https://openreview.net/pdf?id=Ts0d8PvTeB
本文由騰訊AI Lab主導(dǎo),與西安交通大學(xué)合作完成。本文介紹的對(duì)比式視覺(jué)語(yǔ)言預(yù)訓(xùn)練,即CLIP,顯示出在理解開(kāi)放世界視覺(jué)概念方面的顯著潛力,使得零樣本圖像識(shí)別成為可能。然而,基于CLIP的少樣本學(xué)習(xí)方法通常需要在少量樣本上離線微調(diào)參數(shù),這導(dǎo)致推理時(shí)間延長(zhǎng)和在某些領(lǐng)域過(guò)擬合的風(fēng)險(xiǎn)。
為了應(yīng)對(duì)這些挑戰(zhàn),本文提出了一種輕量級(jí)的殘差式適配器——Meta-Adapter,通過(guò)少量樣本在線方式指導(dǎo)優(yōu)化CLIP特征。只需少量訓(xùn)練樣本,該方法就能有效開(kāi)啟少樣本學(xué)習(xí)能力,并在未見(jiàn)數(shù)據(jù)或任務(wù)上實(shí)現(xiàn)無(wú)需額外微調(diào)的泛化,取得了具有競(jìng)爭(zhēng)力的性能和高效率。該方法無(wú)需額外復(fù)雜操作,在八個(gè)圖像分類數(shù)據(jù)集上平均超過(guò)最新的在線少樣本學(xué)習(xí)方法3.6%,且具有更高的推理速度。此外,該模型簡(jiǎn)單靈活,可作為直接適用于下游任務(wù)的即插即用模塊。在無(wú)需進(jìn)一步微調(diào)的情況下,Meta-Adapter在開(kāi)放詞匯目標(biāo)檢測(cè)和分割任務(wù)中取得了顯著的性能提升。

自然語(yǔ)言處理
12.Fairness-guided Few-shot Prompting for Large Language Models
公平引導(dǎo)的大語(yǔ)言模型上下文提示方法
論文鏈接:https://arxiv.org/abs/2303.13217
本文由騰訊AI Lab主導(dǎo),與天津大學(xué),新加坡科技研究局(A*STAR)合作完成。大型語(yǔ)言模型展示了驚人的能力,可以進(jìn)行上下文學(xué)習(xí),即這些模型可以通過(guò)依據(jù)少量輸入-輸出示例構(gòu)建的提示來(lái)直接應(yīng)用于解決眾多下游任務(wù)。然而,先前的研究表明,由于訓(xùn)練示例、示例順序和提示格式的變化,上下文學(xué)習(xí)可能會(huì)遭受高度不穩(wěn)定的問(wèn)題。因此,構(gòu)建適當(dāng)?shù)奶崾緦?duì)于提高上下文學(xué)習(xí)的性能至關(guān)重要。
本文從預(yù)測(cè)偏差的角度重新審視這個(gè)問(wèn)題。具體而言,本文引入了一個(gè)度量標(biāo)準(zhǔn)來(lái)評(píng)估固定提示相對(duì)于標(biāo)簽或給定屬性的預(yù)測(cè)偏差。通過(guò)實(shí)驗(yàn)證明,具有更高偏差的提示總是導(dǎo)致不令人滿意的預(yù)測(cè)質(zhì)量?;谶@一觀察,本文提出了一種基于貪婪搜索的新型搜索策略,用于識(shí)別接近最優(yōu)的提示,以提高上下文學(xué)習(xí)的性能。通過(guò)對(duì)包括GPT-3在內(nèi)的最先進(jìn)的主流模型進(jìn)行了全面實(shí)驗(yàn)(涉及各種下游任務(wù)),結(jié)果表明,該方法可以以一種有效且可解釋的方式增強(qiáng)模型的上下文學(xué)習(xí)性能,使大語(yǔ)言模型的表現(xiàn)更加可靠。

13. Repetition In Repetition Out: Towards Understanding Neural Text Degeneration from the Data Perspective
Repetition In Repetition Out: 從數(shù)據(jù)角度理解神經(jīng)網(wǎng)絡(luò)文本生成中的退化問(wèn)題
論文鏈接:https://openreview.net/pdf?id=WjgCRrOgip
本文由騰訊AI Lab與奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)、劍橋大學(xué)、Cohere合作完成。關(guān)于神經(jīng)網(wǎng)絡(luò)文本生成中的退化問(wèn)題(即語(yǔ)言模型傾向于生成重復(fù)和陷入循環(huán))存在許多不同的假設(shè),使得這個(gè)問(wèn)題既有趣又令人困惑。本文從數(shù)據(jù)的角度理解這個(gè)問(wèn)題,并提供了一個(gè)簡(jiǎn)單而基本的解釋。研究顯示,退化問(wèn)題與訓(xùn)練數(shù)據(jù)中的重復(fù)的相關(guān)性很強(qiáng)。實(shí)驗(yàn)表明,通過(guò)在訓(xùn)練數(shù)據(jù)中有選擇地減少對(duì)重復(fù)的關(guān)注,可以顯著減少退化。此外,以往從不同立場(chǎng)(如高流入詞、最大似然目標(biāo)和自我強(qiáng)化)出發(fā)的假設(shè)可以用本文提出的簡(jiǎn)單解釋來(lái)統(tǒng)一。也就是說(shuō),懲罰訓(xùn)練數(shù)據(jù)中的重復(fù)是它們有效性的共同基礎(chǔ)。實(shí)驗(yàn)表明,即使在更大的模型尺寸和指令微調(diào)后,懲罰訓(xùn)練數(shù)據(jù)中的重復(fù)仍然至關(guān)重要。

游戲AI
14.A Robust and Opponent-Aware League Training Method for StarCraft II
一種魯棒且具有對(duì)手認(rèn)知的星際爭(zhēng)霸2聯(lián)盟訓(xùn)練方法
論文鏈接:https://openreview.net/pdf?id=tDAu3FPJn9
本文由騰訊AI Lab獨(dú)立完成,已被會(huì)議接收為Spotlight。在星際爭(zhēng)霸2(星際2)這種大型RTS游戲中訓(xùn)練一個(gè)超乎常人水平的AI是極其困難的。受博弈論方法啟發(fā),AlphaStar提出了一種聯(lián)盟訓(xùn)練框架(league training framework),成為首個(gè)在星際2中擊敗人類職業(yè)玩家的AI。
本文從兩個(gè)重要的方面對(duì)AlphaStar的聯(lián)盟訓(xùn)練進(jìn)行改進(jìn)。該項(xiàng)工作使用了目標(biāo)趨向的利用者(goal-conditioned exploiters)來(lái)增強(qiáng)AlphaStar中的無(wú)目標(biāo)的利用者(unconditioned exploiters),大大提升了利用者發(fā)現(xiàn)主代理(main agent)和整個(gè)聯(lián)盟弱點(diǎn)的能力;此外,為聯(lián)盟中的代理增加了對(duì)手建模能力,使代理能更加迅速地響應(yīng)對(duì)手的實(shí)時(shí)策略?;谶@些改進(jìn),作者團(tuán)隊(duì)用比AlphaStar更少的資源訓(xùn)練出了一個(gè)更魯棒的超越人類玩家水平的AI,與多位頂級(jí)職業(yè)玩家分別進(jìn)行的20局比賽中均保持了50%以上的勝率。該研究為大型復(fù)雜的兩人零和非完美信息博弈場(chǎng)景求解魯棒策略提供了有價(jià)值的參考。

15.Policy Space Diversity for Non-Transitive Games
非傳遞性博弈游戲中的策略空間多樣性
論文鏈接:https://arxiv.org/pdf/2306.16884.pdf
本文由騰訊AI Lab獨(dú)立完成。在多智能體非傳遞博弈中,PSRO是一個(gè)影響力強(qiáng)大的算法框架,能夠較高效地尋找博弈中的納什均衡策略。許多先前的研究試圖在PSRO中提升策略多樣性,然而,大多數(shù)此類工作的一個(gè)主要不足是,一個(gè)更多樣(按照他們的定義)的策略集合并不一定意味著(如本文中證明的)更高的強(qiáng)度。
為了解決這個(gè)問(wèn)題,本文從策略空間上定義一個(gè)新的多樣性指標(biāo),在訓(xùn)練中通過(guò)優(yōu)化該指標(biāo)能使模型產(chǎn)生的策略更好地接近NE。同時(shí),本文推導(dǎo)了一種可實(shí)踐的,基于狀態(tài)-動(dòng)作樣本的方法來(lái)優(yōu)化多樣性指標(biāo)。結(jié)合本文提出的多樣性指標(biāo)和原始PSRO算法,可以得到一個(gè)新的PSRO變體,策略空間多樣性PSRO(PSD-PSRO)。本文在理論上分析了PSD-PSRO的收斂性質(zhì),并且通過(guò)實(shí)驗(yàn)驗(yàn)證PSD-PSRO更能有效地產(chǎn)生低可被利用性的策略。

16. Automatic Grouping for Efficient Cooperative Multi-Agent Reinforcement Learning
通過(guò)自動(dòng)分組實(shí)現(xiàn)高效協(xié)作的多智能體強(qiáng)化學(xué)習(xí)
論文鏈接:https://openreview.net/pdf?id=CGj72TyGJy
本文由騰訊AI Lab與中國(guó)科學(xué)院自動(dòng)化研究所、清華大學(xué)合作完成。分組在自然系統(tǒng)中無(wú)處不在,其對(duì)于提升團(tuán)隊(duì)協(xié)調(diào)效率至關(guān)重要。本文提出了一種新的面向群體的多智能體強(qiáng)化學(xué)習(xí),它能夠在沒(méi)有領(lǐng)域知識(shí)的情況下學(xué)習(xí)自動(dòng)分組以實(shí)現(xiàn)有效的合作。與現(xiàn)有的直接學(xué)習(xí)聯(lián)合行動(dòng)價(jià)值和個(gè)體效用之間復(fù)雜關(guān)系的方法不同,本文將分組作為橋梁來(lái)連接各組智能體,并鼓勵(lì)他們之間的合作,從而提高整個(gè)團(tuán)隊(duì)的學(xué)習(xí)效率。
具體來(lái)說(shuō),該方法將聯(lián)合行動(dòng)的價(jià)值拆解為每一組的價(jià)值,這些價(jià)值指導(dǎo)智能體以更細(xì)粒度的方式提升他們的策略。本文提出了一種自動(dòng)分組機(jī)制來(lái)生成動(dòng)態(tài)的分組以及組行動(dòng)價(jià)值。進(jìn)一步,本文引入了一種用于策略學(xué)習(xí)的分層控制,該控制驅(qū)動(dòng)同一組中的智能體專門研究類似的策略,并在組間產(chǎn)生多樣化的策略。在StarCraft II微管理問(wèn)題和谷歌足球場(chǎng)景上的實(shí)驗(yàn)驗(yàn)證了該方法的有效性,并且揭示了分組的工作方式以及如何提高性能。

17. Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs
行動(dòng)如你所愿:基于層次語(yǔ)義圖的精細(xì)可控運(yùn)動(dòng)擴(kuò)散模型
論文鏈接:https://arxiv.org/pdf/2311.01015.pdf
本文由騰訊AI Lab和北京大學(xué)合作完成。人體運(yùn)動(dòng)生成是游戲影視制作、虛擬現(xiàn)實(shí)和人形機(jī)器人等領(lǐng)域的所必須的關(guān)鍵技術(shù),其目標(biāo)一般是生成盡可能擬真的人體運(yùn)動(dòng)序列。傳統(tǒng)的生成管線一般需要專業(yè)演員來(lái)捕捉運(yùn)動(dòng),并輔以專業(yè)動(dòng)畫師細(xì)致繁雜的手工精修才能完成。近年,基于狀態(tài)機(jī)或者M(jìn)otion Matching的動(dòng)畫技術(shù)極大推動(dòng)了人體運(yùn)動(dòng)的自動(dòng)化生成,但仍然存在需人工收集動(dòng)作片段,內(nèi)存消耗大,只能做動(dòng)作片段的組合,可控性有限等問(wèn)題。因此,基于學(xué)習(xí)(以神經(jīng)網(wǎng)絡(luò)為主流)的解決方案,尤其是基于文本的人體運(yùn)動(dòng)生成獲得了特別的關(guān)注并剛剛?cè)〉昧孙@著進(jìn)步。
本文提出了一種新的基于層次化語(yǔ)義圖的精細(xì)化可控文本生成運(yùn)動(dòng)方案GraphMotion。它可根據(jù)文本中所指定的運(yùn)動(dòng)類別,運(yùn)動(dòng)路徑,運(yùn)動(dòng)風(fēng)格等信息,生成相應(yīng)的3D人體骨骼序列。與現(xiàn)有相關(guān)方案相比,GraphMotion將輸入文本解析為一種新的控制信號(hào):層次語(yǔ)義圖,能從粗到精的從三個(gè)語(yǔ)義級(jí)別來(lái)分別捕獲與生成人體的整體運(yùn)動(dòng)、局部動(dòng)作和動(dòng)作細(xì)節(jié)。GraphMotion在提高結(jié)果生成質(zhì)量(文本匹配準(zhǔn)確度、運(yùn)動(dòng)逼真度等)的同時(shí)也保證了結(jié)果的多樣性,不僅刷新了SOTA性能,還具備通過(guò)調(diào)節(jié)語(yǔ)義圖(改變節(jié)點(diǎn)間的權(quán)重以及增減修改節(jié)點(diǎn)等)來(lái)實(shí)現(xiàn)前所未有的精細(xì)調(diào)控生成結(jié)果的額外能力。
開(kāi)源鏈接:https://github.com/jpthu17/GraphMotion .

AI for Science
18. Equivariant Spatio-Temporal Attentive Graph Networks to Simulate Physical Dynamics
模擬物理動(dòng)態(tài)的等變時(shí)空注意力圖網(wǎng)絡(luò)
論文鏈接:https://openreview.net/pdf?id=35nFSbEBks
本文由騰訊AI Lab與中國(guó)人民大學(xué)合作完成。學(xué)習(xí)如何表示和模擬物理系統(tǒng)的動(dòng)態(tài)是一項(xiàng)至關(guān)重要且富有挑戰(zhàn)性的任務(wù)?,F(xiàn)有的等變圖神經(jīng)網(wǎng)絡(luò)(GNN)方法已經(jīng)捕捉到了物理學(xué)的對(duì)稱性,例如平移、旋轉(zhuǎn)等,從而具有更好的泛化能力。然而,這些方法在處理任務(wù)時(shí)逐幀進(jìn)行,忽略了主要由環(huán)境中未觀察到的動(dòng)態(tài)引起的非馬爾可夫特性。
在本文中,該方法通過(guò)利用過(guò)去一段時(shí)間的軌跡來(lái)恢復(fù)非馬爾可夫交互,將動(dòng)態(tài)模擬改進(jìn)為一個(gè)時(shí)空預(yù)測(cè)任務(wù)。為此,本文提出了一種等變時(shí)空注意力圖網(wǎng)絡(luò)(ESTAG),它是一種等變的時(shí)空 GNN。在其核心,本文設(shè)計(jì)了一種新穎的等變離散傅立葉變換(EDFT),用于從歷史幀中提取周期性模式,并構(gòu)建了一個(gè)等變空間模塊(ESM)來(lái)完成空間信息傳遞,以及一個(gè)具有前向注意力和等變池化機(jī)制的等變時(shí)間模塊(ETM)來(lái)整合時(shí)間信息。在分別對(duì)應(yīng)于分子、蛋白質(zhì)和宏觀層次的三個(gè)真實(shí)數(shù)據(jù)集上的評(píng)估表明, ESTAG 與典型的時(shí)空 GNN 和等變 GNN 相比具有更高的有效性。

— 完 —