KDD最佳論文獎首次獨立頒給中國內(nèi)地機構!達摩院開源工作獲獎,面向聯(lián)邦圖學習
組委會:該研究推動了聯(lián)邦圖學習的發(fā)展
明敏 衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,KDD 2022所有獎項正式對外公布!
作為數(shù)據(jù)挖掘、知識發(fā)現(xiàn)領域的最高學術會議,每年KDD獎項花落誰家都會引發(fā)學界熱烈討論。
今年,中國團隊的表現(xiàn)依舊令人矚目。
清華裘捷中獲得博士論文獎亞軍,成為亞洲高校首位獲得者。
阿里巴巴達摩院智能計算實驗室,獲得應用數(shù)據(jù)科學方向最佳論文獎,是中國工業(yè)界研究團隊首次獨立獲得這一獎項。
論文提出了一個面向聯(lián)邦圖學習的庫FederatedScope-GNN。
主辦方SIGKDD評價其“推動了聯(lián)邦圖學習的發(fā)展”。
在此,量子位找到論文一作王楨、通訊作者李雅亮,一起聊了聊他們關于論文研究及背后的更多事兒~
在圖數(shù)據(jù)上發(fā)揮聯(lián)邦學習能力
本次獲獎論文的核心,聚焦在聯(lián)邦圖學習方面。
簡單來說,它就是將圖學習和聯(lián)邦學習的優(yōu)勢合璧。
近年來,隨著越來越多應用場景對隱私保護的需求增高,聯(lián)邦學習愈發(fā)火熱。
它能讓用戶在數(shù)據(jù)始終都停留在本地的基礎上,通過交換模型參數(shù)或中間結果的方式,在云端聯(lián)合訓練,最終讓多方用戶都能完成模型訓練。
也就是常說的讓“數(shù)據(jù)可用不可見”,從而避免“數(shù)據(jù)孤島”問題。
目前,如谷歌的Tensorflow Federated(TFF)、微眾銀行的FATE等,都是目前大熱的開源聯(lián)邦學習框架。
不過,現(xiàn)有的聯(lián)邦學習工作,更多關注視覺和自然語言領域,對圖的支持相對有限。
要知道,圖(graph)在表示復雜關系方面,具有很大優(yōu)勢。
它是由節(jié)點(node)和邊(edge)兩部分組成的一種數(shù)據(jù)結構,用來描述對象間關系。
日常生活中,你可以把每個社交賬戶看作一個節(jié)點。預測兩個賬戶是不是有好友關系,就是預測這倆節(jié)點之間是否存在連邊,從而給你推薦“可能認識的人”。
但是傳統(tǒng)神經(jīng)網(wǎng)絡,都是接受幾何空間的數(shù)據(jù)作為輸入,無法處理圖這種數(shù)據(jù)結構。
針對這種情況,圖神經(jīng)網(wǎng)絡被提出。它能利用神經(jīng)網(wǎng)絡來圖進行深度特征抽取等操作,從而實現(xiàn)更好的推理預測效果。
常用的場景有電子商務、藥物研發(fā)、金融、互聯(lián)網(wǎng)社交等。而這些場景,對數(shù)據(jù)保護的需求往往也會很大。
比如銀行反洗錢場景下,需要預測每個賬戶是否為風險賬戶,但各個銀行的賬戶信息不能相互公開。
△銀行反洗錢場景
還有藥物研發(fā)過程中,不同廠商只掌握了分子圖中的一部分,大家需要共享信息以完成研發(fā)任務,但各自的數(shù)據(jù)還要相互保密。
上述種種,讓大家對聯(lián)邦圖學習算法非??释?。
這樣的背景下,達摩院在本次研究中,把圖學習用在聯(lián)邦學習上。
FederatedScope-GNN(以下簡稱FS-G)基于達摩院已開源的聯(lián)邦學習框架FederatedScope(以下簡稱FS)提出。
首先,F(xiàn)S-G提供了一個統(tǒng)一視圖,靈活支持異構數(shù)據(jù)的交換。
得益于底層框架FS事件驅動(event-driven)的編程范式,多種多樣的消息交換和參與者的豐富行為得以模塊化進行拆分實現(xiàn)——FS-G允許靈活豐富的模塊化行為。
其次,F(xiàn)S-G針對圖學習提供了DataZoo和ModelZoo。
前者為用戶提供豐富多樣的聯(lián)邦圖數(shù)據(jù)集,后者提供相應的模型與算法。
此外,DataZoo還實現(xiàn)了大量不同類型的splitters,即便在單機場景里,通過FS-G提供的注冊機制,開發(fā)者也能輕松把單機代碼搬到聯(lián)邦場景復用。
再者,針對聯(lián)邦圖學習對超參數(shù)敏感的現(xiàn)象,F(xiàn)S-G還實現(xiàn)了高效的模型調優(yōu)(model tuning)組件。
其中包括多保真度的Successive Halving Algorithm和新近提出的聯(lián)邦超參優(yōu)化算法FedEx,以及針對聯(lián)邦異質任務的個性化。
△一個個性化圖神經(jīng)網(wǎng)絡示例
因為各個參與者被允許使用獨立的特有神經(jīng)架構,只聚合共享部分,F(xiàn)S-G允許開發(fā)者根據(jù)實際情況,采用不同的異步訓練策略。
最后,F(xiàn)S-G還提供了豐富的隱私評估算法,對算法在隱私保護方面的能力進行檢驗。
春節(jié)加班提交論文
對于這次拿下大獎,論文一作王楨說道,“開心是肯定的,感覺自己的工作得到了認可”。
通訊作者李雅亮則表示,因為看到了團隊為此付出了多少努力,所以覺得這一切更像是一種水到渠成。
實際上,這項工作的籌備時間要從一年多以前算起。
當時,團隊洞察到了隱私保護計算行業(yè)的發(fā)展趨勢。作為技術人員,自然而然想到從工具入手,推動這股研究浪潮更快前進。
所以,F(xiàn)ederatedScope被提上了日程,F(xiàn)S-G則是其中非常重要的部分之一。
前面也有提到,聯(lián)邦圖學習的工作可以滿足應用場景中更為廣泛的需求,但是復雜程度也更高。
剛好,王楨博士非常擅長圖學習方面的研究。
引用量超過2500次的知識圖譜補全算法TransH,正是他以一作身份完成的工作。
當時,他還正在中山大學數(shù)據(jù)科學與計算機學院攻讀博士學位,通過微軟亞研院聯(lián)合培養(yǎng)項目,完成了這篇論文。
博士畢業(yè)后,王楨就加入了阿里巴巴,曾任阿里云高級算法工程師。
作為主要開發(fā)者,王楨參與了阿里機器學習平臺PAI中A3gent強化學習組件的研發(fā),并將其開源為EasyRL項目。
同期還參與了伯克利大學Ray RLLib項目共建,并被社區(qū)認可為項目committer。
之后,王楨加入達摩院,開始專注聯(lián)邦圖領域的研究。多次在KDD Cup比賽中取得高排名成績,在ICLR、WWW等國際頂會發(fā)表多篇論文。
但即便有優(yōu)秀學者坐鎮(zhèn),由于聯(lián)邦圖學習是一個十分前沿的領域,領域內(nèi)一些基礎性工作都還沒有搭建完整,聯(lián)邦圖學習算法本身也會比普通聯(lián)邦學習算法難,所以研發(fā)FS-G的難度并不小。
王楨提到,最初他們甚至連一個可用的數(shù)據(jù)集都沒有。
加之,圖數(shù)據(jù)相較于其他數(shù)據(jù)類型,在異質消息交換上會存在更多風險;聯(lián)邦學習的每個參與者也會有更豐富的行為,去處理這些信息。
因此,研究團隊需要在圖聯(lián)邦算法上使用一個與以往不同的編程范式,并設計方案使其在圖聯(lián)邦中發(fā)揮最大功效,這是有別于常規(guī)開發(fā)的。
這背后,都需要更多人力、時間的投入。
論文通訊作者李雅亮回憶,今年KDD論文提交的時間,剛好在大年初十。
當時整個團隊都在興奮地忙碌著論文的提交工作,過年幾乎都沒有休息。
而這些精力的投入,最終也在論文成果中得以顯現(xiàn)。
可以看到,F(xiàn)S-G中包含了豐富的聯(lián)邦圖數(shù)據(jù)集和相應的模型與算法。并且讓沒有聯(lián)邦學習背景的開發(fā)者,也能自如使用FS-G。
這為后續(xù)研究做了大量的基礎性工作,可以說是為聯(lián)邦圖學習建立了新基準。
李雅亮在交談中也表示,基礎性工作的完成,能夠吸引更多研究人員參與聯(lián)邦圖學習的研究。
我覺得,這是我們工作能夠獲得組委會認可的一大原因。
值得一提的,李雅亮作為本次成果的通訊作者,還曾負責FederatedScope的開源工作。
他現(xiàn)在是達摩院智能計算實驗室的高級算法專家。
2017年從紐約州立大學布法羅分校博士畢業(yè),研究領域覆蓋數(shù)據(jù)融合、因果推斷、自動機器學習、隱私保護計算等領域。
曾擔任NeurIPS’21、NeurIPS’21、AAAI’22的領域主席,在IJCAI和NeurIPS上三次組織workshop,在CIKM’22上組織了AnalytiCup比賽,并在KDD、AAAI上多次做了Tutorial。
據(jù)他透露,F(xiàn)ederatedScope現(xiàn)在已經(jīng)開源0.2.0版本。
新版本可以更好支持大規(guī)模下的異步聯(lián)邦學習,對用戶的友好度也更高。
One More Thing
最后是福利時刻~
在聊完獲獎論文的相關內(nèi)容后,我們還找兩位大佬問了問AI研究方面的學習經(jīng)驗,大家趕緊來抄作業(yè)!
首先,兩位學者都表示,想學好AI,數(shù)學非常關鍵。
李雅亮提到,自己觀察到這幾年很多學生、實習生的數(shù)學能力都有些下降,這其實非常值得關注。
現(xiàn)在很多工具變得好用后,大家開始更追求短平快的東西,忽略了更為深入、本質的知識學習。其實數(shù)學作為基礎能力,和代碼這種工程方面的能力,二者缺一不可。
其次,是大家都關心的怎么讀論文的問題。
王楨表示,讀好的論文才是關鍵所在。
自己要先學會去甄別什么是好的論文,然后把時間花在刀刃上。
而且相較于讀論文,李雅亮更鼓勵大家去多讀書。因為書會幫助大家更好去建立知識體系。
現(xiàn)在,即便他們都已經(jīng)畢業(yè)很多年了,在達摩院智能計算實驗室也經(jīng)常組織讀書活動。
推薦大家讀一下《Fundation of Machine Learning》!我相信無論是小白還是行家,都會從這本書中得到更多新的見解。
除了學習經(jīng)驗,我們還問了問大佬們有啥業(yè)余愛好。
結果他們都表示,他們做研究就是靠興趣驅動的,所以平常也很愛鉆研。
這點你學廢了嗎?
- 4o-mini華人領隊也離職了,這次不怪小扎2025-08-19
- 宇樹機器人“撞人逃逸”火到國外,王興興回應:下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11