KDD最佳論文獎(jiǎng)首次獨(dú)立頒給中國內(nèi)地機(jī)構(gòu)!達(dá)摩院開源工作獲獎(jiǎng),面向聯(lián)邦圖學(xué)習(xí)
組委會:該研究推動(dòng)了聯(lián)邦圖學(xué)習(xí)的發(fā)展
明敏 衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,KDD 2022所有獎(jiǎng)項(xiàng)正式對外公布!
作為數(shù)據(jù)挖掘、知識發(fā)現(xiàn)領(lǐng)域的最高學(xué)術(shù)會議,每年KDD獎(jiǎng)項(xiàng)花落誰家都會引發(fā)學(xué)界熱烈討論。
今年,中國團(tuán)隊(duì)的表現(xiàn)依舊令人矚目。
清華裘捷中獲得博士論文獎(jiǎng)亞軍,成為亞洲高校首位獲得者。
阿里巴巴達(dá)摩院智能計(jì)算實(shí)驗(yàn)室,獲得應(yīng)用數(shù)據(jù)科學(xué)方向最佳論文獎(jiǎng),是中國工業(yè)界研究團(tuán)隊(duì)首次獨(dú)立獲得這一獎(jiǎng)項(xiàng)。
論文提出了一個(gè)面向聯(lián)邦圖學(xué)習(xí)的庫FederatedScope-GNN。
主辦方SIGKDD評價(jià)其“推動(dòng)了聯(lián)邦圖學(xué)習(xí)的發(fā)展”。
在此,量子位找到論文一作王楨、通訊作者李雅亮,一起聊了聊他們關(guān)于論文研究及背后的更多事兒~
在圖數(shù)據(jù)上發(fā)揮聯(lián)邦學(xué)習(xí)能力
本次獲獎(jiǎng)?wù)撐牡暮诵?,聚焦在?lián)邦圖學(xué)習(xí)方面。
簡單來說,它就是將圖學(xué)習(xí)和聯(lián)邦學(xué)習(xí)的優(yōu)勢合璧。
近年來,隨著越來越多應(yīng)用場景對隱私保護(hù)的需求增高,聯(lián)邦學(xué)習(xí)愈發(fā)火熱。
它能讓用戶在數(shù)據(jù)始終都停留在本地的基礎(chǔ)上,通過交換模型參數(shù)或中間結(jié)果的方式,在云端聯(lián)合訓(xùn)練,最終讓多方用戶都能完成模型訓(xùn)練。
也就是常說的讓“數(shù)據(jù)可用不可見”,從而避免“數(shù)據(jù)孤島”問題。
目前,如谷歌的Tensorflow Federated(TFF)、微眾銀行的FATE等,都是目前大熱的開源聯(lián)邦學(xué)習(xí)框架。
不過,現(xiàn)有的聯(lián)邦學(xué)習(xí)工作,更多關(guān)注視覺和自然語言領(lǐng)域,對圖的支持相對有限。
要知道,圖(graph)在表示復(fù)雜關(guān)系方面,具有很大優(yōu)勢。
它是由節(jié)點(diǎn)(node)和邊(edge)兩部分組成的一種數(shù)據(jù)結(jié)構(gòu),用來描述對象間關(guān)系。
日常生活中,你可以把每個(gè)社交賬戶看作一個(gè)節(jié)點(diǎn)。預(yù)測兩個(gè)賬戶是不是有好友關(guān)系,就是預(yù)測這倆節(jié)點(diǎn)之間是否存在連邊,從而給你推薦“可能認(rèn)識的人”。
但是傳統(tǒng)神經(jīng)網(wǎng)絡(luò),都是接受幾何空間的數(shù)據(jù)作為輸入,無法處理圖這種數(shù)據(jù)結(jié)構(gòu)。
針對這種情況,圖神經(jīng)網(wǎng)絡(luò)被提出。它能利用神經(jīng)網(wǎng)絡(luò)來圖進(jìn)行深度特征抽取等操作,從而實(shí)現(xiàn)更好的推理預(yù)測效果。
常用的場景有電子商務(wù)、藥物研發(fā)、金融、互聯(lián)網(wǎng)社交等。而這些場景,對數(shù)據(jù)保護(hù)的需求往往也會很大。
比如銀行反洗錢場景下,需要預(yù)測每個(gè)賬戶是否為風(fēng)險(xiǎn)賬戶,但各個(gè)銀行的賬戶信息不能相互公開。
△銀行反洗錢場景
還有藥物研發(fā)過程中,不同廠商只掌握了分子圖中的一部分,大家需要共享信息以完成研發(fā)任務(wù),但各自的數(shù)據(jù)還要相互保密。
上述種種,讓大家對聯(lián)邦圖學(xué)習(xí)算法非常渴望。
這樣的背景下,達(dá)摩院在本次研究中,把圖學(xué)習(xí)用在聯(lián)邦學(xué)習(xí)上。
FederatedScope-GNN(以下簡稱FS-G)基于達(dá)摩院已開源的聯(lián)邦學(xué)習(xí)框架FederatedScope(以下簡稱FS)提出。
首先,F(xiàn)S-G提供了一個(gè)統(tǒng)一視圖,靈活支持異構(gòu)數(shù)據(jù)的交換。
得益于底層框架FS事件驅(qū)動(dòng)(event-driven)的編程范式,多種多樣的消息交換和參與者的豐富行為得以模塊化進(jìn)行拆分實(shí)現(xiàn)——FS-G允許靈活豐富的模塊化行為。
其次,F(xiàn)S-G針對圖學(xué)習(xí)提供了DataZoo和ModelZoo。
前者為用戶提供豐富多樣的聯(lián)邦圖數(shù)據(jù)集,后者提供相應(yīng)的模型與算法。
此外,DataZoo還實(shí)現(xiàn)了大量不同類型的splitters,即便在單機(jī)場景里,通過FS-G提供的注冊機(jī)制,開發(fā)者也能輕松把單機(jī)代碼搬到聯(lián)邦場景復(fù)用。
再者,針對聯(lián)邦圖學(xué)習(xí)對超參數(shù)敏感的現(xiàn)象,F(xiàn)S-G還實(shí)現(xiàn)了高效的模型調(diào)優(yōu)(model tuning)組件。
其中包括多保真度的Successive Halving Algorithm和新近提出的聯(lián)邦超參優(yōu)化算法FedEx,以及針對聯(lián)邦異質(zhì)任務(wù)的個(gè)性化。
△一個(gè)個(gè)性化圖神經(jīng)網(wǎng)絡(luò)示例
因?yàn)楦鱾€(gè)參與者被允許使用獨(dú)立的特有神經(jīng)架構(gòu),只聚合共享部分,F(xiàn)S-G允許開發(fā)者根據(jù)實(shí)際情況,采用不同的異步訓(xùn)練策略。
最后,F(xiàn)S-G還提供了豐富的隱私評估算法,對算法在隱私保護(hù)方面的能力進(jìn)行檢驗(yàn)。
春節(jié)加班提交論文
對于這次拿下大獎(jiǎng),論文一作王楨說道,“開心是肯定的,感覺自己的工作得到了認(rèn)可”。
通訊作者李雅亮則表示,因?yàn)榭吹搅藞F(tuán)隊(duì)為此付出了多少努力,所以覺得這一切更像是一種水到渠成。
實(shí)際上,這項(xiàng)工作的籌備時(shí)間要從一年多以前算起。
當(dāng)時(shí),團(tuán)隊(duì)洞察到了隱私保護(hù)計(jì)算行業(yè)的發(fā)展趨勢。作為技術(shù)人員,自然而然想到從工具入手,推動(dòng)這股研究浪潮更快前進(jìn)。
所以,F(xiàn)ederatedScope被提上了日程,F(xiàn)S-G則是其中非常重要的部分之一。
前面也有提到,聯(lián)邦圖學(xué)習(xí)的工作可以滿足應(yīng)用場景中更為廣泛的需求,但是復(fù)雜程度也更高。
剛好,王楨博士非常擅長圖學(xué)習(xí)方面的研究。
引用量超過2500次的知識圖譜補(bǔ)全算法TransH,正是他以一作身份完成的工作。
當(dāng)時(shí),他還正在中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院攻讀博士學(xué)位,通過微軟亞研院聯(lián)合培養(yǎng)項(xiàng)目,完成了這篇論文。
博士畢業(yè)后,王楨就加入了阿里巴巴,曾任阿里云高級算法工程師。
作為主要開發(fā)者,王楨參與了阿里機(jī)器學(xué)習(xí)平臺PAI中A3gent強(qiáng)化學(xué)習(xí)組件的研發(fā),并將其開源為EasyRL項(xiàng)目。
同期還參與了伯克利大學(xué)Ray RLLib項(xiàng)目共建,并被社區(qū)認(rèn)可為項(xiàng)目committer。
之后,王楨加入達(dá)摩院,開始專注聯(lián)邦圖領(lǐng)域的研究。多次在KDD Cup比賽中取得高排名成績,在ICLR、WWW等國際頂會發(fā)表多篇論文。
但即便有優(yōu)秀學(xué)者坐鎮(zhèn),由于聯(lián)邦圖學(xué)習(xí)是一個(gè)十分前沿的領(lǐng)域,領(lǐng)域內(nèi)一些基礎(chǔ)性工作都還沒有搭建完整,聯(lián)邦圖學(xué)習(xí)算法本身也會比普通聯(lián)邦學(xué)習(xí)算法難,所以研發(fā)FS-G的難度并不小。
王楨提到,最初他們甚至連一個(gè)可用的數(shù)據(jù)集都沒有。
加之,圖數(shù)據(jù)相較于其他數(shù)據(jù)類型,在異質(zhì)消息交換上會存在更多風(fēng)險(xiǎn);聯(lián)邦學(xué)習(xí)的每個(gè)參與者也會有更豐富的行為,去處理這些信息。
因此,研究團(tuán)隊(duì)需要在圖聯(lián)邦算法上使用一個(gè)與以往不同的編程范式,并設(shè)計(jì)方案使其在圖聯(lián)邦中發(fā)揮最大功效,這是有別于常規(guī)開發(fā)的。
這背后,都需要更多人力、時(shí)間的投入。
論文通訊作者李雅亮回憶,今年KDD論文提交的時(shí)間,剛好在大年初十。
當(dāng)時(shí)整個(gè)團(tuán)隊(duì)都在興奮地忙碌著論文的提交工作,過年幾乎都沒有休息。
而這些精力的投入,最終也在論文成果中得以顯現(xiàn)。
可以看到,F(xiàn)S-G中包含了豐富的聯(lián)邦圖數(shù)據(jù)集和相應(yīng)的模型與算法。并且讓沒有聯(lián)邦學(xué)習(xí)背景的開發(fā)者,也能自如使用FS-G。
這為后續(xù)研究做了大量的基礎(chǔ)性工作,可以說是為聯(lián)邦圖學(xué)習(xí)建立了新基準(zhǔn)。
李雅亮在交談中也表示,基礎(chǔ)性工作的完成,能夠吸引更多研究人員參與聯(lián)邦圖學(xué)習(xí)的研究。
我覺得,這是我們工作能夠獲得組委會認(rèn)可的一大原因。
值得一提的,李雅亮作為本次成果的通訊作者,還曾負(fù)責(zé)FederatedScope的開源工作。
他現(xiàn)在是達(dá)摩院智能計(jì)算實(shí)驗(yàn)室的高級算法專家。
2017年從紐約州立大學(xué)布法羅分校博士畢業(yè),研究領(lǐng)域覆蓋數(shù)據(jù)融合、因果推斷、自動(dòng)機(jī)器學(xué)習(xí)、隱私保護(hù)計(jì)算等領(lǐng)域。
曾擔(dān)任NeurIPS’21、NeurIPS’21、AAAI’22的領(lǐng)域主席,在IJCAI和NeurIPS上三次組織workshop,在CIKM’22上組織了AnalytiCup比賽,并在KDD、AAAI上多次做了Tutorial。
據(jù)他透露,F(xiàn)ederatedScope現(xiàn)在已經(jīng)開源0.2.0版本。
新版本可以更好支持大規(guī)模下的異步聯(lián)邦學(xué)習(xí),對用戶的友好度也更高。
One More Thing
最后是福利時(shí)刻~
在聊完獲獎(jiǎng)?wù)撐牡南嚓P(guān)內(nèi)容后,我們還找兩位大佬問了問AI研究方面的學(xué)習(xí)經(jīng)驗(yàn),大家趕緊來抄作業(yè)!
首先,兩位學(xué)者都表示,想學(xué)好AI,數(shù)學(xué)非常關(guān)鍵。
李雅亮提到,自己觀察到這幾年很多學(xué)生、實(shí)習(xí)生的數(shù)學(xué)能力都有些下降,這其實(shí)非常值得關(guān)注。
現(xiàn)在很多工具變得好用后,大家開始更追求短平快的東西,忽略了更為深入、本質(zhì)的知識學(xué)習(xí)。其實(shí)數(shù)學(xué)作為基礎(chǔ)能力,和代碼這種工程方面的能力,二者缺一不可。
其次,是大家都關(guān)心的怎么讀論文的問題。
王楨表示,讀好的論文才是關(guān)鍵所在。
自己要先學(xué)會去甄別什么是好的論文,然后把時(shí)間花在刀刃上。
而且相較于讀論文,李雅亮更鼓勵(lì)大家去多讀書。因?yàn)闀鴷椭蠹腋萌ソ⒅R體系。
現(xiàn)在,即便他們都已經(jīng)畢業(yè)很多年了,在達(dá)摩院智能計(jì)算實(shí)驗(yàn)室也經(jīng)常組織讀書活動(dòng)。
推薦大家讀一下《Fundation of Machine Learning》!我相信無論是小白還是行家,都會從這本書中得到更多新的見解。
除了學(xué)習(xí)經(jīng)驗(yàn),我們還問了問大佬們有啥業(yè)余愛好。
結(jié)果他們都表示,他們做研究就是靠興趣驅(qū)動(dòng)的,所以平常也很愛鉆研。
這點(diǎn)你學(xué)廢了嗎?
- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11