聯(lián)邦學(xué)習(xí)前路如何?楊強:已到“合久必分”的狀態(tài)
已發(fā)展出第二階段,可信聯(lián)邦學(xué)習(xí)
衡宇 金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
2022年,聯(lián)邦學(xué)習(xí)論文數(shù)量出現(xiàn)大幅躍升,成為了屢登頂會的香餑餑:
NeurIPS發(fā)布聯(lián)邦學(xué)習(xí)論文41篇,較前一年有近30%的增長幅度;ICML則在2022年收錄聯(lián)邦學(xué)習(xí)論文74篇,幾乎成倍于2021年。
這個規(guī)律同樣存在于頂會AAAI、AISTATS、KDD及CVPR中。
聯(lián)邦學(xué)習(xí)論文在頂會頻現(xiàn),相應(yīng)的,相關(guān)產(chǎn)業(yè)實踐也進行得如火如荼。
這個現(xiàn)象的最好解答者,自然是聯(lián)邦學(xué)習(xí)領(lǐng)域的國內(nèi)最知名大牛:香港科技大學(xué)計算機與工程系講座教授和前系主任、中國人工智能學(xué)會(CAAI)榮譽副理事長、微眾銀行首席人工智能官楊強教授。
不僅因為他是CAAI,AAAI,ACM,IEEE,AAAS等多個國際學(xué)會Fellow,能夠解惑一二。
更能激起求知欲的是,這些聯(lián)邦學(xué)習(xí)論文中,有多篇與他帶領(lǐng)的團隊有關(guān)聯(lián)。
△楊強
今年,他在微眾銀行帶領(lǐng)的AI團隊,與上海交通大學(xué)、中山大學(xué)等機構(gòu)聯(lián)合撰寫了3篇聯(lián)邦學(xué)習(xí)領(lǐng)域論文。
這3篇論文,以一作身份,被IJCAI 2022、TPAMI 2022、ACM TIST國際人工智能頂級學(xué)術(shù)期刊和頂級學(xué)術(shù)會議收錄發(fā)表。
可信聯(lián)邦學(xué)習(xí),走的是一條怎樣的路?
2018年,國內(nèi)引進了聯(lián)邦學(xué)習(xí)(Federated Learning)概念。
為了解決數(shù)據(jù)割裂、數(shù)據(jù)孤島等問題,楊強帶領(lǐng)的微眾銀行AI團隊在國內(nèi)系統(tǒng)性提出聯(lián)邦學(xué)習(xí)理論。
能夠保證各企業(yè)在自有數(shù)據(jù)不出本地,不違規(guī)的情況下進行聯(lián)合建模,提升機器學(xué)習(xí)建模效果。
而后,又于2019年開源首個工業(yè)級聯(lián)邦學(xué)習(xí)技術(shù)框架FATE,同年6月捐獻給Linux基金會。
3年時間,在聯(lián)邦學(xué)習(xí)領(lǐng)域探索的公司如雨后春筍。
聯(lián)邦學(xué)習(xí)發(fā)展空前,已在金融、醫(yī)療、互聯(lián)網(wǎng)等領(lǐng)域落地應(yīng)用,并延伸出圖聯(lián)邦學(xué)習(xí)、動態(tài)聯(lián)邦學(xué)習(xí)、包容性聯(lián)邦學(xué)習(xí)等研究分支。
從剛開始的2018年至2019年間,F(xiàn)ATE和主攻橫向聯(lián)邦學(xué)習(xí)的TensorFlow分庭抗禮,到2019年后,眾多初創(chuàng)公司或以FATE為內(nèi)核,或推出新系統(tǒng)。
一路至今,用楊強的話來說,現(xiàn)在的聯(lián)邦學(xué)習(xí)已經(jīng)進入到“合久必分”的狀態(tài)。
正是在此基礎(chǔ)上,聯(lián)邦學(xué)習(xí)發(fā)展出第二階段,可信聯(lián)邦學(xué)習(xí)。
聯(lián)邦學(xué)習(xí)的發(fā)展和應(yīng)用,一直伴隨著這樣的聲音:
存不存在為了提高效率和性能,犧牲安全性的可能?
楊強簡明扼要地解釋道,絕對安全等于絕對低效,絕對高效意味著絕對不安全:“聯(lián)合建模要結(jié)合安全性和可用性一起看。如果是一個極端安全的模型,安全到不能實際使用,這東西也沒用。”
對此,論文《聯(lián)邦學(xué)習(xí)中隱私與模型性能沒有免費午餐定理》通過研究給出的答案是:隱私保護、模型性能、算法效率三者需要平衡,且可以平衡。
在聯(lián)邦學(xué)習(xí)過程中,一個半誠實的攻擊者,通過觀察和了解參與方的數(shù)據(jù)信息,可能可以推斷用戶的隱私數(shù)據(jù)。這種針對隱私的攻擊叫做“貝葉斯推斷攻擊(Bayesian Inference Attack)”。
文章從信息論的角度,為聯(lián)邦學(xué)習(xí)中隱私泄露和效用損失的分析提供了一個通用框架。
這個理論框架揭示了對于滿足“貝葉斯隱私”的多方計算系統(tǒng)而言,都滿足“|安全|+|效能|≤常數(shù)”這一“安全-效益恒定定律”。
無免費午餐定理通過量化隱私和效用之間的約束關(guān)系,證明信息的相互泄露和模型效能是互相制約的。
之所以叫“無免費的午餐”,是因為研究表明,一般情況下,隱私和效用的權(quán)衡中,必須用一定程度的效用降低來交換隱私的保護,將潛在的隱私損失維持在可接受范圍內(nèi)。
那么,能不能發(fā)明一種“聰明”的算法,把安全性、模型效能、準(zhǔn)確率同時最大化呢?
微眾銀行AI團隊和中山大學(xué)合作發(fā)表的另一篇論文——《FedCG:利用條件生成對抗網(wǎng)絡(luò)在聯(lián)邦學(xué)習(xí)中保護隱私并保持模型性能》——正面回答了這個問題。
FedCG,文章提出的一種新的聯(lián)邦學(xué)習(xí)方法,利用條件生成對抗網(wǎng)絡(luò),以實現(xiàn)高水平的隱私保護,同時保持模型的性能。
具體而言,F(xiàn)edCG將每個聯(lián)邦學(xué)習(xí)參與者的本地網(wǎng)絡(luò)分解成一個私有提取器和一個公共分類器,然后保持提取器的本地性來保護隱私。
△FedCG概述圖
它結(jié)合條件生成對抗網(wǎng)絡(luò)和分割學(xué)習(xí),不是暴露提取器,而是通過與服務(wù)器共享客戶端的生成器來聚合客戶端的共享知識,從而提高本地網(wǎng)絡(luò)的性能。
實驗表明,與聯(lián)邦學(xué)習(xí)基線相比,F(xiàn)edCG有更好的隱私保護能力,同時在模型性能上也具有競爭力。
另外,考慮到聯(lián)邦學(xué)習(xí)不是一次性的訓(xùn)練,它涉及數(shù)據(jù)的收集、選擇,模型的訓(xùn)練、推斷甚至交換,整個過程可能面臨非法復(fù)制、重新分發(fā)、濫用的風(fēng)險。
針對于此,結(jié)合對模型知識產(chǎn)權(quán)保護的思考,微眾銀行AI團隊進行了一項工作:提出一種聯(lián)邦深度神經(jīng)網(wǎng)絡(luò)(FedDNN)所有權(quán)驗證方案,稱為FedIPR。
《FedIPR:聯(lián)邦學(xué)習(xí)模型所屬權(quán)驗證》一文詳細(xì)介紹道,F(xiàn)edIPR方案允許嵌入和驗證私有水印,來申明FedDNN模型的所有權(quán)。
有了這個方案,模型由誰做出、有誰用過、誰進行過模型交易,以及模型的危險性、特別性等,都會得到很好的檢測。
如此這般,方便了對聯(lián)邦學(xué)習(xí)模型進行全生命周期管理,也對模型知識產(chǎn)權(quán)起到保護作用。
模型的歸屬權(quán)驗證一直是業(yè)界致力于解決的難題,微眾銀行AI團隊是首個在聯(lián)邦學(xué)習(xí)中融入這項工作的團隊。長遠來看,這項工作有利于數(shù)據(jù)和模型市場的建立和規(guī)范。
綜合看來,此次陸續(xù)發(fā)表的3篇聯(lián)邦學(xué)習(xí)論文,分別從理論、實踐、規(guī)?;?、工程化等不同的角度,對可信聯(lián)邦學(xué)習(xí)進行了全面探索。
可信聯(lián)邦學(xué)習(xí)的提出,通過提出端到端安全生命周期的管理、FedCG這種防火墻式的安全方法等一系列技術(shù)上的提升,再加入許多軟件工程的管理,譬如軟件治理、模型追蹤等,將聯(lián)邦學(xué)習(xí)領(lǐng)域的發(fā)展推進了一步。
至此,聯(lián)邦學(xué)習(xí)為何能夠成為頂會們的香餑餑,也就有了清晰的眉目。
而且對于聯(lián)邦學(xué)習(xí)的火熱,楊強還這樣評價道:
聯(lián)邦學(xué)習(xí)的第二階段,也就是可信聯(lián)邦學(xué)習(xí),從全世界范圍來看都是剛剛起步,到處都有學(xué)者響應(yīng)。
但正所謂能用起來的技術(shù)才是好技術(shù),那么接下來的一個問題便是:
頂會們的“香餑餑”,正如何改變我們的生活?
正如我們剛才提到的,可信聯(lián)邦學(xué)習(xí)需要處理的那些數(shù)據(jù),一般都具備較強的獨立性、隱私性、安全性。
因此,金融、醫(yī)療、物流、政務(wù)等場景便成為了聯(lián)邦學(xué)習(xí)發(fā)揮其實力極佳的“試驗田”;尤其是在金融場景中,聯(lián)邦學(xué)習(xí)涉足較早。
聯(lián)邦學(xué)習(xí)現(xiàn)在應(yīng)用上的發(fā)展態(tài)勢,用“百花齊放”來形容不足為過。
例如全球科技巨頭谷歌,國內(nèi)外學(xué)術(shù)機構(gòu)如卡內(nèi)基梅隆大學(xué)(CMU)、北京郵電大學(xué)等名校也在致力于研究聯(lián)邦學(xué)習(xí);在論文全球高被引方面,國外機構(gòu)谷歌排名第一,而國內(nèi)機構(gòu)則是楊強所在的微眾銀行。
而且與之相關(guān)的開源框架也是陸續(xù)被提出,例如OpenMined推出的Pysyft、微眾銀行的FATE和谷歌的TFF框架等等。
從大方向上來看,現(xiàn)在微眾銀行所使用的可信聯(lián)邦學(xué)習(xí),不單單是能夠完成一個項目那么簡單,更是能夠?qū)椖孔鲆粋€分析和認(rèn)證。
在此能力的背后,微眾銀行所依托的便是全球首個開源的工業(yè)級聯(lián)邦學(xué)習(xí)框架——FATE(Federated AI Technology Enabler)。
而自2019年開源以來,這個框架也在不斷的提升自己的能力。
像剛才我們提到入圍的幾篇論文,都已經(jīng)被涵蓋了進來,目前已經(jīng)步入2.0階段。
具體到實際案例,可信聯(lián)邦學(xué)習(xí)在金融行業(yè)反欺詐上便起到了很好的作用。
因為在這個過程中所涉及到的數(shù)據(jù)著實紛繁復(fù)雜,包括銀行機構(gòu)、電商、運營商、政務(wù)等等。
各方都需要保障自己數(shù)據(jù)的安全、隱私以及所有權(quán),但交易過程中相互之間又有所交織。
而可信聯(lián)邦學(xué)習(xí)就能在保障這個大前提之下,還能做到挖掘金融行為、消費行為、通信行為、社交行為等眾多特征。
以及再針對不同細(xì)分金融反欺詐業(yè)務(wù)場景構(gòu)建專有模型,從而提升金融行業(yè)的整體反欺詐能力。
再如信貸風(fēng)控,亦是如此。
以往中小微企業(yè)在信貸風(fēng)控上所面臨的老大難問題,便是信貸評審數(shù)據(jù)稀缺、不全面、歷史信息沉淀不足等。
但有了可信聯(lián)邦學(xué)習(xí)之后,就能在確保數(shù)據(jù)提供方數(shù)據(jù)安全以及隱私保護的情況下,讓銀行融匯企業(yè)經(jīng)營數(shù)據(jù)、稅務(wù)數(shù)據(jù)、工商數(shù)據(jù)、支付數(shù)據(jù)等多源信息,豐富建模特征體系,提升模型的有效性。
由此可見,聯(lián)邦學(xué)習(xí)能夠成為頂會、頂刊們的香餑餑,不僅是因為在科研領(lǐng)域中所具備的前沿性,更是因為它在現(xiàn)實場景中正在發(fā)揮著不可替代的作用。
那么對于被頂會、頂刊們pick的聯(lián)邦學(xué)習(xí),以及它玩轉(zhuǎn)數(shù)據(jù)的這套打法,你怎么看?
FATE框架地址:
https://github.com/FederatedAI/FATE/blob/master/README_zh.md
參考鏈接:
[1]https://arxiv.org/pdf/2203.05816.pdf
[2]https://www.ijcai.org/proceedings/2022/324
[3]https://ieeexplore.ieee.org/abstract/document/9847383/
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08