這個(gè)登上Nature封面的「群體學(xué)習(xí)」,無(wú)需中央?yún)f(xié)調(diào)員,比聯(lián)邦學(xué)習(xí)更優(yōu)秀
在不違反隱私法的情況下集合來(lái)自世界各地的任何醫(yī)療數(shù)據(jù),讓AI診斷效果更好。
如今,在一些疾病的診斷領(lǐng)域,AI的準(zhǔn)確率已經(jīng)超過(guò)了醫(yī)生。
靠譜的診斷結(jié)果背后,是建立海量數(shù)據(jù)集上的機(jī)器學(xué)習(xí)。
但實(shí)際上,可用于訓(xùn)練的醫(yī)療數(shù)據(jù)非常分散,想要把世界各地的數(shù)據(jù)都集合起來(lái)又會(huì)引發(fā)對(duì)數(shù)據(jù)所有權(quán)、隱私性、保密性、安全性的擔(dān)憂(yōu),甚至數(shù)據(jù)壟斷的威脅……
常用的方法如聯(lián)邦學(xué)習(xí),可以解決上述的一些問(wèn)題,但該模型的參數(shù)由“中央?yún)f(xié)調(diào)員”( central coordinator)處理,造成了“權(quán)力”的集中,且它的星形架構(gòu)也導(dǎo)致容錯(cuò)性降低。
就沒(méi)有好的解決辦法嗎?
有,Nature封面為我們刊登了一種叫做Swarm Learning?(群體學(xué)習(xí),SL)的全新機(jī)器學(xué)習(xí)方法!
該方法結(jié)合了邊緣計(jì)算、基于區(qū)塊鏈的對(duì)等網(wǎng)絡(luò),無(wú)需“中央?yún)f(xié)調(diào)員”,超越了聯(lián)邦學(xué)習(xí),可以在不違反隱私法的情況下集合來(lái)自世界各地的任何醫(yī)療數(shù)據(jù)。
研究人員用了四個(gè)異質(zhì)性疾病?(結(jié)核病、COVID-19、白血病和肺部病變),來(lái)驗(yàn)證了Swarm Learning方法使用分布式數(shù)據(jù)來(lái)診斷疾病的可行性。
具體如何實(shí)現(xiàn)?
群體學(xué)習(xí)方法采用去中心化的架構(gòu),用私人許可的區(qū)塊鏈技術(shù)實(shí)現(xiàn)。
整個(gè)Swarm網(wǎng)絡(luò)由多個(gè)Swarm邊緣節(jié)點(diǎn)組成,節(jié)點(diǎn)之間通過(guò)該網(wǎng)絡(luò)來(lái)共享參數(shù),每個(gè)節(jié)點(diǎn)使用私有數(shù)據(jù)和網(wǎng)絡(luò)提供的模型來(lái)訓(xùn)練自己的模型。
該方法提供安全措施,以支持通過(guò)私有許可區(qū)塊鏈技術(shù)保證數(shù)據(jù)的所有權(quán)、安全性和機(jī)密性。
其中,只有預(yù)先授權(quán)的參與者才能加入,且新節(jié)點(diǎn)的加入是動(dòng)態(tài)的,通過(guò)適當(dāng)?shù)氖跈?quán)措施來(lái)識(shí)別參與者,并通過(guò)區(qū)塊鏈智能合約注冊(cè),讓參與者獲得模型,執(zhí)行本地模型訓(xùn)練。
直到本地模型訓(xùn)練到滿(mǎn)足定義的同步條件后,才可以通過(guò)Swarm的API交換模型參數(shù),并在新一輪訓(xùn)練開(kāi)始之前,合并新的參數(shù)配置來(lái)更新模型。
△?群體學(xué)習(xí)與其他機(jī)器學(xué)習(xí)方法的架構(gòu)對(duì)比
因此該群體學(xué)習(xí)方法具有以下特點(diǎn):
1、可以將數(shù)據(jù)所有者的醫(yī)療數(shù)據(jù)保存在本地;
2、不需要交換原始數(shù)據(jù),因此可減少數(shù)據(jù)流量(data traffic);
3、可以提供高水平地?cái)?shù)據(jù)安全保護(hù);
4、無(wú)需中央管理員就可保證分散成員安全、透明和公平地加入;
5、允許所有成員同等權(quán)利地合并參數(shù);
6、保護(hù)機(jī)器學(xué)習(xí)模型免受攻擊。
為了驗(yàn)證該方法基于分布式數(shù)據(jù)開(kāi)發(fā)診斷疾病功能的可行性,研究人員用它來(lái)診斷四種疾病。
區(qū)分輕度和重度 COVID-19 ,表現(xiàn)優(yōu)于單個(gè)節(jié)點(diǎn)
首先是白血病。
研究人員將超過(guò)12000多個(gè)的樣本數(shù)據(jù)“孤立”到各個(gè)節(jié)點(diǎn),以模擬中現(xiàn)實(shí)世界中分布在世界各地的醫(yī)療中心。
再用群體學(xué)習(xí)訓(xùn)練這些數(shù)據(jù)再去診斷未知病人,他們發(fā)現(xiàn),無(wú)論如何改變各個(gè)節(jié)點(diǎn)的樣本分布情況,群體學(xué)習(xí)方法的診斷準(zhǔn)確率均優(yōu)于單個(gè)節(jié)點(diǎn)。
接著使用群體學(xué)習(xí)識(shí)別結(jié)核病或肺部病變患者,結(jié)果也是如此,且減少訓(xùn)練樣本的數(shù)量以后,群體學(xué)習(xí)的預(yù)測(cè)效果雖然下降,但仍?xún)?yōu)于任何一個(gè)單獨(dú)的節(jié)點(diǎn)。
緊跟疫情,研究人員也檢測(cè)了群體學(xué)習(xí)對(duì)于診斷新冠病毒的效果。
結(jié)果顯示,在區(qū)分輕度和重度 COVID-19 時(shí),群體學(xué)習(xí)的表現(xiàn)優(yōu)于單個(gè)節(jié)點(diǎn)。
最后,研究人員表示,群體學(xué)習(xí)作為一個(gè)去中心化的學(xué)習(xí)方法,有望取代目前跨機(jī)構(gòu)醫(yī)學(xué)研究中的數(shù)據(jù)共享模式,在保證數(shù)據(jù)隱私等方面的情況下,幫助AI獲得更豐富全面的數(shù)據(jù),為AI診斷疾病提供更高的準(zhǔn)確率。
論文地址:
https://www.nature.com/articles/s41586-021-03583-3
GitHub代碼:
https://github.com/schultzelab/swarm_learning
- 北大開(kāi)源最強(qiáng)aiXcoder-7B代碼大模型!聚焦真實(shí)開(kāi)發(fā)場(chǎng)景,專(zhuān)為企業(yè)私有部署設(shè)計(jì)2024-04-09
- 剛剛,圖靈獎(jiǎng)揭曉!史上首位數(shù)學(xué)和計(jì)算機(jī)最高獎(jiǎng)“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語(yǔ)言模型綜述》重大升級(jí)2024-04-10
- 谷歌最強(qiáng)大模型免費(fèi)開(kāi)放了!長(zhǎng)音頻理解功能獨(dú)一份,100萬(wàn)上下文敞開(kāi)用2024-04-10