騰訊新研究登Nature子刊,讓細(xì)胞與計(jì)算機(jī)直接“對(duì)話”,還能輔助醫(yī)生精準(zhǔn)治癌
目前該項(xiàng)目已開源。
羿閣 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
騰訊把BERT方法用于單細(xì)胞注釋技術(shù),還登上了Nature子刊。
能輔助醫(yī)生精準(zhǔn)治癌的那種。
此次聚焦的單細(xì)胞RNA測(cè)序(scRNA-seq)技術(shù),一直被稱為生命科學(xué)領(lǐng)域的的革命性工具,對(duì)于“精準(zhǔn)醫(yī)療”具有極高的應(yīng)用價(jià)值。
但是,以前受制于數(shù)據(jù)樣本量小、人工干預(yù)多等因素,一直難以推廣使用。
這次騰訊首次將“transformer”應(yīng)用到該領(lǐng)域,使其真正實(shí)現(xiàn)了高解釋性、高泛化性、高穩(wěn)定性。
目前,該模型已在GitHub上開源?(鏈接附在文末)。
新模型怎么做到的?
眾所周知,人類各種組織之間細(xì)胞的類型、狀態(tài)和相互作用差異巨大。
而單細(xì)胞RNA測(cè)序技術(shù)的出現(xiàn),可以細(xì)粒度地觀察和刻畫各個(gè)物種中組織、器官和有機(jī)體中單細(xì)胞分子圖譜(細(xì)胞表達(dá)),堪稱給細(xì)胞中的每個(gè)基因都印上專屬“身份證”。
通過(guò)這一技術(shù),研究人員可以更好地研究這些組織及其中存在的不同類型的細(xì)胞。
更進(jìn)一步地說(shuō),還可以更好地了解腫瘤微環(huán)境,以達(dá)到精細(xì)分析病因、精準(zhǔn)匹配治療方案的效果。
但是,受數(shù)據(jù)樣本量小、人工干預(yù)多、過(guò)度依賴marker gene(已報(bào)道的特異性基因)等因素的影響,單細(xì)胞測(cè)序細(xì)胞類型注釋技術(shù)一直面臨著泛化性、可解釋性、穩(wěn)定性均比較低的問(wèn)題,現(xiàn)存的算法也難以有更廣泛的應(yīng)用。
具體來(lái)說(shuō),人工注釋費(fèi)時(shí)、主觀性強(qiáng)、誤差大、不利于發(fā)現(xiàn)新的細(xì)胞類型;機(jī)器注釋則經(jīng)常出現(xiàn)在一個(gè)檢測(cè)組織里有效,換到另外一個(gè)檢測(cè)組織里就沒(méi)效的問(wèn)題,還是需要人工參與。
為此,研究人員開發(fā)了一種基于預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的模型:scBERT模型,并首次將“transformer”運(yùn)用到單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析領(lǐng)域。
scBERT模型,顧名思義是基于BERT的思路和范式。
在預(yù)訓(xùn)練數(shù)據(jù)選擇上,為了保證全基因組內(nèi)基因級(jí)別的可解釋性,scBERT沒(méi)有做任何的降維或篩選處理,最大程度上保留數(shù)據(jù)本身的特性和信息。
此外,該模型復(fù)用了大規(guī)模的公開數(shù)據(jù)集,包含不同實(shí)驗(yàn)來(lái)源、批次和組織類型的單細(xì)胞數(shù)據(jù),以保證模型能學(xué)習(xí)到更為“通用”的知識(shí),精準(zhǔn)捕獲單個(gè)基因的表達(dá)信息及兩兩基因之間的作用關(guān)系。
在實(shí)驗(yàn)中,scBERT模型也證實(shí)了其在單細(xì)胞測(cè)序上呈現(xiàn)出的高解釋性、高泛化性、高穩(wěn)定性。
截至目前,通過(guò)了9個(gè)獨(dú)立數(shù)據(jù)集、超過(guò)50萬(wàn)個(gè)細(xì)胞、覆蓋17種主要人體器官和主流測(cè)序技術(shù)組成的大規(guī)模benchmarking測(cè)試數(shù)據(jù)集上,該算法模型的優(yōu)越性均得以驗(yàn)證。
值得一提的是,在極具挑戰(zhàn)的外周血細(xì)胞亞型細(xì)分任務(wù)上,相較現(xiàn)有最優(yōu)方法的70%準(zhǔn)確度提升了7%。
不僅如此,這一技術(shù)的突破在實(shí)際應(yīng)用中也有很重要的價(jià)值:
未來(lái)可用于臨床單細(xì)胞測(cè)序數(shù)據(jù),并輔助醫(yī)生描述準(zhǔn)確的腫瘤微環(huán)境、檢測(cè)出微量癌細(xì)胞,從而實(shí)現(xiàn)個(gè)性化治療方案或者癌癥早篩。
同時(shí),對(duì)疾病致病機(jī)制分析、耐藥性、藥物靶點(diǎn)發(fā)現(xiàn)、預(yù)后分析、免疫療法設(shè)計(jì)等領(lǐng)域都具有極其重要的作用。
研究團(tuán)隊(duì)
研究團(tuán)隊(duì)主要來(lái)自騰訊AI Lab,共同一作有三位:Fan Yang、Wenchuan Wang和Fang Wang。
研究人員稱,未來(lái)他們會(huì)繼續(xù)基于自身先進(jìn)AI技術(shù)的積累,與下游臨床、制藥和生命科學(xué)基礎(chǔ)研究領(lǐng)域進(jìn)行密切合作。
GitHub鏈接和論文鏈接放在文末,感興趣的小伙伴可以自取~
GitHub鏈接:
https://github.com/TencentAILabHealthcare/scBERT
論文鏈接:
https://www.nature.com/articles/s42256-022-00534-z#Abs1
@量子位 · 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)
深有感觸的朋友,歡迎贊同、關(guān)注、分享三連?’?’ ? ?
- 大數(shù)據(jù)已死!從業(yè)10年老哥爆文抨擊:這套唬不住客戶了2023-02-14
- ChatGPT五分鐘寫完插件,功能完善,還可加需求改BUG2023-02-09
- 谷歌創(chuàng)始人親自下場(chǎng)改代碼,ChatGPT讓谷歌真慌了2023-02-03
- 谷歌加緊測(cè)試ChatGPT競(jìng)品,靠對(duì)話可搜最新信息2023-02-02