AI為人類開藥方:準確預(yù)測9000名癌癥患者適用藥物!成果登上Nature子刊,出自華人團隊
通訊作者為中科大校友
明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
只需一個AI,9808名癌癥患者對藥物的臨床反應(yīng),全能預(yù)測。
而且結(jié)果和臨床觀察表現(xiàn)一致。
這就是由紐約市立大學Lei Xie團隊帶來的最新成果CODE-AE(context-aware deconfounding autoencoder)。
它提出一種新型的上下文自編碼模型,可以預(yù)測不同患者對藥物的特異性反應(yīng)。
這將對新藥開發(fā)和臨床試驗產(chǎn)生重大影響。
要知道,傳統(tǒng)模式下一種新藥開發(fā)、試驗、完全上市,中間需要近10年的時間,消耗的資金也空前龐大,動輒就是10億美元。
周期會如此之長,是因為新藥在人體內(nèi)的反應(yīng)難以預(yù)測,往往需要反復(fù)試驗進行測試。
而如果AI能夠利用數(shù)據(jù)進行預(yù)測,將大幅縮短新藥上市時間,降低成本。
目前,該研究登上Nature子刊《Nature Machine Intelligence》。
不再高度依賴臨床數(shù)據(jù)
簡單來說,CODE-AE是利用新藥在體外細胞驗證上的數(shù)據(jù),來預(yù)測藥物在人體身上會產(chǎn)生的反應(yīng)。
這樣就避免了AI模型訓(xùn)練對患者臨床數(shù)據(jù)的依賴。
過去AI在臨床反應(yīng)預(yù)測上效果一直不算好的最大原因,便是想要收集海量、連續(xù)臨床反應(yīng)數(shù)據(jù)實在是太難了。
從機制上來看,研究人員將藥物生物標志物分為了源域(source domain)和目標域(target domain)。
源域表示和測試樣本不同的領(lǐng)域,但是有豐富的監(jiān)督信息,在這里可以理解為體外細胞驗證的數(shù)據(jù)。
目標域是測試樣本所在的領(lǐng)域,無標簽或只有少量標簽,也就是患者數(shù)據(jù)。
將不同領(lǐng)域的數(shù)據(jù)特征映射到同一個特征空間,使其在該空間中的距離盡可能近。
于是在特征空間中對源域訓(xùn)練的目標函數(shù),就可以遷移到目標域,提高目標域上的準確率。
放在該研究背景下,源域和目標域都是藥物生物標志物的數(shù)據(jù)特征,即藥物靶標的數(shù)據(jù)特征。
具體來看模型框架,主要分為三個部分:預(yù)訓(xùn)練、微調(diào)和推理。
預(yù)訓(xùn)練主要用了自監(jiān)督學習,構(gòu)建一個特征編碼模塊,將體外細胞數(shù)據(jù)和患者數(shù)據(jù)的未標記基因表達譜,映射到嵌入空間中。這樣一來可以把一些混雜因素排除掉,讓兩種數(shù)據(jù)的潛入分布一致,以消除系統(tǒng)偏差。
微調(diào)階段,是在預(yù)訓(xùn)練的基礎(chǔ)上再加一個監(jiān)督模型,并利用已經(jīng)標記的體外細胞數(shù)據(jù)來進行訓(xùn)練。
最后在推理階段,先從預(yù)訓(xùn)練中獲得的患者去歧對其嵌入,然后再利用調(diào)優(yōu)后的模型,來預(yù)測患者對藥物的反應(yīng)。
在這種模式下,CODE-AE具備兩個特點。
第一,它可以提取不連貫樣本中的常見生物信號和私有表示,從而排除掉由于數(shù)據(jù)模式不同帶來的干擾。
第二,將藥物響應(yīng)信號和混雜因素分離后,還可以實現(xiàn)局部對齊。
總結(jié)來看,CODE-AE可以理解為在標記和無標記數(shù)據(jù)的非相干數(shù)據(jù)模式嵌入空間中,選擇唯一特征的過程。
為了論證模型的有效性,研究人員對9808位癌癥患者的藥物適用情況進行預(yù)測。
如果模型對患者情況預(yù)測出的位點結(jié)果,和他使用的藥物靶點有關(guān),就證明預(yù)測是正確的。
然后,研究人員將患者分為100個聚類,將59種藥物也分為30個聚類。
通過這種分析方法,可以讓具有相似藥物反應(yīng)譜的患者被分在一起。
在此,我們以肺鱗狀細胞癌患者(LSCC)和非小細胞肺癌患者(NSCLC)的聚類為例。
在59種藥物中,LSCC最敏感的藥物為吉非替尼、AICAR和吉西他濱。
其中吉非替尼、AICAR的作用靶點都是一種表皮生長因子受體(EGFR),吉西他濱常被用于沒有EGFR突變的非小細胞肺癌治療。
論文表示,和這些藥物作用模式一致,CODE-AE發(fā)現(xiàn)使用吉非替尼、AICAR的患者,藥物反應(yīng)圖譜相似。
也就是說,CODE-AE發(fā)現(xiàn)了患者治療的正確靶點,即可以預(yù)測適用藥物。
通訊作者系中科大校友
如上研究團隊來自紐約市立大學。
通訊作者為Lei Xie,他本科畢業(yè)于中國科學技術(shù)大學高分子物理專業(yè)。
碩士畢業(yè)于羅格斯大學計算機科學專業(yè);博士同在羅格斯大學,但拿的是化學系學位。
據(jù)了解,該研究團隊下一步將開發(fā)CODE-AE對新藥臨床反應(yīng)在濃度、代謝方面的預(yù)測功能。
研究人員表示,該AI模型還有可能被調(diào)整為用于預(yù)測藥物對人體的副作用影響。
值得一提的是,Nature子刊《Nature Machine Intelligence》專門關(guān)注人工智能和生命科學跨學科應(yīng)用研究,每年收錄論文平均數(shù)量在60篇左右。
論文地址:
https://www.nature.com/articles/s42256-022-00541-0
參考鏈接:
https://phys.org/news/2022-10-ai-accurately-human-response-drug.html
- 4o-mini華人領(lǐng)隊也離職了,這次不怪小扎2025-08-19
- 宇樹機器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11