AI預(yù)測RNA結(jié)構(gòu)登上Science封面,論文一作已成立藥物公司開始招人
開創(chuàng)RNA研究新時(shí)代
曉查 明敏 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
AI在生物學(xué)領(lǐng)域再次立功了。
今天,Science封面刊登了AI在預(yù)測RNA分子結(jié)構(gòu)上的重大進(jìn)展。
來自斯坦福大學(xué)的研究團(tuán)隊(duì),使用一種叫做ARES的幾何深度學(xué)習(xí),在預(yù)測RNA三級結(jié)構(gòu)上達(dá)到了前所未有的準(zhǔn)確度。

一個(gè)月前,AlphaFold 2預(yù)測人類98.5%的蛋白質(zhì),驚艷了全世界。
但是與蛋白質(zhì)相比,同樣是生物分子的RNA,人類對它的研究主要還停留在二級結(jié)構(gòu)上,對三級結(jié)構(gòu)知之甚少。
加州大學(xué)歐文分校的藥物學(xué)家Robert Spitale說,我們對大部分RNA結(jié)構(gòu)幾乎一無所知。
一無所知到什么程度呢?
人類基因轉(zhuǎn)錄為RNA的數(shù)量是蛋白質(zhì)數(shù)量的30倍。迄今為止實(shí)驗(yàn)已經(jīng)確定了數(shù)千種蛋白質(zhì)的三級結(jié)構(gòu),而人類測定三級結(jié)構(gòu)的RNA不到蛋白質(zhì)的1%,大約只有幾十種。
現(xiàn)在ARES已經(jīng)預(yù)測了1500種RNA分子結(jié)構(gòu),從過去的將精度提高了4?左右(1?等于0.1納米),平均誤差為12?。,當(dāng)相比之前的方法有了顯著提升。
雖然和AlphaFold 2預(yù)測35種蛋白質(zhì)相去甚遠(yuǎn),也達(dá)不到原子級精度(大約1?),但這足以稱為一項(xiàng)開創(chuàng)性研究。
因?yàn)樗固垢4髮W(xué)的科學(xué)家們的訓(xùn)練集只有18個(gè)結(jié)構(gòu)數(shù)據(jù),少得可憐,取得如此大幅的提升實(shí)屬不易。
ARES的出現(xiàn),讓AI預(yù)測RNA三級結(jié)構(gòu)的細(xì)節(jié)成為可能。
論文的第一作者、斯坦福大學(xué)博士Raphael Townshend說:“結(jié)構(gòu)生物學(xué)是對分子形狀的研究,在生物學(xué)中有一句名言,即結(jié)構(gòu)決定功能?!?/p>
因此,這項(xiàng)研究有助于科學(xué)家們?nèi)グl(fā)現(xiàn)RNA的生物學(xué)功能,并為發(fā)現(xiàn)新型RNA靶向藥物鋪平道路。
為何要研究RNA
為什么要研究RNA呢?
這與它在整個(gè)生命活動中發(fā)揮的重要作用離不開關(guān)系。
在生物體內(nèi),RNA具有十分重要的細(xì)胞功能,包括合成蛋白質(zhì)、催化反應(yīng)、調(diào)節(jié)基因表達(dá)、調(diào)節(jié)先天免疫和感知小分子等。
一方面,RNA是遺傳信息表達(dá)的重要一環(huán)。
只有通過RNA的轉(zhuǎn)錄、翻譯,DNA中的信息才能在蛋白質(zhì)中表達(dá)。
△RNA轉(zhuǎn)錄
另一方面,RNA還能調(diào)節(jié)一些重要生命活動。
核糖RNA可以催化肽鏈的生成,為轉(zhuǎn)移RNA提供結(jié)合位點(diǎn),參與核糖體大小亞單位的結(jié)合、校正閱讀等等功能。
而且,參與遺傳信息表達(dá)的RNA只占RNA總量的20%不到,這意味著有大部分遺傳信息都還沒有被表達(dá)出來。
還有一些病毒是以RNA作為遺傳信息的載體,比如引起新冠肺炎的SARS-CoV-2,就是一種RNA病毒。
因此,研究RNA是探索生命奧秘的必經(jīng)之路。
除了研究層面,在實(shí)際應(yīng)用上RNA能發(fā)揮的作用也越來越多。
依據(jù)致病基因的序列信息,科學(xué)家開發(fā)出了RNA藥物、RNA疫苗。
它們可以從基因?qū)用婢桶l(fā)揮作用,靶向抑制致病蛋白的表達(dá),在醫(yī)學(xué)領(lǐng)域具有非常廣泛的應(yīng)用前景。
RNA研究難點(diǎn)在哪
結(jié)構(gòu)生物學(xué)有一個(gè)信條,即結(jié)構(gòu)決定功能,RNA也不例外。
在知道RNA對生命活動發(fā)揮如此大作用后,科學(xué)家首先要做的,就是探究RNA的結(jié)構(gòu)。
這也是RNA研究的一大難點(diǎn)。
不同于DNA穩(wěn)定的雙鏈結(jié)構(gòu),RNA絕大多數(shù)情況下都以單鏈形式存在。
但是單鏈RNA可以通過折疊形成雙鏈結(jié)構(gòu),再折疊形成三級結(jié)構(gòu)。
而且RNA的糖環(huán)上有3個(gè)自由烴基,而DNA由于脫氧只有兩個(gè),所以RNA的化學(xué)性質(zhì)也更加活潑,也就是更容易發(fā)生反應(yīng)。
此外,RNA還更容易被自己的分解酶降解。
這些原因使得RNA在實(shí)驗(yàn)過程中操作難度也更高。
事實(shí)上,到目前為止人類已知的RNA結(jié)構(gòu)只有幾十種。既然實(shí)驗(yàn)難以測定,所以科學(xué)家開始把目光放在了AI預(yù)測RNA結(jié)構(gòu)上。
和AlphaFold 2的不同
近來深度學(xué)習(xí)技術(shù)的重大進(jìn)展,往往都需要大量數(shù)據(jù)來進(jìn)行訓(xùn)練。
但是可以給ARES預(yù)測的RNA結(jié)構(gòu)只有18種,這些數(shù)據(jù)顯然不足以使用傳統(tǒng)方法。
斯坦福的科學(xué)家們想到了幾何深度學(xué)習(xí),開發(fā)了ARES(Atomic Rotationally Equivariant Scorer)。
顧名思義,這種方法并非直接針對RNA的特殊情況,而是細(xì)化到分子中的原子,參數(shù)只給出原子坐標(biāo)和元素類型。
ARES被輸入一小組已知RNA的真實(shí)結(jié)構(gòu),以及這些RNA的大量替代(不正確)結(jié)構(gòu)。
在這個(gè)過程中,ARES了解每個(gè)原子的功能、幾何排列以及這些元素相互之間彼此定位。神經(jīng)網(wǎng)絡(luò)中逐漸從原子級小尺度學(xué)習(xí)到分子大尺度的特征。
就這樣,ARES一開始并不了解RNA,隨著訓(xùn)練過程的進(jìn)行,它學(xué)會了RNA的堿基配對模式、RNA螺旋的最佳幾何形狀。
接下來還有個(gè)問題,人類已知RNA種類太少,如何去評估ARES的預(yù)測未知RNA能力呢?
斯坦福大學(xué)的研究人員編制了一個(gè)基準(zhǔn)數(shù)據(jù)集,包含七年來在結(jié)構(gòu)預(yù)測競賽RNA-Puzzles中獲勝的作品。
根據(jù)RNA-Puzzles的規(guī)則,當(dāng)科學(xué)家通過實(shí)驗(yàn)發(fā)現(xiàn)新的RNA結(jié)構(gòu)時(shí),他們不會公開細(xì)節(jié),直到RNA-Puzzles參與者提交了他們的預(yù)測結(jié)果,然后將二者的結(jié)果進(jìn)行對比。
經(jīng)過測試集的檢驗(yàn),ARES對4種RNA結(jié)構(gòu)的預(yù)測全都達(dá)到了最高準(zhǔn)確度。
接下來,科學(xué)家使用采樣軟件生成了至少1500個(gè)RNA結(jié)構(gòu)模型。然后,他們用ARES和其他三種軟件對模型進(jìn)行預(yù)測。
當(dāng)使用ARES時(shí),有62%結(jié)果接近原生RNA模型(平均誤差<2?),而
Rosetta、RASP和3dRNAscore分別只有43%、33%和5%的結(jié)果接近。
在ARES生成的10個(gè)最好模型中包括至少一個(gè)接近原生模型的有81%,而Rosetta、RASP和3dRNAscore分別只有48%、48%和33%。
雖然ARES還沒有達(dá)到能精確預(yù)測靶點(diǎn)、輔助藥物研發(fā)的精度,但研究人員說,他們的算法還有進(jìn)步的空間
未來,他們計(jì)劃輸入除原子坐標(biāo)和元素類型之外的更多信息,增加信息或許能進(jìn)一步提高ARES的性能。
通過與低溫電子顯微鏡等實(shí)驗(yàn)數(shù)據(jù)結(jié)合,ARES也可能得到進(jìn)一步改進(jìn)。
另外,本文的第一作者Raphael Townshend已經(jīng)創(chuàng)立了一家生物學(xué)AI公司Atomic AI,使用AI技術(shù)設(shè)計(jì)藥物分子。
Townshend剛剛在個(gè)人Twitter上發(fā)布了招聘信息,看來他是準(zhǔn)備AI藥物領(lǐng)域大展拳腳了。
參考鏈接:
[1]https://science.sciencemag.org/content/373/6558/1047
[2]https://science.sciencemag.org/content/373/6558/964.full
[3]https://www.scienceboard.net/index.aspx?sec=ser&sub=def&pag=dis&ItemID=3190
[4]https://www.eurekalert.org/news-releases/926246