AlphaFold對(duì)手來(lái)了:Meta預(yù)測(cè)6億“暗物質(zhì)”蛋白,僅用2周完成
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)AI又進(jìn)化了
Alex 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的AI超級(jí)新星AlphaFold,現(xiàn)在遇到了強(qiáng)勁對(duì)手。
Meta的蛋白質(zhì)預(yù)測(cè)大模型ESMFold,剛剛公布了其最新成果:
6億多種蛋白結(jié)構(gòu)預(yù)測(cè)結(jié)果,而且還是“蛋白質(zhì)中的暗物質(zhì)”——宏基因組蛋白(Metagenomic Proteins)。
宏基因組蛋白,簡(jiǎn)單來(lái)說(shuō)就是特定時(shí)刻下,環(huán)境微生物表達(dá)的所有蛋白。
它們來(lái)自細(xì)菌、病毒和其他尚未確定特征的微生物,數(shù)量非常龐大。
研究它們不僅有助于發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu),還能幫科學(xué)家預(yù)測(cè)并尋到更多微生物,比如RNA病毒等。
要知道,此前AlphaFold背后的公司DeepMind,公布了約2.2億種蛋白質(zhì)預(yù)測(cè)結(jié)構(gòu),幾乎涵蓋了DNA數(shù)據(jù)庫(kù)中已知生物體的所有蛋白質(zhì)。
也就是說(shuō),ESMFold現(xiàn)在預(yù)測(cè)出來(lái)的結(jié)構(gòu)數(shù)量,相當(dāng)于AlphaFold的3倍左右。
Meta的研究團(tuán)隊(duì)還據(jù)此成果提出了一個(gè)關(guān)于元基因組數(shù)據(jù)庫(kù):ESM Metagenomic Atlas,這也是全球首個(gè)大規(guī)模的元基因組蛋白質(zhì)結(jié)構(gòu)集合。
這些消息一出,很快便收獲了一波關(guān)注和驚嘆聲,Nature還為此發(fā)了篇專門(mén)的報(bào)道。
有意思的是,雖然AlphaFold更早問(wèn)世,但LeCun曾指出這個(gè)思路是他們先提出的:
早在2019年,ESMFold背后的FAIR團(tuán)隊(duì)就先提出了使用預(yù)訓(xùn)練、基于Transformer的語(yǔ)言模型構(gòu)想,后來(lái)該想法被AlphaFold團(tuán)隊(duì)采納。
除了預(yù)測(cè)的數(shù)量多外,ESMFold還有個(gè)明顯優(yōu)勢(shì):速度快。
2周預(yù)測(cè)出6.17億個(gè)蛋白質(zhì)結(jié)構(gòu)
Meta團(tuán)隊(duì)的研究人員表示,用ESMFold預(yù)測(cè)超過(guò)6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu),只花了2周時(shí)間。
另外,在單個(gè)英偉達(dá)V100 GPU上,ESMFold可以在14.2秒內(nèi)對(duì)含有384個(gè)殘基的蛋白質(zhì)進(jìn)行預(yù)測(cè),比AlphaFold2快6倍。
而對(duì)于較短的序列,它甚至比AlphaFold2快了60倍。
如此神速的背后,一個(gè)至關(guān)重要的因素就是:ESMFold的輸入基于Transformer語(yǔ)言模型。
看到這點(diǎn),你或許會(huì)疑惑:預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的模型,和語(yǔ)言模型有什么關(guān)系?
一方面,從數(shù)據(jù)層面來(lái)看,語(yǔ)言和蛋白質(zhì)結(jié)構(gòu)都具有離散性。
通俗來(lái)說(shuō),一個(gè)合成結(jié)構(gòu)可以拆成單個(gè)成分,就像一段話能拆分出單個(gè)字詞、一個(gè)蛋白質(zhì)能拆分出單個(gè)氨基酸;且兩個(gè)單位之間不存在量的連續(xù)性遞增或遞減關(guān)系。
另一方面,上下文和語(yǔ)境制約著某個(gè)單詞的含義;相似地,蛋白質(zhì)的結(jié)構(gòu)和功能制約著序列突變方向。
所以,Meta AI受到語(yǔ)言模型啟發(fā),提出了ESMFold的基本構(gòu)想。
基于語(yǔ)言模型的開(kāi)發(fā)出來(lái)的ESMFold,主體結(jié)構(gòu)其實(shí)和AlphaFold2有不少相似之處——
它也能拆分為四部分:數(shù)據(jù)解析、編碼器、解碼器,以及循環(huán)部分。
其中,數(shù)據(jù)解析部分用于輸入序列和數(shù)據(jù)庫(kù)的解析,為編碼器提供輸入。
△ESMFold模型結(jié)構(gòu)示意圖
巴特!比起AlphaFold 2,ESMFold用于推理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)構(gòu)被簡(jiǎn)化了:
ESMFold消除了對(duì)明確同源序列(以MSA形式)輸入的需求,并且也不用進(jìn)行Jax圖編譯,所以可以省下了不少時(shí)間。
這樣不僅可以大幅縮短大型基因組序列數(shù)據(jù)庫(kù)的構(gòu)建時(shí)長(zhǎng);而且能在相同時(shí)間內(nèi)預(yù)測(cè)出更多結(jié)構(gòu)。
150億的參數(shù)量
除了基于語(yǔ)言模型,還有一點(diǎn)也不容忽視:ESMFold的參數(shù)量巨大。
在今年早些時(shí)候,Meta AI團(tuán)隊(duì)宣布ESMFold模型更新了:
ESM2的參數(shù)量直接飆升到150億,一躍成為迄今為止最大的蛋白質(zhì)語(yǔ)言模型。(AlphaFold2的參數(shù)量為9300萬(wàn)左右)
一般來(lái)說(shuō),模型的參數(shù)量越大,意味它其能運(yùn)用的函數(shù)越多,進(jìn)而使其學(xué)習(xí)的準(zhǔn)確率和精度大大提升。
這一點(diǎn)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)AI上也得到了印證:
ESMFold模型的參數(shù)量達(dá)150億之后,其分辨率更高了,能達(dá)到原子級(jí)別。
其中,對(duì)于單序列輸入,ESMFold的精度優(yōu)于AlphaFold2——
通過(guò)這個(gè)150億參數(shù)的ESM2,ESMFold只用一個(gè)序列作為輸入,就能有效預(yù)測(cè)端到端的3D結(jié)構(gòu);而AlphaFold2則需要多序列輸入才能有良好表現(xiàn)。
△單序列輸入時(shí),ESMFold預(yù)測(cè)精度更高
不過(guò)在多序列輸入的情況下,ESMFold的精度和AlphaFold2相比,還是略有差距。
此外,在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性方面,ESMFold和AlphaFold2的表現(xiàn)不相上下。
不過(guò)需要說(shuō)明的一點(diǎn)是,Meta的研究人員也表示,這6億多個(gè)預(yù)測(cè)出來(lái)的蛋白質(zhì)結(jié)構(gòu)目前還沒(méi)有被定性,還需后續(xù)的核驗(yàn)、分類等。
……
話說(shuō)這些年,蛋白質(zhì)預(yù)測(cè)模型以及其背后的計(jì)算生物學(xué)可謂方興未艾,“AI For Science”正在發(fā)生。
先前科學(xué)家們經(jīng)過(guò)幾十年的努力,只覆蓋了人類蛋白質(zhì)序列中17%的氨基酸殘基;而AlphaFold在2018年才官宣,至今已經(jīng)預(yù)測(cè)出了人類98.5%的蛋白質(zhì)結(jié)構(gòu)。
至于ESMFold,該研究團(tuán)隊(duì)的領(lǐng)導(dǎo)者Alexander Rives指出:
對(duì)于蛋白質(zhì)結(jié)構(gòu)解析和探索未知蛋白質(zhì)結(jié)構(gòu),ESMFold都算科學(xué)家們的得力助手。
目前ESM2模型的部分代碼已在GitHub上免費(fèi)開(kāi)源,感興趣的伙伴們可以去看看!
代碼傳送門(mén):
https://github.com/facebookresearch/esm
模型傳送門(mén):
https://esmatlas.com
參考鏈接:
[1]https://twitter.com/alexrives/status/1587467124741742593
[2]https://www.nature.com/articles/d41586-022-03539-1
[3]https://twitter.com/alexrives/status/1561693284912828420
[4]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1.full
[5]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2