巨大沖擊!AlphaFold2再登Nature,從業(yè)者都懵了:人類98.5%的蛋白質(zhì),全都被預(yù)測(cè)了一遍
21世紀(jì)是誰(shuí)的世紀(jì)來(lái)著?
夢(mèng)晨 邊策 明敏 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
98.5%的人類蛋白質(zhì)結(jié)構(gòu)被AlphaFold2預(yù)測(cè)出來(lái)了!
而且還做成了數(shù)據(jù)集,全部免費(fèi)開放!
在開源AlphaFold2僅一周后,DeepMind震撼發(fā)布AlphaFold數(shù)據(jù)集,再次引爆科研圈!
數(shù)據(jù)集中預(yù)測(cè)的所有氨基酸殘基中,有58%達(dá)到可信水平,其中更有35.7%達(dá)到高置信度。
而在這之前科學(xué)家們數(shù)十年的努力,只覆蓋了人類蛋白質(zhì)序列中17%的氨基酸殘基。
除了人類蛋白質(zhì)組,數(shù)據(jù)集中還包括大腸桿菌、果蠅、小鼠等20個(gè)具有科研常用生物的蛋白質(zhì)組數(shù)據(jù),總計(jì)超過35萬(wàn)個(gè)蛋白質(zhì)的結(jié)構(gòu)。
最重要的是,這些全都免費(fèi)開放!交給歐洲生物信息學(xué)研究所托管。
“這是人類基因組圖譜之后最重要的數(shù)據(jù)集”,這樣的評(píng)價(jià)來(lái)自Ewan Birney,他領(lǐng)導(dǎo)了人類基因組計(jì)劃的后續(xù)項(xiàng)目:人類基因元件百科全書(ENCODE)。
DeepMind創(chuàng)始人哈撒比斯在官網(wǎng)發(fā)布題為《把AlphaFold的力量交到全世界手中》的文章,同時(shí)也在推特上表達(dá)了他抑制不住地興奮:
這是我一生中夢(mèng)寐以求的日子,也是創(chuàng)辦Deepmind的初衷:用AI推進(jìn)科學(xué)發(fā)展并造福人類。
造福人類整體的另一面,是對(duì)當(dāng)前結(jié)構(gòu)生物學(xué)相關(guān)從業(yè)者的巨大沖擊。
有人對(duì)與AI賽跑這件事感到絕望。
還有人吐槽,都開源了免費(fèi)了沒法申報(bào)經(jīng)費(fèi)了。
但也有人提出了不同的看法:21世紀(jì)不只是生物學(xué)的世紀(jì),更是合成生物學(xué)的世紀(jì)??!
在結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)室工作過的知乎網(wǎng)友@sorrySorui有點(diǎn)騷也認(rèn)為AlphaFold的出現(xiàn)為科研人員節(jié)省大量時(shí)間和精力。
他認(rèn)為使用AlphaFold得出來(lái)的結(jié)果,可以幫助進(jìn)行藥物設(shè)計(jì)等進(jìn)一步的研究。
那么這次預(yù)測(cè)結(jié)果中有哪些蛋白質(zhì)能開辟新的研究方向?
幾個(gè)重點(diǎn)預(yù)測(cè)
AlphaFold 2預(yù)測(cè)的結(jié)果總共有35萬(wàn)個(gè),DeepMind在論文中挑出了3種典型的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),這些預(yù)測(cè)都是從頭開始的。
雖然結(jié)果最終要通過實(shí)驗(yàn)來(lái)驗(yàn)證,但是這些預(yù)測(cè)還是為生物學(xué)家提供了很多有用的結(jié)果。
1、葡萄糖-6-磷酸酶(Glucose-6-phosphatase):發(fā)現(xiàn)了一種新的蛋白質(zhì)門控機(jī)制
這是一種膜結(jié)合酶,可催化葡萄糖合成的最后一步,對(duì)維持血糖水平至關(guān)重要。以前沒有該蛋白質(zhì)的實(shí)驗(yàn)結(jié)構(gòu)。AlphaFold預(yù)測(cè)具有非常高的可信度并給出了一個(gè)九螺旋拓?fù)浣Y(jié)構(gòu)。
DeepMind發(fā)現(xiàn),在這種預(yù)測(cè)的結(jié)構(gòu)中,谷氨酸可以穩(wěn)定封閉構(gòu)象的結(jié)合位點(diǎn),因此可能存在門控功能,而這種新的機(jī)制是過去沒有發(fā)現(xiàn)過的。
2、二酰基甘油O-?;D(zhuǎn)移酶2(Diacylglycerol O-acyltransferase 2):尋找抑制酶的結(jié)合位點(diǎn)
這種酶負(fù)責(zé)將多余的代謝能量?jī)?chǔ)存為脂肪,它( DGAT2)是催化過程中最終?;砑拥膬煞N必需酰基轉(zhuǎn)移酶之一,之前的研究顯示抑制DGAT2可改善肝病小鼠模型中的肝功能。
憑借AlphaFold高度可信的預(yù)測(cè)結(jié)構(gòu)(中值 pLDDT 95.9),可以確定該蛋白與抑制劑的結(jié)合位點(diǎn)。
3、Wolframin:尋找遺傳病的成因
Wolframin是一種定位于ER的跨膜蛋白,與遺傳病Wolfram綜合征有關(guān)。Wolfram綜合征是一種神經(jīng)退行性疾病,其特征是早發(fā)性糖尿病、逐漸視力和聽力喪失以及早逝。
雖然AlphaFold完整預(yù)測(cè)結(jié)果的置信度較低(中值 pLDDT 81.7),但是可用于識(shí)別該蛋白質(zhì)結(jié)構(gòu)特殊區(qū)域,一樣能獲得有用的結(jié)果。
比如,最近的進(jìn)化分析研究了Wolframin的一個(gè)區(qū)域,AlphaFold的預(yù)測(cè)在很大程度上支持了他們的結(jié)論。
AlphaFold的預(yù)測(cè)表明,由于Wolfram綜合征患者缺乏Wolframin中的半胱氨酸,可能會(huì)在蛋白質(zhì)中形成二硫鍵交聯(lián)。分析結(jié)果對(duì)幫助我們理解這種遺傳疾病的原理很重要。
加速癌癥、HIV等疾病治療
目前,AlphaFold數(shù)據(jù)庫(kù)中大約有36.5萬(wàn)個(gè)結(jié)構(gòu)預(yù)測(cè)。
研究人員表示,接下來(lái)他們會(huì)將預(yù)測(cè)范圍進(jìn)一步擴(kuò)大,預(yù)計(jì)在今年年底將預(yù)測(cè)數(shù)量增加到1.3億個(gè)。
這個(gè)數(shù)量已經(jīng)達(dá)到了人類已知蛋白質(zhì)總數(shù)的一半。
這樣震撼的成果,也讓谷歌CEO Pichai再一次為AlphaFold站臺(tái):
AlphaFold數(shù)據(jù)庫(kù)展現(xiàn)了AI加速科學(xué)進(jìn)步的巨大潛力,它能在一夜之間就大幅提升我們對(duì)蛋白質(zhì)結(jié)構(gòu)和人類蛋白質(zhì)組的認(rèn)識(shí)。
蛋白質(zhì)有著結(jié)構(gòu)決定功能的特性,通過對(duì)它結(jié)構(gòu)的研究,科學(xué)家能夠掌握更多其功能、機(jī)理上的信息。
比如可以了解蛋白質(zhì)是如何與其他化學(xué)物質(zhì)相互作用的,以及在什么位置上發(fā)生反應(yīng)。
這有助于科學(xué)家了解突變蛋白質(zhì)是如何改變其功能的,從而展開對(duì)癌癥、HIV、遺傳性疾病的進(jìn)一步探索。
此外,AlphaFold2能夠?qū)㈩A(yù)測(cè)的準(zhǔn)確性提升到了原子級(jí)別。
也就是說,人類現(xiàn)在可以更快速精準(zhǔn)地確定酶的活性位點(diǎn),這對(duì)藥物開發(fā)也有著重大意義。
歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的負(fù)責(zé)人Edith Heard就說道:
我們相信這對(duì)理解生命體是如何運(yùn)作有著變革性的影響。
哥倫比亞大學(xué)的計(jì)算生物學(xué)家Mohammed AlQuraishi表示,此前蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域總是要花費(fèi)大量時(shí)間在一些基礎(chǔ)工作上,浪費(fèi)了學(xué)者的很多精力,現(xiàn)在他們可以更加專注于對(duì)蛋白質(zhì)結(jié)構(gòu)的研究了。
之前我們做研究都要依賴于氨基酸序列,現(xiàn)在可以直接從蛋白質(zhì)結(jié)構(gòu)上入手了。
事實(shí)上,一些與DeepMind展開合作的研究團(tuán)隊(duì),已經(jīng)通過AlphaFold加速了研究進(jìn)程。
比如DNDi(被忽視疾病藥物開發(fā)組織)就表示,AlphaFold2推動(dòng)了他們?cè)跓釒Ъ膊∷幬镩_發(fā)方面的研究。
樸茨茅斯大學(xué)酶創(chuàng)新中心(CEI)也表示,他們正在利用AlphaFold2開發(fā)一些新的酶,可以用來(lái)降解污染環(huán)境的一次性塑料。
科羅拉多大學(xué)波爾德分校的生化學(xué)家Marcelo Sousa則利用AlphaFold來(lái)制作蛋白質(zhì)結(jié)構(gòu)模型,開展一項(xiàng)關(guān)于抗生素的研究。
加州大學(xué)舊金山分校的一個(gè)團(tuán)隊(duì)則表示,AlphaFold2可以幫助他們更好理解SARS-CoV-2的生物學(xué)機(jī)制。
蛋白質(zhì)組學(xué)
AlphaFold2獲得巨大成功的背后,離不開蛋白質(zhì)組學(xué)(Proteomics)的研究。
蛋白質(zhì)組指在特定時(shí)間由基因組、細(xì)胞、組織或有機(jī)體表達(dá)的全部蛋白質(zhì)。
在90年代,人類基因組計(jì)劃開始成形時(shí),科學(xué)家意識(shí)到光掌握基因的堿基排列是不夠的,還必須了解基因的產(chǎn)物蛋白質(zhì)。
由此,澳大利亞遺傳學(xué)家馬克·威爾金斯提出了破譯人類蛋白質(zhì)組的想法。
2001年人類基因組框架圖發(fā)布的同時(shí),人類蛋白質(zhì)組研究組織(HUPO)也正式成立。
直到2014年,慕尼黑工業(yè)大學(xué)和約翰霍普金斯大學(xué)終于繪制出人類蛋白質(zhì)組草圖。
隨后人類蛋白質(zhì)組數(shù)據(jù)庫(kù)逐漸被完善,AlphaFold此次使用的就是目前收錄最廣泛和注釋信息最全面Uniprot數(shù)據(jù)庫(kù)。
想了解更多AlphaFold的技術(shù)細(xì)節(jié)可參考下面鏈接:
《AlphaFold2成功秘訣:注意力機(jī)制取代卷積網(wǎng)絡(luò),預(yù)測(cè)準(zhǔn)確性提升超30%》
論文地址:
https://www.nature.com/articles/s41586-021-03828-1
數(shù)據(jù)集:
https://alphafold.ebi.ac.uk
知乎授權(quán)回答:
@sorrySorui有點(diǎn)騷:https://www.zhihu.com/question/474094187/answer/2014736529
參考鏈接:
[1]https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands
[2]https://twitter.com/demishassabis/status/1418226238888448004?s=20
[3]https://www.nature.com/articles/d41586-021-02025-4
[4]https://www.sciencemag.org/news/2021/07/new-public-database-ai-predicted-protein-structures-could-transform-biology
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長(zhǎng)度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語(yǔ)言難題,2300種語(yǔ)言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對(duì)1億年薪挖人,使命感比鈔票更重要2025-08-18