AlphaFold2成功秘訣:注意力機(jī)制取代卷積網(wǎng)絡(luò),預(yù)測(cè)準(zhǔn)確性提升超30%
預(yù)測(cè)準(zhǔn)確性達(dá)92.4/100
明敏 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
最近,DeepMind開源AlphaFold2,讓學(xué)術(shù)圈再一次沸騰了。
這意味著,對(duì)于普通研究人員而言曾需要花幾年時(shí)間才能破解的蛋白質(zhì)結(jié)構(gòu),現(xiàn)在用AlphaFold2幾小時(shí)就能算出來了!
那么,如此厲害的AlphaFold2究竟如何做到的呢?
DeepMind團(tuán)隊(duì)已經(jīng)將它的詳細(xì)信息在《Nature》上公開發(fā)表。
現(xiàn)在,就讓我們來看看AlphaFold2的魔法是怎么實(shí)現(xiàn)的吧。
卷積消失了,Attention來了
論文中,研究人員強(qiáng)調(diào)AlphaFold2是一個(gè)完全不同于AlphaFold的新模型。
的確,它們使用的模型框架都不一樣,這也是AlphaFold2準(zhǔn)確性能夠突飛猛進(jìn)的主要原因。
此前AlphaFold中所有的卷積神經(jīng)網(wǎng)絡(luò),現(xiàn)在都被替換成了Attention。
為什么要這樣做呢?
我們首先要了解一下AlphaFold的工作原理:
它主要是通過預(yù)測(cè)蛋白質(zhì)中每對(duì)氨基酸之間的距離分布,以及連接它們的化學(xué)鍵之間的角度,然后將所有氨基酸對(duì)的測(cè)量結(jié)果匯總成2D的距離直方圖。
然后讓卷積神經(jīng)網(wǎng)絡(luò)對(duì)這些圖片進(jìn)行學(xué)習(xí),從而構(gòu)建出蛋白質(zhì)的3D結(jié)構(gòu)。
△AlphaFold主要架構(gòu)
但這是一種從局部開始進(jìn)行預(yù)測(cè)的方式,很有可能會(huì)忽略蛋白質(zhì)結(jié)構(gòu)信息的長(zhǎng)距離依賴性。
而Attention的特點(diǎn)剛好可以彌補(bǔ)這一缺陷,它是一種模仿人類注意力的網(wǎng)絡(luò)架構(gòu),可以同時(shí)聚焦多個(gè)細(xì)節(jié)部分。
這樣可以使得框架預(yù)測(cè)的結(jié)果更加全面、準(zhǔn)確。
在CASP13中,AlphaFold預(yù)測(cè)的準(zhǔn)確性還只有不到60分。
但是在CASP14中AlphaFold2就將準(zhǔn)確性直接拔高到了92.4/100。
圖網(wǎng)絡(luò)+Attention
具體來看,AlphaFold2主要利用多序列比對(duì)(MSA),把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中。
它主要包括兩個(gè)部分:神經(jīng)網(wǎng)絡(luò)EvoFormer和結(jié)構(gòu)模塊(Structure module)。
在EvoFormer中,主要是將圖網(wǎng)絡(luò) (Graph networks)和多序列比對(duì) (MSA)結(jié)合完成結(jié)構(gòu)預(yù)測(cè)。
圖網(wǎng)絡(luò)可以很好表示事物之間的相關(guān)性,在這里,它可以將蛋白質(zhì)的相關(guān)信息構(gòu)建出一個(gè)圖表,以此表示不同氨基酸之間的距離。
研究人員用Attention機(jī)制構(gòu)建出一個(gè)特殊的“三重自注意力機(jī)制(Triangular self-attention)”,來處理計(jì)算氨基酸之間的關(guān)系圖。
△三重自注意力機(jī)制(Triangular self-attention)
然后,他們將這一步得到的信息與多序列比對(duì)結(jié)合。
多序列比對(duì)主要是使相同殘基的位點(diǎn)位于同一列,暴露出不同序列之間的相似部分,從而推斷出不同蛋白質(zhì)在結(jié)構(gòu)和功能上的相似關(guān)系。
計(jì)算出的氨基酸關(guān)系與MSA進(jìn)行信息交換,能直接推理出空間和進(jìn)化關(guān)系的配對(duì)表征。
預(yù)測(cè)所有原子的3D結(jié)構(gòu)
架構(gòu)的第二部分是一個(gè)結(jié)構(gòu)模塊 (Structure Module),它的主要工作是將EvoFormer得到的信息轉(zhuǎn)換為蛋白質(zhì)的3D結(jié)構(gòu)。
△結(jié)構(gòu)模塊(Structure module)
在這里,研究人員同樣使用了Attention機(jī)制,它可以單獨(dú)計(jì)算蛋白質(zhì)的各個(gè)部分,稱為“不變點(diǎn)注意力(invariant point attention)”機(jī)制。
它以某個(gè)原子為原點(diǎn),構(gòu)建出一個(gè)3D參考場(chǎng),根據(jù)預(yù)測(cè)信息進(jìn)行旋轉(zhuǎn)和平移,得到一個(gè)結(jié)構(gòu)框架。
△不變點(diǎn)注意力(invariant point attention)
然后Attention機(jī)制會(huì)對(duì)所有原子都進(jìn)行預(yù)測(cè),最終匯總得出一個(gè)高度準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)。
此外,研究人員還強(qiáng)調(diào)AlphaFold2是一個(gè)“端到端”的神經(jīng)網(wǎng)絡(luò)。
他們會(huì)反復(fù)把最終損失應(yīng)用于輸出結(jié)果,然后再對(duì)輸出結(jié)果進(jìn)行遞歸,不斷逼近正確結(jié)果。
這樣做既能減少額外的訓(xùn)練,還能大幅提高預(yù)測(cè)結(jié)構(gòu)的準(zhǔn)確性。
為破解蛋白質(zhì)折疊謎題帶來希望
Alphafold2的出現(xiàn),能更好地預(yù)判蛋白質(zhì)與分子結(jié)合的概率,從而極大地加速新藥研發(fā)的效率。
此次Alphafold2開源,將進(jìn)一步推動(dòng)科學(xué)界前進(jìn)。
據(jù)了解,目前DeepMind已經(jīng)與瑞士的一些研究團(tuán)隊(duì)合作,通過預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)開展藥物方面的研究。
事實(shí)上,研究Alphafold2預(yù)測(cè)程序本身,也為探索蛋白質(zhì)結(jié)構(gòu)折疊原理帶來了希望。
芝加哥大學(xué)的計(jì)算生物學(xué)家Jinbo Xu就表示:
這些工具的開源,意味著科學(xué)界能夠在此基礎(chǔ)上開發(fā)出更加強(qiáng)大的軟件。
論文地址:
https://www.nature.com/articles/s41586-021-03819-2_reference.pdf
補(bǔ)充材料:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-021-03819-2/MediaObjects/41586_2021_3819_MOESM1_ESM.pdf*
參考鏈接:
https://www.zdnet.com/article/deepminds-alphafold-2-reveal-what-we-learned-and-didnt-learn/
- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國(guó)外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11