AlphaFold2被超越!中國(guó)團(tuán)隊(duì)刷新全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)紀(jì)錄,大牛彭健創(chuàng)業(yè)項(xiàng)目一鳴驚人
張亞勤旗下清華AIR研究院孵化
雷剛 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
AlphaFold2的紀(jì)錄,剛剛被刷新了。
最新消息,全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽CAMEO(Continous Automated Model EvaluatiOn)上,DeepMind旗下AlphaFold2的紀(jì)錄被刷新。
HeliXonAI,一個(gè)此前名不見(jiàn)經(jīng)傳的“新面孔”,加冕第一。
同時(shí),在全球結(jié)構(gòu)預(yù)測(cè)領(lǐng)域主要評(píng)價(jià)指標(biāo)lDDT(Local Distance Different Test)中,HeliXonAI跑分也高達(dá)83.5分,連續(xù)四周排名第一,遠(yuǎn)超第二名的70.2分。
HeliXonAI由此一鳴驚人,成為圈內(nèi)熱議焦點(diǎn)。
但隨著幕后團(tuán)隊(duì)浮出水面,如此成績(jī)又被認(rèn)為情理之中。
因?yàn)榇蛟靾F(tuán)隊(duì)華深智藥,正是生物計(jì)算領(lǐng)域大牛彭健的創(chuàng)業(yè)公司,也是張亞勤旗下清華AIR智能產(chǎn)業(yè)研究院首個(gè)公開(kāi)的孵化項(xiàng)目。
超越AlphaFold2的HeliXonAI
CAMEO(Continous Automated Model EvaluatiOn),全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽,由瑞士生物信息研究所和巴塞爾大學(xué)聯(lián)合舉辦,與CASP被認(rèn)為是結(jié)構(gòu)預(yù)測(cè)領(lǐng)域最重要的兩項(xiàng)比賽。
但不同于CASP的是,CAMEO的參賽者需要每周預(yù)測(cè)20個(gè)由世界范圍內(nèi)的結(jié)構(gòu)生物學(xué)家最新破解出結(jié)構(gòu)的蛋白質(zhì)的結(jié)構(gòu),比賽的得分與排名也會(huì)每周實(shí)時(shí)更新。
該競(jìng)賽吸引了全球生物計(jì)算領(lǐng)域的最頂尖選手。
諸如華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所的David Baker教授研發(fā)的RoseTTAFold,百度開(kāi)發(fā)的PaFold,和騰訊研發(fā)的tFold等模型,都在其中競(jìng)逐。
而華深智藥的結(jié)構(gòu)預(yù)測(cè)平臺(tái)HeliXonAI,已經(jīng)連續(xù)四周在主要評(píng)價(jià)指標(biāo)lDDT(Local Distance Different Test)上達(dá)到83.5分,持續(xù)排名世界第一。
在CAMEO的結(jié)果中,越靠右表示預(yù)測(cè)的結(jié)構(gòu)越多,越靠上表示預(yù)測(cè)的結(jié)構(gòu)越準(zhǔn)……
而現(xiàn)在,牢牢地占據(jù)最右上角的就是HeliXonAI。
更令人驚喜的是,在上一周CAMEO發(fā)布的17個(gè)目標(biāo)蛋白質(zhì)上,HeliXonAI的平均lDDT預(yù)測(cè)精確度,達(dá)到了84.0——意味著對(duì)AlphaFold2的超越。
之前DeepMind團(tuán)隊(duì)公開(kāi)的AlphaFold2模型預(yù)測(cè)精確度,評(píng)分在81.9。
并且在另一評(píng)價(jià)指標(biāo)TM-score上,也有一致的結(jié)果。
HeliXonAI以91.6的評(píng)分,同樣超越了AlphaFold2的85.6。
相比RoseTTAFold和PaFold的76分,更是數(shù)量級(jí)上的超越。
此外,在最新一周的標(biāo)注為“困難” (hard) 的7個(gè)蛋白結(jié)構(gòu)中,HeliXonAI更是進(jìn)一步拉開(kāi)差距,在TM-score上比第二名Alphafold2高出6分之多。
總之,不同層面的數(shù)據(jù)結(jié)果都在說(shuō)明,全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的王座,易主了。
HeliXonAI如何煉成?
眾所周知,蛋白質(zhì)在理解生命科學(xué)與藥物開(kāi)發(fā)中的地位舉足輕重。為了執(zhí)行特定功能,蛋白質(zhì)必須折疊成對(duì)應(yīng)的結(jié)構(gòu)。
然而,理解蛋白質(zhì)的三維空間結(jié)構(gòu)一直是生物學(xué)中的重大挑戰(zhàn),已經(jīng)困擾生物學(xué)家 50 多年…
直到 2020 年由DeepMind 團(tuán)隊(duì)開(kāi)發(fā)的 AlphaFold2模型,在第十四屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP14)上,幾乎達(dá)到冷凍電子顯微鏡等實(shí)驗(yàn)技術(shù)的準(zhǔn)確度。
一石激起千層浪,引領(lǐng)計(jì)算生物領(lǐng)域的標(biāo)志性變革。
但AlphaFold2實(shí)際也并非完美,例如在同源信號(hào)較弱的情況下預(yù)測(cè)的誤差較大,對(duì)于抗體可變區(qū)域的預(yù)測(cè)也精度欠佳。
華深智藥團(tuán)隊(duì),也是看到了可改進(jìn)之處,著手開(kāi)發(fā)人工智能藥物開(kāi)發(fā)平臺(tái)——HeliXonAI。
該平臺(tái)囊括了包含蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)在內(nèi)的一整套生命建模算法體系,將被用于承接包含抗體設(shè)計(jì),靶點(diǎn)發(fā)現(xiàn)等諸多挑戰(zhàn)性任務(wù)。
同時(shí),HeliXonAI的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法在AlphaFold2的基礎(chǔ)上,提出了諸多改進(jìn)。
比如數(shù)據(jù)上利用數(shù)據(jù)蒸餾引入了更為龐大的無(wú)結(jié)構(gòu)氨基酸序列數(shù)據(jù)庫(kù),并且在模型上設(shè)計(jì)了新穎的進(jìn)化調(diào)整(Evolutionary Calibration)模塊實(shí)現(xiàn)了對(duì)多比對(duì)序列的信息較正。
又比如對(duì)于空間坐標(biāo)的優(yōu)化,HeliXonAI引入了幾何平滑(Geometric Smoothing)模塊,利用幾何深度學(xué)習(xí)的特性,和近一千層的深度,不斷地將坐標(biāo)優(yōu)化到正確位置上。
這2大全新的模塊的加入,能夠迭代式地修復(fù)同源序列對(duì)比中的誤差并相應(yīng)地對(duì)所有原子幾何位置做出對(duì)應(yīng)的調(diào)整,這樣就能更為有效地解決同源信號(hào)弱的問(wèn)題,并在原子級(jí)別的細(xì)節(jié)上做出更精準(zhǔn)的預(yù)測(cè)。
最終,在8塊A100顯卡上,經(jīng)過(guò)連續(xù)接近3個(gè)多月的訓(xùn)練,HeliXonAI實(shí)現(xiàn)了模型預(yù)測(cè)能力指標(biāo)上對(duì)AlphaFold2的超越。
當(dāng)然,需要指出的是,如此成果并非只是3個(gè)月的沖刺,背后還有華深智藥團(tuán)隊(duì)的多年積累。
華深智藥打造者?
彭健,伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)計(jì)算機(jī)科學(xué)系及醫(yī)學(xué)院終身教授,生物計(jì)算領(lǐng)域的知名大牛,機(jī)器學(xué)習(xí)與蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)的頂級(jí)科學(xué)家。
他在博士期間設(shè)計(jì)的著名算法RaptorX以及在UIUC任教期間設(shè)計(jì)的DeepContact算法,多次在CASP比賽中獲得領(lǐng)先的成績(jī),并很早就嘗試將深度學(xué)習(xí)的技術(shù)引入這個(gè)領(lǐng)域。
彭健也因此在2016年獲得有“諾獎(jiǎng)風(fēng)向標(biāo)”之稱(chēng)的斯隆研究獎(jiǎng),并于2020年獲得計(jì)算生物領(lǐng)域最高獎(jiǎng)奧弗頓獎(jiǎng)(Overton Prize)。
此前,奧弗頓獎(jiǎng)獲得者包括David Baker, Trey Ideker以及Aviv Regev等計(jì)算生物學(xué)領(lǐng)軍人物,而彭健教授也是該獎(jiǎng)項(xiàng)20年來(lái)的唯一華人得主。
今年6月,看到了領(lǐng)域內(nèi)正在發(fā)生的質(zhì)變,在張亞勤旗下清華大學(xué)人工智能產(chǎn)業(yè)研究院孵化之下,正式創(chuàng)辦華深智藥。很快便完成了千萬(wàn)美元級(jí)天使輪融資。
創(chuàng)辦伊始,華深智藥就明確要打造新一代人工智能科學(xué)計(jì)算平臺(tái),并結(jié)合自研高通量生物實(shí)驗(yàn)技術(shù),為研發(fā)人員提供微觀世界分子計(jì)算、模擬與設(shè)計(jì)的智能系統(tǒng)。
彭健明確,在新藥開(kāi)發(fā)領(lǐng)域,特別是大分子藥物開(kāi)發(fā),華深智藥希望用創(chuàng)新性地使用AI重構(gòu)藥物開(kāi)發(fā)流程,從而極大程度上提高新藥研發(fā)速度和效率。
而HeliXonAI平臺(tái),就是華深智藥第一階段的成果。
并且HeliXonAI平臺(tái)的產(chǎn)業(yè)應(yīng)用,也已經(jīng)開(kāi)始展現(xiàn),因?yàn)樵撈脚_(tái)集成了包含蛋白質(zhì)交互,蛋白質(zhì)動(dòng)態(tài)建模,抗體關(guān)鍵區(qū)域建模,靶點(diǎn)查詢(xún),蛋白質(zhì)設(shè)計(jì)等一整套生命建模流程體系……
于是在針對(duì)新冠病毒變異株的抗體設(shè)計(jì)和免疫逃逸位點(diǎn)檢測(cè)等任務(wù)中,也能發(fā)揮作用。
據(jù)說(shuō),相關(guān)成果已經(jīng)進(jìn)入產(chǎn)業(yè)轉(zhuǎn)換階段了。
CAMEO傳送門(mén):
https://www.cameo3d.org/modeling/1-week/difficulty/all/?to_date=2021-12-04