國產(chǎn)AI蛋白質(zhì)結(jié)構(gòu)預(yù)測再現(xiàn)突破,用單條序列解決3D結(jié)構(gòu),彭健團(tuán)隊:“AlphaFold2以來最后一塊拼圖補(bǔ)齊了”
AlphaFold2沒做到的它做到了
萬博 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
計算生物領(lǐng)域,出現(xiàn)一則最新進(jìn)展:
AI預(yù)測蛋白質(zhì)3D結(jié)構(gòu),僅通過單條蛋白序列就能搞定。
也就是說,AI預(yù)測蛋白質(zhì)結(jié)構(gòu),可以不需要蛋白質(zhì)進(jìn)化過程中的同源信息。一些人工設(shè)計的蛋白質(zhì)藥物和工業(yè)合成用酶,也可以通過AI預(yù)測3D結(jié)構(gòu),確定其對人體的功能。
達(dá)成這一成就的AI算法名為OmegaFold,在最近的全球持續(xù)蛋白質(zhì)預(yù)測競賽中,整體預(yù)測能力已經(jīng)與DeepMind此前開發(fā)的AlphaFold2,和華盛頓大學(xué)開發(fā)的RoseTTAFold不相上下,甚至有些指標(biāo)優(yōu)于后兩者。
研究成果來自國內(nèi)AI創(chuàng)新藥物公司華深智藥,一家成立不到一年的中國初創(chuàng)企業(yè),孵化自張亞勤旗下的清華大學(xué)智能產(chǎn)業(yè)研究院。
AI預(yù)測蛋白質(zhì)結(jié)構(gòu)不再需要同源信息
據(jù)華深智藥披露,其最新開發(fā)的OmegaFold算法,實現(xiàn)了用單一蛋白質(zhì)序列預(yù)測蛋白質(zhì)3D結(jié)構(gòu)的能力。
而且在測試準(zhǔn)確度上,和AlphaFold2和RoseTTAFold不相上下。
同時在測試速度,快于AlphaFold2和RoseTTAFold。
具體測試過程,是這樣的:
研究團(tuán)隊分別對CASP和CAMEO的蛋白質(zhì)數(shù)據(jù)集進(jìn)行了測試,其中CASP數(shù)據(jù)集有29個蛋白質(zhì),CAMEO數(shù)據(jù)集有146個單鏈蛋白質(zhì)。
(PS:這里的CASP和CAMEO,是蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域最重要的兩項比賽)
作為對比,在測試中,研究團(tuán)隊在上OmegaFold僅輸入單一蛋白質(zhì)序列,對 AlphaFold2和RoseTTAFold,則是在默認(rèn)模式下輸入多重序列(MSA)。
最終,CAMEO數(shù)據(jù)集測試,OmegaFold預(yù)測的蛋白質(zhì)3D結(jié)構(gòu),平均局部距離差異測試(LDDT:全球結(jié)構(gòu)預(yù)測領(lǐng)域主要評價指標(biāo))得分為0.82。
而AlphaFold2與RoseTTAFold的得分,分別是0.75和0.86。
CASP數(shù)據(jù)集的測試結(jié)果,OmegaFold的平均TM分值*(評估蛋白質(zhì)結(jié)構(gòu)拓?fù)鋵W(xué)相似性的常用指標(biāo))為0.79,與AlphaFold2不相上下,不過略低于RoseTTAFold 0.81的分?jǐn)?shù)。
研究團(tuán)隊表示,從結(jié)果來看,采用單序列進(jìn)行預(yù)測的OmegaFold,已經(jīng)整體達(dá)到或超越了采用多序列預(yù)測的AlphaFold2和RoseTTAFold。
而且,研究團(tuán)隊還發(fā)現(xiàn),因為只采用單一序列預(yù)測蛋白質(zhì)的3D結(jié)構(gòu),因此在AI算法的訓(xùn)練和預(yù)測速度上,也有很大提升,蛋白質(zhì)結(jié)構(gòu)預(yù)測時間,可以被壓縮到數(shù)秒內(nèi)。
Helixon團(tuán)隊還同時發(fā)現(xiàn),僅通過氨基酸序列來預(yù)測三維結(jié)構(gòu),不僅減少了同源序列所帶來的噪音,還能夠提高訓(xùn)練和預(yù)測的計算速度,使得蛋白質(zhì)結(jié)構(gòu)可以在數(shù)秒內(nèi)被預(yù)測完畢。
基于此,研究團(tuán)隊用OmegaFold,對兩類缺乏蛋白質(zhì)同源進(jìn)化信息的蛋白質(zhì),抗體蛋白質(zhì)和孤兒蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測。
結(jié)果發(fā)現(xiàn),OmegaFold在這兩類蛋白質(zhì),尤其是抗體的關(guān)鍵功能區(qū)結(jié)構(gòu)預(yù)測,有突破性的進(jìn)展。
而這類缺乏蛋白質(zhì)同源進(jìn)化信息的蛋白質(zhì),恰好是AlphaFold2和RoseTTAFold無法到達(dá)的盲區(qū)。
對此,華深智藥創(chuàng)始人彭健認(rèn)為,這項研究成果意味著:
蛋白質(zhì)3D結(jié)構(gòu)預(yù)測,并不需要同源序列的存在,也不需要知道任何進(jìn)化信息。
而華深智藥表示:
OmegaFold的出現(xiàn)補(bǔ)全了蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的最后一塊拼圖。
另外,華深智藥還披露了OmegaFold背后的技術(shù)細(xì)節(jié)。
具體來看,OmegaFold能夠用單一序列取代多重同源序列,是因為研究團(tuán)隊采用了一種,基于幾何信息的深度學(xué)習(xí)模型——OmegaPLM。
該學(xué)習(xí)模型可以根據(jù)蛋白質(zhì)的序列信息,預(yù)測原子坐標(biāo),同時經(jīng)過訓(xùn)練學(xué)習(xí),預(yù)測原子在三維空間的距離。
在不斷的迭代之后,可以讓這些預(yù)測出來的原子坐標(biāo)和距離,滿足基本的幾何定律,最終形成蛋白質(zhì)結(jié)構(gòu)。
OmegaFold的能力,和背后的技術(shù)原理整明白了,最后還剩下一個問題:
華深智藥是誰?
公開信息顯示,華深智藥是一家AI創(chuàng)新藥物研發(fā)商,成立于2021年6月,總部位于北京,最早是由張亞勤旗下的清華大學(xué)智能產(chǎn)業(yè)研究院孵化而來。
早在去年12月份,華深智藥開發(fā)的HeliXonAI算法,就在全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽CAMEO上,實現(xiàn)對AlphaFold2的反超,以84.0的lDDT預(yù)測精確度得分,刷新了CAMEO競賽得分記錄。
一家成立半年左右的初創(chuàng)企業(yè),出道即巔峰。
而巔峰背后的關(guān)鍵先生,就是華深智藥創(chuàng)始人彭健。
彭健,伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)計算機(jī)科學(xué)系及醫(yī)學(xué)院終身教授,計算生物領(lǐng)域的知名大牛,機(jī)器學(xué)習(xí)與蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測的頂級科學(xué)家。
他在博士期間設(shè)計的著名算法 RaptorX,以及在UIUC任教期間設(shè)計的DeepContact算法,多次在CASP比賽中獲得領(lǐng)先的成績,并很早就嘗試將深度學(xué)習(xí)的技術(shù)引入這個領(lǐng)域。
彭健也因此在2016年獲得有“諾獎風(fēng)向標(biāo)”之稱的斯隆研究獎,并于2020年獲得計算生物領(lǐng)域最高獎奧弗頓獎(Overton Prize),成為該獎項20年來首位華人得主。
去年6月,彭健看到AI在生物制藥領(lǐng)域的應(yīng)用前景,于是就在清華大學(xué)智能產(chǎn)業(yè)研究院孵化之下,正式創(chuàng)辦華深智藥。很快便完成了千萬美元級天使輪融資。
同時在今年6月,成立一周年之際,華深智藥又完成由五源資本領(lǐng)投,高榕資本、Neumann Capital以及三家天使輪投資方襄禾資本、高瓴創(chuàng)投、清智資本跟投的A輪融資,融資金額近5億元人民幣。
參考鏈接:
[1]https://helixon.s3.amazonaws.com/omegafold.pdf
[2]https://twitter.com/peng_illinois/status/1538536909814874113