2個月挑戰(zhàn)完善AlphaFold2短板!這個AI夏令營畢業(yè)生讓李開復(fù)贊不絕口
衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AlphaFold 2,預(yù)測蛋白質(zhì)結(jié)構(gòu)的扛把子,預(yù)測了幾乎所有已知蛋白質(zhì),涵蓋100萬物種2.14億結(jié)構(gòu)。
但實驗測得的結(jié)構(gòu)不足20萬,預(yù)測的結(jié)構(gòu)是否完全正確,無人知曉。
3位博士生加1位本科生,用了多久的時間證實AlphaFold 2預(yù)測的結(jié)構(gòu)并不都完美這一棘手難題?
答案是2個月。
利用“AI大模型+質(zhì)譜(MS)”,4名同學(xué)首次提出并訓(xùn)練了譜圖的AI語言大模型,并實現(xiàn)交聯(lián)譜圖分類模型,構(gòu)建實驗支撐的組學(xué)規(guī)模的空間距離信息數(shù)據(jù)庫,驗證預(yù)測的結(jié)構(gòu),指導(dǎo)結(jié)構(gòu)建模。
問英雄出處?——DeeCamp 2022,聚焦“AI+生命科學(xué)”的AI訓(xùn)練營。
2個月里,訓(xùn)練營里搞事情的不只上述一支隊伍。
比如研究研究蛋白質(zhì)相分離能力預(yù)測工具,蛋白結(jié)構(gòu)預(yù)測酶活性、提出能取得更先進效果的AI蛋白質(zhì)設(shè)計新方法……不僅玩法頗多,應(yīng)用場景和商業(yè)價值也安排得妥妥的。
回顧過去幾屆DeeCamp,已有諸多圍繞“AI+遺傳中心法則”的項目被孵化,比如AI+基因編輯、AI+蛋白、AI+RNA等。
對獎項點評時,大賽評委、清華大學(xué)智能產(chǎn)業(yè)研究院院長張亞勤發(fā)言:
生命科學(xué)領(lǐng)域步入數(shù)字化3.0時代,DeeCamp2022聚焦AI+生命科學(xué),不僅代表了當下整個科學(xué)界的研究趨勢,也代表了中國的科技和產(chǎn)業(yè)發(fā)展趨勢。
今年,DeeCamp為AI for Science注入了哪些新生代力量?
有望完善AlphaFold 2短板
冠軍團隊ProteinMiner的項目是大規(guī)模蛋白質(zhì)組學(xué)信息發(fā)現(xiàn)。
具體來說,就是利用AI+質(zhì)譜技術(shù),首次提出并訓(xùn)練了譜圖的AI語言大模型,一方面,讓質(zhì)譜從頭測序的精度大幅提升;另一方面,實現(xiàn)了交聯(lián)譜圖分類模型,有望使得交聯(lián)譜圖鑒定加速10倍。
為什么選擇它作為賽題?
對疾病研究、藥物研發(fā)來說,蛋白質(zhì)的序列和結(jié)構(gòu)信息尤為重要。
首先提到的質(zhì)譜測序技術(shù),在蛋白質(zhì)測序領(lǐng)域地位顯著。
它有兩種方法,一是依賴數(shù)據(jù)庫“搜庫”,二是沒有數(shù)據(jù)庫從頭測序。因一些未知的蛋白,根本沒有對應(yīng)序列數(shù)據(jù)庫,深度學(xué)習(xí)技術(shù)在從頭測序領(lǐng)域有非常大的用武之地。這也是ProteinMiner的著力點之一。
行業(yè)對測序精度的追求永無止境。
尤其面對大規(guī)模的未知序列蛋白,現(xiàn)有的質(zhì)譜從頭測序技術(shù),仍面臨精度低的問題。
為了提升大規(guī)模發(fā)現(xiàn)未知蛋白序列與結(jié)構(gòu)信息的能力,ProteinMiner項目的立足點,就是AI與大數(shù)據(jù)驅(qū)動的蛋白質(zhì)質(zhì)譜測序技術(shù)。
基于此,ProteinMiner首次提出預(yù)訓(xùn)練的AI譜圖語言大模型。
團隊解釋道,譜圖是肽序列生成的,從譜圖解析肽,如同把一種語言翻譯成另一種語言,即將譜圖翻譯成肽序列。
大模型加持,能夠提升質(zhì)譜從頭測序的精度,加速免疫相關(guān)的新抗原/抗體的發(fā)現(xiàn),以推動個性化免疫治療的進程。
另一方面,蛋白質(zhì)結(jié)構(gòu)在藥物設(shè)計等過程中也有重要作用。
計算生物界的大明星AlphaFold 2雖已開源,但它一來無法準確預(yù)測蛋白復(fù)合物,二來柔性區(qū)域性能差,再者,最終得到的結(jié)果僅是“預(yù)測”的結(jié)構(gòu)。
針對最后這一點,交聯(lián)質(zhì)譜技術(shù)可以通過高通量的實驗方法,獲取氨基酸之間的空間距離約束,有望為AlphaFold 2提供先驗的距離約束,進而改進預(yù)測的結(jié)構(gòu),有助完善其不足之處。
然而放眼行業(yè)現(xiàn)狀,交聯(lián)質(zhì)譜鑒定是N2的搜索空間,大庫下鑒定速度慢,Xi軟件直接搜human數(shù)據(jù)庫一套數(shù)據(jù)的鑒定可能需要數(shù)月的時間。
為此,ProteinMiner考慮到交聯(lián)譜圖占比低,提出譜圖的預(yù)分類策略,訓(xùn)練交聯(lián)譜圖的分類深度模型,實現(xiàn)快速的交聯(lián)質(zhì)譜數(shù)據(jù)鑒定,構(gòu)建實驗數(shù)據(jù)支撐的組學(xué)規(guī)模的蛋白質(zhì)空間距離信息數(shù)據(jù)庫。
綜上所述,團隊極大地改善了利用質(zhì)譜技術(shù)大規(guī)模蛋白質(zhì)組學(xué)信息發(fā)現(xiàn)的兩個痛點:質(zhì)譜從頭測序精度低,交聯(lián)譜圖鑒定速度慢。
經(jīng)過專家評委打分、討論,最終,ProteinMiner獲得DeeCamp 2022總冠軍。
在ProteinMiner組員看來,訓(xùn)練營提供了一個平臺,還提供了項目大模型訓(xùn)練所需的高性能資源,助力團隊的想法實踐和學(xué)術(shù)突破。
總冠軍隊:兩名成員二次參賽,團隊有本科生
ProteinMiner成員4人,分別是中科院計算所計算蛋白質(zhì)組學(xué)/信息檢索方向的博士生毛鵬志,成員包括香港中文大學(xué)(深圳)計算機視覺碩博生葉崇杰、中科院計算所生物信息學(xué)博士生齊曉寧、香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)本科生薛浩楠。
細細說來,團隊組成非常有趣:
隊長毛鵬志及隊員葉崇杰,今年已是兩次參加DeeCamp。
2019年DeeCamp訓(xùn)練營就在國科大校園里,那時疫情前還可以線下,毛鵬志從周圍參加的同學(xué)嘴里初次了解到這個比賽,用他的話來說,“(DeeCamp在周圍參與了的朋友間)口碑非常不錯,含金量被大家認可”。
葉崇杰雖不是生物信息背景,對基于transformer的大模型訓(xùn)練有強烈的興趣。他和毛鵬志去年也曾在一個團隊并肩奮斗,鑒于上一屆默契的配合選擇再次參賽。葉崇杰說:“第二次參加DeeCamp,是出于對DeeCamp和組委會的信任,也是由于對伙伴的信賴。我和鵬志有共同的愿景,我也相信他的能力和責任心,能夠帶領(lǐng)我們?nèi)〉贸晒??!?/p>
在這次比賽中,他們一起合作, 設(shè)計并訓(xùn)練了一個AI譜圖語言大模型Spectrum-MAE. 通過大量的工程和模型優(yōu)化, 實現(xiàn)在單塊顯卡上將深度學(xué)習(xí)模型參數(shù)量增加到基線的20倍以上。
另一名隊員齊曉寧,是計算出身,研究生階段踏入生物信息交叉領(lǐng)域。多組學(xué)大數(shù)據(jù)時代,希望通過人工智能來幫助探索生命科學(xué)領(lǐng)域。
由于當下AI與其他學(xué)科花式結(jié)合,像齊曉寧這樣,被催生出的新交叉領(lǐng)域研究者還有很多。
總冠軍隊還有一名隊員——薛浩楠——同時獲得了DeeCamp 2022最具探索精神獎,因為他還是一名大二升大三的本科生。
為將前沿技術(shù)(如ZeRo等)更好地運用到項目中,薛浩楠和隊友們需深刻理解新技術(shù),還需深度打磨,將其落地為所需要的課題實踐。
雖有接觸行業(yè)一線的欣喜,但也面臨技術(shù)能力挑戰(zhàn),本科生身份的薛浩楠自述難度很大。和薛浩楠同為本科生的,本屆DeeCamp還有另外4位。
二次參賽+交叉領(lǐng)域者+實力萌新,可堪視為DeeCamp 2022部分成員背景縮影。
至于拿下總冠軍,10萬元大賽獎金該怎么花?團隊已經(jīng)不謀而合:
拿來租服務(wù)器,把參賽項目糅合的部分拆解、完善,推動它繼續(xù)發(fā)展。
DeeCamp 2022
除總冠軍隊外,另外5支參與總決賽答辯的隊伍均獲得了優(yōu)勝獎。
另有4支參賽隊伍,雖未挺進總決賽,但在創(chuàng)新、技術(shù)、產(chǎn)業(yè)價值、社會價值4個方面分獲專項冠軍。
DeeCamp,由創(chuàng)新工場發(fā)起的AI訓(xùn)練營,同時也是面向全球大學(xué)生,專注培養(yǎng)應(yīng)用型AI人才的公益項目。
2017年首次發(fā)起,舉辦至今,DeeCamp已累計收到2萬余名在校大學(xué)生報名,錄取并培養(yǎng)了1500余名學(xué)員,是目前規(guī)模最大、周期最長、最具特色的AI公益訓(xùn)練營。
今年,訓(xùn)練營由創(chuàng)新工場和清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)攜手舉辦。
圍繞主題“用AI探索生命科學(xué)新邊界”,來自10多個國家和地區(qū)的150多名成員,組成30支隊伍,參與了DeeCamp 2022。
相比之前賽道分散,本屆DeeCamp首次聚焦“AI+生命科學(xué)”賽道,通過17個賽題,號召大學(xué)生們用AI技術(shù)探索生命科學(xué)的新邊界。
大賽評委、創(chuàng)新工場董事長+CEO李開復(fù)表示:
“AI+科學(xué)交叉”是創(chuàng)新工場預(yù)測未來5到10年間會引爆的創(chuàng)新增長新范式,“AI+生命科學(xué)”更是造福人類、影響深遠的黃金賽道,這也是6年來一貫倡導(dǎo)“學(xué)以致用”的DeeCamp首次聚焦AI+生命科學(xué)這一命題的深意所在。
總決賽答辯后,他還表示,期待在不久的將來,看到參賽同學(xué)成為中國“AI+生命科學(xué)”賽道的創(chuàng)新先鋒。
DeeCamp:
https://deecamp.chuangxin.com/
- “智元機器人收購A股上市公司是創(chuàng)新需要…現(xiàn)金流能撐三年”2025-08-22
- 稚暉君新大招:機器人二次開發(fā)0門檻了!2025-08-22
- 賣酒的茅臺要學(xué)AI了!和奔馳麥當勞一起拜師百度2025-08-17
- VLA進化后降維打擊!雙手揀貨,漂移操作,還能批量化秀舞,太空艙直接開上街,被銀河通用卷到了2025-08-11