2個月挑戰(zhàn)完善AlphaFold2短板!這個AI夏令營畢業(yè)生讓李開復贊不絕口
衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AlphaFold 2,預測蛋白質結構的扛把子,預測了幾乎所有已知蛋白質,涵蓋100萬物種2.14億結構。
但實驗測得的結構不足20萬,預測的結構是否完全正確,無人知曉。
3位博士生加1位本科生,用了多久的時間證實AlphaFold 2預測的結構并不都完美這一棘手難題?
答案是2個月。
利用“AI大模型+質譜(MS)”,4名同學首次提出并訓練了譜圖的AI語言大模型,并實現交聯譜圖分類模型,構建實驗支撐的組學規(guī)模的空間距離信息數據庫,驗證預測的結構,指導結構建模。
問英雄出處?——DeeCamp 2022,聚焦“AI+生命科學”的AI訓練營。
2個月里,訓練營里搞事情的不只上述一支隊伍。
比如研究研究蛋白質相分離能力預測工具,蛋白結構預測酶活性、提出能取得更先進效果的AI蛋白質設計新方法……不僅玩法頗多,應用場景和商業(yè)價值也安排得妥妥的。
回顧過去幾屆DeeCamp,已有諸多圍繞“AI+遺傳中心法則”的項目被孵化,比如AI+基因編輯、AI+蛋白、AI+RNA等。
對獎項點評時,大賽評委、清華大學智能產業(yè)研究院院長張亞勤發(fā)言:
生命科學領域步入數字化3.0時代,DeeCamp2022聚焦AI+生命科學,不僅代表了當下整個科學界的研究趨勢,也代表了中國的科技和產業(yè)發(fā)展趨勢。
今年,DeeCamp為AI for Science注入了哪些新生代力量?
有望完善AlphaFold 2短板
冠軍團隊ProteinMiner的項目是大規(guī)模蛋白質組學信息發(fā)現。
具體來說,就是利用AI+質譜技術,首次提出并訓練了譜圖的AI語言大模型,一方面,讓質譜從頭測序的精度大幅提升;另一方面,實現了交聯譜圖分類模型,有望使得交聯譜圖鑒定加速10倍。
為什么選擇它作為賽題?
對疾病研究、藥物研發(fā)來說,蛋白質的序列和結構信息尤為重要。
首先提到的質譜測序技術,在蛋白質測序領域地位顯著。
它有兩種方法,一是依賴數據庫“搜庫”,二是沒有數據庫從頭測序。因一些未知的蛋白,根本沒有對應序列數據庫,深度學習技術在從頭測序領域有非常大的用武之地。這也是ProteinMiner的著力點之一。
行業(yè)對測序精度的追求永無止境。
尤其面對大規(guī)模的未知序列蛋白,現有的質譜從頭測序技術,仍面臨精度低的問題。
為了提升大規(guī)模發(fā)現未知蛋白序列與結構信息的能力,ProteinMiner項目的立足點,就是AI與大數據驅動的蛋白質質譜測序技術。
基于此,ProteinMiner首次提出預訓練的AI譜圖語言大模型。
團隊解釋道,譜圖是肽序列生成的,從譜圖解析肽,如同把一種語言翻譯成另一種語言,即將譜圖翻譯成肽序列。
大模型加持,能夠提升質譜從頭測序的精度,加速免疫相關的新抗原/抗體的發(fā)現,以推動個性化免疫治療的進程。
另一方面,蛋白質結構在藥物設計等過程中也有重要作用。
計算生物界的大明星AlphaFold 2雖已開源,但它一來無法準確預測蛋白復合物,二來柔性區(qū)域性能差,再者,最終得到的結果僅是“預測”的結構。
針對最后這一點,交聯質譜技術可以通過高通量的實驗方法,獲取氨基酸之間的空間距離約束,有望為AlphaFold 2提供先驗的距離約束,進而改進預測的結構,有助完善其不足之處。
然而放眼行業(yè)現狀,交聯質譜鑒定是N2的搜索空間,大庫下鑒定速度慢,Xi軟件直接搜human數據庫一套數據的鑒定可能需要數月的時間。
為此,ProteinMiner考慮到交聯譜圖占比低,提出譜圖的預分類策略,訓練交聯譜圖的分類深度模型,實現快速的交聯質譜數據鑒定,構建實驗數據支撐的組學規(guī)模的蛋白質空間距離信息數據庫。
綜上所述,團隊極大地改善了利用質譜技術大規(guī)模蛋白質組學信息發(fā)現的兩個痛點:質譜從頭測序精度低,交聯譜圖鑒定速度慢。
經過專家評委打分、討論,最終,ProteinMiner獲得DeeCamp 2022總冠軍。
在ProteinMiner組員看來,訓練營提供了一個平臺,還提供了項目大模型訓練所需的高性能資源,助力團隊的想法實踐和學術突破。
總冠軍隊:兩名成員二次參賽,團隊有本科生
ProteinMiner成員4人,分別是中科院計算所計算蛋白質組學/信息檢索方向的博士生毛鵬志,成員包括香港中文大學(深圳)計算機視覺碩博生葉崇杰、中科院計算所生物信息學博士生齊曉寧、香港中文大學(深圳)數據科學與大數據技術專業(yè)本科生薛浩楠。
細細說來,團隊組成非常有趣:
隊長毛鵬志及隊員葉崇杰,今年已是兩次參加DeeCamp。
2019年DeeCamp訓練營就在國科大校園里,那時疫情前還可以線下,毛鵬志從周圍參加的同學嘴里初次了解到這個比賽,用他的話來說,“(DeeCamp在周圍參與了的朋友間)口碑非常不錯,含金量被大家認可”。
葉崇杰雖不是生物信息背景,對基于transformer的大模型訓練有強烈的興趣。他和毛鵬志去年也曾在一個團隊并肩奮斗,鑒于上一屆默契的配合選擇再次參賽。葉崇杰說:“第二次參加DeeCamp,是出于對DeeCamp和組委會的信任,也是由于對伙伴的信賴。我和鵬志有共同的愿景,我也相信他的能力和責任心,能夠帶領我們取得成功?!?/p>
在這次比賽中,他們一起合作, 設計并訓練了一個AI譜圖語言大模型Spectrum-MAE. 通過大量的工程和模型優(yōu)化, 實現在單塊顯卡上將深度學習模型參數量增加到基線的20倍以上。
另一名隊員齊曉寧,是計算出身,研究生階段踏入生物信息交叉領域。多組學大數據時代,希望通過人工智能來幫助探索生命科學領域。
由于當下AI與其他學科花式結合,像齊曉寧這樣,被催生出的新交叉領域研究者還有很多。
總冠軍隊還有一名隊員——薛浩楠——同時獲得了DeeCamp 2022最具探索精神獎,因為他還是一名大二升大三的本科生。
為將前沿技術(如ZeRo等)更好地運用到項目中,薛浩楠和隊友們需深刻理解新技術,還需深度打磨,將其落地為所需要的課題實踐。
雖有接觸行業(yè)一線的欣喜,但也面臨技術能力挑戰(zhàn),本科生身份的薛浩楠自述難度很大。和薛浩楠同為本科生的,本屆DeeCamp還有另外4位。
二次參賽+交叉領域者+實力萌新,可堪視為DeeCamp 2022部分成員背景縮影。
至于拿下總冠軍,10萬元大賽獎金該怎么花?團隊已經不謀而合:
拿來租服務器,把參賽項目糅合的部分拆解、完善,推動它繼續(xù)發(fā)展。
DeeCamp 2022
除總冠軍隊外,另外5支參與總決賽答辯的隊伍均獲得了優(yōu)勝獎。
另有4支參賽隊伍,雖未挺進總決賽,但在創(chuàng)新、技術、產業(yè)價值、社會價值4個方面分獲專項冠軍。
DeeCamp,由創(chuàng)新工場發(fā)起的AI訓練營,同時也是面向全球大學生,專注培養(yǎng)應用型AI人才的公益項目。
2017年首次發(fā)起,舉辦至今,DeeCamp已累計收到2萬余名在校大學生報名,錄取并培養(yǎng)了1500余名學員,是目前規(guī)模最大、周期最長、最具特色的AI公益訓練營。
今年,訓練營由創(chuàng)新工場和清華大學智能產業(yè)研究院(AIR)攜手舉辦。
圍繞主題“用AI探索生命科學新邊界”,來自10多個國家和地區(qū)的150多名成員,組成30支隊伍,參與了DeeCamp 2022。
相比之前賽道分散,本屆DeeCamp首次聚焦“AI+生命科學”賽道,通過17個賽題,號召大學生們用AI技術探索生命科學的新邊界。
大賽評委、創(chuàng)新工場董事長+CEO李開復表示:
“AI+科學交叉”是創(chuàng)新工場預測未來5到10年間會引爆的創(chuàng)新增長新范式,“AI+生命科學”更是造福人類、影響深遠的黃金賽道,這也是6年來一貫倡導“學以致用”的DeeCamp首次聚焦AI+生命科學這一命題的深意所在。
總決賽答辯后,他還表示,期待在不久的將來,看到參賽同學成為中國“AI+生命科學”賽道的創(chuàng)新先鋒。
DeeCamp:
https://deecamp.chuangxin.com/
- “智元機器人收購A股上市公司是創(chuàng)新需要…現金流能撐三年”2025-08-22
- 稚暉君新大招:機器人二次開發(fā)0門檻了!2025-08-22
- 賣酒的茅臺要學AI了!和奔馳麥當勞一起拜師百度2025-08-17
- VLA進化后降維打擊!雙手揀貨,漂移操作,還能批量化秀舞,太空艙直接開上街,被銀河通用卷到了2025-08-11