我們和計算生物學(xué)從業(yè)者深度聊了聊|對撞派 · 圓桌實錄
量子位智庫 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
名噪一時的AlphaFold 2背后,是蓄勢待發(fā)的計算生物學(xué)。
但,計算生物學(xué)究竟是什么?目前進展如何,又蘊藏了怎樣的未來機遇?
AI制藥、疾病研究、AI for Science、21世紀最偉大的科學(xué)發(fā)明…
這些都不足以概括這一領(lǐng)域。
過去的兩周,量子位對撞派推出了「計算生物學(xué)」專題,先后邀請到了專注蛋白質(zhì)組學(xué)的西湖歐米、專注分子模擬的深勢科技,和AI領(lǐng)域的頭部研究院微軟亞洲研究院,從不同角度和我們直播探討了計算生物學(xué)。
在這一系列對談中,我們談到了計算生物學(xué)的定義、現(xiàn)狀、應(yīng)用潛力、底層含義、技術(shù)瓶頸、發(fā)展細節(jié)等等…..
這個領(lǐng)域比我們想象的更加復(fù)雜,潛力也更加可觀。
精華版文字內(nèi)容在此,快來聽聽業(yè)內(nèi)人士怎么說~(文末還有彩蛋)
第一場:對話西湖歐米
西湖歐米是專注于AI賦能的微觀世界數(shù)據(jù)公司。致力于以蛋白質(zhì)組大數(shù)據(jù)技術(shù)創(chuàng)新為驅(qū)動力,聯(lián)合多模態(tài)大數(shù)據(jù),助力精準醫(yī)學(xué)和藥物研發(fā)。
對談嘉賓:
郭天南(右):西湖歐米創(chuàng)始人,西湖大學(xué)生命科學(xué)院特聘研究員
陳 義(左):西湖歐米首席AI科學(xué)家,中國科學(xué)院軟件研究所博士
Q1:Alphafold的最大意義是什么?
A1:我們可以用兩條線,把世界分為四個維度——宏觀和不借助設(shè)備看不到的微觀;生命和非生命。
在Alphafold2之前, AI 實際上一直都沒有真正進入微觀的生命的世界。而這個部分其實對我們的生命健康有重大意義,比如病毒的侵入擴增、抗體免疫,都屬于其中的蛋白質(zhì)世界。
此外,AlphaFold2是給AI從業(yè)者打開的一個新的窗口。因為科研可以分為發(fā)現(xiàn)問題、定義問題,還有探索解決方案這么多環(huán)節(jié)。AlphaFold2證明了AI 在探索解決方案的環(huán)節(jié)未來可以是人類的一個好幫手。
Q2:蛋白質(zhì)的重要性是怎樣的?基于蛋白質(zhì)的改變,有哪些領(lǐng)域和應(yīng)用會發(fā)生改變呢?
A2:根據(jù)生物學(xué)的中心法則,DNA 轉(zhuǎn)錄成 RNA ,RNA必須要翻譯成蛋白質(zhì)才會起作用。
對于蛋白質(zhì)組學(xué),一方面是疾病治療。
以電影《我不是藥神》里,在白血病細胞中靶向融合蛋白BCR-ABL,進而控制細胞增殖的神藥為例,如果不從蛋白質(zhì)角度出發(fā),無論是問切、血細胞計數(shù)、CT、心電圖等,這些檢測都不可能達到這樣一個效果?,F(xiàn)在的很多生物制藥、靶向治療、免疫治療等等都是基于蛋白質(zhì)完成的,對于精準醫(yī)療也有意義。
另外一個層面是疾病診斷。
比如甲狀腺結(jié)節(jié)到底是良性還是惡性?有一部分人是處于無法判斷結(jié)節(jié)良惡性的灰色地帶的。無論你做什么檢測,CT、B超,甚至基因檢測都無法準確地判斷。而通過蛋白質(zhì),加上一些 AI 的模型后,判斷能夠達到 90% 左右的準確度。
現(xiàn)在幾乎所有的領(lǐng)域都會有基因測序,但一個人從出生到死亡,或是在不同的器官里,它的基因組都是差不多是一樣的,所以每個人做一次基因測序就夠了。
但是我們今天跟明天,生病后跟治療后它的蛋白質(zhì)組是不一樣的。由于時間維度和空間維度都不同,蛋白質(zhì)組能更充分地反映疾病的變化。
如果我們能夠?qū)Φ鞍踪|(zhì)在各個時間各個空間進行消費級的測量,擁有大量細胞水平的微觀世界的數(shù)據(jù),我們對生命的理解、對健康的管控會處于一個完全不一樣的境界。
Q3:您覺得AlphaFold2現(xiàn)在在蛋白質(zhì)的結(jié)構(gòu)和功能預(yù)測上是否已經(jīng)比較完善了?他距離蛋白質(zhì)這個領(lǐng)域中的終極真理還遙遠嗎?
A3:從我的理解來看,我覺得現(xiàn)在的AlphaFold2肯定還有改進的空間。AlphaFold2帶來的象征意義,也許比它的實際意義會更大。AI 的科學(xué)家們當知道有這樣的數(shù)據(jù)和問題時,就會涌進來,然后快速迭代,然后不斷地發(fā)現(xiàn)新的解決方案。
現(xiàn)在蛋白質(zhì)結(jié)構(gòu)上面還有很多問題,因為在真實的場景下面,蛋白質(zhì)是會在不同環(huán)境里相互作用的。我們在做藥物、理解生物學(xué)、診斷疾病的時候,肯定不能只單獨地看某一個蛋白質(zhì)內(nèi)部的解剖。我覺得我們還是要在真實場景中采集蛋白質(zhì),觀察它在真實的細胞里面、體液里面是一個什么樣的狀態(tài)。從而進行結(jié)構(gòu)和功能的分析,這樣會更有價值。
Q4:對于更為動態(tài),變化也更為豐富的這個蛋白質(zhì)組織領(lǐng)域,我們在利用 AI 去對它做一些預(yù)測和分析的時候,從 AI 的角度來看,會覺得它有額外的難度嗎?會在建模上造成一些其他的困難嗎?
A4:在蛋白這種領(lǐng)域,雖然它動態(tài),但是我覺得這不是問題。在宏觀世界,我們產(chǎn)生的數(shù)據(jù)給我們非常大的便利,我們可以預(yù)測春運,我們可以知道新冠的流行的狀態(tài)。
相對于問題的復(fù)雜度和對應(yīng)的算法,缺乏足夠的數(shù)據(jù)是一個更大的問題。
雖然這十幾年來蛋白質(zhì)測量的成本一直在降低,但還是零點幾美金才可以測一個蛋白質(zhì),而我們有數(shù)以千計萬計的蛋白質(zhì),還需要進一步的改進。這也是我們歐米在努力的,我們希望他的成本盡可能低到比基因組還要低,這樣的話我們就可以非??斓馗咝У禺a(chǎn)生足夠的數(shù)據(jù)。然后一定會有足夠好的 AI 的算法去解決這些問題。
Q5:我們了解到蛋白質(zhì)是可以作為一種更為動態(tài)和直接的生物標記物的。它是怎樣如何和 AI 具體結(jié)合起來,進行疾病判斷的呢?
A5:第一個核心,整個流程的背后是蛋白質(zhì)組分析的核心技術(shù),就是怎么從少量的樣品,肉眼都看不到的組織里面提取數(shù)以千計、數(shù)以萬計的蛋白。
然后第二個核心,就是我們怎么樣建立一個與之相適應(yīng)的 AI 模型,從數(shù)千萬的蛋白中挑出那么 10 來個左右的蛋白進行診斷。
第三個就是產(chǎn)品化,我們怎么樣讓這個這測量這十幾個蛋白成本盡可能的低,達到消費級要低于每個蛋白 0.1 美金以下,希望是越低越好,這樣越低我們就可以更廣泛的使用。
Q6:對于整個計算生物學(xué)來說,這個領(lǐng)域現(xiàn)在大概發(fā)展到了什么程度?
A6:目前計算生物學(xué)實際上是高度依賴數(shù)據(jù)的,因為文本的數(shù)據(jù)多,因為圖像的數(shù)據(jù)多,因為基因組的數(shù)據(jù)多,所以大家的主要的這個關(guān)注度在這個方面。
然后現(xiàn)在我們可以非常有信心的說這個蛋白質(zhì)組的數(shù)據(jù)會也會越來越多。AlphaFold2的出現(xiàn)就是這樣一個突破。作為最重要的一個分子,蛋白質(zhì)組會在結(jié)構(gòu)、動態(tài)、功能、網(wǎng)絡(luò)等方面都被進一步開發(fā)。
第二場:對談深勢科技
深勢科技致力于以新一代分子模擬技術(shù)解決微尺度工業(yè)設(shè)計難題。以打造切實服務(wù)于藥企、材料商和科研機構(gòu)的模擬研發(fā)平臺為主要業(yè)務(wù)方向,以解放研發(fā)工作者的生產(chǎn)力為主要業(yè)務(wù)目標。
對談嘉賓:
孫偉杰(左一):深勢科技創(chuàng)始人,首席執(zhí)行官
張林峰(左二):深勢科技創(chuàng)始人,首席科學(xué)家
Q1:AlphaFold2 對于整個學(xué)科領(lǐng)域來說究竟意味著什么呢?
A1:更宏觀來看,AlphaFold2是一種將AI極致地與前沿科學(xué)的數(shù)據(jù)相結(jié)合,解決前沿科學(xué)問題的新的范式。
無論是在大的分子結(jié)構(gòu)預(yù)測、藥物篩選,還是材料、化工等別的學(xué)科上,這樣的機會是廣泛存在的。
將 AI 與 Science 相結(jié)合,這其實也是 AlphaFold2 所給我們帶來的一個系列性的、涉及所有的 Science 行業(yè)的一個可能性。
AlphaFold2 的出現(xiàn)是一個捅破窗戶紙的,讓大家意識到原來我們的 AI 計算真正產(chǎn)生了一個可以和實驗精度去媲美的這樣的一套算法工具。
而我們的計算真正能夠和實驗對比,是所有的計算發(fā)展的一個很重要的里程碑和目標,用計算去替代一部分實驗,也是我們最終的研發(fā)的目的和終點。
我愿意把它定義成這是我們計算生物學(xué)的大航海時代的開端。這個時代才剛剛開始。
Q2:在過去的一年,包括AlphaFold2、RosettaFold、以及RNA結(jié)構(gòu)預(yù)測在內(nèi),計算生物學(xué)領(lǐng)域到了一個爆發(fā)的節(jié)點。有哪些利好的因素導(dǎo)致了這一波突破呢?
A2:從技術(shù)的角度去看,很多技術(shù)發(fā)展包括AI本身,突然的巨變性的變化,往往是因為有多個要素的組合。數(shù)據(jù)、算力和算法的組合之下,突然這層窗戶紙捅破了,就會有很多的結(jié)果涌現(xiàn)?,F(xiàn)在這三點的結(jié)合最終到了一個所謂的奇點(critical point),就會爆發(fā)。
所以我想一方面恰好發(fā)生于去年,另一方面這三條線的發(fā)展也是經(jīng)歷了一個相當于符合客觀規(guī)律的過程。
其實我覺得整個領(lǐng)域從2016年就具備這樣的基礎(chǔ)。但是這個領(lǐng)域相比于大家能直觀認知的下圍棋的 AlphaGo ,還有互聯(lián)網(wǎng)的一些應(yīng)用,還是相對小眾,并且需要的知識門檻是更高的。所以說它的實際突破的出現(xiàn),肯定相對來說會更晚。
但是晚到什么程度呢?
從技術(shù)發(fā)展的趨勢上,我覺得是一個十年之內(nèi)肯定會發(fā)生的事情,畢竟所有的要素其實都是具備的。所以說我覺得從2016年到2026年之間,肯定會出現(xiàn)技術(shù)的突破,只是說或早或晚,那取決于它的問題有多被行業(yè)需要,取決于相關(guān)的這些要素有沒有被有機的整合到一起。
至于說2021年這個時間點,我覺得在這十年之間,就算 DeepMind 沒有在去年做出 AlphaFold2,可能今年、明年像我們這樣的玩家,像RosatteFold, 可能也會產(chǎn)生這樣的突破,因為剛才所說技術(shù)的積淀已經(jīng)到這樣了。
Q3:深勢科技也推出了一個中國版的 AlphaFold2 就是我們的 Uni-Fold, 那當時咱們是出于怎么樣的動機或者說觀察來決定完成這一項工作的呢?
A3:其實我們面臨的一個系統(tǒng)性的機會,以及我們希望做到的事情,本質(zhì)上是用計算替代實驗。
在醫(yī)藥、材料、化工等這些領(lǐng)域,面臨的問題本質(zhì)上抽象出來是一樣的,大家關(guān)注的都是在微觀層面怎么樣設(shè)計出一個有用的分子。
我們抽象的在微觀層面上想做的微尺度工業(yè)平臺,本質(zhì)上就是三個物理問題:結(jié)構(gòu)、能量和動力學(xué)。而結(jié)構(gòu)就像是一個起點或者milestone,對于算法矩陣和商業(yè)落地都是至關(guān)重要的。
Uni-Fold還有很大潛力可以挖掘,我們也不會止步于此。比如說對蛋白聚合體的結(jié)構(gòu)預(yù)測,蛋白和分子結(jié)合的結(jié)構(gòu)預(yù)測,當然很多比較大的蛋白現(xiàn)在還沒有做得很準,我們也可以提升它的精度。
我們還有一系列的比如說強化分子動力學(xué)的算法,來和Uni-Fold形成完整的對蛋白結(jié)構(gòu)進行預(yù)測、乃至對動態(tài)結(jié)構(gòu)進行預(yù)測的算法體系,以及這些計算的方法怎樣和實驗聯(lián)動,去提升實驗的效率,或者是做一些實驗上很難做的事情。
所以說我們是要在整個結(jié)構(gòu)生物學(xué)領(lǐng)域深刻地去布局前沿的算法,然后最終達到替代不必要的實驗,并且讓必要進行的實驗也能高效穩(wěn)定地進行,這是我們想達到的最終目的。
Q4:在計算生物學(xué)里面,我們會把我們能解決的問題會做一個怎樣的分類,或者說我們大概有一個怎樣去攻克的一個規(guī)劃和理解嗎。
A4:科學(xué)問題普遍上都遵循兩種范式。
第一種范式,可被完善地定義成一個物理或者化學(xué)問題,意味著可以找到相應(yīng)的物理模型去很完備地描述它,這種我們就稱之為叫規(guī)則驅(qū)動,或者叫物理驅(qū)動的問題。那這種問題最好的辦法就是我們精準的求解物理模型。
另一種問題就是很難定義為一個物理問題。也就是所謂數(shù)據(jù)驅(qū)動的。
這兩種范式上發(fā)展出來算法也很不一樣。
Q5:我們認為哪些場景是計算生物學(xué)能夠最快落地,或者發(fā)揮最大潛能的?
A5:我覺得可能的突破口還是會從兩個地方出現(xiàn)。
一個是理解生命體運作的機制。我們無論是做藥物還是做療法、做任何的東西,第一個前提就是我們要知道我們到底是怎么樣運行的,疾病的產(chǎn)生與治愈是怎樣的一個微觀的過程。那第二,在充分理解生物體運作機制的前提下,我們就會確定一些藥物的靶標和疾病之間的關(guān)系。那再往下其實就是藥物的設(shè)計。之后,就是這些相應(yīng)療法在人體內(nèi)作用的預(yù)測等相關(guān)的這件事情。
這部分的突破,我認為會比較快地出現(xiàn)在兩個方向上:1. 能更明確地能定義為物理問題和化學(xué)問題的方向,比如蛋白質(zhì)尺度的結(jié)構(gòu)和藥物計。2. 實驗技術(shù)進步能夠帶來大量高質(zhì)量標準化數(shù)據(jù),且問題相對不是那么高維。也就是數(shù)據(jù)的積累會對算法產(chǎn)生非常大幫助的領(lǐng)域。
第二個方面就是逆向問題。我們在理解了生物體的運作機制之后,去反向生成。比如說像合成生物學(xué),我們通過編程的方式去創(chuàng)造生命,那這是解反問題。
可能還有一個維度其實是計算生物學(xué)的解決方案和專家的關(guān)系。將原來專家的經(jīng)驗知識轉(zhuǎn)化成了一個模型或者可執(zhí)行的一個工具,更好地賦能下游的科學(xué)家和工作人員。
Q6: 那如果我們用百分比來衡量的話,今天比如說以Alphafold2 為一個代表,我們會覺得它大概到了一個怎么樣的進度?
A6:我覺得遵循著一個指數(shù)發(fā)展的規(guī)律。當前的一系列技術(shù)的積累,其實是剛剛捅破了這層窗戶紙,也可能是黎明前的黑暗到往上走的關(guān)鍵時期。所以說當下的這個點或許是還比較少的,甚至可能不一定到1%。
如果借鑒AI的圖片識別和語音識別發(fā)展歷程,我想它還是一個快速增長的時期。它的導(dǎo)數(shù)可能非常的大。
比如說以AlphaFold2的話,它分為兩種層面,一種是已知的未知,比如說對人類的蛋白組的預(yù)測可能接近60%,都預(yù)測的相對比較靠譜。那剩下 40% 預(yù)測的不靠譜的部分,至少也能給出一個大致的置信區(qū)間。這意味著算法是初步可用了。
更大的其實是未知的未知??茖W(xué)家們普遍都認為我們對可見宇宙或者已知宇宙的認知肯定是不超過 5% ,更何況還有很大的未知的宇宙。我覺得在蛋白質(zhì)結(jié)構(gòu)預(yù)測這個領(lǐng)域也是同樣的。我們可見的包括這些預(yù)測不準的 40%, 主要是一些大蛋白、膜蛋白、蛋白復(fù)合物等等。就可見部分而言,我覺得可能只完成了 10% 到 20。我們其實并不知道分母有多大。
這是計算生物學(xué)領(lǐng)域大航海時代的開始,這個真正的競爭或者真正的突破才剛剛開始。整個的技術(shù)發(fā)展肯定是非線性的,出現(xiàn)了一個突破可能一下就提升了一大截,大家也可以密切地關(guān)注這個領(lǐng)域的進展,這里面也可能獲得很多非線性的回報機會。
第三場:對談微軟亞洲研究院
微軟亞洲研究院是微軟在美國本土以外規(guī)模最大的研究機構(gòu),世界一流的計算機基礎(chǔ)及應(yīng)用研究機構(gòu)。致力于推動整個計算機科學(xué)領(lǐng)域的前沿技術(shù)發(fā)展,將最新研究成果快速轉(zhuǎn)化到微軟的關(guān)鍵產(chǎn)品中,著眼于下一代革命性技術(shù)的研究和孵化。
對談嘉賓:
劉鐵巖(左二):微軟亞洲研究院副院長
邵 斌(右二):微軟亞洲研究院首席研究員
王 童(右一):微軟亞洲研究院主管研究員
Q1:AlphaFold2的最大意義是什么?
A1:這個看似突破性的進展,其實是技術(shù)演進的必然結(jié)果。
此外,如果我們換個視角來看待這個問題,蛋白質(zhì)結(jié)構(gòu)預(yù)測僅僅是計算生物學(xué)這個大門類里面一個相對來說定義得比較清晰(well-defined)的問題。還有很多比蛋白質(zhì)結(jié)構(gòu)預(yù)測更加復(fù)雜也更有挑戰(zhàn)性的問題,等著我們用人工智能的手段去推進。
Q2:我們認為應(yīng)該如何去定義計算生物學(xué)這一個學(xué)科,它里面又會有哪些細分的領(lǐng)域和維度呢?
A2:從研究對象的角度,有宏觀的,也有微觀的。從微觀的角度,可以小到一個蛋白、DNA 或者是一個單細胞。從宏觀的角度,可以大到人類或者說生物體的組織、器官、個體甚至是群體。
從研究手段來講,既有傳統(tǒng)的生物實驗,也有包括計算手段在內(nèi)的數(shù)學(xué)建模、數(shù)值仿真、數(shù)據(jù)分析或者是機器學(xué)習。
從應(yīng)用門類來講,幾乎和我們平時生活或者科學(xué)發(fā)展的方方面面都有關(guān)系,它既有在基礎(chǔ)科學(xué)方面的潛力,也在制藥診療方面有著巨大價值。
Q3:2021 年,微軟亞洲研究院首次針對新冠病毒中的 NTD 提出了對應(yīng)的楔型模型,并鑒定了潛在的藥物靶點。能否介紹一下這項工作是怎么基于計算生物學(xué)完成的呢?
A3:?之前科學(xué)家們發(fā)現(xiàn),新冠感染人體的物質(zhì)叫 S 蛋白。我們可以把它想象成一個英文字母 Y,有兩個枝杈,還有一個中軸。S蛋白的中軸會固定在病毒的表面,而伸出的這兩個枝杈(RBD和NTD),其中的RBD會和我們的受體蛋白發(fā)生識別,然后進入人體。
我們的研究主要圍繞著機理還未明確的NTD展開。我們和清華大學(xué)計算生物學(xué)的老師通力合作,利用分子動力學(xué)模擬技術(shù)對整個S 蛋白,全構(gòu)象是百萬級原子的巨大體系,進行了數(shù)十億步的動力學(xué)平衡模擬。通過分子動力學(xué),我們發(fā)現(xiàn)NTD就像一個開關(guān),可以去控制另一個枝杈RBD是否能和人體的蛋白發(fā)生識別、結(jié)合。而NTD和RBD兩者結(jié)合的界面,就自然形成了藥物和疫苗設(shè)計的一個潛在靶點。
Q4:計算生物學(xué)算是一門交叉性非常強的學(xué)科,一方面是生物知識和人工智能的交叉,也就是所謂的 BT+IT。另一方面,也是干實驗和濕實驗的一種交叉。那請問幾位老師是如何看待這兩種強的交叉關(guān)系的?
A4:?計算生物學(xué)是一個非常典型的交叉學(xué)科。這個交叉二字其實有幾個不同的層次。
首先是知識層面上,有生物學(xué)、醫(yī)學(xué)、藥學(xué)、計算機科學(xué),包括人工智能這些不同的知識門類的交叉。
還有一個研究方法的交叉,比如說傳統(tǒng)生物學(xué)的生物實驗,就是“濕實驗”。計算機的模擬或者人工智能的手段,我們通常稱為“干實驗”。
更重要的其實是人才的交叉。因為在這個過程中會涉及到計算機的人才、生物學(xué)的人才。而最有趣的是,每個人其實都是有自己的個性的,甚至是有一些偏見的。當我們面對著一個新的課題或者一個新的事物的時候,通常會帶入我們固有的一些思維。所以想要讓交叉學(xué)科發(fā)展得非常好,我們就需要一個開放、包容、多元化的環(huán)境,讓不同的知識做交融,讓不同類型的人才去做碰撞,讓不同的研究手段去進行互補或者形成某種閉環(huán)。
Q5: 是否存在哪些明顯的瓶頸?
A5:高質(zhì)量數(shù)據(jù)。盡管過去我們在生物學(xué)領(lǐng)域積累了大量的數(shù)據(jù),但是高質(zhì)量的數(shù)據(jù)仍然十分短缺。
從技術(shù)上來說,在做計算生物學(xué)的過程中,我們還是碰到了非常多的挑戰(zhàn)。比如說,真正的蛋白質(zhì)其實是處在一個非常復(fù)雜的細胞環(huán)境中的,這種微環(huán)境使得計算機的建模難度非常大。比如說在NTD的分子動力模擬中,就需要考慮到這個蛋白在人體內(nèi)真正的環(huán)境是什么樣的?是不是處在一個水溶液的環(huán)境里?是不是會有一些離子?在計算生物學(xué)的研究中,我們也要盡量地去仿照人體中真實的微環(huán)境,這可能是一個比較大的挑戰(zhàn)。
那還有一個挑戰(zhàn)是什么呢?在做計算免疫學(xué)的時候,其實每個人內(nèi)在的免疫環(huán)境都是千差萬別的。我們做一個AI模型,如果想在每個人身上都適用,取得很好的效果,也是很大的一個挑戰(zhàn)。這也就是為什么我們要對每個人有一個更個性化的建模過程和解決方案。
還有動態(tài)變化的問題。
生命科學(xué)很特別的一點,就是它的研究對象是活的。比如說,人體每天應(yīng)對著我們所在的環(huán)境,包括各種病源的侵擾,我們是不斷地在進化、在變化中去抵抗它們的。所以當我們使用傳統(tǒng)的機器學(xué)習或人工智能的手段去做了分析建模,很可能這個模型未來要使用的對象已經(jīng)發(fā)生了變化。
所以當我們用人工智能的手段去解決這些生物問題的時候,怎么能夠做更好的泛化外推,能夠去解決和應(yīng)對生物體本身的變化,這是一個非常有趣的問題,它不僅僅是對計算生物學(xué)有意義,對人工智能、對機器學(xué)習都是一個新的挑戰(zhàn)。
Q6:那我們是如何看待AI for Science這種形式的?
A6:當我們用人工智能跟自然科學(xué)進行交叉的時候,其實有兩個視角。
一個是我們已經(jīng)知道了自然科學(xué)的規(guī)律,也產(chǎn)生了很多的數(shù)據(jù),我們怎么用人工智能從里面學(xué)到某種模型去加速這個過程。
另一分支就是當我們能夠有那么多的觀測數(shù)據(jù),這些數(shù)據(jù)可能是科學(xué)家們用肉眼分析不過來的。如果我們有很好的人工智能技術(shù),我們能不能去通過大量的高通量數(shù)據(jù)分析,總結(jié)出一些現(xiàn)有的科學(xué)家還沒有發(fā)現(xiàn)的科學(xué)規(guī)律,這個科學(xué)發(fā)現(xiàn)的價值可能比加速的價值更高。
Q7:在AI for Science,這個具體的融合過程中,有沒有什么經(jīng)驗和大家分享?
A7:人工智能帶來了科學(xué)研究范式的轉(zhuǎn)型。因為從計算機科學(xué)的視角看,現(xiàn)在很多的問題求解不再單純依賴于人工的算法設(shè)計,而更多的是轉(zhuǎn)成以數(shù)據(jù)驅(qū)動的模型構(gòu)建。
此外,從基礎(chǔ)科學(xué)研究的視角去看,傳統(tǒng)基礎(chǔ)科學(xué)研究更多是一種提出科學(xué)假設(shè),然后驗證科學(xué)假設(shè)的研究范式。隨著大數(shù)據(jù)和人工智能的發(fā)展、普及和成熟,我們觀察到越來越多的科學(xué)研究從假設(shè)推動的范式,走向了利用大數(shù)據(jù)和計算機技術(shù)挖掘科學(xué)洞見的這種數(shù)據(jù)驅(qū)動的科學(xué)研究范式。
從生物科學(xué)的角度出發(fā),我們之前更多是基于專業(yè)領(lǐng)域知識(domain knowledge)的觸發(fā)來做研究。通俗來講,AI其實只是作為一種計算手段扮演了配角的作用。更多是在有大量的生物學(xué)數(shù)據(jù)和生物領(lǐng)域知識的前提下,用一種非常簡單的統(tǒng)計模型或者是機器學(xué)習來做簡單的擬合。
但伴隨著AI技術(shù)的發(fā)展和深化,AI在AI for Science里逐漸變成了主角。它并不是只去對生物數(shù)據(jù)做簡單的擬合,而是從 AI 入手去認識科學(xué)問題,即為科學(xué)問題量身定制一套AI的算法與開發(fā)。
但從另一方面來說,傳統(tǒng)計算生物學(xué)的研究,更多是為了提升性能,也就是追求更高的數(shù)字?,F(xiàn)在的 AI for Science 并不是這樣。以AI+藥物設(shè)計研發(fā)為例,我們并不像之前一樣只關(guān)注準確率,而更關(guān)注可解釋性。比如說在藥物虛擬篩選里,是潛在藥物的哪些原子和我們的受體蛋白的哪一些殘基、哪一些原子能發(fā)生相互作用,這個模型能否提供更好的解釋性等等。
傳統(tǒng)的自然科學(xué)領(lǐng)域有一個研究范式,就是科學(xué)家們受到實驗數(shù)據(jù)的啟發(fā),然后大膽假說提出一套科學(xué)理論,再通過設(shè)計實驗去進一步地驗證這些理論或者推論。人工智能其實就是使傳統(tǒng)科學(xué)家做研究的這種過程變得自動化、規(guī)模化、并行化。所以,如果我們說傳統(tǒng)的自然科學(xué)的發(fā)展嚴重依賴于少數(shù)頂級科學(xué)家的智慧的話,在未來,有了人工智能技術(shù)的加持,我們相信有更多的科學(xué)工作者可以以更高的通量去做更了不起的研究。
錯過了直播的小伙伴可以點擊我們的直播回看視頻,了解更多技術(shù)細節(jié)和問題詳解~
第一期:西湖歐米—從蛋白質(zhì)組學(xué)看計算生物學(xué)
計算生物學(xué)系列對談01期-西湖歐米 x 量子位·對撞派_嗶哩嗶哩_bilibili
第二期:深勢科技—分子模擬與計算生物學(xué)的交叉
計算生物學(xué)系列對談02期-深勢科技 x 量子位·對撞派_嗶哩嗶哩_bilibili
第三期:微軟亞洲研究院—從AI從業(yè)者的角度看計算生物學(xué)和AI for Science
計算生物學(xué)系列對談03期-微軟亞洲研究院 x 量子位·對撞派_嗶哩嗶哩_bilibili
在計算生物學(xué)領(lǐng)域,智庫后續(xù)還會推出深度報告與解讀視頻。如果您深耕于計算生物學(xué)相關(guān)領(lǐng)域,歡迎掃碼添加分析師進行深度討論與交流。
關(guān)于量子位智庫:
量子位旗下科技創(chuàng)新產(chǎn)業(yè)鏈接平臺,致力于提供前沿科技和技術(shù)創(chuàng)新領(lǐng)域產(chǎn)學(xué)研體系化研究(如前沿AI&計算機,生命科學(xué),量子技術(shù)及新型半導(dǎo)體等)。通過媒體,社群和線下活動,基于專題技術(shù)報道及報告、專項交流會等形式,幫助決策者更早掌握創(chuàng)新風向。
關(guān)于對撞派:
量子位智庫旗下的高端圓桌欄目。
對撞派致力于邀請前沿科技領(lǐng)域的專業(yè)人士,如創(chuàng)業(yè)公司CEO及CTO、資深科學(xué)家、專業(yè)投資人等,對特定趨勢進行深度討論及解讀。從業(yè)內(nèi)與專業(yè)的角度,幫助讀者更為準確地把握未來科技動向。
—?完?—