百度推出LinearDesign,全球首個mRNA疫苗不穩(wěn)定性解決方案,僅需16分鐘
十三 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
新冠疫情全球流行,疫苗研制成為當務之急。
mRNA作為一種全新的疫苗類型,能夠快速大規(guī)模生產, 因此成為科學家們攻克的主陣地之一。
新冠疫情爆發(fā)后,RNA設計領域世界知名專家、斯坦福大學生物化學系Rhiju Das教授關注到疫苗研發(fā)存在的一個非常棘手的問題:
找到一個既具有穩(wěn)定二級結構,而且還有效的mRNA疫苗。
有多難?
首先是穩(wěn)定性,mRNA疫苗“脆弱”到在保存、運輸過程中,就有可能因為降解而失效。
然后是有效性,需要找一個mRNA序列,能夠翻譯成特定的蛋白質(抗原)。
單是滿足這兩個條件,若是采用遍歷的方式去尋找,那就需要查看10的632次方個mRNA序列!
這是什么概念?用一臺超級計算機來處理,即便一秒鐘能計算一個新冠RNA序列的二級結構,哪怕是從宇宙誕生到現(xiàn)在(130-140億年),連“潛在”mRNA序列的億萬分之一都沒算到。
僅靠科研人員的力量是遠遠不夠的,那就“全民參賽”吧!
于是乎,Rhiju Das教授便找到了百度,使用百度此前開源的LinearFold算法,搭建一個疫苗設計公開賽,讓全民參與進來,以游戲的形式,邊玩邊找這個mRNA。
但正如剛才提到的,搜索空間是異常龐大,難道就沒有辦法在相對節(jié)省人力的情況下,就能夠設計出滿足條件的mRNA疫苗序列呢?
這個可以有。
現(xiàn)在,(可能)“拯救世界”的新算法,LinearDesign,來了!
LinearDesign:最快16分鐘完成mRNA疫苗序列設計
其實,回顧近二十年的歷史,隨著全球化和城市化的深入發(fā)展,全球疫情爆發(fā)周期越來越短——從2002年的SARS,到2012的MERS,再到現(xiàn)如今的新冠病毒。
面對一次又一次的冠狀病毒的侵襲,快速研制出特定疫苗成為了解決問題的一種途徑。
那么,在mRNA疫苗如此龐大的搜索空間面前,LinearDesign又能起到什么作用?
針對新冠病毒的mRNA疫苗序列,通常是以自然界存在的新冠刺突蛋白對應的mRNA段為基礎,經過一些改動后作為備選序列。
但是這樣的序列其二級結構通常是不夠穩(wěn)定的。如下圖(A)展示的是新冠病毒刺突蛋白對應的mRNA二級結構,其能量為-967.8 kcal/mol。
△圖A
這一能量衡量了mRNA二級結構的穩(wěn)定性,能量越低(越負)表明越穩(wěn)定。
mRNA由多個核苷酸(共四種,分別是A、U、C、G)串聯(lián)而成,蛋白質由多個氨基酸(共21種)串聯(lián)而成。每三個核苷酸(稱為一個密碼子)翻譯成一個蛋白質。顯而易見,三個核苷酸共有4的三次方共64種組合,那么必然有多個密碼子對應一個氨基酸,也就是說有很多mRNA序列都可以翻譯成同一個蛋白質(抗原)序列。具體來說,新冠病毒刺突蛋白(抗原)共有1273個氨基酸,能翻譯成刺突蛋白的mRNA序列有10的632次方之多。如下圖所示:
在保持翻譯成的蛋白質不變的前提下,還可以選擇其他的序列作為mRNA疫苗序列。下圖(B)展示了從1萬個隨機序列中選取的能量最低的序列,能量為-1149.8 kcal/mol。
△圖B
這一序列能量比Wildtype低一些,但是也并不是能量最低的序列。
那么能量最低的序列什么樣子,其能量可以低到多少?有請LinearDesign算法來回答這個問題。
下圖(C)便是LinearDesign設計出來的序列二級結構,其能量為-2477.7 kcal/mol,比A、B低一倍還多。
△圖C
它的二級結構非常緊密,幾乎所有的堿基都形成了堿基對。而堿基對越多,通常能量越低,結構越穩(wěn)定。
從上面對比圖可以看出,在新冠病毒的刺突蛋白序列上的計算機模擬實驗表明,LinearDesign算法可以設計出比Wildtype序列穩(wěn)定得多的結構,而且設計時間只需要1個半小時。
如果采用線性時間近似,所需時間可以進一步縮短到16分鐘, 而相比于最穩(wěn)定序列,線性近似算法設計出的序列與其能量僅相差0.6%。
上圖對比了刺突蛋白的野生型mRNA、隨機生成的mRNA序列、以及LinearDesign設計序列的穩(wěn)定性和蛋白質表達水平。圖中橫坐標是衡量穩(wěn)定性的參數(shù)MFE,越低越好;縱坐標是衡量蛋白質表達水平的參數(shù)CAI,越高越好,所以處于左上方的序列既穩(wěn)定又能翻譯更多蛋白質(抗原)。
野生型和隨機生成的序列都集中在右下方,而LinearDesign設計的序列在左上方。其中最左側的點是LinearDesign設計出的最穩(wěn)定的序列,其MFE為-2477.7 kcal/mol. 而隨著調整lambda值(一個平衡MFE和CAI的超參數(shù)),可得到一條淡藍色的曲線,這個曲線就是所有滿足條件的mRNA 序列中最優(yōu)序列上界。粉色的曲線是近似算法設計出的序列,可以看到它和精確算法找出的序列(淡藍色曲線)非常接近,但設計時間大大縮短。
更重要的是,LinearDesign不僅有助于解決當下的新冠病毒問題,更是適用于所有的mRNA疫苗。
那么,LinearDesign到底是如何做到這點的呢?
LinearDesign原理:降低搜索空間至多項式級
主要面臨的問題,就是如何解決如此龐大的搜索空間。
LinearDesign通過動態(tài)規(guī)劃算法,來將這一問題的搜索空間從指數(shù)級降低到多項式級。
具體來說,首先用確定有限狀態(tài)自動機(DFA)來表達氨基酸和蛋白質,這樣不同位置上密碼子的選擇就可以抽象為計算理論中常用的DFA圖。
如下圖,分別把三種氨基酸(A: methionine, B: valine, C: serine)以及終止密碼子(D)抽象為DFA圖。
在此基礎上,將氨基酸的DFA串聯(lián)起來,即可得到一段蛋白質序列的DFA圖。如下圖是示例序列“methionineleucine stop” 的DFA圖。
在有了DFA圖后,要通過DFA找出二級結構最穩(wěn)定的mRNA序列。
這里借用了計算語言學中常用的一個工具,隨機上下文無關語法(SCFG)。RNA二級結構可以通過SCFG構建語法樹來表示。
mRNA疫苗序列設計優(yōu)化問題實際上是將單個RNA序列的二級結構計算(RNAfolding)推廣到多個RNA序列。
在用DFA抽象表示多個RNA序列后,研究人員通過取DFA與SCFG的交集,來從多個mRNA序列中找到具有最穩(wěn)定二級結構的序列。
下圖給出了一個具體的例子,通過DFA和SCFG相交,生成出序列“methionine leucine stop”最優(yōu)的mRNA序列為“AUGCUGUGA”。
除此之外,研究人員還在此基礎上,對算法做了如下擴展:
- 借用LinearFold思想,進一步將計算復雜度從三次方復雜度降低到線性,大幅度縮短設計mRNA序列所需要的時間;
- 從提供一個最優(yōu)的mRNA序列,到可以提供前k個次優(yōu)的mRNA序列作為備選。疫苗公司可以在這些備選中選出最適合生產的疫苗序列;
- 同時優(yōu)化二級結構穩(wěn)定性和蛋白質表達效率,設計出穩(wěn)定性好、蛋白質表達效率高的mRNA疫苗序列。
CoV-Seq:數(shù)據(jù)、工具都呈上,大家一起來抗疫
解決了尋找穩(wěn)定、有效mRNA之后,對于科學家來說其實還存在一個困擾。
為了了解新冠病毒的進化和各個基因的功能,科學家們需要從不同年齡段、性別、種族和疾病階段的患者身上收集SARS-CoV-2基因組并進行全基因組測序。
然而,公共存儲庫每天都在迅速發(fā)布基因組序列,每周有成千上萬的新序列。
那么,問題就來了:
- 為了跟上最新發(fā)展,科學家需要經常下載并重新整理新的數(shù)據(jù)集,這可能會花費大量時間和精力。
- 另一方面,對于生物信息學知識有限的科學家可能會發(fā)現(xiàn),當他們拿到新序列時,很難快速有效的進行分析。
- 而且,目前沒有可以自動注釋SARS-CoV-2基因和基因突變的軟件。
因此,百度開發(fā)了CoV-Seq分析平臺來解決上述問題。
CoV-Seq由幾個組件組成。
數(shù)據(jù)分析工具,該工具接受FASTA格式的序列并生成VCF格式的突變數(shù)據(jù)。工具會自動過濾低質量的序列并刪除重復的序列,執(zhí)行序列比對,調用并注釋遺傳變異。
Web界面,無需任何編程即可快速分析自定義序列,包括交互式基因組可視化以及可供下載的分析結果。
獨立腳本,以允許在本地計算機上進行高吞吐量的處理。
CoV-Seq分析平臺的論文已經上線:
進擊的計算生物學硬實力
百度研究院開展RNA二級結構領域的研究,其實是在2018年剛剛開始。
但就是在這短短的2年時間里,百度研究院RNA團隊,除了此次的LinearDesign外,還推出了LinearFold、LinearPartition,研究成果相繼被計算生物學領域頂級會議ISMB接收,引起業(yè)內的關注。
這也足以體現(xiàn)百度在生物計算研究領域的技術實力。
正所謂能力越大,責任越大。面對突如其來的疫情,百度于1月份對外免費開放了可以大大提升新冠RNA二級結構分析速度的LinearFold服務,引起了全世界科研機關、防疫機構和生物醫(yī)學公司的廣泛關注,多家機構聯(lián)系百度,提出了建立后續(xù)合作的意向。
現(xiàn)如今,在此基礎上,百度再次發(fā)力,提出的LinearDesign能夠大大減少尋找mRNA疫苗序列的搜索空間,還提供了CoV-Seq這樣方便的工具平臺,讓研究人員能夠加速科研的進展。
不僅如此,這樣的技術、工具組合,還大大降低了上手的門檻。
那么,就快快加入“全民抗疫”這場戰(zhàn)斗中,在LinearDesign的基礎上從更多維度繼續(xù)優(yōu)化mRNA疫苗序列。說不定找到最優(yōu)mRNA疫苗序列的,就會是你。
拯救人類的重任,就交給你啦。
傳送門
LinearDesign 論文地址:https://arxiv.org/abs/2004.10177
LinearDesign 網(wǎng)站鏈接:http://rna.baidu.com/
CoV-Seq論文地址:
https://www.biorxiv.org/content/10.1101/2020.05.01.071050v1
CoV-Seq網(wǎng)站鏈接:http://covseq.baidu.com/
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設計,讓70年經驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08