百度推出LinearDesign,全球首個(gè)mRNA疫苗不穩(wěn)定性解決方案,僅需16分鐘
十三 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
新冠疫情全球流行,疫苗研制成為當(dāng)務(wù)之急。
mRNA作為一種全新的疫苗類型,能夠快速大規(guī)模生產(chǎn), 因此成為科學(xué)家們攻克的主陣地之一。
新冠疫情爆發(fā)后,RNA設(shè)計(jì)領(lǐng)域世界知名專家、斯坦福大學(xué)生物化學(xué)系Rhiju Das教授關(guān)注到疫苗研發(fā)存在的一個(gè)非常棘手的問題:
找到一個(gè)既具有穩(wěn)定二級(jí)結(jié)構(gòu),而且還有效的mRNA疫苗。
有多難?
首先是穩(wěn)定性,mRNA疫苗“脆弱”到在保存、運(yùn)輸過程中,就有可能因?yàn)榻到舛А?/p>
然后是有效性,需要找一個(gè)mRNA序列,能夠翻譯成特定的蛋白質(zhì)(抗原)。
單是滿足這兩個(gè)條件,若是采用遍歷的方式去尋找,那就需要查看10的632次方個(gè)mRNA序列!
這是什么概念?用一臺(tái)超級(jí)計(jì)算機(jī)來處理,即便一秒鐘能計(jì)算一個(gè)新冠RNA序列的二級(jí)結(jié)構(gòu),哪怕是從宇宙誕生到現(xiàn)在(130-140億年),連“潛在”mRNA序列的億萬分之一都沒算到。
僅靠科研人員的力量是遠(yuǎn)遠(yuǎn)不夠的,那就“全民參賽”吧!
于是乎,Rhiju Das教授便找到了百度,使用百度此前開源的LinearFold算法,搭建一個(gè)疫苗設(shè)計(jì)公開賽,讓全民參與進(jìn)來,以游戲的形式,邊玩邊找這個(gè)mRNA。
但正如剛才提到的,搜索空間是異常龐大,難道就沒有辦法在相對(duì)節(jié)省人力的情況下,就能夠設(shè)計(jì)出滿足條件的mRNA疫苗序列呢?
這個(gè)可以有。
現(xiàn)在,(可能)“拯救世界”的新算法,LinearDesign,來了!
LinearDesign:最快16分鐘完成mRNA疫苗序列設(shè)計(jì)
其實(shí),回顧近二十年的歷史,隨著全球化和城市化的深入發(fā)展,全球疫情爆發(fā)周期越來越短——從2002年的SARS,到2012的MERS,再到現(xiàn)如今的新冠病毒。
面對(duì)一次又一次的冠狀病毒的侵襲,快速研制出特定疫苗成為了解決問題的一種途徑。
那么,在mRNA疫苗如此龐大的搜索空間面前,LinearDesign又能起到什么作用?
針對(duì)新冠病毒的mRNA疫苗序列,通常是以自然界存在的新冠刺突蛋白對(duì)應(yīng)的mRNA段為基礎(chǔ),經(jīng)過一些改動(dòng)后作為備選序列。
但是這樣的序列其二級(jí)結(jié)構(gòu)通常是不夠穩(wěn)定的。如下圖(A)展示的是新冠病毒刺突蛋白對(duì)應(yīng)的mRNA二級(jí)結(jié)構(gòu),其能量為-967.8 kcal/mol。
△圖A
這一能量衡量了mRNA二級(jí)結(jié)構(gòu)的穩(wěn)定性,能量越低(越負(fù))表明越穩(wěn)定。
mRNA由多個(gè)核苷酸(共四種,分別是A、U、C、G)串聯(lián)而成,蛋白質(zhì)由多個(gè)氨基酸(共21種)串聯(lián)而成。每三個(gè)核苷酸(稱為一個(gè)密碼子)翻譯成一個(gè)蛋白質(zhì)。顯而易見,三個(gè)核苷酸共有4的三次方共64種組合,那么必然有多個(gè)密碼子對(duì)應(yīng)一個(gè)氨基酸,也就是說有很多mRNA序列都可以翻譯成同一個(gè)蛋白質(zhì)(抗原)序列。具體來說,新冠病毒刺突蛋白(抗原)共有1273個(gè)氨基酸,能翻譯成刺突蛋白的mRNA序列有10的632次方之多。如下圖所示:
在保持翻譯成的蛋白質(zhì)不變的前提下,還可以選擇其他的序列作為mRNA疫苗序列。下圖(B)展示了從1萬個(gè)隨機(jī)序列中選取的能量最低的序列,能量為-1149.8 kcal/mol。
△圖B
這一序列能量比Wildtype低一些,但是也并不是能量最低的序列。
那么能量最低的序列什么樣子,其能量可以低到多少?有請(qǐng)LinearDesign算法來回答這個(gè)問題。
下圖(C)便是LinearDesign設(shè)計(jì)出來的序列二級(jí)結(jié)構(gòu),其能量為-2477.7 kcal/mol,比A、B低一倍還多。
△圖C
它的二級(jí)結(jié)構(gòu)非常緊密,幾乎所有的堿基都形成了堿基對(duì)。而堿基對(duì)越多,通常能量越低,結(jié)構(gòu)越穩(wěn)定。
從上面對(duì)比圖可以看出,在新冠病毒的刺突蛋白序列上的計(jì)算機(jī)模擬實(shí)驗(yàn)表明,LinearDesign算法可以設(shè)計(jì)出比Wildtype序列穩(wěn)定得多的結(jié)構(gòu),而且設(shè)計(jì)時(shí)間只需要1個(gè)半小時(shí)。
如果采用線性時(shí)間近似,所需時(shí)間可以進(jìn)一步縮短到16分鐘, 而相比于最穩(wěn)定序列,線性近似算法設(shè)計(jì)出的序列與其能量僅相差0.6%。
上圖對(duì)比了刺突蛋白的野生型mRNA、隨機(jī)生成的mRNA序列、以及LinearDesign設(shè)計(jì)序列的穩(wěn)定性和蛋白質(zhì)表達(dá)水平。圖中橫坐標(biāo)是衡量穩(wěn)定性的參數(shù)MFE,越低越好;縱坐標(biāo)是衡量蛋白質(zhì)表達(dá)水平的參數(shù)CAI,越高越好,所以處于左上方的序列既穩(wěn)定又能翻譯更多蛋白質(zhì)(抗原)。
野生型和隨機(jī)生成的序列都集中在右下方,而LinearDesign設(shè)計(jì)的序列在左上方。其中最左側(cè)的點(diǎn)是LinearDesign設(shè)計(jì)出的最穩(wěn)定的序列,其MFE為-2477.7 kcal/mol. 而隨著調(diào)整lambda值(一個(gè)平衡MFE和CAI的超參數(shù)),可得到一條淡藍(lán)色的曲線,這個(gè)曲線就是所有滿足條件的mRNA 序列中最優(yōu)序列上界。粉色的曲線是近似算法設(shè)計(jì)出的序列,可以看到它和精確算法找出的序列(淡藍(lán)色曲線)非常接近,但設(shè)計(jì)時(shí)間大大縮短。
更重要的是,LinearDesign不僅有助于解決當(dāng)下的新冠病毒問題,更是適用于所有的mRNA疫苗。
那么,LinearDesign到底是如何做到這點(diǎn)的呢?
LinearDesign原理:降低搜索空間至多項(xiàng)式級(jí)
主要面臨的問題,就是如何解決如此龐大的搜索空間。
LinearDesign通過動(dòng)態(tài)規(guī)劃算法,來將這一問題的搜索空間從指數(shù)級(jí)降低到多項(xiàng)式級(jí)。
具體來說,首先用確定有限狀態(tài)自動(dòng)機(jī)(DFA)來表達(dá)氨基酸和蛋白質(zhì),這樣不同位置上密碼子的選擇就可以抽象為計(jì)算理論中常用的DFA圖。
如下圖,分別把三種氨基酸(A: methionine, B: valine, C: serine)以及終止密碼子(D)抽象為DFA圖。
在此基礎(chǔ)上,將氨基酸的DFA串聯(lián)起來,即可得到一段蛋白質(zhì)序列的DFA圖。如下圖是示例序列“methionineleucine stop” 的DFA圖。
在有了DFA圖后,要通過DFA找出二級(jí)結(jié)構(gòu)最穩(wěn)定的mRNA序列。
這里借用了計(jì)算語言學(xué)中常用的一個(gè)工具,隨機(jī)上下文無關(guān)語法(SCFG)。RNA二級(jí)結(jié)構(gòu)可以通過SCFG構(gòu)建語法樹來表示。
mRNA疫苗序列設(shè)計(jì)優(yōu)化問題實(shí)際上是將單個(gè)RNA序列的二級(jí)結(jié)構(gòu)計(jì)算(RNAfolding)推廣到多個(gè)RNA序列。
在用DFA抽象表示多個(gè)RNA序列后,研究人員通過取DFA與SCFG的交集,來從多個(gè)mRNA序列中找到具有最穩(wěn)定二級(jí)結(jié)構(gòu)的序列。
下圖給出了一個(gè)具體的例子,通過DFA和SCFG相交,生成出序列“methionine leucine stop”最優(yōu)的mRNA序列為“AUGCUGUGA”。
除此之外,研究人員還在此基礎(chǔ)上,對(duì)算法做了如下擴(kuò)展:
- 借用LinearFold思想,進(jìn)一步將計(jì)算復(fù)雜度從三次方復(fù)雜度降低到線性,大幅度縮短設(shè)計(jì)mRNA序列所需要的時(shí)間;
- 從提供一個(gè)最優(yōu)的mRNA序列,到可以提供前k個(gè)次優(yōu)的mRNA序列作為備選。疫苗公司可以在這些備選中選出最適合生產(chǎn)的疫苗序列;
- 同時(shí)優(yōu)化二級(jí)結(jié)構(gòu)穩(wěn)定性和蛋白質(zhì)表達(dá)效率,設(shè)計(jì)出穩(wěn)定性好、蛋白質(zhì)表達(dá)效率高的mRNA疫苗序列。
CoV-Seq:數(shù)據(jù)、工具都呈上,大家一起來抗疫
解決了尋找穩(wěn)定、有效mRNA之后,對(duì)于科學(xué)家來說其實(shí)還存在一個(gè)困擾。
為了了解新冠病毒的進(jìn)化和各個(gè)基因的功能,科學(xué)家們需要從不同年齡段、性別、種族和疾病階段的患者身上收集SARS-CoV-2基因組并進(jìn)行全基因組測序。
然而,公共存儲(chǔ)庫每天都在迅速發(fā)布基因組序列,每周有成千上萬的新序列。
那么,問題就來了:
- 為了跟上最新發(fā)展,科學(xué)家需要經(jīng)常下載并重新整理新的數(shù)據(jù)集,這可能會(huì)花費(fèi)大量時(shí)間和精力。
- 另一方面,對(duì)于生物信息學(xué)知識(shí)有限的科學(xué)家可能會(huì)發(fā)現(xiàn),當(dāng)他們拿到新序列時(shí),很難快速有效的進(jìn)行分析。
- 而且,目前沒有可以自動(dòng)注釋SARS-CoV-2基因和基因突變的軟件。
因此,百度開發(fā)了CoV-Seq分析平臺(tái)來解決上述問題。
CoV-Seq由幾個(gè)組件組成。
數(shù)據(jù)分析工具,該工具接受FASTA格式的序列并生成VCF格式的突變數(shù)據(jù)。工具會(huì)自動(dòng)過濾低質(zhì)量的序列并刪除重復(fù)的序列,執(zhí)行序列比對(duì),調(diào)用并注釋遺傳變異。
Web界面,無需任何編程即可快速分析自定義序列,包括交互式基因組可視化以及可供下載的分析結(jié)果。
獨(dú)立腳本,以允許在本地計(jì)算機(jī)上進(jìn)行高吞吐量的處理。
CoV-Seq分析平臺(tái)的論文已經(jīng)上線:
進(jìn)擊的計(jì)算生物學(xué)硬實(shí)力
百度研究院開展RNA二級(jí)結(jié)構(gòu)領(lǐng)域的研究,其實(shí)是在2018年剛剛開始。
但就是在這短短的2年時(shí)間里,百度研究院RNA團(tuán)隊(duì),除了此次的LinearDesign外,還推出了LinearFold、LinearPartition,研究成果相繼被計(jì)算生物學(xué)領(lǐng)域頂級(jí)會(huì)議ISMB接收,引起業(yè)內(nèi)的關(guān)注。
這也足以體現(xiàn)百度在生物計(jì)算研究領(lǐng)域的技術(shù)實(shí)力。
正所謂能力越大,責(zé)任越大。面對(duì)突如其來的疫情,百度于1月份對(duì)外免費(fèi)開放了可以大大提升新冠RNA二級(jí)結(jié)構(gòu)分析速度的LinearFold服務(wù),引起了全世界科研機(jī)關(guān)、防疫機(jī)構(gòu)和生物醫(yī)學(xué)公司的廣泛關(guān)注,多家機(jī)構(gòu)聯(lián)系百度,提出了建立后續(xù)合作的意向。
現(xiàn)如今,在此基礎(chǔ)上,百度再次發(fā)力,提出的LinearDesign能夠大大減少尋找mRNA疫苗序列的搜索空間,還提供了CoV-Seq這樣方便的工具平臺(tái),讓研究人員能夠加速科研的進(jìn)展。
不僅如此,這樣的技術(shù)、工具組合,還大大降低了上手的門檻。
那么,就快快加入“全民抗疫”這場戰(zhàn)斗中,在LinearDesign的基礎(chǔ)上從更多維度繼續(xù)優(yōu)化mRNA疫苗序列。說不定找到最優(yōu)mRNA疫苗序列的,就會(huì)是你。
拯救人類的重任,就交給你啦。
傳送門
LinearDesign 論文地址:https://arxiv.org/abs/2004.10177
LinearDesign 網(wǎng)站鏈接:http://rna.baidu.com/
CoV-Seq論文地址:
https://www.biorxiv.org/content/10.1101/2020.05.01.071050v1
CoV-Seq網(wǎng)站鏈接:http://covseq.baidu.com/
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08