用GAN創(chuàng)造新蛋白只需幾周,大幅縮短制藥周期 | Nature子刊
你以為GAN只能用來(lái)生成虛假的人臉嗎?
子豪 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
你以為GAN只能用來(lái)生成虛假的人臉嗎?現(xiàn)在GAN又有了新用途。
它還可以用來(lái)生成功能蛋白序列。
這一工具叫做ProteinGAN,可以處理和學(xué)習(xí)不同的天然蛋白質(zhì)序列,隨后利用獲取的信息生成新的序列。
值得注意的是,它應(yīng)用于功能蛋白序列,減少了非功能蛋白序列的實(shí)驗(yàn)消耗;還有效保證了蛋白質(zhì)活性;并且只需幾周時(shí)間,可以顯著提高藥物研發(fā)的速度。
ProteinGAN由立陶宛維爾紐斯大學(xué)和瑞典查爾默斯理工大學(xué)共同開(kāi)發(fā),研究論文已經(jīng)在Nature子刊《機(jī)器智能》上發(fā)表。
功能蛋白,是指攜帶能夠完成人體的生理功能的蛋白質(zhì),它們主要完成人體的各種代謝活動(dòng)。
蛋白質(zhì)序列,通常表示為字母串,列出了氨基末端開(kāi)始至羧基末端的氨基酸,其順序最終決定蛋白質(zhì)的3D結(jié)構(gòu)、理化性質(zhì)和分子功能。
蛋白質(zhì)設(shè)計(jì),可以分為結(jié)構(gòu)預(yù)測(cè)、固定骨架設(shè)計(jì)、全從頭設(shè)計(jì)三種。
不同于AlphaFold根據(jù)序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),ProteinGAN是用于生成蛋白質(zhì)序列。
過(guò)去的方法依賴(lài)于將隨機(jī)突變引入蛋白質(zhì)序列。但是這通常會(huì)導(dǎo)致蛋白質(zhì)活性下降,甚至喪失,必須進(jìn)行多輪昂貴且耗時(shí)的實(shí)驗(yàn),設(shè)計(jì)過(guò)程非常緩慢。
因此,功能蛋白的設(shè)計(jì)一直是蛋白質(zhì)工程的難題。ProteinGAN是怎樣做到的?
基本原理
ProteinGAN模型包含兩個(gè)部分:判別器和生成器。
△判別器和生成器的網(wǎng)絡(luò)結(jié)構(gòu)示意圖
生成器網(wǎng)絡(luò)通過(guò)給定的隨機(jī)輸入向量,生成蛋白質(zhì)序列;
判別器網(wǎng)絡(luò)區(qū)分生成的數(shù)據(jù)(例如:蛋白質(zhì)序列)與真實(shí)數(shù)據(jù),將二者進(jìn)行比較并評(píng)分。
△ProteinGAN訓(xùn)練過(guò)程
能夠生成多樣化的蛋白質(zhì)序列
為了評(píng)估模型的性能,研究團(tuán)隊(duì)用蘋(píng)果酸脫氫酶(MDH)訓(xùn)練模型,并且通過(guò)計(jì)算生成序列和自然序列的相似性來(lái)評(píng)估訓(xùn)練進(jìn)度,最終是二者達(dá)到高度的一致性。
模型生成的序列與天然蛋白質(zhì)序列具相似的物理性質(zhì),顯示出與天然序列高度相似的氨基酸組成:
對(duì)于每個(gè)生成的序列,從訓(xùn)練集中選擇前100個(gè)匹配項(xiàng)。然后將選定的序列進(jìn)行比對(duì),并針對(duì)多重序列比對(duì)(MSA)中的每個(gè)位置,計(jì)算同源序列中氨基酸的頻率。
紅色的氨基酸表示在MSA中很少發(fā)生(<5%),而黃色的氨基酸表示在MSA中經(jīng)常觀察到。
右圖顯示了殘基的出現(xiàn)(x軸)及其與蛋白質(zhì)表面的距離(y軸),表明生成的序列殘基跨越整個(gè)蛋白質(zhì)結(jié)構(gòu)。結(jié)果表明:
ProteinGAN能產(chǎn)生高度多樣化的蛋白質(zhì)序列。
并且,通過(guò)測(cè)量NADH(還原型輔酶)氧化后在340納米處吸光度的下降程度,確定反應(yīng)速率,得到結(jié)論:
生成的功能蛋白序列有24%可溶,表現(xiàn)出蘋(píng)果酸脫氫酶(MDH)催化活性。
這意味著,ProteinGAN可能在醫(yī)學(xué)和研究中有廣泛應(yīng)用,尤其是對(duì)于開(kāi)發(fā)工業(yè)酶、抗體和疫苗等新型蛋白質(zhì)藥物等,有著巨大的潛力。
網(wǎng)友關(guān)注
對(duì)此,有網(wǎng)友認(rèn)為:要謹(jǐn)慎地對(duì)待蛋白質(zhì)工程的研究和應(yīng)用。
“蛋白質(zhì)設(shè)計(jì)的進(jìn)步具有巨大的經(jīng)濟(jì)潛力,但是我們必須謹(jǐn)慎……
將新序列放入把一個(gè)新的序列放入質(zhì)粒中進(jìn)行表征是很容易的,但如果這個(gè)質(zhì)粒進(jìn)入野生細(xì)菌中,這些細(xì)菌可以用它來(lái)降解或合成化學(xué)物質(zhì),就會(huì)出現(xiàn)嚴(yán)重的問(wèn)題。”
另一位網(wǎng)友回復(fù)道:
“這確實(shí)存在著很大的危險(xiǎn),但是新型蛋白的重要性不容忽視,我們必須保持謹(jǐn)慎和警惕,同時(shí)不能因陷入恐懼而退縮?!?/p>
研究團(tuán)隊(duì)表示,模型能夠降低蛋白質(zhì)工程設(shè)計(jì)的速度,降低酶催化劑的開(kāi)發(fā)成本。目前,他們致力于提高模型穩(wěn)定性,并且用AI生成的有機(jī)物解決塑料污染等問(wèn)題。
ProteinGAN在GitHub上開(kāi)源,感興趣的讀者可通過(guò)鏈接查看。
參考鏈接:
[1]https://www.nature.com/articles/s42256-021-00310-5
[2]https://github.com/Biomatter-Designs/ProteinGAN
[3]https://phys.org/news/2021-04-proteingan-adversarial-network-functional-protein.html