DeeCamp 2021冠軍用“垃圾DNA”預(yù)測(cè)癌癥,李開(kāi)復(fù):醫(yī)療是AI的下一個(gè)突破點(diǎn)
5位在校生2個(gè)月完成
博雯 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
5位學(xué)生2個(gè)月做出來(lái)的AI項(xiàng)目,能走到哪一步?
不僅能通過(guò)目標(biāo)基因查詢對(duì)應(yīng)藥物,還能查詢癌癥相關(guān)藥物的具體基因,包括靶向的基因和通路:
像這樣的項(xiàng)目還不止一個(gè):
寓教于樂(lè)的教育桌游、提取金融文檔事件的系統(tǒng)、營(yíng)銷號(hào)短文生成器,甚至還有AI陪你一起拼樂(lè)高……
這就是今年畫(huà)風(fēng)及其豐富多變的AI訓(xùn)練營(yíng)——DeeCamp。
兩個(gè)月時(shí)間,這群海內(nèi)外名校的學(xué)生們五六人一組,迅速做出了各種算法、軟件、解決方案、有趣的玩法……
甚至連商業(yè)化路線都做出了規(guī)劃。
也就難怪大賽評(píng)委,創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO李開(kāi)復(fù)博士在點(diǎn)評(píng)獲獎(jiǎng)作品時(shí)表示:
DeeCamp 2021充分說(shuō)明AI技術(shù)已經(jīng)走出實(shí)驗(yàn)室,在各行各業(yè)找到了非常好的商業(yè)化場(chǎng)景。
非編碼區(qū)基因預(yù)測(cè)疾病
冠軍團(tuán)隊(duì)GeneBERT的項(xiàng)目是基因檢測(cè)及診斷。
具體來(lái)說(shuō),是通過(guò)全基因組序列分析,結(jié)合啟動(dòng)子,轉(zhuǎn)錄因子結(jié)合位點(diǎn)等基因調(diào)控元件對(duì)疾病進(jìn)行預(yù)測(cè)。
“全基因組”是什么意思呢?
眾所周知,基因是用來(lái)編碼蛋白質(zhì)的。
而在人類基因組中,98%的部分都是非編碼序列,并不直接參與蛋白質(zhì)的合成。
因此,這98%的非編碼區(qū)一度被認(rèn)為是冗余或無(wú)用的。
不過(guò)隨著全基因組測(cè)序等項(xiàng)目的開(kāi)展,人們也逐漸意識(shí)到,這98%的非編碼區(qū)同樣對(duì)基因表達(dá)有著重要的調(diào)控作用。
GeneBERT就希望通過(guò)學(xué)習(xí)多種非編碼調(diào)控區(qū)域之間的交互作用,更好地理解疾病的成因,也為新藥研發(fā)提供更多潛在的靶點(diǎn)。
首先,團(tuán)隊(duì)成員采用了一種多模態(tài)預(yù)訓(xùn)練方案,利用各類模態(tài)相關(guān)信息來(lái)訓(xùn)練向量。
這里的多模態(tài),一個(gè)是標(biāo)記(token)序列,另一個(gè)則是多種調(diào)控元件在DNA上的結(jié)合位置。
訓(xùn)練則在包含了人類胚胎大腦的開(kāi)放染色質(zhì)數(shù)據(jù)的ATAC-Seq數(shù)據(jù)集上完成:
然后就可以擴(kuò)展到各種下游任務(wù)上。
一個(gè)成功的案例就是對(duì)復(fù)雜的多基因影響遺傳病:先天性巨結(jié)腸病的預(yù)測(cè)。
在使用了疾病相關(guān)的RET基因的非編碼區(qū)片段的內(nèi)部數(shù)據(jù)做預(yù)訓(xùn)練后,模型成功預(yù)測(cè)了該疾病的患病風(fēng)險(xiǎn)。
目前團(tuán)隊(duì)已經(jīng)初步建成了基因檢測(cè)到個(gè)性化診療方案設(shè)計(jì)的一體化服務(wù)平臺(tái),對(duì)于下一步的方向,他們還表示:
項(xiàng)目的研究還會(huì)繼續(xù),我們的項(xiàng)目將進(jìn)一步提升預(yù)訓(xùn)練模型的泛化性能,為學(xué)術(shù)界提供更多的用來(lái)分析非編碼區(qū)基因突變的新范式。
清華大學(xué)講席教授、智能產(chǎn)業(yè)研究院院長(zhǎng)張亞勤教授對(duì)GeneBERT則評(píng)價(jià)道:
同學(xué)們可以嘗試在企業(yè)服務(wù)、產(chǎn)業(yè)工業(yè)化等to B垂直領(lǐng)域著手,幫助to B企業(yè)解決真實(shí)的問(wèn)題。
冠軍團(tuán)隊(duì)GeneBERT無(wú)論是交叉學(xué)科的選題,還是商業(yè)化思路,都起到了很好的示范作用。
醫(yī)療、教育、金融、還有拼樂(lè)高
除了冠軍團(tuán)隊(duì)之外,其他幾條賽道的獲勝項(xiàng)目也非常顯眼。
來(lái)自南京大學(xué)的Free Lunch團(tuán)隊(duì)獲得了“人工智能驅(qū)動(dòng)的商業(yè)場(chǎng)景”賽道冠軍。
他們的金融文檔事件提取系統(tǒng)能夠從海量篇章級(jí)金融文本中抽取事件以及相關(guān)實(shí)體信息:
團(tuán)隊(duì)也用抽取得到的結(jié)構(gòu)化金融信息搭建了一個(gè)項(xiàng)目平臺(tái),提供金融文檔分析、金融日歷、熱點(diǎn)推薦等功能。
而由清華大學(xué)、澳科大、西農(nóng)科大和美國(guó)哥倫比亞大學(xué)同學(xué)組成的Edutainment Club團(tuán)隊(duì)獲得了“人工智能的創(chuàng)新與創(chuàng)意”賽道的冠軍。
他們研發(fā)的“Click”是一款結(jié)合推薦系統(tǒng)的教育桌游:
這一游戲?qū)⑹噶科灞P的圖形化游戲設(shè)計(jì)與AI生成的STEM題庫(kù)融合,枯燥的加減運(yùn)算題也就變?yōu)榱斯艿缆?lián)通的游戲場(chǎng)景。
“語(yǔ)言與知識(shí)的智能創(chuàng)新”賽道的冠軍則是來(lái)自同濟(jì)大學(xué)和美國(guó)波士頓大學(xué)的團(tuán)隊(duì)。
他們研發(fā)了能夠根據(jù)產(chǎn)品關(guān)鍵詞生成營(yíng)銷文案的“AI薦”系統(tǒng),根據(jù)用戶上傳的產(chǎn)品圖片或特征,為不同風(fēng)格的受眾提供各有側(cè)重的營(yíng)銷文案:
而同樣走到了最終決賽的ICU智能診療一體化項(xiàng)目,能夠在點(diǎn)擊關(guān)鍵詞時(shí),自動(dòng)生成影像報(bào)告及可視化解釋:
還有可以進(jìn)行AR輔助積木拼裝的BrickPal,能夠根據(jù)NLP技術(shù)自動(dòng)生成積木拼裝順序,并通過(guò)AR達(dá)到一種沉浸式的積木拼裝:
DeeCamp人工智能訓(xùn)練營(yíng)
DeeCamp是一個(gè)由創(chuàng)新工場(chǎng)發(fā)起的AI訓(xùn)練營(yíng)。
這是一項(xiàng)面向全球大學(xué)生,專注培養(yǎng)應(yīng)用型AI人才的公益項(xiàng)目,自2017年發(fā)起開(kāi)始,已經(jīng)舉辦了五屆。
而剛剛結(jié)束的DeeCamp 2021,則由創(chuàng)新工場(chǎng)和清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)聯(lián)合主辦。
整場(chǎng)比賽共有來(lái)自全球200名頂尖高校的學(xué)生共組成了39支隊(duì)伍,向語(yǔ)言、醫(yī)療、創(chuàng)新、商業(yè)4大賽道的13個(gè)賽題發(fā)起挑戰(zhàn),最終有6支隊(duì)進(jìn)入總決賽。
在8月17日的總冠軍答辯&結(jié)營(yíng)典禮上,6支隊(duì)伍里的GeneBERT團(tuán)隊(duì)獲得了總冠軍和10萬(wàn)元大獎(jiǎng):
而四位分賽道冠軍則分別獲得了3萬(wàn)元獎(jiǎng)金。
對(duì)于2021年的這一批學(xué)員,李開(kāi)復(fù)博士表示:
從同學(xué)們的項(xiàng)目里:游戲、學(xué)習(xí)、廣告、文本生成、信息的理解和分析上,我們可以看到AI不僅在各行各業(yè)都有商業(yè)化的成果,而且落地速度也非???。
過(guò)去兩三年,甚至半年前剛剛出來(lái)的技術(shù),現(xiàn)在已經(jīng)被非常好地使用了。
最后,他也鼓勵(lì)同學(xué)們?nèi)ふ液玫纳虡I(yè)落地的伙伴,用AI搭配行業(yè)專家的方式,用技術(shù)解決技術(shù)帶來(lái)的挑戰(zhàn),給社會(huì)帶來(lái)正能量,從而造福更多的人類。
DeeCamp官網(wǎng):
https://deecamp.com/#/home
參考鏈接:
[1]http://www.xaznjj.net/2021/05/23618.html
[2]http://www.genebert.com/