Kaggle八項(xiàng)大獎斬獲其6:用于篩選和分析文獻(xiàn)的paperai
新冠文獻(xiàn)數(shù)據(jù)集
木易 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
近日,一項(xiàng)用于篩選和分析文獻(xiàn)的AI工具paperai,沖上了Reddit熱榜。
原因是:他在CORD-19(COVID-19文獻(xiàn)數(shù)據(jù)集)?Kaggle挑戰(zhàn)賽中斬獲了6項(xiàng)大獎。
對于這一項(xiàng)工具,開發(fā)者說:
幫助研究人員從枯燥乏味的文獻(xiàn)篩選中解放出來,讓他們可以更加專注于核心工作。
這又是一項(xiàng)什么神仙工具?讓我們來仔細(xì)看看。
Kaggle CORD-19斬獲6項(xiàng)大獎
Kaggle CORD-19挑戰(zhàn)賽,全稱是COVID-19開放研究數(shù)據(jù)集挑戰(zhàn)賽。
主辦方準(zhǔn)備了一個(gè)龐大的文獻(xiàn)數(shù)據(jù)庫,包含了20多萬篇學(xué)術(shù)論文,其中有10萬余篇是與COVID-19相關(guān)的研究。
該比賽希望全世界AI專家使用文本挖掘工具,來完成比賽中的各類任務(wù)。
最后,幫助研究人員能從浩如煙海的文獻(xiàn)進(jìn)行高效檢索,為推進(jìn)COVID-19的研究提供幫助。
就是在這樣一項(xiàng)比賽中,這個(gè)paperai,獲得了8項(xiàng)任務(wù)大獎中的6項(xiàng):
- 創(chuàng)建了與新冠肺炎相關(guān)的人口研究的匯總表;
- 創(chuàng)建了與新冠肺炎相關(guān)的患者描述的匯總表;
- 創(chuàng)建了與新冠肺炎相關(guān)的模型和未決問題的匯總表;
- 創(chuàng)建了與新冠肺炎相關(guān)的材料研究的匯總表;
- 創(chuàng)建了針對新冠肺炎診斷的匯總表;
- 創(chuàng)建了與新冠肺炎相關(guān)的風(fēng)險(xiǎn)因素的匯總表。
對于一項(xiàng)工具,在多項(xiàng)任務(wù)的普適,這毫無疑問是巨大的成功。
那么,這么強(qiáng)勢的一項(xiàng)工具,其背后,又是如何運(yùn)行工作的呢?
句嵌入索引分析CORD-19
簡單來說就是,該模型就是句嵌入索引和帶有文章的SQLite數(shù)據(jù)庫的組合。
首先,每篇文章都被解析成句子,并與文章元數(shù)據(jù)一起存儲在SQLite中。
SQLite本身就具有虛擬表模塊FTS5,可以進(jìn)行全文搜索。
這個(gè)全文搜索引擎,允許用戶在大量文檔集合中高效地搜索包含一個(gè)或多個(gè)搜索詞。
SQLite的FTS5默認(rèn)加權(quán)方案是tf-idf,此外,它還支持BM25,這使得性能夠進(jìn)一步提高。
之后,使用FastText+BM25創(chuàng)建句嵌入索引。
BM25是一個(gè)詞袋檢索功能,它根據(jù)每個(gè)文檔中出現(xiàn)的查詢詞對一組文檔進(jìn)行排序。
最后,開發(fā)者選擇使用FastText為每個(gè)標(biāo)記檢索單詞嵌入。為了構(gòu)建句子嵌入,嵌入可以被平均在一起以創(chuàng)建單個(gè)嵌入向量。
于是,在各種Buff的加持下,我們能夠看到的是:
在整個(gè)語料庫上,預(yù)先訓(xùn)練得到了FastText向量,加上了BM25輔助建立索引并排列。最后,得到帶有句嵌入索引的文章,幫助檢索產(chǎn)生最相關(guān)的結(jié)果。
最后,檢索出來句子,會通過過TextRank算法進(jìn)行分析和運(yùn)行,以便在最終的報(bào)告中,以高亮的形式框出。
以上圖為例,在目標(biāo)進(jìn)行檢索后,系統(tǒng)會輸出文獻(xiàn)的基本信息,如日期、研究方向、期刊等。
之后,會在對你所檢索的問題進(jìn)行句子提取和所在文獻(xiàn)的排序,最終在文獻(xiàn)中,所在句子會以高亮的形式框出。
目前,檢索生成的報(bào)告支持多種格式的輸出:
- Markdown(默認(rèn)),輸出Markdown報(bào)告。
- CSV,輸出CSV報(bào)告。
- 注釋,從文章中提取結(jié)果,并在原始的PDF文件上進(jìn)行注釋。
目前,該項(xiàng)目已經(jīng)在Github開源獲取,感興趣的小伙伴可以點(diǎn)擊下面鏈接訪問獲得。
Reddit鏈接:
https://www.reddit.com/r/MachineLearning/comments/kbnlte/p_paperai_aipowered_literature_discovery_and/
Github鏈接:
https://github.com/neuml/paperai
— 完 —