Kaggle八項大獎斬獲其6:用于篩選和分析文獻的paperai
新冠文獻數(shù)據(jù)集
木易 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
近日,一項用于篩選和分析文獻的AI工具paperai,沖上了Reddit熱榜。
原因是:他在CORD-19(COVID-19文獻數(shù)據(jù)集)?Kaggle挑戰(zhàn)賽中斬獲了6項大獎。
對于這一項工具,開發(fā)者說:
幫助研究人員從枯燥乏味的文獻篩選中解放出來,讓他們可以更加專注于核心工作。
這又是一項什么神仙工具?讓我們來仔細看看。
Kaggle CORD-19斬獲6項大獎
Kaggle CORD-19挑戰(zhàn)賽,全稱是COVID-19開放研究數(shù)據(jù)集挑戰(zhàn)賽。
主辦方準備了一個龐大的文獻數(shù)據(jù)庫,包含了20多萬篇學術(shù)論文,其中有10萬余篇是與COVID-19相關(guān)的研究。
該比賽希望全世界AI專家使用文本挖掘工具,來完成比賽中的各類任務(wù)。
最后,幫助研究人員能從浩如煙海的文獻進行高效檢索,為推進COVID-19的研究提供幫助。
就是在這樣一項比賽中,這個paperai,獲得了8項任務(wù)大獎中的6項:
- 創(chuàng)建了與新冠肺炎相關(guān)的人口研究的匯總表;
- 創(chuàng)建了與新冠肺炎相關(guān)的患者描述的匯總表;
- 創(chuàng)建了與新冠肺炎相關(guān)的模型和未決問題的匯總表;
- 創(chuàng)建了與新冠肺炎相關(guān)的材料研究的匯總表;
- 創(chuàng)建了針對新冠肺炎診斷的匯總表;
- 創(chuàng)建了與新冠肺炎相關(guān)的風險因素的匯總表。
對于一項工具,在多項任務(wù)的普適,這毫無疑問是巨大的成功。
那么,這么強勢的一項工具,其背后,又是如何運行工作的呢?
句嵌入索引分析CORD-19
簡單來說就是,該模型就是句嵌入索引和帶有文章的SQLite數(shù)據(jù)庫的組合。
首先,每篇文章都被解析成句子,并與文章元數(shù)據(jù)一起存儲在SQLite中。
SQLite本身就具有虛擬表模塊FTS5,可以進行全文搜索。
這個全文搜索引擎,允許用戶在大量文檔集合中高效地搜索包含一個或多個搜索詞。
SQLite的FTS5默認加權(quán)方案是tf-idf,此外,它還支持BM25,這使得性能夠進一步提高。
之后,使用FastText+BM25創(chuàng)建句嵌入索引。
BM25是一個詞袋檢索功能,它根據(jù)每個文檔中出現(xiàn)的查詢詞對一組文檔進行排序。
最后,開發(fā)者選擇使用FastText為每個標記檢索單詞嵌入。為了構(gòu)建句子嵌入,嵌入可以被平均在一起以創(chuàng)建單個嵌入向量。
于是,在各種Buff的加持下,我們能夠看到的是:
在整個語料庫上,預先訓練得到了FastText向量,加上了BM25輔助建立索引并排列。最后,得到帶有句嵌入索引的文章,幫助檢索產(chǎn)生最相關(guān)的結(jié)果。
最后,檢索出來句子,會通過過TextRank算法進行分析和運行,以便在最終的報告中,以高亮的形式框出。
以上圖為例,在目標進行檢索后,系統(tǒng)會輸出文獻的基本信息,如日期、研究方向、期刊等。
之后,會在對你所檢索的問題進行句子提取和所在文獻的排序,最終在文獻中,所在句子會以高亮的形式框出。
目前,檢索生成的報告支持多種格式的輸出:
- Markdown(默認),輸出Markdown報告。
- CSV,輸出CSV報告。
- 注釋,從文章中提取結(jié)果,并在原始的PDF文件上進行注釋。
目前,該項目已經(jīng)在Github開源獲取,感興趣的小伙伴可以點擊下面鏈接訪問獲得。
Reddit鏈接:
https://www.reddit.com/r/MachineLearning/comments/kbnlte/p_paperai_aipowered_literature_discovery_and/
Github鏈接:
https://github.com/neuml/paperai
— 完 —