論文中了頂會,卻被曝抄襲前導(dǎo)師小組論文,多處原文及公式完全一致丨Reddit高熱
抄襲對象包含兩篇頂會論文
蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
論文中了機(jī)器學(xué)習(xí)頂會,卻被舉報(bào)抄襲。
這是一篇收錄在ICML 2020的論文,被貼在Reddit上后,事件迅速發(fā)酵:
論文來自加拿大約克大學(xué)?(York University),題為「PoKED: A Semi-Supervised System for Word Sense Disambiguation」,研究方向是NLP中的詞義消歧。
但它的核心方法、公式、網(wǎng)絡(luò)結(jié)構(gòu)圖,卻與另外3篇論文中的部分文本及圖例如出一轍,其中兩篇同樣來自頂會。
而在仔細(xì)查看之后不難發(fā)現(xiàn),這3篇論文都來自同一個(gè)教授,也是作者之前所在的導(dǎo)師小組。
這到底是怎么回事?
多處原文相似,2篇來自頂會
這篇被抄襲的論文,主要介紹了一個(gè)名為PoKED?(Position-wise Orthogonal Knowledge-Enhanced Disambiguator)的網(wǎng)絡(luò)結(jié)構(gòu)。
但舉報(bào)人發(fā)現(xiàn),這一結(jié)構(gòu)卻幾乎全部抄襲自3篇論文。
第一篇被抄襲的論文,來自頂會ACL 2019(這篇論文曾經(jīng)投過EMNLP 2018,未被接收)。
抄襲的畫風(fēng)是這樣的,左邊是ICML 2020的論文,右邊是ACL 2019的論文:
除了換一種表達(dá)方式以外,內(nèi)容基本如出一轍。
據(jù)舉報(bào)者的PDF顯示,抄襲的篇幅基本涵蓋了論文第三章的核心方法?(論文解決核心問題所用的網(wǎng)絡(luò)架構(gòu))部分,公式和圖片也高度接近。
第二篇被抄襲的論文來自ACML 2017,在一個(gè)細(xì)節(jié)模型上高度相似。
最后一篇論文目前也已經(jīng)發(fā)表在arXiv上,網(wǎng)絡(luò)結(jié)構(gòu)幾乎一樣。
而這些被抄襲的論文,全部來自作者的前導(dǎo)師小組。
抄襲對象來自前導(dǎo)師小組
3篇論文涉及的導(dǎo)師Hui Jiang,目前是加拿大約克大學(xué)的一名教授,而這些論文的其他作者,也基本都來自這個(gè)導(dǎo)師的小組。
從Hui Jiang教授的主頁來看,第一篇ACL 2019的一作Chao Wang,目前仍然是Hui Jiang小組的一名在讀博士生。
第二篇ACML 2017的一作Hengyue Pan,是一名已經(jīng)畢業(yè)的博士生;至于第三篇arXiv論文,二作Mingbin Xu也同樣來自Hui Jiang小組。
被舉報(bào)抄襲的論文作者Feng Wei,曾經(jīng)也是Hui Jiang的一名學(xué)生,只是目前在主頁上的信息已經(jīng)顯示為“dropped”,日期是19年4月。
然而Feng Wei的這篇ICML 2020論文信息顯示,他目前仍然在加拿大約克大學(xué)就讀,也許導(dǎo)師換成了Uyen Trang Nguyen教授。
雖然論文介紹PPT上的作者有2位,但這篇論文在最終投稿到ICML 2020的時(shí)候,卻只有Feng Wei自己的名字。
目前,ICML主席表示,已介入調(diào)查此事。
Reddit版塊主持人已留存帖子
這件事在Reddit上迅速發(fā)酵后,Machine Learning版塊的主持人programmerChilli已經(jīng)出面,并給出了解決方案:
目前,為防止出現(xiàn)意外,這條帖子已經(jīng)被鎖定。如果事情無法通過正當(dāng)渠道解決,這條帖子也能保留作為證據(jù)。
此外,Chilli自己也表示:
同意調(diào)查,但先別急著深究作者的過錯(cuò)。請給博士一些同理心,因?yàn)殛愋杖A人博士生就是一個(gè)案例。
Chilli所指的,是去年一起佛羅里達(dá)大學(xué)的博士自殺的案件。這名博士生,在短時(shí)間內(nèi)中了一篇ISCA頂會論文,然而在修改時(shí)發(fā)現(xiàn)論文問題太多,但教授卻一直不給撤稿,最后只能無奈自殺。
但其他網(wǎng)友也有不同的意見。
例如這次的舉報(bào)者,對于抄襲本身憤憤不平,認(rèn)為沒必要為抄襲編造一個(gè)“想象”的理由出來。
但對于舉報(bào)者將抄襲這種事情曝光在Reddit的機(jī)器學(xué)習(xí)論壇上,也有不少人表示反對。
這些網(wǎng)友認(rèn)為,舉報(bào)就應(yīng)該找官方的渠道,將這種沒有坐實(shí)的信息貼出來,是在浪費(fèi)大家的時(shí)間。
對于這件事情,你怎么看?
論文對比PDF(包含所有完整版論文):
參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/k7nza3/d_a_plagiarism_in_icml_2020/
https://icml.cc/media/Slides/icml/2020/virtual(no-parent)-16-13-00UTC-6075-poked_a_semi-s.pdf
https://mp.weixin.qq.com/s/qRIONaOUSnsf6UAKyHmR1A
https://icml.cc/virtual/2020/poster/6075
http://proceedings.mlr.press/v119/wei20a.html
https://wiki.eecs.yorku.ca/user/hj/students:start
http://www.cse.yorku.ca/~utn/students.html
https://lilianweng.github.io/lil-log/2017/10/15/learning-word-embedding.html