ICLR論文盲審大反轉:三個“8”完美過關,又來兩個“1”徹底拒絕
賴可 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
一篇投遞ICLR2020的論文,得了三個8,是不是表現完美?
事情沒有那么簡單,額外增加的兩個評審又給了兩個1。
有網友說:這操作,就是”對沖“分數嘛。
也有網友覺得,雖然論文有問題,但是這樣給高分和低分,都過分極端了。
到底怎么回事?
論文
這篇論文提出了一種新的模型,以便在語料中同時捕獲語法和全局語義。
怎么做到的?
論文認為傳統(tǒng)的RNN語言模型會忽略長距離的單詞依賴性,和句子順序。
新模型將隨機-梯度MCMC和循環(huán)自編碼變分貝葉斯相結合。不僅能夠捕獲句子內的單詞依賴性,還可以捕獲句子和句子內部主題依賴性的時間遷移。
在語料庫的實驗結果表明,這一模型優(yōu)于現有的RNN模型,并且能夠學習可解釋的遞歸多層主題,生成語法正確、語義連貫的句子和段落。
(a)(b)(c)分別是三層rGBN-RNN的生成模型;語言模型組件概述;提出的模型的整體架構
第一輪評審:三個8
第一輪三個評審的分數簡直完美,雖然打分很高,評審們都提出了一些建議。
匿名評審1
該方法是將已有的兩種方法,伽馬信念網絡(gamma-belief networks)和疊加RNN相結合,利用遞歸伽馬信念網絡的信息對疊加RNN進行改進。
總的來說,這是一篇寫得很好的論文,表達清晰,有一定的新意。該方法具有良好的數學表達和實驗評價。結果看起來很有趣,特別是對于捕獲長期依賴關系,如BLEU分數所示。一個建議是,與基線方法相比,作者沒有對所提出方法的復雜性和負載進行計算分析。
匿名評審2
總的來說,我認為這是一篇寫得很清楚的論文。我認為這是一份可以接受發(fā)表的可靠文件。
一些有待改善的地方:
奇怪的是,不提最近所有備受矚目的基于LM的預訓練的工作,我的印象是,這些模型在大型多句上下文中有效地運行。像BERT和GPT-2這樣的模型沒有考慮句子之間的關系嗎?我想看到更多關于這項工作與之配合的討論。
我不認為強調這個模型的貢獻,即它可以“同時捕獲句法和語義”合理。我不清楚其他語言模型是否不能捕獲語義(請記住,語義應用于句子中,而不只是在全局級別)——相反,該模型的優(yōu)勢似乎在于捕獲句子級別之上的語義關系。如果這是正確的,那就應該更準確地表達出來。
匿名評審3
該模型擴展了以往基于深度rGBN模型的主題引導語言建模方法。雖然模型的新穎性有限,但所提出的模型的學習和推理是有價值的。此外,與SOTA方法相比,本文還展示了該方法在語言建模方面的性能改進,說明了該方法的重要性。
領域主席提出意見之后,另外兩個評審給出了1
領域主席意見
這篇論文看起來很有趣,但是最近在語言建模和生成方面的最新成果主要基于Transformer模型。然而,任何對這些模型的比較和提及,似乎都明顯地在本文中缺失。我想知道:作者是否與任何模型進行了對比?我懷疑這些模型在某種程度上已經能夠捕獲主題,可能排除了對本文中提出的方法的需要(但是我很高興被證明是錯誤的)。
主席建議研究者,把他們的rGBN-RNN模型和 Transformer-XL進行比較。
作者則表示,rGBN-RNN和Transformer-XL不適合直接比較。因為兩者在模型大小、模型建構以及可解釋性不同,而且Transformer-XL不尊重自然單詞的邊界,rGBN-RNN尊重單詞-句子-文檔的結構。
在這之后,增加的兩個匿名評審就畫風大變,都給出了1分(拒絕)。
匿名評審4
雖然其基本思想很有趣,但我最大的問題是論文一開始的誤導。在第一節(jié)的第二段,文章聲稱基于RNN的LMs經常在句子之間做出獨立假設,因此他們開發(fā)了一個主題建模方法來對文檔級信息建立模型。這種說法存在一些問題。
幾乎所有評估語言建?;鶞实腖M論文都使用LSTM / Transformer,通過一種非常簡單的方法將所有句子連接起來,并添加唯一的標記來標記句子邊界,從而將跨句的文檔級信息作為上下文?!?/p>
匿名評審5
模型描述是混亂的,許多陳述沒有適當或足夠的理由。例如:
(1)在第2頁的最后一段,他們聲稱在他們的模型中使用了語言組件來捕獲語法信息,我不太愿意接受;
(2)在第3頁的第一段,它說“我們定義d_j為弓向量,只是總結了前面的句子”,沒有進一步的信息,我不知道弓向量是什么樣子的,它是如何構成的……更重要的是,我認為Eq.(5)是錯誤的,這讓我對他們的整個方法論產生了質疑?!?/p>
后兩個評審被主席帶偏了?還是前三個有問題?
這篇論文爭議的關鍵就是作者使用的新模型有沒有和已有的方法做比較。
有網友覺得作者自己在回避這個問題
他們以各種理由(沒有說服力)回答,他們認為沒有必要進行比較,主席再次回答:很好,但是我仍然希望看到一個比較。然后他們回答說,他們削弱了在論文中的主張,現在只聲稱他們的表現優(yōu)于SOTA RNN,這基本上意味著他們承認他們的方法沒有表現出Transformer更好。因此,從這一點看來,作者似乎試圖掩蓋Transformer存在的這個事實存在,這是荒謬的。
面對截然相反的打分,網友看法各異。
有人覺得后兩個評委一致打最低分,真是“隨機”的盲審嗎?
? ? ? ?
也有人覺得兩邊都有問題,新方法缺少和Transformers的比較是絕對不能打8分的,但是打1分也站不住腳。
還有覺得是主席在“帶節(jié)奏”,主席覺得評審可以再嚴謹一些,就找了兩個新的評審,這導致新的評審對原先的評審產生了不信任的感覺。
還有網友表示,這個問題具有代表性
這反映了當今機器學習中更廣泛的常見問題。評論如此混亂,頂級會議的許多提交都有很大的差異。實際上,論文獲得完美的評價和最低的分數是很普遍的。我無法確定所有確切原因,但我相信這與該領域的研究數量和速度有關:論文被立即上傳到arxiv,在下一次大會上,就會有許多追隨這一研究的,未經過同行評審的研究出現。再加上領域的大容量、年會的壓力/期限,而不是每月或每周的科學期刊,這種情況就開始發(fā)生。
這究竟是一個特殊情況,還是值得關注的普遍現象?
小編想起,之前身邊的同學畢業(yè)論文盲審也得到了兩級分化的評價。你有沒有過類似的經歷呢?
傳送門
https://openreview.net/forum?id=Byl1W1rtvH
- 看「菊紋」,知疾病,這個智能馬桶,知道你下半身的所有秘密2020-04-12
- 這拖拉機你能開算我輸:美國少女“揭秘”現代拖拉機駕駛室2020-05-05
- 史上最大“云辦公”實驗開始,你參加了嗎?2020-02-04
- 英偉達上線游戲云服務平臺GeForce Now,每月4.99美元2020-02-05