中國力量占領(lǐng)KDD:包攬“大數(shù)據(jù)領(lǐng)域世界杯”全部冠亞軍,北航拿下最佳學(xué)生論文獎
多名華人學(xué)者獲獎
蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
數(shù)據(jù)挖掘、知識發(fā)現(xiàn)領(lǐng)域的最高學(xué)術(shù)會議——KDD 2020的所有獎項已全部公布。
KDD,全稱Knowledge Discovery and Data Mining,由SIGKDD舉辦,后者是美國計算機(jī)學(xué)會ACM旗下數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的專業(yè)組織。
在這次的AI頂會中,中國力量,依然奪目。
其中,北航學(xué)生獲得最佳學(xué)生論文,滴滴出行6篇論文入選;
而在挑戰(zhàn)賽上,美團(tuán)、第四范式、螞蟻金服、深度賦智等業(yè)界團(tuán)隊,以及國立臺灣大學(xué)、東南大學(xué)、上海交大、中山大學(xué)和清華大學(xué)等學(xué)術(shù)界團(tuán)隊斬獲了所有賽道的冠亞軍。
這次挑戰(zhàn)賽的主辦方大部分來自中國,包括阿里巴巴達(dá)摩院、清華大學(xué)、BienData、第四范式、滴滴出行等。
此外,湯繼良、盛勝利、唐杰等華人學(xué)者在本屆SIGKDD大會上也獲得了多項大獎。
最佳論文獎
今年最佳論文獎由來自谷歌研究院的Walid Krichene和Steffen Rendle獲得。
這篇論文對樣本指標(biāo)進(jìn)行了調(diào)查,并給出了在度量標(biāo)準(zhǔn)計算中應(yīng)該避免抽樣的建議。
這是因?yàn)?,為了加快度量?biāo)準(zhǔn)的計算,通常會采用抽樣的模式進(jìn)行度量,只對較小的一組隨機(jī)項和相關(guān)項進(jìn)行排名。但調(diào)查發(fā)現(xiàn),樣本指標(biāo)與精確的度量不一致,因?yàn)檫@些指標(biāo)不會保留相關(guān)項的陳述。
而且,樣本越小,指標(biāo)之間的差異也會越小,對于非常小的樣本,所有指標(biāo)都會變成AUC指標(biāo)。所以,可以通過最小化不同的標(biāo)準(zhǔn)(偏差或均方誤差),來提高樣本指標(biāo)的性能。
此外,今年KDD的最佳學(xué)生論文獎,則由來自杜克大學(xué)陳怡然團(tuán)隊、以及北航的研究人員摘得。
最佳學(xué)生論文獎
最佳學(xué)生論文獎由來自北京航空航天大學(xué)的段逸驍、楊建磊,以及杜克大學(xué)的陳怡然、Ang Li和Huanrui Yang獲得。
據(jù)悉,論文一作Ang Li目前是阿里巴巴達(dá)摩院的實(shí)習(xí)生。
為了解決深度學(xué)習(xí)數(shù)據(jù)集涉及侵犯用戶隱私的問題,這篇論文提出了一個名為TIPRDC的框架,目的在于學(xué)習(xí)一個特征提取器,可以從中間特征中隱藏隱私信息,同時也最大限度地保留嵌入在原始數(shù)據(jù)中的原始信息。
為了達(dá)成這個目標(biāo),團(tuán)隊設(shè)計了一種混合訓(xùn)練方法,用于學(xué)習(xí)中間特征,包括用于從特征中隱藏隱私信息的對抗訓(xùn)練過程,以及使用基于神經(jīng)網(wǎng)絡(luò)的交互信息估計器、用于最大程度地保留原始信息。
從評估效果來看,TIPRDC明顯優(yōu)于其他現(xiàn)有方法。
華人獲新星獎、時間檢驗(yàn)獎
此外,KDD首屆新星獎(旨在表彰KDD社區(qū)里在博士畢業(yè)五年內(nèi)便獲得卓越科研成就的年輕學(xué)者),頒給了兩位學(xué)者,其中一位就是華人學(xué)者湯繼良。
這位在特征學(xué)習(xí)領(lǐng)域作出杰出貢獻(xiàn)的學(xué)者,目前在密歇根州立大學(xué)數(shù)據(jù)科學(xué)與工程實(shí)驗(yàn)室進(jìn)行研究。
而KDD的第一屆應(yīng)用科學(xué)時間檢驗(yàn)獎則頒給了清華大學(xué)計算機(jī)科學(xué)與技術(shù)系長聘教授唐杰,這篇獲獎的論文名為《ArnetMiner: Extraction and Mining of Academic Social Networks》。
據(jù)悉,唐杰教授目前任清華大學(xué)計算機(jī)系副主任,曾入選國家“杰出青年”名單,目前發(fā)表論文 200余篇,被引用10000余次(個人h-指數(shù)59)。
至于KDD的時間檢驗(yàn)研究獎(表彰10年前杰出的KDD論文),則頒給了來自美國阿肯色中央大學(xué)計算機(jī)科學(xué)系教授和數(shù)據(jù)分析實(shí)驗(yàn)室的主任盛勝利。
不僅在KDD 2020上,能看見各位來自中國的學(xué)者一展風(fēng)采,在素有“大數(shù)據(jù)領(lǐng)域世界杯”之稱的KDD Cup 2020上,也能感受到來自中國團(tuán)隊的力量。
中國包攬“大數(shù)據(jù)領(lǐng)域世界杯”冠亞軍
除了在KDD這樣的全球AI頂會,SIGKDD每年還會舉行KDD Cup挑戰(zhàn)賽,同時面向?qū)W術(shù)界和業(yè)界。
今年的挑戰(zhàn)賽各賽道的主辦方,大部分來自中國,包括阿里巴巴達(dá)摩院、清華大學(xué)、BienData、第四范式以及滴滴出行等。
而在今年的機(jī)器學(xué)習(xí)、AutoML機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這3大賽道中,中國團(tuán)隊包攬了所有的冠亞軍。
一起來看看這次比賽的獎項結(jié)果。
常規(guī)機(jī)器學(xué)習(xí)賽道
在KDD CUP 2020上,常規(guī)機(jī)器學(xué)習(xí)被分成了兩個賽道。
機(jī)器學(xué)習(xí)賽道一由阿里巴巴達(dá)摩院主辦,其中阿里、杜克大學(xué)、清華大學(xué)和UIUC也參與了此次贊助,兩項任務(wù)分別各有一千多個小組參加了比賽。
賽道一的有兩個任務(wù),一個是多模態(tài)召回(Multimodalities Recall ),另一個則是去偏差(Debiasing)。
在任務(wù)一中,國立臺灣大學(xué)(WinnieTheBest)和美團(tuán)點(diǎn)評(MTDP_CVA)的團(tuán)隊分別獲得了冠亞軍,而季軍的團(tuán)隊也同樣來自美團(tuán)(aister)。
在任務(wù)二中,來自美團(tuán)點(diǎn)評(aister)與深度賦智(DeepWisdom)的團(tuán)隊獲得了冠亞軍,而季軍團(tuán)隊則來自北京航空航天大學(xué)。
而機(jī)器學(xué)習(xí)賽道二只有一個任務(wù),即學(xué)術(shù)圖譜上的對抗攻擊和防御,涉及到生成對抗網(wǎng)絡(luò)(GAN)的知識。
在賽道二中,最終的冠亞軍分別由上海交通大學(xué)(SPEIT-卓工)和中山大學(xué)、杭州電子科大的(ADVERSARIES)團(tuán)隊獲得,其中季軍團(tuán)隊(DaftStone)來自中國科學(xué)技術(shù)大學(xué)。
此次機(jī)器學(xué)習(xí)賽道二的主辦方是BienData,共有544名選手參與了此次比賽。
AutoML機(jī)器學(xué)習(xí)賽道
至于AutoML機(jī)器學(xué)習(xí)賽道,則聚焦于圖表示學(xué)習(xí)技術(shù),核心任務(wù)是基于圖的拓?fù)浣Y(jié)構(gòu),學(xué)習(xí)節(jié)點(diǎn)或者全圖的向量表達(dá),更好地用于下游機(jī)器學(xué)習(xí)任務(wù)(商品推薦、知識圖譜補(bǔ)全、交通流量預(yù)測等)中。
這個賽道的主辦方為第四范式,其中ChaLearn、斯坦福大學(xué)和谷歌共同協(xié)辦。
最終冠軍由來自美團(tuán)點(diǎn)評、中國科學(xué)院大學(xué)和清華大學(xué)(aister)的團(tuán)隊獲得,亞軍為南京大學(xué)(PASA_NJU)的團(tuán)隊,至于季軍團(tuán)隊,則來自螞蟻金服(qqerret)。
值得一提的是,這項比賽的所有代碼都在GitHub上放出了公開鏈接,感興趣的小伙伴們可以自行學(xué)習(xí)(文末附公開鏈接)。
強(qiáng)化學(xué)習(xí)賽道
這次的強(qiáng)化學(xué)習(xí)賽道由滴滴舉辦,共設(shè)計了訂單分配和車輛調(diào)度兩個任務(wù),參賽團(tuán)隊需設(shè)計開發(fā)算法來指定在派單窗口內(nèi)的訂單和司機(jī)的匹配,并指引一批空閑司機(jī)開往指定目的地。
這次一共有1195位參賽選手、共1007支隊伍參加了這項比賽,比賽結(jié)果于昨日在KDD大會上公布。
其中,第一個任務(wù)的冠亞軍分別由來自第四范式和北航(Polar Bear)和來自中山大學(xué)(EM)的團(tuán)隊獲得,而季軍則是來自Lyft的團(tuán)隊。
至于第二項任務(wù),則由來自東南大學(xué)、普渡大學(xué)(TLab)的團(tuán)隊、以及南京大學(xué)(wait a minute)的團(tuán)隊獲得冠亞軍,季軍由日本的NTTdocomo實(shí)驗(yàn)室摘得。
論文鏈接:
最佳論文:https://dl.acm.org/doi/pdf/10.1145/3394486.3403226
最佳學(xué)生論文:https://arxiv.org/abs/2005.11480AutoML
項目鏈接:
https://www.4paradigm.com/competition/kddcup2020
參考鏈接:
https://www.kdd.org/kdd2020/
https://www.reddit.com/r/MachineLearning/comments/ihg1kw/r_kdd_2020_video_collection_best_papers_keynotes/
https://www.kdd.org/kdd2020/kdd-cup