中國軍團(tuán)稱霸KDD:華人博士斬獲最佳論文,清華北大中科大華為等榜上有名
還稱霸了“大數(shù)據(jù)世界杯”以及贊助席
乾明 魚羊 栗子 安妮 一璞 邊策 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
又一全球AI頂會,盡是中國力量舉杯相慶。
KDD,數(shù)據(jù)挖掘領(lǐng)域國際最高級別會議,今年在美國阿拉斯加州舉行,最佳論文及三大競賽等主要獎項(xiàng),剛剛已全部揭曉。
今年,中國面孔星光璀璨??的螤柎髮W(xué)華人博士Dong Kun以一作身份斬獲研究賽道最佳論文,初創(chuàng)公司獎項(xiàng)、KDD CUP三大賽事,也基本被中國公司包攬。
詳情傳送如下:
雙盲評審第一年,15%接收率
KDD,國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,全稱:ACM SIGKDD Conference on Knowledge Discovery and Data Mining,是數(shù)據(jù)挖掘領(lǐng)域國際最高級別會議。
自1995年以來,KDD大會連續(xù)舉辦了二十余屆,每年的接收率不超過20%,今年的接收率不到15%。
值得一提的是,今年也是KDD采用雙盲評審的第一年。
依然分為研究賽道和應(yīng)用賽道。
其中,據(jù)已公開消息,KDD研究賽道共收到1179篇投稿,其中111篇被接收為Oral論文,63篇被接收為Poster論文,入選率14.8%。
應(yīng)用賽道收到700余篇論文,其中大45篇被接收為Oral論文,100篇被接收為Poster論文,接收率20.7%。
相較而言,KDD 2018年研究賽道接收181篇,接收率為18.4%,應(yīng)用賽道接受112篇,接收率22.5%。
強(qiáng)調(diào)論文可復(fù)現(xiàn)
而且最重要的是,KDD今年還在投稿通知中特別強(qiáng)調(diào)——可復(fù)現(xiàn)性——且規(guī)定該項(xiàng)會作為最佳論文評選資格,論文需要額外提交內(nèi)容展示可復(fù)現(xiàn)內(nèi)容。
包括實(shí)驗(yàn)方法、經(jīng)驗(yàn)評估和結(jié)果,也鼓勵在論文中公開研究代碼和數(shù)據(jù),盡可能完整地描述論文中使用的算法和資源。
于是,KDD 2019也成為了備受關(guān)注的一屆。
來看具體獎項(xiàng)都被哪些團(tuán)隊(duì)捧走了:
研究賽道最佳論文
Network Density of States(態(tài)網(wǎng)絡(luò)密度)
https://arxiv.org/pdf/1905.09758.pdf
論文來自康奈爾大學(xué)。第一作者是Dong Kun,康奈爾大學(xué)應(yīng)用數(shù)學(xué)專業(yè)博士生,碩士畢業(yè)于UCLA。
其他作者還有康奈爾大學(xué)計(jì)算機(jī)系助理教授Austin Reilley Benson和康奈爾計(jì)算機(jī)系副教授David Bindel,他也是Dong Kun的博士生導(dǎo)師。
譜分析將圖結(jié)構(gòu)與相關(guān)矩陣的特征值和特征向量聯(lián)系起來。許多譜圖理論直接來自譜幾何,通過相關(guān)微分算子的譜來研究可微分流形。但是從譜幾何到譜圖的轉(zhuǎn)換主要集中在僅涉及少數(shù)極端特征值及其相關(guān)特征值的結(jié)果上。
與幾何學(xué)不同,通過特征值的整體分布(譜密度)對圖的研究主要局限于簡單的隨機(jī)圖模型?,F(xiàn)實(shí)世界圖譜的內(nèi)部仍然在很大程度上難以計(jì)算和解釋,尚未被探索研究。
在本文中,作者深入研究了真實(shí)世界圖譜的譜密度。我們借用了凝聚態(tài)物理中的研究工具能態(tài)密度,并添加了新的適應(yīng)性來處理常見圖形圖案的譜特征。所得到的方法是高效的,論文中已經(jīng)通過計(jì)算單個計(jì)算節(jié)點(diǎn)上具有超過十億個邊緣的圖的譜密度說明了這一點(diǎn)。
除了提供視覺上引人注目的圖形指紋之外,本文還展示了譜密度的估計(jì)如何推動許多常見中心度量的計(jì)算,并使用譜密度來估計(jì)有關(guān)圖結(jié)構(gòu)的有意義信息,這些信息無法只從極值本征對中推斷得出。
研究賽道第二名論文
Optimizing Impression Counts for Outdoor Advertising
https://dl.acm.org/citation.cfm?doid=3292500.3330829
這項(xiàng)研究解決的,是關(guān)于戶外廣告如何投放才最劃算的問題,作者來自墨爾本皇家理工大學(xué)、新加坡管理大學(xué)、武漢大學(xué)和華為。
具體的問題是該團(tuán)隊(duì)首次提出的,稱之為戶外廣告印象數(shù)(Impression Counts for Outdoor Advertising,ICOA)。
馬路邊的廣告那么多,但能讓你有印象的很少,大部分都忘得無影無蹤,因此,只要廣告在你腦海中留下印象,許多廣告主的目的就達(dá)到了,這項(xiàng)研究也就是關(guān)于如何讓更多人留下更深刻印象的。
由于移動互聯(lián)網(wǎng)的發(fā)達(dá),不管你用什么交通方式,開車也好,騎摩托車、自行車也好,你每次出門的軌跡都可以被記錄下來,因此研究者們找到了出行軌跡數(shù)據(jù)庫T。在此之外,還有給定的廣告牌數(shù)據(jù)庫U和廣告主的投放預(yù)算B。
因此,概括地說,戶外廣告印象數(shù)是這樣一個問題:
廣告牌和預(yù)算就那么多,路人們就那么走,在這些給定的情況下,如何提升給路人們留下的總印象,讓錢花的最值呢?
這里要解決兩個問題:
1.每塊廣告應(yīng)該讓一個路人看到幾次;
2.如何布局廣告牌的擺放,讓更多路人在出行軌跡上剛好看到最佳次數(shù)。
第一個問題此前有研究解決了,是一個S形函數(shù),隨著廣告重復(fù)次數(shù)增加,給路人留下的印象越來越深刻,之后簡單重復(fù)就沒用了,再多就只有副作用了。
而第二個問題,廣告牌分布的問題需要用算法解決。研究團(tuán)隊(duì)發(fā)現(xiàn)直接用貪心算法是不行的,于是提出了基于切線的算法計(jì)算子模塊函數(shù),為了提高效率,設(shè)計(jì)了θ終止方法和漸進(jìn)式上限估計(jì)方法進(jìn)行優(yōu)化。
最后,研究團(tuán)隊(duì)在用紐約和洛杉磯兩個城市的真實(shí)軌跡和廣告牌數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)后,驗(yàn)證這項(xiàng)研究中提出的方法是有效的。
應(yīng)用賽道最佳論文
獲得應(yīng)用賽道最佳論文的是Actions Speak Louder then Goals:Valuing Player Actions in Soccer(行動勝于目標(biāo):重視足球中球員的行動):
https://arxiv.org/pdf/1802.07127.pdf
論文的作者包括,來自比利時(shí)魯汶大學(xué)的Tom Decroos,來自SciSports公司的Lotte Bransean和Jesse Davis,以及比利時(shí)魯汶大學(xué)的Jesse Davis。
評估足球運(yùn)動員在比賽中的個人行為表現(xiàn)對比賽結(jié)果的影響,是球員招募過程中的考察重點(diǎn)。然而,大多數(shù)傳統(tǒng)指標(biāo)在解決此任務(wù)時(shí)都不盡如人意,因?yàn)樗鼈円磳W⒂趩为?dú)的鏡頭畫面和目標(biāo)行為,要么不考慮球員做出某一動作的環(huán)境背景。
這篇論文主要介紹了:(1)一種用于描述球場上各個球員動作的新語言,SPADL;(2)一種根據(jù)球員表現(xiàn)對比賽結(jié)果的影響來評估球員動作的新框架,VAEP,同時(shí)考慮到動作發(fā)生時(shí)的背景。
通過匯總球員的動作價(jià)值,就可以量化他們對球隊(duì)整體進(jìn)攻和防守的貢獻(xiàn)。
這項(xiàng)研究的亮點(diǎn)在在于考慮了通常都會被忽略的動作背景信息,研究團(tuán)隊(duì)在2016/2017和2017/2018賽季的歐洲頂級賽事中用該方法收集了大量的用例。
△梅西果然自成一類
應(yīng)用賽道第二名論文
這是一項(xiàng)用可穿戴設(shè)備來檢測認(rèn)知功能障礙 (可能是癡呆前兆) 的研究,由蘋果牽頭。
Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams
https://dl.acm.org/citation.cfm?doid=3292500.3330690
可穿戴設(shè)備和移動計(jì)算設(shè)備,如今無處不在,并且在技術(shù)上取得了卓越的進(jìn)步;再加上傳感器歐式的多樣化,這些進(jìn)步都給持續(xù)監(jiān)測患者、監(jiān)測他們的日?;顒樱峁┝丝赡?。
有這樣豐富的縱向信息 (Longitudinal Informationn) 可挖掘,就能為認(rèn)知功能障礙來分析心理學(xué)和行為學(xué)上的特征,并為及時(shí)且經(jīng)濟(jì)地檢測輕度認(rèn)知功能障礙 (MCI) 提供新的途徑。
MCI,就是介于正常認(rèn)知與癡呆之間的狀態(tài)。
這項(xiàng)研究提出了一個平臺,用來遠(yuǎn)程、不侵犯地監(jiān)測認(rèn)知功能障礙的相關(guān)癥狀,只依靠幾個消費(fèi)機(jī)的智能設(shè)備。
團(tuán)隊(duì)展示了,這個平臺是怎樣在“Lilly探索性數(shù)字評估研究”里面,收集了16TB的數(shù)據(jù),支持了為期12周的可行性研究:監(jiān)測了31位有認(rèn)知功能障礙的患者,和82位沒有認(rèn)知功能障礙的、生活狀態(tài)自由的人類。
研究人員還說明了,嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)統(tǒng)一 (Data Unification) 、時(shí)間對齊 (Time-Alignment) 以及插補(bǔ)技術(shù) (Imputation) ,是怎樣處理現(xiàn)實(shí)中固有的數(shù)據(jù)缺失,并最終展現(xiàn)了這樣的數(shù)據(jù)在分辨癥狀中發(fā)揮的作用。
時(shí)間檢驗(yàn)獎
今年的時(shí)間檢驗(yàn)獎(test of time award)來自CMU和Nielsen BuzzMetrics,論文為:
Cost-effective outbreak detection in networks
https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf
之所以被評為這個獎,還是因?yàn)榫嚯x這篇論文在2007年首次發(fā)出已經(jīng)過去了12年,當(dāng)時(shí),CMU的Jure Leskovec、Andreas Krause、Carlos Guestrin、Christos Faloutsos、Jeanne VanBriesen和Nielsen BuzzMetrics的Natalie Glance6人因?yàn)檫@篇文章獲得了最佳學(xué)生論文。
在這篇論文中,研究人員證明了,很多現(xiàn)實(shí)生活中爆發(fā)檢測(比如檢測可能性、檢測受影響人群等)表現(xiàn)出“子模塊”的特性。
研究人員利用子模塊開發(fā)出一種有效的算法,名為CELF算法,來優(yōu)化貪心算法(Greedy Algorithm)的效率。其算法如下:
結(jié)果表明,CELF算法可以擴(kuò)展應(yīng)用到比較復(fù)雜的問題,還能接近最佳位置,同時(shí),比簡單的貪心算法快700倍。
隨后,他們在幾個大型的真實(shí)問題上繼續(xù)對CELF算法進(jìn)行檢驗(yàn),利用美國國家環(huán)境保護(hù)局的水分配網(wǎng)絡(luò)模型和實(shí)時(shí)博客數(shù)據(jù),得到的傳感器位置可證明接近最優(yōu)解,提供了最優(yōu)解的常數(shù)分?jǐn)?shù)。他們還證明了這種方法可以擴(kuò)展,將存儲空間節(jié)省幾個數(shù)量級。
創(chuàng)業(yè)研究獎
ACM SIGKDD于2017年推出了創(chuàng)業(yè)研究獎,旨在鼓勵早期創(chuàng)業(yè)公司參與數(shù)據(jù)科學(xué)領(lǐng)域。該獎項(xiàng)由創(chuàng)業(yè)研究獎委員會從多家競爭的結(jié)果中確定。
今天獲獎的四家公司分別是:Arkive、deepair、瑞萊智慧和天眼查。
Arkive是一家利用機(jī)器學(xué)習(xí)技術(shù)管理知識和經(jīng)驗(yàn)的公司,這家公司的創(chuàng)始人是兩名華人。
deepair為旅行供應(yīng)商提供基于AI的零售平臺。
瑞萊智慧是一家向企業(yè)提供工業(yè)預(yù)測性維護(hù)、工業(yè)檢測、無監(jiān)督反欺詐、人工智能系統(tǒng)攻防等服務(wù)的公司。
天眼查在國內(nèi)的知名度已經(jīng)相當(dāng)高,是一家向客戶提供企業(yè)大數(shù)據(jù)的公司。
人物獎
在KDD的開幕式上,IBM Watson的研究人員Charu Aggarwal因數(shù)據(jù)挖掘的終身成就獲得了SIGKDD的創(chuàng)新獎(Innovation Award)。他還在本次會議上發(fā)表了三篇論文。
△Charu Aggarwal,圖片來自IBM官網(wǎng)
Charu Aggarwal于1993年在印度理工學(xué)??财諣柗中+@得學(xué)士學(xué)位,之后又獲得了博士學(xué)位1996年到麻省理工學(xué)院工作。
他在數(shù)據(jù)挖掘領(lǐng)域開展了廣泛的工作,特別關(guān)注數(shù)據(jù)流、隱私、不確定數(shù)據(jù)和社交網(wǎng)絡(luò)分析。他已經(jīng)出版了19本書籍,發(fā)表350多篇論文,并已申請或獲得80多項(xiàng)專利。他獲得了多項(xiàng)發(fā)明成就獎,并且三次被評為IBM的發(fā)明大師。
同樣是來自IBM Watson的Balaji Krishnapuram獲得了KDD的服務(wù)獎(Service Award),以獎勵他對數(shù)據(jù)挖掘做出的杰出貢獻(xiàn)。
它曾在2014年至2016年擔(dān)任ACM SIGKDD主席,2015年加入IBM Watson Health,為制藥行業(yè)開發(fā)AI解決方案。
△Balaji Krishnapuram,圖片來自Twitter網(wǎng)友Prithwish Chakraborty
今年的學(xué)位論文獎(Dissertation Award)頒發(fā)給了來自華盛頓大學(xué)的Tim Althoff,該獎項(xiàng)第二名是來自UIUC的華人學(xué)者Chao Zhang。
KDD CUP 2019
今年的KDD CUP有3個賽道:
- 常規(guī)機(jī)器學(xué)習(xí)競賽(Regular ML Track)
- 自動機(jī)器學(xué)習(xí)競賽(Auto-ML Track)
- “Research for Humanity” 強(qiáng)化學(xué)習(xí)競賽(Humanity RL Track)
這一賽事,素來有“大數(shù)據(jù)世界杯”之稱,競爭非常激烈。
KDD官方統(tǒng)計(jì),今年有來自39個國家的超過5000個人提交了17000份申請。
從最終的成績中來看,中國軍團(tuán)尤為亮眼,包攬了大多數(shù)獎項(xiàng)。
首先說常規(guī)機(jī)器學(xué)習(xí)競賽,由百度贊助,一共分為兩個任務(wù)。
任務(wù)1的冠軍和亞軍都來自中國。其中,冠軍來自螞蟻金服;亞軍來自上海微盟、趨勢科技、滴滴出行、北京郵電大學(xué)、華南理工大學(xué)、京東等單位。
任務(wù)2的冠軍來自日本電信公司NTT DOCOMO,亞軍來自東南大學(xué)。
此外,額外設(shè)立的PaddlePaddle特別獎則花落中國科學(xué)技術(shù)大學(xué)。
其次是自動機(jī)器學(xué)習(xí)競賽,由第四范式贊助。
冠軍來自中國的深蘭科技和北京大學(xué);亞軍來自新加坡國立大學(xué);第三名來自于阿里巴巴和佐治亞理工學(xué)院。
最后說“Research for Humanity” 強(qiáng)化學(xué)習(xí)競賽,由IBM和Hexagon ML贊助。
冠軍來自中國臺灣,國立成功大學(xué);亞軍來自清華大學(xué)、京東和北京航空航天大學(xué),第三名來自瓜子。
競賽詳情地址:
https://www.kdd.org/kdd2019/kdd-cup
One more thing
不止論文、競賽都被中國軍團(tuán)雄霸。
KDD 2019贊助商方面,中國力量也格外顯眼。
百度、騰訊、滴滴、阿里巴巴、快手、浪潮和字節(jié)跳動和松鼠AI都出現(xiàn)在贊助名錄上。
所以也有調(diào)侃稱,AI頂會是時(shí)候考慮在中國舉辦了,畢竟離最核心參與者都更近,還無簽證之憂。
此外,KDD“圖深度學(xué)習(xí)國際研討會:方法與應(yīng)用(DLG 2019)”于2019年8月5日舉辦。DLG 2019旨在匯聚自不同背景和觀點(diǎn)的學(xué)術(shù)研究人員和從業(yè)者,分享在圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的前沿技術(shù)。值得一提的是,國內(nèi)人工智能獨(dú)角獸乂學(xué)教育-松鼠AI深度參與的研究項(xiàng)目包攬了研討會的最佳論文和最佳學(xué)生論文獎項(xiàng)。
獲得最佳論文的是來自華中師范大學(xué)、IBM研究院和乂學(xué)教育-松鼠AI的研究《Exploiting Graph Neural Networks with Context Information for RDF-to-TextGeneration 》,這篇論文研究的是基于RDF數(shù)據(jù)的文本生成,該任務(wù)是在給定一組RDF三元組的情況下生成相應(yīng)的描述性文本。
獲得最佳學(xué)生論文的是來自南京大學(xué)、IBM研究院和乂學(xué)教育-松鼠AI的研究《An Empirical Study of Graph Neural Networks Based Semantic Parsing》,這篇論文研究的是基于圖神經(jīng)網(wǎng)絡(luò)語義解析。
當(dāng)天的研討會由SIGKDD主席、京東集團(tuán)副總裁裴健發(fā)表開場詞,并邀請了來自斯坦福大學(xué)、清華大學(xué)、UCLA、UIUC等高校的學(xué)者發(fā)表演講。乂學(xué)教育-松鼠AI首席科學(xué)家崔煒博士也受大會邀請,介紹了目前圖深度學(xué)習(xí)和知識圖在自適應(yīng)學(xué)習(xí)中的進(jìn)展。
— 完 —