中國公司再獲KDD兩項最佳:松鼠AI拿下圖深度學(xué)習(xí)研討會最佳論文&最佳學(xué)生論文
特約供稿
量子位 出品 | 公眾號 QbitAI
KDD,國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,全稱:ACM SIGKDD Conference on Knowledge Discovery and DataMining,是數(shù)據(jù)挖掘領(lǐng)域國際最高級別會議。
KDD“圖深度學(xué)習(xí)國際研討會:方法與應(yīng)用(DLG 2019)”于2019年8月5日在美國阿拉斯加安克雷奇市舉辦。值得一提的是,國內(nèi)人工智能獨角獸乂學(xué)教育-松鼠AI深度參與的研究項目包攬了研討會的最佳論文和最佳學(xué)生論文獎項。
深度學(xué)習(xí)是當(dāng)今人工智能研究的重要前沿領(lǐng)域。不過,這項技術(shù)以前無法直接應(yīng)用于圖形結(jié)構(gòu)數(shù)據(jù)上,這也推動了學(xué)界對圖深度學(xué)習(xí)的探索。
過去幾年,基于圖形結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)在社交網(wǎng)絡(luò)、生物信息學(xué)和醫(yī)學(xué)信息學(xué)等領(lǐng)域取得了顯著的成果。
對于人工智能教育,尤其是松鼠AI為代表的智適應(yīng)教育來說,深度學(xué)習(xí)對知識圖譜分析,理解和自動生成等方面的創(chuàng)新,這次由華中師范大學(xué)、南京大學(xué)、乂學(xué)教育松鼠AI、IBM Watson共同研究的獲獎?wù)撐目赏诓贿h(yuǎn)的將來直接影響到圖算法的應(yīng)用效率,以及標(biāo)簽分析,智能出題,人機對答等場景下的功能創(chuàng)新。
自1995年以來,KDD大會連續(xù)舉辦了二十余屆,每年的接收率不超過20%,今年的接收率不到15%。
值得一提的是,今年也是KDD采用雙盲評審的第一年。依然分為研究賽道和應(yīng)用賽道。
其中,據(jù)已公開消息,KDD研究賽道共收到1179篇投稿,其中111篇被接收為Oral論文,63篇被接收為Poster論文,入選率14.8%。
應(yīng)用賽道收到700余篇論文,其中大45篇被接收為Oral論文,100篇被接收為Poster論文,接收率20.7%。
相較而言,KDD 2018年研究賽道接收181篇,接收率為18.4%,應(yīng)用賽道接受112篇,接收率22.5%。
作為全球頂尖數(shù)據(jù)挖掘會議—第25屆ACM SIGKDD知識發(fā)現(xiàn)和數(shù)據(jù)挖掘會議(KDD)— 的分支,DLG 2019旨在匯聚自不同背景和觀點的學(xué)術(shù)研究人員和從業(yè)者,分享在圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的前沿技術(shù)。
最佳論文:利用圖神經(jīng)網(wǎng)絡(luò)解決基于RDF數(shù)據(jù)的文本生成問題
獲得最佳論文的是來自華中師范大學(xué)、IBM研究院和乂學(xué)教育-松鼠AI的研究《Exploiting Graph Neural Networks with Context Information for RDF-to-Text Generation 》,這篇論文研究的是基于RDF數(shù)據(jù)的文本生成,該任務(wù)是在給定一組RDF三元組的情況下生成相應(yīng)的描述性文本。
大多數(shù)先前的方法要么將此任務(wù)轉(zhuǎn)換為序列到序列(Seq2Seq)的問題,要么使用基于圖形的編碼器對RDF三元組進(jìn)行建模并解碼文本序列。但這些方法都不能明確地模擬三元組內(nèi)和三元組之間的全局和局部結(jié)構(gòu)信息。此外,它們沒有利用目標(biāo)文本作為建模復(fù)雜RDF三元組的附加上下文內(nèi)容。
為了解決這些問題,論文作者提出通過將圖編碼器和基于圖形的三重編碼器進(jìn)行組合,從而學(xué)習(xí)RDF三元組的局部信息和全局結(jié)構(gòu)信息。此外,研究者還使用基于Seq2Seq的自動編碼器,利用目標(biāo)文本作為上下文監(jiān)督圖編碼器的學(xué)習(xí)。
WebNLG數(shù)據(jù)集的實驗結(jié)果表明,研究團(tuán)隊提出的模型優(yōu)于最先進(jìn)(state of the art)的基線方法。
論文作者:
高含寧,吳凌飛,胡佰,許芳麗 (吳凌飛來自IBM研究院,許芳麗來自乂學(xué)教育-松鼠AI,其余作者來自華中師范大學(xué))
為什么這項研究重要:
資源描述框架(Resource Description Frameworks) 是在結(jié)構(gòu)化知識庫中表達(dá)實體及其關(guān)系的常用框架。基于W3C標(biāo)準(zhǔn),每個RDF數(shù)據(jù)是由三個元素組成的三元組,形式為(主語,謂語,賓語)。
在自然語言生成(NLG)中,基于RDF數(shù)據(jù)的文本生成是一項具有挑戰(zhàn)性的任務(wù),因其廣泛的工業(yè)應(yīng)用而備受研究者的關(guān)注,包括基于知識的問答系統(tǒng)、實體摘要、數(shù)據(jù)驅(qū)動的新聞生成等等。
“比如你有一個知識圖譜,然后你需要做一個問答系統(tǒng)。比如你有一個SparQL(RDF開發(fā)的一種查詢語言),然后你去查詢這個知識圖譜,這樣會返回一個RDF。RDF人是很難看懂的,所以這篇論文的初衷是可不可以把這個RDF返回的答案轉(zhuǎn)換成自然語言,這樣就能很自然的讀懂返回的答案是什么意思?!闭撐淖髡咧弧碜訧BM研究院的吳凌飛博士解釋說。
挑戰(zhàn)何在:
隨著端到端深度學(xué)習(xí)取得了巨大進(jìn)展,尤其是各種Seq2Seq模型,基于RDF數(shù)據(jù)的文本生成已經(jīng)取得了實足的進(jìn)步。然而,如果簡單地將RDF三元組轉(zhuǎn)換為序列,可能會丟失重要的高階信息。
由于RDF三元組可以被表達(dá)為知識圖,因此研究人員最近提出了兩種基于圖網(wǎng)絡(luò)的方法,但都分別存在缺陷:比如基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型無法表達(dá)實體和關(guān)系之間豐富的局部結(jié)構(gòu)信息,而基于改進(jìn)的圖卷積網(wǎng)絡(luò)(GCN)的圖編碼器無法表達(dá)三元組內(nèi)和三元組之間的全局信息。
核心貢獻(xiàn):
為了解決上述問題,論文作者提出了一種新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu),它利用基于圖神經(jīng)網(wǎng)絡(luò)和上下文信息,試圖提高模型基于RDF數(shù)據(jù)生成文本的能力。
研究團(tuán)隊提出了一種新的基于圖結(jié)構(gòu)的編碼器模型,它結(jié)合了GCN編碼器和GTR-LSTM三重編碼器,為RDF三元組的多個視角輸入建模,學(xué)習(xí)RDF三元組的局部和全局結(jié)構(gòu)信息。
兩個編碼器都生成一組節(jié)點表征,GCN生成的節(jié)點更好地捕捉RDF三元組內(nèi)的局部結(jié)構(gòu)信息,而GTR-LSTM生成的節(jié)點主要關(guān)注全局結(jié)構(gòu)信息,研究團(tuán)通過結(jié)合GCN和GTR-LSTM的節(jié)點,通過平均池化獲得圖嵌入。
由于目標(biāo)參考文本包含與三元組幾乎相同的信息,因此,研究團(tuán)隊繼而使用基于Seq2Seq的自動編碼器,利用目標(biāo)文本作為輔助上下文來監(jiān)督圖編碼器的學(xué)習(xí)。
實驗結(jié)果:
研究團(tuán)隊使用WEBNLG數(shù)據(jù)集,該數(shù)據(jù)集由資源側(cè)三元數(shù)據(jù)集和目標(biāo)側(cè)參考文本組成。每個RDF三元組表達(dá)為(主語,關(guān)系,賓語)。
整個數(shù)據(jù)集分為18102個訓(xùn)練對,2495個驗證對和2269個測試對。實驗采用WebNLG挑戰(zhàn)的標(biāo)準(zhǔn)評估指標(biāo),包括BLEU和METEOR。
實驗結(jié)果表明,研究團(tuán)隊提出的模型能夠更好地對RDF三元組的全局和局部圖結(jié)構(gòu)進(jìn)行編碼,模型比WebNLG數(shù)據(jù)集上的其他基線模型高出約2.0 BLEU點。
此外,研究團(tuán)隊也手動評估了不同模型的結(jié)果。他們發(fā)現(xiàn)涉及GCN編碼器的模型在表達(dá)實體之間的正確關(guān)系方面時表現(xiàn)更好;目標(biāo)文本自動編碼器和GTR-LSTM編碼器在生成與RDF三元組之間的上下文信息相關(guān)聯(lián)的文本方面表現(xiàn)更好。
在進(jìn)一步的研究中,研究團(tuán)隊發(fā)現(xiàn),他們提出的模型中有四個關(guān)鍵因素可能會影響生成文本的質(zhì)量。它們分別是目標(biāo)文本自動編碼器,它將有助于集成目標(biāo)測上下文信息;因子Ldis,能最小化圖形表達(dá)和文本表達(dá)之間的距離;GCN編碼器和GTR-LSTM編碼器,它們對三元組的本地和全局信息進(jìn)行編碼。
最佳學(xué)生論文:基于圖神經(jīng)網(wǎng)絡(luò)的語義分析實證研究
獲得最佳學(xué)生論文的是來自南京大學(xué)、IBM研究院和乂學(xué)教育-松鼠AI的研究《An Empirical Study of Graph Neural Networks Based Semantic Parsing》,這篇論文研究的是基于圖神經(jīng)網(wǎng)絡(luò)語義解析。
現(xiàn)有的神經(jīng)語義解析器要么只考慮用于編碼或解碼的單詞序列,要么忽略對解析目的有用的重要語法信息。在本文中,論文作者提出了一種新的基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的神經(jīng)語義解析器,即由圖形編碼器和分層樹解碼器組成的Graph2Tree。
論文作者:
李書城,吳凌飛,馮詩偉,許芳麗,許封元,仲盛 (吳凌飛來自IBM研究院,許芳麗來自乂學(xué)教育-松鼠AI,其余作者來自南京大學(xué))
為什么這項研究重要:
作為自然語言處理(NLP)中的一個經(jīng)典任務(wù),語義解析(Sematic Parsing)是將自然語言的句子轉(zhuǎn)換為機器可解析的語義表征。工業(yè)界有大量基于語義解析的成熟應(yīng)用,如問答系統(tǒng)、語音助手和代碼生成等等。
在過去的兩年間,隨著神經(jīng)編解碼方法的引入,語義分析模型也隨之發(fā)生了巨大的變化。近年來,研究者開始開發(fā)具有Seq2Seq模型的神經(jīng)語義解析器,這些解析器已經(jīng)取得了顯著的成果。
挑戰(zhàn)何在:
由于語義表征通常是結(jié)構(gòu)化對象(例如樹形結(jié)構(gòu)),因此研究人員投入了大量精力來開發(fā)基于結(jié)構(gòu)的解碼器,包括樹形解碼器、語法約束解碼器、語義圖生成的動作序列、以及基于抽象語法樹的模塊化解碼器。
盡管這些方法取得了令人印象深刻的成果,但它們只考慮單詞序列信息,而忽略了編碼器端可用的其他豐富的語法信息,如依存樹(dependency tree)或短語結(jié)構(gòu)樹(constituency tree)。
最近,研究人員已經(jīng)證明了圖神經(jīng)網(wǎng)絡(luò)在各種NLP任務(wù)中的重要應(yīng)用,包括神經(jīng)機器翻譯、信息提取、和基于AMR的文本生成。在語義解析中,研究人員曾提出過Graph2Seq模型,將依存樹和短語結(jié)構(gòu)樹與單詞序列結(jié)合起來,然后創(chuàng)建一個語法圖作為編碼輸入。然而,這種方法只是將邏輯形式視為一個序列,而忽略了解碼器體系結(jié)構(gòu)中結(jié)構(gòu)化對象(如樹)中的豐富信息。
核心貢獻(xiàn):
論文作者提出了一種新的基于圖網(wǎng)絡(luò)的神經(jīng)語義解析器,即由一個圖形編碼器和一個分層樹形解碼器組成的Graph2Tree。
圖形編碼器將語法圖(syntactic graph)有效地編碼為矢量表征,而該語法圖是從單詞序列和相應(yīng)的依存解析樹或短語結(jié)構(gòu)樹構(gòu)建的。具體而言,研究團(tuán)隊先將原始文本數(shù)據(jù)相應(yīng)的語法關(guān)系自然地結(jié)合到輸入序列中,形成一個圖形數(shù)據(jù)結(jié)構(gòu),然后用圖形編碼器從這個圖形架構(gòu)中學(xué)習(xí)到高質(zhì)量的矢量表征。
樹形解碼器從學(xué)習(xí)好的圖級矢量表征中解碼邏輯形式,充分學(xué)習(xí)邏輯形式表征的組成性質(zhì)。同時,研究團(tuán)隊還提出在對應(yīng)原始單詞令牌和解析樹節(jié)點的不同節(jié)點表征上計算單獨的注意機制,以計算用于解碼樹結(jié)構(gòu)化輸出的最終上下文向量。然后通過聯(lián)合訓(xùn)練,在給定語法圖的情況下來最大化正確描述的條件對數(shù)概率。
這篇論文一個比較大特點是自然語言的input和邏輯形式的output,兩邊都是結(jié)構(gòu)化對象,把輸入語句變成語法圖,然后做input,邏輯形式是一個結(jié)構(gòu)化ouput,用樹形解碼器來解碼,可以最好的利用隱含的結(jié)構(gòu)化信息和輸出的時候?qū)ο蟮奶攸c。
此外,研究團(tuán)隊還研究了不同語法圖架構(gòu)對GNN語義分析性能的影響。它們發(fā)現(xiàn),由于依存樹解析器或復(fù)雜短語結(jié)構(gòu)樹的不完美性,圖形架構(gòu)引入的噪聲信息和結(jié)構(gòu)復(fù)雜性都可能導(dǎo)致對基于GNN的語義解析器性能的顯著不利影響。
實驗結(jié)果:
研究團(tuán)隊通過實驗希望回答幾個問題:
i)使用什么語法圖能讓基于圖網(wǎng)絡(luò)的方法表現(xiàn)良好?
ii)通過正確構(gòu)建的圖形輸入,Graph2Tree與基線方法相比表現(xiàn)會更好嗎?
研究團(tuán)隊在三個基準(zhǔn)數(shù)據(jù)集JOBS、GEO和ATIS上評估了Graph2Tree框架。第一個是個工作列表數(shù)據(jù)庫JOBS,第二個是美國地理數(shù)據(jù)庫GEO,最后一個是航班預(yù)訂系統(tǒng)數(shù)據(jù)集ATIS。
在數(shù)據(jù)集JOBS和GEO的比較結(jié)果中,研究團(tuán)隊觀察到,無論使用何種類型的圖形結(jié)構(gòu),Graph2Tree在基于圖形輸入生成高質(zhì)量邏輯形式方面要優(yōu)于Graph2Seq模型。
在圖架構(gòu)方面,如果由CoreNLP工具產(chǎn)生的噪音導(dǎo)致語義解析錯誤,那么兩個解析器的性能都會降低,甚至不能與只有Word Order的解析器相比。
類似地,短語結(jié)構(gòu)樹的跳躍大小 — 即結(jié)構(gòu)復(fù)雜性 — 也對性能有很大影響。如果結(jié)構(gòu)信息壓倒性或極少,解析器的性能也會下降。
相反,當(dāng)通過某種方法控制或減少輸入引起的噪聲時,可以顯著提高Word Order + 依存數(shù)的性能;選擇正確的圖層時,也可以提高Word Order + 短語結(jié)構(gòu)樹的表現(xiàn)。例如,單層切割中的Word Order + 短語結(jié)構(gòu)樹的邏輯形式精度分別高于Word Order。
乂學(xué)教育-松鼠AI崔煒:自適應(yīng)學(xué)習(xí)的圖深度學(xué)習(xí)和知識圖
當(dāng)天的研討會由SIGKDD主席、京東集團(tuán)副總裁裴健發(fā)表開場詞,并邀請了來自斯坦福大學(xué)、清華大學(xué)、UCLA、UIUC等高校的學(xué)者發(fā)表演講。
乂學(xué)教育-松鼠AI首席科學(xué)家崔煒博士也受大會邀請,介紹了目前圖深度學(xué)習(xí)和知識圖在自適應(yīng)學(xué)習(xí)中的進(jìn)展。

乂學(xué)教育自主研發(fā)的松鼠AI智適應(yīng)在線學(xué)習(xí)系統(tǒng),能不斷地監(jiān)測和評估學(xué)生個體的能力,發(fā)現(xiàn)他們學(xué)習(xí)中的弱點與不足,并讓學(xué)生按照自己的步伐進(jìn)步,提高學(xué)習(xí)成果。該系統(tǒng)提供優(yōu)化的學(xué)習(xí)解決方案和同步的輔導(dǎo)支持,最大限度地提高學(xué)習(xí)效率,并提高學(xué)生的知識、技能和能力。
多年來,中國教育存在的高級教師資源短缺和地緣問題都影響優(yōu)質(zhì)教育的普及。松鼠AI的愿景是通過人工智能打造超級教師,給成千上萬的學(xué)生提供量身教學(xué)?!懊恳粋€孩子讀值得擁有一位一對一的超級教師,”崔煒說。
從2014年開始,乂學(xué)教育-松鼠AI就在自主研發(fā)針對中國K12學(xué)生的智適應(yīng)學(xué)習(xí)系統(tǒng),它的主要目標(biāo)是精確地診斷學(xué)生的知識點掌握情況,然后推薦個性化的學(xué)習(xí)內(nèi)容和學(xué)習(xí)路徑規(guī)劃。
首先是學(xué)生知識點的掌握。下圖是某位松鼠AI學(xué)生對物理知識點的熟練掌握程度,可以看到藍(lán)色的部分是該學(xué)生已經(jīng)掌握的部分,占80%;黃色的部分是學(xué)生相對 比較薄弱的知識點,占20%。
如何精確地獲悉學(xué)生的知識點掌握情況?松鼠AI從數(shù)據(jù)維度考量,可以通過學(xué)生的測試結(jié)果、測試時長、該測試的難度和涵蓋哪些知識點,甚至是學(xué)生選擇不同的錯誤選項和學(xué)生劃鼠標(biāo)的行為,都可以被用來當(dāng)做行為數(shù)據(jù)判斷。
具體到松鼠AI的工作原理,崔煒介紹說,這套智適應(yīng)引擎共分為三層架構(gòu):本體層、算法層、交互系統(tǒng)。
本體層以內(nèi)容為主,包括學(xué)習(xí)目標(biāo)的本體、學(xué)習(xí)內(nèi)容的本體和錯因分析本體。松鼠AI自主研發(fā)了超納米級的知識點拆分,可以對學(xué)生知識點更精準(zhǔn)地判斷。以初中數(shù)學(xué)為例,松鼠AI可以將300個知識點細(xì)化為3萬個。
同時,松鼠AI基于貝葉斯網(wǎng)絡(luò)狀的圖譜,把相關(guān)的知識點關(guān)聯(lián)起來。通過這種技術(shù),可以模擬優(yōu)秀老師教學(xué)的順序和關(guān)系,這種教學(xué)方法符合學(xué)生認(rèn)知的規(guī)律和知識點層次難易上的關(guān)系。
算法層包含內(nèi)容推薦引擎、學(xué)生用戶畫像引擎、目標(biāo)管理引擎等。松鼠AI會結(jié)合用戶狀態(tài)評估引擎和知識推薦引擎,構(gòu)建出數(shù)據(jù)模型,精準(zhǔn)高效地測出每個學(xué)生的知識漏洞,根據(jù)學(xué)生的知識漏洞推薦相應(yīng)的學(xué)習(xí)內(nèi)容。
交互系統(tǒng)通過采集交互數(shù)據(jù)了解更多學(xué)生的信息,包括管理系統(tǒng),檢測預(yù)警系統(tǒng)和實時的事件收集器。
崔煒強調(diào),基于人工智能的智適應(yīng)學(xué)習(xí)系統(tǒng)采取了和傳統(tǒng)教育完全不同的教學(xué)過程。
比如,在知識狀態(tài)診斷方面,傳統(tǒng)診斷是基于高頻的考試,而松鼠AI的系統(tǒng)擁有基于信息論和知識空間理論的知識狀態(tài)診斷,能精確定位知識漏洞。
傳統(tǒng)的測評是基于成績或排名,傳統(tǒng)的智適應(yīng)測評是基于 IRT、DINA、BKT、DKT模型,這些模型的缺陷是無法進(jìn)行實時評測。松鼠AI的系統(tǒng)基于貝葉斯理論是能基于學(xué)生過去所有的記錄來進(jìn)行持續(xù)性的、實時的評估。
在內(nèi)容推薦上,傳統(tǒng)的推薦算法采用的是協(xié)同過濾算法,但在教育領(lǐng)域該算法并不適用,因為每個學(xué)生盡管學(xué)習(xí)情況類似,但知識點掌握各不相同,協(xié)同過濾算法不夠精準(zhǔn),無法保證推薦內(nèi)容的效果。
松鼠AI采用的是神經(jīng)網(wǎng)絡(luò),基于學(xué)生的學(xué)習(xí)成果實現(xiàn)個性化的推薦,并通過深度學(xué)習(xí)的算法進(jìn)一步提升個性化學(xué)習(xí)的精準(zhǔn)性和推薦的精準(zhǔn)性。
算法的優(yōu)越性也體現(xiàn)在結(jié)果上。過去兩年,松鼠AI已經(jīng)在四次人機大戰(zhàn)中戰(zhàn)勝了優(yōu)秀教師。截至目前,松鼠AI已經(jīng)全國400多個城市開設(shè)近2000家線下學(xué)校,累計學(xué)生近200萬。
乂學(xué)教育-松鼠AI目前累計融資近10億人民幣。去年,松鼠AI還捐贈了100萬個賬號,給數(shù)百萬貧困家庭的孩子,來促進(jìn)教育的公平化。
乂學(xué)教育-松鼠AI將在今年11月12-13日在上海中心舉辦第四屆全球人工智能智適應(yīng)教育峰會(AIAED),本次大會組委會主席是CMU計算機學(xué)院院長、機器學(xué)習(xí)教父Tom Mitchell教授。崔煒希望相關(guān)的從業(yè)者能在此契機下匯聚一堂,共同推動人工智能教育的進(jìn)步。
第四屆AIAED大會網(wǎng)址:
https://www.aiaed.net/
- 超詳細(xì)!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠(yuǎn)發(fā)布CASIVIBOT,以九年積累開啟AOI與機器人協(xié)同的品質(zhì)檢測新時代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機器人全產(chǎn)業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16