中國隊刷新知識圖譜“世界杯”,但點(diǎn)開冠軍團(tuán)隊一看,我愣住了
360兩新人帶一實習(xí)生斬獲冠軍
博雯 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
知識圖譜領(lǐng)域的“世界杯”O(jiān)GB(Open Graph Benchmark)wikikg2榜單,又被刷新了!
上榜的這支團(tuán)隊首次參加即奪冠,還在前五中占據(jù)兩席。這兩年,中國科技公司在人工智能領(lǐng)域高歌猛進(jìn),奪冠似在情理之中。
但意料之外的是,這支團(tuán)隊卻出自一家“非典型科技公司”——
在大眾認(rèn)知里頂著“數(shù)字安全”標(biāo)簽的360。
且參與比賽的三人,乍眼一看也并非一個星光熠熠,大神云集的頂配組合:一位2019年剛剛畢業(yè)的碩士,一位去年才加入公司的“新人”,還有一位實習(xí)生。
但這樣一支團(tuán)隊,這一次擊敗了AI三巨頭LeCun、Yoshua Bengio分別坐鎮(zhèn)的Meta FAIR實驗室和MILA實驗室,在臉書、阿里巴巴、第四范式等國內(nèi)外耳熟能詳?shù)捻敿釧I科研團(tuán)隊中脫穎而出。
甚至以幾乎最小參數(shù)量的模型實現(xiàn)了最好的效果:
△OGB-wikikg2排行榜數(shù)據(jù)
那么問題來了,360的提交和公開的參賽模型為何能打敗一眾競爭者登頂?獲勝者又為何是360?
先從團(tuán)隊登上榜首所采用的TripleRE + NodePiece方法說起。
模型登頂后還持續(xù)“就業(yè)”
所謂的TripleRE + NodePiece,就是團(tuán)隊基于自己開發(fā)的原創(chuàng)模型TripleRE,再結(jié)合已有的NodePiece算法的一種創(chuàng)新方法。
其中,TripleRE模型正是他們這次獲勝的關(guān)鍵。
TripleRE,全名Knowledge Graph Embeddings Via Triple Relation Vectors,直譯過來就是通過三份關(guān)系向量進(jìn)行知識圖譜嵌入。
先解釋一下知識圖譜嵌入。
眾所周知,知識圖譜是一個將不同種類的信息連接得到的關(guān)系網(wǎng)絡(luò),是一種抽象描述現(xiàn)實世界及其關(guān)系的方法。
節(jié)點(diǎn)(Point)和邊(Edge)是其組成的基本元素,一個頭實體,一個關(guān)系,一個尾實體就能組成一個三元組,用以表示“知識”或“事實”。
三元組雖然能有效表示結(jié)構(gòu)化數(shù)據(jù),但其底層符號的特性會使知識圖譜很難操作,也常常致使知識圖譜不完整。
這就需要一種補(bǔ)全的方法:知識圖譜嵌入。
這種方法又叫知識表示學(xué)習(xí)(KRL),具體來說,是將知識圖譜的實體和關(guān)系嵌入連續(xù)向量或矩陣空間中,可以在保留實體和關(guān)系語義的同時,學(xué)習(xí)知識圖譜的低維表示。
而開頭提到的通過三份關(guān)系向量?則是一種具體實現(xiàn)知識圖譜嵌入的方法。
以往的知識圖譜嵌入方法, 比如2020年提出的PairRE模型,主要通過兩個用于關(guān)系表示的向量將頭尾實體分別投影到歐式空間,再最小化投影向量的距離:
而TripleRE模型則把向量切分成三份,兩份和PairRE一樣學(xué)習(xí)投影特征,一份學(xué)習(xí)平移特征,這就是“三份向量的嵌入”,正與模型名稱相吻合。
通過引入三段的關(guān)系表示,TripleRE模型變因此能提取更多關(guān)系上的特征。
在此基礎(chǔ)上,360的參賽團(tuán)隊還引入了去年6月份剛剛提出的一種知識模型領(lǐng)域的新方法,NodePiece,核心就是用較小的子實體大規(guī)模實體嵌入。
最終,該方案達(dá)到了榜單上亮眼的“小參數(shù)模型登頂”的結(jié)果。
值得注意的是,這個模型不是單純“炫技“或“刷榜”產(chǎn)物,參加完比賽的TripleRE可沒“失業(yè)“。
由于這一模型能夠更好地獲取實體表征,因此對知識圖譜領(lǐng)域內(nèi)亟待解決的一些問題,比如難以在抽取數(shù)據(jù)后實體文本進(jìn)行融合對齊,也提供新的思路和方法——
目前在360的不少應(yīng)用場景里都能看到它的身影。比如,360搜索就已經(jīng)應(yīng)用了該模型,提高了信息搜索的準(zhǔn)確度。
“白帽子軍團(tuán)”的Geek基因
這一模型背后有一個十人左右的算法團(tuán)隊,而此次的參賽陣容則主要是三人。
除去一位實習(xí)生,開頭提到的那位2019級剛剛畢業(yè)的碩士生叫做俞龍,主要負(fù)責(zé)打比賽。他碩士畢業(yè)于武漢大學(xué),同年校招加入360,負(fù)責(zé)右側(cè)實體推薦,知識抽取,垂直領(lǐng)域知識圖譜構(gòu)建等工作。
另一位“剛剛加入的新人”叫做劉煥勇,在比賽中則擔(dān)任技術(shù)評估和討論。他在2017年碩士畢業(yè)于北京語言大學(xué),曾任職于中國科學(xué)院軟件研究所,去年8月剛剛加入360,是算法專家和知識圖譜算法組負(fù)責(zé)人。
在談及TripleRE模型及其未來的計劃時,劉煥勇表現(xiàn)地非常謙虛,他認(rèn)為TripleRE模型當(dāng)前還是階段性成果,還有許多值得優(yōu)化的地方。
具體的,他們會繼續(xù)圍繞360內(nèi)部很多大規(guī)模知識圖譜構(gòu)建和應(yīng)用的場景做迭代開發(fā),進(jìn)一步推廣到企業(yè)圖譜、安全等其他業(yè)務(wù)里去。
不過,在被問到獲獎感受時,他一改畫風(fēng),露出了些許年輕人的本性,連連笑稱“激動人心”。
在360內(nèi)部看來,這是個振奮人心的成果,而外界除了圍觀點(diǎn)贊之外,也多少對360這個網(wǎng)安賽場上的“常勝將軍”拿下AI比賽的冠軍感到有些意外。
可在360 人工智能研究院(以下簡稱“360AI研究院”)院長鄧亞峰看來,“這本就是團(tuán)隊內(nèi)部長期的研發(fā)方向之一?!?/p>
為何?這就要說到360的三層沉淀。
第一,互聯(lián)網(wǎng)、IoT、安全等多項業(yè)務(wù)并行的360,有著超大規(guī)模的應(yīng)用場景和數(shù)據(jù)量。
比如,在互聯(lián)網(wǎng)領(lǐng)域,囊括360安全衛(wèi)士,瀏覽器,導(dǎo)航搜索等多個方面,涉及到的數(shù)據(jù)也是包含了圖文、視頻的復(fù)雜信息流,不間斷地實時更新。
在數(shù)字安全領(lǐng)域,360積累了2EB海量安全大數(shù)據(jù),其中包括總量180+億惡意網(wǎng)址、5萬億+存活網(wǎng)址、樣本文件300億+等。而隨著2019年在政企安全領(lǐng)域的深耕,安全數(shù)據(jù)在更加復(fù)雜的場景得到了不斷的驗證、訓(xùn)練和補(bǔ)充。
如此廣闊的業(yè)務(wù)覆蓋領(lǐng)域,也難怪劉煥勇在被問到初入公司最深刻的印象時,脫口而出的便是:
數(shù)據(jù)量特別大,尤其是安全的數(shù)據(jù),對我沖擊力很強(qiáng)。
業(yè)務(wù)范圍廣,加上多年運(yùn)營,提供以大量寶貴的數(shù)據(jù)積累,涉及了計算機(jī)視覺、語音語義對話、自然語言理解、機(jī)器人運(yùn)動、智能安全等主流的人工智能研究方向。
在數(shù)據(jù)即資源的AI時代,這些業(yè)務(wù)場景數(shù)據(jù)無疑是AI研發(fā)的絕佳的“練兵場”。
還是以「搜索」為例。
近些年,360一方面利用知識圖譜技術(shù),自動化抽取搜索查詢詞以及網(wǎng)頁內(nèi)容里面的實體、屬性以及關(guān)系,并構(gòu)建實體之間的關(guān)聯(lián),通過知識圖譜向量化技術(shù)幫助提升搜索和推薦效果;
另一方面,用自然語言預(yù)訓(xùn)練模型提升語義理解的能力,并應(yīng)用在搜索引擎的各個環(huán)節(jié),整體取得的提升近20%;此外,還通過圖文跨模態(tài)技術(shù)將圖像搜索的錯誤率降低到了原來的1/4。
這種跨模態(tài)技術(shù)也被應(yīng)用在了化學(xué)領(lǐng)域,360的化合物識別新方法CReSS,就是將核磁碳譜和分子結(jié)構(gòu)式分別基于深度學(xué)習(xí)做了表示,然后將兩個表示映射到一個空間中,再計算相似度:
此外,運(yùn)動引擎相關(guān)的AI技術(shù),比如定位、建圖、路徑規(guī)劃等也為掃地機(jī)器人等智能設(shè)備提供了技術(shù)支持。
而支撐如此大量且豐富的應(yīng)用落地的,除了本身的技術(shù)實力之外,也和360整體的極客精神有關(guān)。
這也是360的第二層沉淀。
拿「360 AI 研究院」來說,作為公司科研機(jī)構(gòu),衡量他們一年工作的KPI并非在部門盈利上有具體的金額要求,而是價值。
價值如何體現(xiàn)?
就是更看重研究能否對公司業(yè)務(wù)、產(chǎn)品特性有所推動,甚至能否用到公司業(yè)務(wù)以外的地方,比如和醫(yī)療、化學(xué)等傳統(tǒng)行業(yè)結(jié)合,在工業(yè)和民生上發(fā)揮實用價值。
對于定下這一價值指標(biāo)的大老板周鴻祎,院長鄧亞峰這樣調(diào)侃:
老周是一個很有意思的人,你跟他直接談錢他會生氣的。
這樣一種務(wù)實的調(diào)調(diào),也就直接反應(yīng)在了360對人才的“偏好”上。
比如在360 AI 研究院中,像奪冠工程師俞龍這樣校招“養(yǎng)成系工程師”以及本土工程師的占比很高。在今天這個學(xué)歷門檻愈來愈高的AI行業(yè)中,360依然認(rèn)為“英雄不問出處”,更偏愛能在特定場景創(chuàng)造性地解決問題的人才。
在談及TripleRE模型團(tuán)隊未來的優(yōu)化目標(biāo)和長期計劃時,兩位一線技術(shù)人員就一致表示:肯定會圍繞知識圖譜的具體應(yīng)用場景去做前沿探索。
團(tuán)隊有意招攬務(wù)實、具備內(nèi)驅(qū)特質(zhì)的成員。進(jìn)入團(tuán)隊后,再不斷“投喂“業(yè)務(wù)場景,與技術(shù)相結(jié)合,創(chuàng)造新的價值。而其落地的應(yīng)用創(chuàng)新,又將源源不斷地吸引新的人才。
這就形成了一個正循環(huán),技術(shù)和應(yīng)用雙創(chuàng)新的溫床。
360 AI 研究院的院長鄧亞峰就是一位去年加盟的“新人”。
他此前曾擔(dān)任百度深度學(xué)習(xí)研究院科學(xué)家,在人工智能、計算機(jī)視覺領(lǐng)域有著近20年的經(jīng)驗。
作為一位人工智能領(lǐng)域的專家,在加盟之前,他就聽聞過不少關(guān)于360的成就,360的ai團(tuán)隊論文和落地成果不斷,在行業(yè)內(nèi)部也是影響力頗深。
技術(shù)積累,便是360的第三層沉淀。
除了人工智能領(lǐng)域的成績之外,360更為外界所熟知的是“安全能力”在微軟、谷歌、蘋果、特斯拉等國際知名公司的白帽子致謝名單中,360安全團(tuán)隊因發(fā)現(xiàn)一系列關(guān)鍵漏洞,常年位列前排。
而在全球頂級的安全會議和比賽中,360也是屢屢獲獎。
2019年,號稱“全球白帽黑客奧斯卡”的The Pwnie Awards中,360成為了中國首個獲得最佳提權(quán)漏洞獎的企業(yè)。
而在2021年的The Pwnie Awards,360再次獲得兩項“最佳提權(quán)漏洞”提名,和一項“史詩級成就”提名。至此,“東半球最強(qiáng)白帽子軍團(tuán)”便成為360的代名詞。
△史詩級成就提名
2020年,360更是發(fā)現(xiàn)了某大國情報機(jī)構(gòu)為背景的APT攻擊組織對我國關(guān)鍵領(lǐng)域長達(dá)11年的潛伏。
至今為止,360一共捕獲了境外46個國家級黑客,監(jiān)測到3600多次攻擊,涉及2萬余個攻擊目標(biāo)。在網(wǎng)絡(luò)攻擊愈演愈烈的今天,360將這份安全能力投入到保護(hù)政企用戶中。
而在人工智能逐漸興起之時,360也早早進(jìn)行了探索。
早在2010年,360就基于人工智能算法,推出了自主研發(fā)的第三代殺毒引擎——QVM人工智能引擎,讓殺毒引擎具備“自學(xué)習(xí)、自進(jìn)化”能力,從根本上攻克了“不升級病毒庫就殺不了新病毒”的技術(shù)難題,在全球范圍內(nèi)屬于首創(chuàng)。
再回過頭來看360這次在知識圖譜領(lǐng)域的獲獎,其實就能發(fā)現(xiàn),這是技術(shù)傳承和積累之后,終于厚積薄發(fā)的一種必然。
周鴻祎帶隊,技術(shù)團(tuán)隊「上山下?!?/h1>
近幾年,人工智能、數(shù)字安全領(lǐng)域興起,人工智能與安全開啟互相賦能。
不管是讓AI變得更加安全,還是用AI把安全做得更好,這兩者的結(jié)合才剛剛開始。
能看出,360帶著老手優(yōu)勢進(jìn)入行業(yè),近期已經(jīng)開始有所成,從AI走入千行百業(yè)的行業(yè)維度看,360確實用種種動作證明自己繼承互聯(lián)網(wǎng)時代安全員角色,提供一份護(hù)航。
周鴻祎曾在2021年的世界互聯(lián)網(wǎng)大會上說:
科技企業(yè)只有承擔(dān)“上山下?!钡男率姑鼡?dān)當(dāng),突破技術(shù)障礙,賦能傳統(tǒng)企業(yè),擔(dān)當(dāng)國家戰(zhàn)略科技力量,才能獲得更大的發(fā)展空間,創(chuàng)造更大的價值。
所謂上山,即追求先進(jìn)的技術(shù),通過自主研發(fā)原創(chuàng)性的,創(chuàng)新性的新技術(shù),新模型,解決業(yè)內(nèi)普遍存在的難題。
所謂下海,是指“數(shù)字化藍(lán)?!?,在取得了技術(shù)成就之后,一定要讓其產(chǎn)生實打?qū)嵉穆涞貎r值,讓最前沿的技術(shù)能普惠到傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型,乃至普通群眾的身上。
結(jié)合AI行業(yè)發(fā)展勢頭看,老周這番豪言確不是一聲空響。
而在360內(nèi)部,這也并非只是一句口號。
公司內(nèi)部具體的“三年規(guī)劃”,或更加長期的使命愿景已經(jīng)開始落到實處。
比如說,為了推動人工智能大規(guī)模落地,360正在開展有關(guān)自動化機(jī)器人的多項研究,親看中不僅有掃地機(jī)器人這種實體的,也有語音語義對話的虛擬機(jī)器人。
比如說,在院長鄧亞峰所預(yù)測的“基于自監(jiān)督預(yù)訓(xùn)練的跨模態(tài)統(tǒng)一框架”的技術(shù)趨勢下,他們在視覺理解、自然語言處理、知識圖譜、語音語義對話、機(jī)器人運(yùn)動領(lǐng)域等涵蓋了人工智能主流應(yīng)用和深度學(xué)習(xí)核心技術(shù)領(lǐng)域不斷進(jìn)行新的探索,持續(xù)拓寬跨模態(tài)表示、自監(jiān)督預(yù)訓(xùn)練等研究的技術(shù)邊界,并落地在互聯(lián)網(wǎng)信息分發(fā)、智慧生活以及數(shù)字安全等業(yè)務(wù)上。
對于360的技術(shù)人員來說,他們對“上山下?!钡睦斫夥浅:唵危壕褪遣粌H要研發(fā)業(yè)界一流的技術(shù),還要落地產(chǎn)業(yè)價值。
跳出公司本身,從更宏觀視角來看數(shù)字安全領(lǐng)域頭部大廠“上山下?!?,這并不止為AI賦能百業(yè),尤其給關(guān)鍵國民領(lǐng)域數(shù)字化保駕護(hù)航,其獨(dú)立自主的開發(fā)流程和創(chuàng)新的勇氣,也為AI產(chǎn)業(yè)提供了更多技術(shù)延伸和發(fā)展范式。
360,已經(jīng)在通往未來的路上了。
- 有道智能學(xué)習(xí)燈發(fā)布,通過“桌面學(xué)習(xí)分析引擎”實現(xiàn)全球最快指尖查詞2022-04-08
- 科學(xué)證明:狗勾真的懂你有多累,聽到聲音0.25秒后就知道你是誰,對人比對狗更親近2022-04-14
- 在M1芯片上跑原生Linux:編譯速度比macOS還快40%2022-04-05
- 小學(xué)生們在B站講算法,網(wǎng)友:我只會阿巴阿巴2022-03-28