清華孵化、張鈸加盟的這家公司,現(xiàn)在把“第三代人工智能”落地了
“AI落地,不是僅僅靠大數(shù)據(jù)、大算力就能解決的問題?!?/p>
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
一家清華孵化的公司,最近“口出狂言”了。
回顧2020的AI大事件,燒了微軟10000張GPU的GPT-3必定榜上有名。
這也讓人們不禁感嘆:這年頭,AI簡直就是“暴力美學(xué)”。
但就在行業(yè)內(nèi)的大多數(shù)仍在大數(shù)據(jù)、大算力這個(gè)方向上狂奔的時(shí)候,這家公司另辟蹊徑找尋不一樣的AI落地之路:
AI落地,不是僅僅靠大數(shù)據(jù)、大算力就能解決的問題。
AI產(chǎn)業(yè)落地速度不及預(yù)期,是AI算法本身的問題。
是時(shí)候從AI自身底層能力增強(qiáng)出發(fā),打開數(shù)據(jù)和算力之外的全新發(fā)展維度了。
還不只是說說而已,最近,在“2020第三代人工智能產(chǎn)業(yè)論壇暨瑞萊智慧RealAI戰(zhàn)略發(fā)布會(huì)”上,他們還真就將清華實(shí)驗(yàn)室里最前沿的第三代人工智能技術(shù)體系搬了出來,商用化落地了:
- 首個(gè)編譯級隱私保護(hù)機(jī)器學(xué)習(xí)平臺(tái)RealSecure,讓隱私保護(hù)學(xué)習(xí)從“雕版印刷”走向“活字印刷”
- 首個(gè)企業(yè)級人工智能安全平臺(tái)RealSafe,相當(dāng)于AI算法的“殺毒軟件”
還有可解釋機(jī)器學(xué)習(xí)建模平臺(tái)、拿下了世界冠軍的deepfake“殺手”……
張鈸院士還在親自給這家公司的產(chǎn)品路線定下了關(guān)鍵詞:發(fā)展安全、可信、可靠和可擴(kuò)展的AI技術(shù)。
公司的名字,叫RealAI,孵化自清華人工智能研究院。
所以,RealAI基于第三代人工智能技術(shù)打造的產(chǎn)品,究竟有何不同?
AI發(fā)展的新維度,又具體指的是什么?
一起來看個(gè)究竟。
RealSecure:首個(gè)編譯級隱私保護(hù)機(jī)器學(xué)習(xí)平臺(tái)
在AI技術(shù)越來越強(qiáng)調(diào)落地產(chǎn)業(yè)的當(dāng)下,數(shù)據(jù)作為一種新型生產(chǎn)要素,是各行各業(yè)數(shù)字化、智能化轉(zhuǎn)型中繞不過去的基礎(chǔ)一環(huán)。
那么,問題就來了:
現(xiàn)實(shí)的情況就是,在很多高價(jià)值商業(yè)場景,如金融、醫(yī)療、交通場景中,有價(jià)值的數(shù)據(jù)常常分散在不同的機(jī)構(gòu)和用戶手中,形成了大大小小的數(shù)據(jù)孤島,明顯制約了AI能力的提升。
但想要數(shù)據(jù)出庫,打破數(shù)據(jù)孤島,卻又面臨著一個(gè)更為棘手的難題:隱私安全如何保障?
分布式隱私保護(hù)機(jī)器學(xué)習(xí),就是為應(yīng)對這一問題而生的一種新興解決方案,它能使多方合作完成學(xué)習(xí)目標(biāo),但又不需要各方傳輸原始數(shù)據(jù),可以做到“數(shù)據(jù)可用不可見”。
這并不是一個(gè)全新的概念。事實(shí)上,早在2016年,谷歌就在這個(gè)技術(shù)方向上提出了聯(lián)邦學(xué)習(xí)的概念。但時(shí)至今日,相關(guān)技術(shù)的商業(yè)化應(yīng)用仍然面臨著三大痛點(diǎn):
1、性能差、速度慢
由于隱私保護(hù)機(jī)器學(xué)習(xí)需要多方配合執(zhí)行,中間的通信就會(huì)造成很大的性能損失。
另外,多方需要以加密形式完成參數(shù)交換,加密會(huì)帶來高達(dá)百倍的性能損失。
同時(shí),由于超參數(shù)設(shè)置等與現(xiàn)有的機(jī)器學(xué)習(xí)生態(tài)存在差距,隱私保護(hù)機(jī)器學(xué)習(xí)的速度慢了近千倍。本地只需花費(fèi)幾十秒的模型訓(xùn)練,在隱私保護(hù)下卻需要數(shù)小時(shí);特征篩選、調(diào)參、驗(yàn)證又需要幾十上百次重復(fù)運(yùn)行……
2、不兼容于現(xiàn)有機(jī)器學(xué)習(xí)生態(tài),改動(dòng)投入大
隱私保護(hù)機(jī)器學(xué)習(xí)不同于傳統(tǒng)機(jī)器學(xué)習(xí),是分布式、密碼學(xué)、人工智能三個(gè)領(lǐng)域的結(jié)合。
要想投入商用,各家機(jī)構(gòu)需要組織團(tuán)隊(duì)學(xué)習(xí)分布式、學(xué)習(xí)密碼學(xué);學(xué)習(xí)使用新算法、新框架,并在新平臺(tái)下執(zhí)行程序。
這相當(dāng)于拋棄了長期以來人工智能團(tuán)隊(duì)積累下的經(jīng)驗(yàn)和方法論,重建隱私保護(hù)機(jī)器學(xué)習(xí)團(tuán)隊(duì),或堆人力將原有機(jī)器學(xué)習(xí)框架改寫成隱私保護(hù)機(jī)器學(xué)習(xí)框架。
投入與代價(jià)之大,正是隱私保護(hù)機(jī)器學(xué)習(xí)難以商業(yè)化落地的重要原因之一。
3、無法自證安全性
隱私保護(hù)最核心也最本質(zhì)的問題是保障數(shù)據(jù)的安全,這就要求平臺(tái)自身的安全性也應(yīng)該是可被檢驗(yàn)的。
但當(dāng)前的隱私保護(hù)機(jī)器學(xué)習(xí)模式是純黑盒的,安全性只能靠專家審計(jì)——由于平臺(tái)代碼量巨大,這對于商業(yè)化應(yīng)用其實(shí)是不現(xiàn)實(shí)的。
且實(shí)際生產(chǎn)環(huán)境中,是否真的按照審計(jì)時(shí)提供的代碼邏輯執(zhí)行,同樣會(huì)受到來自客戶的質(zhì)疑。
而RealAI這次推出的隱私保護(hù)機(jī)器學(xué)習(xí)平臺(tái)RealSecure?(RSC),就從底層技術(shù)創(chuàng)新出發(fā),針對這三個(gè)問題來了個(gè)逐一擊破。
據(jù)RealAI介紹,RealSecure是業(yè)內(nèi)首個(gè)編譯級隱私保護(hù)機(jī)器學(xué)習(xí)平臺(tái),其研發(fā)結(jié)合了人工智能、密碼學(xué)、分布式系統(tǒng)三大領(lǐng)域的技術(shù)突破。其核心模塊隱私保護(hù)AI編譯器能夠自動(dòng)將普通機(jī)器學(xué)習(xí)算法程序轉(zhuǎn)換為分布式的隱私安全程序。
密碼學(xué)+AI算法雙重優(yōu)化,性能提升約40倍
借助密碼學(xué)優(yōu)化、AI算法優(yōu)化等改進(jìn)實(shí)現(xiàn),RealSecure在性能上實(shí)現(xiàn)量級式飛躍。
在某實(shí)際風(fēng)控場景中,RealSecure模型訓(xùn)練相比某主流國產(chǎn)開源框架性能提升40倍,耗時(shí)從4小時(shí)40分鐘縮減至6分鐘??紤]到特征工程與自動(dòng)調(diào)參環(huán)境,隱私保護(hù)下完成全流程建模,總耗時(shí)實(shí)現(xiàn)從日級別到小時(shí)級別的飛躍。
繼承機(jī)器學(xué)習(xí)生態(tài),實(shí)現(xiàn)“活字印刷”級隱私保護(hù)機(jī)器學(xué)習(xí)
而所謂的兼容主流機(jī)器學(xué)習(xí)生態(tài),可以簡單理解為,通過RSC,已有的成熟機(jī)器學(xué)習(xí)算法無需改寫,只要調(diào)用函數(shù),在AI編譯器里重新編譯一遍,就能自動(dòng)完成從普通機(jī)器學(xué)習(xí)算法到隱私保護(hù)機(jī)器學(xué)習(xí)算法的轉(zhuǎn)變。
這樣的功能基于算子層技術(shù)實(shí)現(xiàn)。
具體而言,就是將隱私保護(hù)機(jī)器學(xué)習(xí)算法公式表達(dá)向更細(xì)顆粒度解構(gòu),解構(gòu)成“算子”,通過算子的靈活組合來適配機(jī)器學(xué)習(xí)算法公式,擺脫重復(fù)改寫的繁瑣工作。
RealAI CEO田天打了一個(gè)比方:
如果說此前將機(jī)器學(xué)習(xí)算法改寫成隱私保護(hù)機(jī)器學(xué)習(xí)算法的方式,是“雕版印刷”,RSC實(shí)現(xiàn)的就是“活字印刷”?!八阕印本褪腔钭钟∷⒗锏囊粋€(gè)個(gè)活字。
也就是說,RSC能完成現(xiàn)有機(jī)器學(xué)習(xí)算法平臺(tái)框架與隱私保護(hù)機(jī)器學(xué)習(xí)平臺(tái)框架的統(tǒng)一。
另外,RSC還對外提供了jupyter建模入口,讓數(shù)據(jù)科學(xué)家能夠以最熟悉的方式使用隱私保護(hù)機(jī)器學(xué)習(xí),進(jìn)一步提升了易用性。
安全透明,“所見即所信”
在安全性方面,RSC以首創(chuàng)數(shù)據(jù)流圖的形式,將所有中間計(jì)算過程、內(nèi)部算子執(zhí)行完全公開,底層執(zhí)行的計(jì)算同樣是可審計(jì)的。
這就保證了兩點(diǎn):
- 算法協(xié)議是安全的,所見即所信;
- 底層的執(zhí)行與算法協(xié)議是一致的。
RealSafe:AI算法的“殺毒軟件”
數(shù)據(jù)隱私安全之外,針對算法的可靠性,RealAI這一次也全新升級了首個(gè)企業(yè)級人工智能安全平臺(tái)RealSafe。
網(wǎng)絡(luò)安全時(shí)代,網(wǎng)絡(luò)攻擊的大規(guī)模滲透催生出殺毒軟件,來發(fā)現(xiàn)計(jì)算機(jī)潛在病毒威脅,提供一鍵系統(tǒng)優(yōu)化、清理垃圾跟漏洞修復(fù)等功能。
而現(xiàn)在,越來越深入到人們?nèi)粘I钪械腁I算法們,也正在面臨類似的安全風(fēng)險(xiǎn)。
以人臉識別為例,去年,RealAI就通過一副印有特殊紋理圖案的對抗攻擊眼鏡,成功“刷臉”解鎖了他人的手機(jī)。
而量子位此前也曾報(bào)道過,有研究人員采用模型后門攻擊技術(shù),僅用一條膠帶就把特斯拉忽悠瘸了,把35看成85,導(dǎo)致了異常加速。
是不是有些細(xì)思極恐了?
那么,有沒有一個(gè)AI平臺(tái),能一鍵檢測算法漏洞,并給出防護(hù)建議呢?
RealSafe做的,就是填補(bǔ)這么一個(gè)空位,一方面能夠?qū)I模型的安全性進(jìn)行全面檢測,另一方面能提供多種增強(qiáng)安全性的方案。
在模型安全性檢測方面,在全新升級之后,除了能針對對抗樣本攻擊,給出安全評分以及將檢測場景從人臉識別拓展到了目標(biāo)檢測、圖像分類外,RealSafe 2.0還增加了模型后門檢測功能,能夠在不獲取模型結(jié)構(gòu)及參數(shù)等具體信息的情況下,分辨出僅在特定輸入情況才會(huì)識別出錯(cuò)平時(shí)表現(xiàn)正常的被植入后門的模型。
并且,整個(gè)檢測過程全界面化操作,用戶無需具備專業(yè)的模型安全算法知識和編程開發(fā)經(jīng)驗(yàn)。
而在模型安全性提升方面,RealSafe平臺(tái)提供包括對抗樣本去噪、對抗樣本檢測、對抗訓(xùn)練在內(nèi)的多種防御解決方案,并可以自動(dòng)化評估每種方案針對被測模型的安全性提升效果。
值得一提的是,受益于研發(fā)團(tuán)隊(duì)豐富的AI對抗攻防經(jīng)驗(yàn),RealSafe集成多項(xiàng)國際領(lǐng)先的AI對抗攻防算法,榮獲多項(xiàng)世界AI安全大賽冠軍,其中部分已開源成果作為代表性方法已被業(yè)內(nèi)廣泛引用。
目前,RealSafe 已在工信部重大建設(shè)項(xiàng)目以及某電網(wǎng)公司落地應(yīng)用。
“AI落地,不是僅靠大數(shù)據(jù)、大算力就能解決的問題”
事實(shí)上,從RealAI埋頭苦干兩年,打造的一系列產(chǎn)品可以看出,這家從清華園里走出來的公司,正在圍繞算法可靠、數(shù)據(jù)安全和應(yīng)用可控三大方向,構(gòu)建AI基礎(chǔ)設(shè)施能力。
而這,也正是張鈸院士今年以來反復(fù)強(qiáng)調(diào)的第三代人工智能之路。
在紀(jì)念《中國科學(xué)》創(chuàng)刊70周年的專刊中,張鈸院士作為通訊作者發(fā)表了文章《邁向第三代人工智能》,指出是時(shí)候把第一代的知識驅(qū)動(dòng)和第二代的數(shù)據(jù)驅(qū)動(dòng)結(jié)合起來,通過利用知識、數(shù)據(jù)、算法和算力等4個(gè)要素,構(gòu)造更強(qiáng)大的人工智能。
而清華博士、RealAI CEO田天和他的團(tuán)隊(duì),則站在產(chǎn)業(yè)的角度,解讀了這種“另辟蹊徑”的必要性。
數(shù)據(jù)和算力,解決了AI的溫飽問題,作為“外部驅(qū)動(dòng)力”,驅(qū)動(dòng)了AI產(chǎn)業(yè)“第一增長曲線”的出現(xiàn)。
但隨著AI賦能傳統(tǒng)行業(yè)的逐步深入,這樣的增長模式瓶頸已然顯現(xiàn)。
田天指出,傳統(tǒng)行業(yè)由于場景復(fù)雜和隱私安全等因素,無法完全依賴行業(yè)大數(shù)據(jù)提供足夠信息,同時(shí)新一輪的算力躍進(jìn)還未到來,這就導(dǎo)致AI在許多小樣本的高價(jià)值場景,如金融、工業(yè)、醫(yī)療等領(lǐng)域中,落地速度不如預(yù)期。
因此,想要進(jìn)一步推進(jìn)AI發(fā)展,在數(shù)據(jù)平臺(tái)和算力平臺(tái)之外,要從AI自身底層能力增強(qiáng)出發(fā),打造AI原生基礎(chǔ)設(shè)施,發(fā)展出AI的“內(nèi)生驅(qū)動(dòng)力”,從而在相同的數(shù)據(jù)、算力條件下,更好地支撐AI賦能產(chǎn)業(yè),打開AI產(chǎn)業(yè)化全新的市場空間。
而第三代人工智能技術(shù)體系,包括貝葉斯深度學(xué)習(xí)、可解釋機(jī)器學(xué)習(xí)、AI安全對抗攻防、新一代知識圖譜、隱私保護(hù)機(jī)器學(xué)習(xí)等技術(shù),恰恰為打造AI原生基礎(chǔ)設(shè)施提供了支撐。
也就是說,從產(chǎn)業(yè)化的需求來看,產(chǎn)業(yè)落地本身就是需要第三代人工智能來開創(chuàng)新局面的。
那么,RealAI會(huì)在這個(gè)過程中扮演一個(gè)什么樣的角色呢?
田天給出的答案很“底層”:打造完整的AI原生基礎(chǔ)設(shè)施體系,使得所有場景不論大小、不論價(jià)值高低,均能在AI發(fā)展過程中受益。
而這,或許也就是RealAI與其他AI公司不同之處:通過與清華大學(xué)的緊密合作,能夠在技術(shù)上堅(jiān)持長期主義,立志在工業(yè)界推動(dòng)底層技術(shù)的變革。
田天說:
在應(yīng)用中碰到技術(shù)難題時(shí),我們不是見一個(gè)解決一個(gè),修修補(bǔ)補(bǔ),而是發(fā)現(xiàn)一個(gè)問題就看出一類問題,并通過底層技術(shù)框架、平臺(tái)的突破,助力產(chǎn)業(yè)的升級。
底層技術(shù)是我們最領(lǐng)先的一個(gè)優(yōu)勢,未來會(huì)繼續(xù)保持下去。
— 完 —