鵝廠AI科學家,偷偷把無人摩托寫進了年終總結
3D虛擬人、兩輪機器人、智能顯微鏡……
整理自 騰訊AI Lab
量子位 報道 | 公眾號 QbitAI
這一整年,騰訊AI Lab都搞出了些什么黑科技?
通用人工智能、AI+行業(yè)、前沿研究,是騰訊AI Lab給出的三個關鍵詞。
除了線上的3D虛擬偶像“艾靈”、王者級AI對手“絕悟”,還有線下的“走梅花樁”機器狗、自平衡兩輪機器人……
而在醫(yī)療、農(nóng)業(yè)、游戲、藥物……等行業(yè)上,騰訊AI Lab也都實現(xiàn)了AI+應用落地。
當然,在ECCV、CVPR等AI頂會上,同樣能看見騰訊AI Lab的不少研究成果。
而通用人工智能(AGI),則是騰訊AI Lab整年里最核心的目標。
雙軌并行,探索AGI的無限可能
邁向通用人工智能,創(chuàng)造能感知、理解真實世界,并能有效執(zhí)行各種不同任務的 AI 系統(tǒng),是騰訊 AI Lab 成立伊始,就確定的核心長遠目標。
為了達成這一目標,除了軟件突破、硬件迭代創(chuàng)新,還需要軟硬件的有效整合與集成。
2020 年,騰訊 AI Lab 和 Robotics X 實驗室主任張正友博士,共同提出了一個全新的概念:虛實集成世界?(Integrated Physical-Digital World,IPhD)。
它將當前在AI、虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)、混合現(xiàn)實(MR)領域的前景展望、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等思想進行了融合,并呈現(xiàn)出一個交互進化的軟件與硬件、虛擬與現(xiàn)實、人與AI和機器人實現(xiàn)AGI的愿景。
目前,騰訊 AI Lab 的所有研究,都可以納入虛實集成世界的整體框架之下。
在虛實集成世界框架下,現(xiàn)實虛擬化、虛擬真實化、全息互聯(lián)網(wǎng)、智能執(zhí)行體四大發(fā)展方向,將成為騰訊 AI Lab 和 Robotics X 實驗室未來發(fā)展的重要指導。
而虛擬人和機器人,是騰訊 AI Lab 和 Robotics X 實驗室在 2020 年取得的兩項重大突破。
它們是虛擬集成世界框架下的軟、硬件智能執(zhí)行體,同時涵蓋其它的一些核心技術,如數(shù)字版本人臉建模,就是其中一項將現(xiàn)實虛擬化的成果。
虛擬人:人類在虛擬世界的化身
虛擬人是一類多模態(tài)技術,涉及計算機視覺、語音識別/生成、自然語言理解/生成等多種技術。
根據(jù)來源的不同,虛擬人大致可以分為兩類:人類的數(shù)字化模型和虛擬世界原生虛擬人。
2020 年 10 月,騰訊 AI Lab 提出了一種基于 RGB-D 自拍視頻創(chuàng)建高擬真度 3D 虛擬人的方法。
這項技術的核心,是一項涉及 3D 人臉 Mesh 估計、高清紋理貼圖、法線細節(jié)貼圖的合成算法,實現(xiàn)了成本極低但速度很快的 3D 人臉合成:
手機拍攝視頻輸入后,只需要30秒處理時間。
基于人類建模的虛擬人,具有豐富的應用場景。
例如,作為人類在虛擬世界中的化身(avatar),讓用戶也能參與虛擬世界的各種互動。
這項技術還能用于數(shù)字祭奠(紀念已逝之人),或是讓人類演員在動畫、游戲中扮演角色(比如基努·李維斯在《賽博朋克2077》中扮演的 Johnny Sliverhand)等。
在創(chuàng)造虛擬世界原生虛擬人方面,騰訊 AI Lab 開發(fā)的多模態(tài)虛擬人「 AI 艾靈」,已于 2020 年 5 月與公眾見面,并于兒童節(jié)當天,與青年演員歌手王俊凱、和雄安孩子,共同演繹了新歌《點亮》。
AI 艾靈,是騰訊 AI Lab 在視覺、語音、自然語言、人機交互等多模態(tài)方面的研究結晶。
它采用的 DurIAN 語音合成框架,融合了騰訊 AI Lab 在語音領域多年深耕的經(jīng)驗。
這項框架,不僅能實現(xiàn)精準且穩(wěn)健的語音合成,而且還能生成與合成語音同步的高質量人臉表情。
△ DurIAN 工作過程示意圖
虛擬世界原生虛擬人,在虛擬偶像、虛擬助理、在線教育、數(shù)字內(nèi)容生成等領域有著廣泛的應用前景。
AI 艾靈,就是一個虛擬主播兼虛擬歌手,而且還是創(chuàng)作型歌手。其采用的 SongNet 歌詞創(chuàng)作模型,可以根據(jù)任意格式和模板,生成相契合的文本,唱出自己寫的歌。
虛擬人,是虛實集成世界的重要組成部分。
為了實現(xiàn)虛實集成世界的長遠目標,還需要高速實時的物聯(lián)網(wǎng)、高精度的真實世界模型、更有趣有用的虛擬世界、更安全高效的自動化機器。
移動機器人:「AI+機器人」新進展
騰訊 AI Lab ,一直在與騰訊 Robotics X 機器人實驗室合作,共同推進「AI+機器人」的發(fā)展。
2020 年 11 月,兩項在移動機器人領域的新進展問世:讓四足機器人 Jamoca 學會了走梅花樁、還提出了讓輪式機器人自主平衡的新方法。
為了讓 Jamoca 具備走梅花樁的能力,騰訊 Robotics X 實驗室,基于自研的機器人控制技術,為 Jamoca 打造了一個能應對復雜環(huán)境的智能大腦。
這個大腦,讓 Jamoca 能行走、小跑和跳躍,且能自主定位和避障。
這是騰訊 Robotics X 實驗室在機器人感知、運動規(guī)劃與控制等核心技術的一次展示,體現(xiàn)出騰訊 Robotics X 實驗室整機系統(tǒng)設計、搭建的重要能力。
此外,騰訊 Robotics X 實驗室還研究了能自行保持平衡的兩輪式移動機器人,這是實驗室的首個整機自研機器人。
在傳統(tǒng)輪式移動機器人的基礎上,研究人員增加了動量輪、及電機驅動系統(tǒng),使得機器人可以在靜止及行進狀態(tài)下,均保持平衡不倒。
基于這個移動機器人平臺的兩篇研究論文,均被機器人行業(yè)國際頂會 IROS 2020 接收為 Oral 展示論文。
這一項目,可以視作騰訊在機器人機械設計、整機系統(tǒng)設計,以及搭建方向能力上的一大里程碑。
移動機器人,是虛實集成世界框架中「智能執(zhí)行體」的核心組成部分之一,也是實現(xiàn)通用人工智能終極目標的重要途徑。
之后,除了讓移動機器人更好地理解周圍的環(huán)境、及時采取合理動作,騰訊 Robotics X 實驗室
、和騰訊 AI Lab ,還會繼續(xù)在多模態(tài) AI 能力與機器人結合領域探索,創(chuàng)造出能密切參與人類生產(chǎn)生活的智能機器人。
AI+行業(yè),讓應用真正落地
「科技向善」,是騰訊的核心使命愿景,作為騰訊大家庭的一員,騰訊 AI Lab 也同樣秉承著這一使命。
騰訊 AI Lab ,深知 AI 變革世界的潛力。因此,在積極探索最前沿的 AI 技術時,他們也致力于將技術轉化為應用,更好地服務用戶、造福社會。
總體而言,這些應用,可歸納為AI+醫(yī)療、AI+醫(yī)藥、AI+游戲、AI+農(nóng)業(yè)、AI+內(nèi)容幾大方向。
例如,使用 AI 助力抗擊新冠疫情的實際應用、更經(jīng)濟高效的藥物發(fā)現(xiàn)平臺。
又比如,智慧農(nóng)業(yè)的進一步發(fā)展、機器翻譯服務的再度升級、在復雜游戲場景中攻克難題……
一起來看看。
AI+醫(yī)療:用AI抗擊疫情和輔助病理醫(yī)生
「AI+醫(yī)療」,是騰訊 AI Lab 的核心研究方向之一,這是一個有望造福全人類的研究課題。
去年,新冠疫情肆虐全球,AI 技術在醫(yī)療領域,也擁有了更多的應用前景。
2020 年 7 月,鐘南山院士團隊與騰訊 AI Lab ,利用AI,做出了一款預測COVID-19患者病情發(fā)展至危重概率的模型。
這個模型,可分別預測5天、10天和30天內(nèi)病情危重的概率,有助于合理地為病人進行早期分診,相關研究發(fā)表于國際頂級期刊 Nature 子刊 Nature Communications。
騰訊 AI Lab 在第一時間對代碼進行了開源,并構建了一個免費的在線查詢服務平臺,為抗擊新冠疫情貢獻了自己的力量。
△ 新冠重癥患者早期分期生存模型計算工具
在之前的4月份,騰訊 AI Lab 聯(lián)合研發(fā)的智能顯微鏡,獲得了 NMPA 注冊證,成為國內(nèi)首個獲準進入臨床應用的智能顯微鏡產(chǎn)品。
這款智能顯微鏡產(chǎn)品,集成了目前病理分析與診斷方面的最新技術,針對病理醫(yī)生工作流程和習慣,進行了多次產(chǎn)品迭代。
測試表明,這款智能顯微鏡能有效提升病理醫(yī)生的工作效率、病理分析精確度和一致性,有望緩解醫(yī)院(尤其是基層醫(yī)院)病理醫(yī)生數(shù)量短缺、經(jīng)驗不足的問題,是精準醫(yī)療從前沿研究走向落地探索的一個良好例證。
11月25日,在中華醫(yī)學會病理分會細胞學組專家們的見證下,安必平、騰訊 AI Lab 以及騰訊覓影,正式啟動了「科技部醫(yī)療影像國家人工智能開放創(chuàng)新平臺——宮頸液基細胞學AI數(shù)據(jù)庫建設」項目。
這一項目,助力宮頸液基細胞學數(shù)據(jù)庫的建設、標準規(guī)范的制定,也將推進病理科數(shù)字化、病理大數(shù)據(jù)、人工智能應用等多個方向的探索。
AI+藥物:首個AI驅動的藥物發(fā)現(xiàn)平臺問世
2020年7月,騰訊 AI Lab 重磅發(fā)布了首個 AI 驅動的藥物發(fā)現(xiàn)平臺「云深智藥」。
云深智藥,整合了騰訊 AI Lab和騰訊云在前沿算法、優(yōu)化數(shù)據(jù)庫以及計算資源上的優(yōu)勢,提供覆蓋臨床前新藥發(fā)現(xiàn)流程的五大模塊:
蛋白質結構預測、虛擬篩選、分子設計/優(yōu)化、 ADMET 屬性預測及合成路線規(guī)劃……
在蛋白質結構預測方面,云深智藥采用了騰訊 AI Lab 自研的冠軍級蛋白質結構預測技術,涵蓋兩項關鍵技術突破:基于自監(jiān)督學習的蛋白質折疊方法、基于深度學習的可迭代方法。
半年內(nèi),這項技術在全球唯一的蛋白質結構預測自動評估平臺CAMEO上,奪得了五次月度冠軍,領先眾多國際知名研究團隊。
11月,騰訊AI Lab在國際頂級期刊Nature子刊《Nature Communications》上發(fā)表了一項研究,介紹了采用「從頭折疊」的蛋白質結構預測方法。
這項研究,幫助解析了 SRD5A2 晶體結構的成果,揭示了治療脫發(fā)、和前列腺增生的藥物分子「非那雄胺」對于該酶的抑制機制。
在虛擬篩選方面,「云深智藥」平臺的虛擬篩選模塊,首次將元學習和深度神經(jīng)網(wǎng)絡算法用于LBDD(基于配體的藥物設計)任務。
通過遷移學習,模塊將從其他靶點上面學習到的知識(如分子局部結構對靶點結合強度的影響),應用到目標靶點上,以提高模型的預測精度。
目前,這一算法在數(shù)千個實驗數(shù)據(jù)集上預測精度(預測活性與實驗測量活性的相關性)的中位數(shù),從目前最高記錄的0.36提升至0.42。
而篩選可用模型的百分比,則從56%提升到60%,突破了業(yè)界標準。
在分子生成方面,云深智藥的分子生成算法,利用AI學習現(xiàn)有數(shù)據(jù)庫中小分子的各種結構信息和靶點關系,進而學習分子空間。
現(xiàn)有模型,目前支持對 319 個Kinase和 52 個 GPC R靶點進行分子生成。
在分子生成這一過程中,云深智藥的算法,能夠針對不同靶點在分子空間中的映射,完成針對性采樣,從而生成可能的靶點活性分子。
而在 ADMET 屬性預測方面,云深平臺也有出色表現(xiàn)。
目前,藥物小分子 ADMET 屬性預測模塊,已在多個數(shù)據(jù)集上優(yōu)于學術界現(xiàn)有最好模型 3%~11%;在合作伙伴的反饋中,平臺的自研算法精度超過現(xiàn)有商業(yè)軟件 6%~37% 不等。
此外,云深智藥還采用了注意力等機制,來可視化分子中的子結構對結果的影響,提供模型的可解釋性。
當然,平臺也提供本地版本等靈活的部署形式,保障用戶的數(shù)據(jù)安全。
騰訊 AI Lab 也會繼續(xù)推進基于 AI 的藥物發(fā)現(xiàn)技術,為云深智藥平臺提供更多、范圍更廣的功能。
此外,騰訊 AI Lab 還開源了一個大規(guī)模自監(jiān)督分子圖預訓練模型GROVER。
GROVER,是業(yè)界首個開源的、基于深度圖神經(jīng)網(wǎng)絡的、圖數(shù)據(jù)的大規(guī)模預訓練模型。
研究人員可以快速將其作為基礎組件,應用到需要對小分子進行編碼的藥物研發(fā)相關研究中,助力藥物研發(fā)相關應用,例如分子屬性預測、虛擬篩選等任務。
AI+農(nóng)業(yè):iGrow 再獲豐收,農(nóng)業(yè)仿真落地現(xiàn)實世界
農(nóng)業(yè),是事關人類生存的基礎性行業(yè)。
2020 年,是騰訊 AI Lab 的「AI+農(nóng)業(yè)」方向的又一個「豐收年」。
6 月份,騰訊 AI Lab 與世界著名農(nóng)業(yè)學府荷蘭瓦赫寧根大學(WUR)聯(lián)辦的「第二屆國際智慧溫室種植挑戰(zhàn)賽」落幕。
復賽的五支隊伍,挑戰(zhàn)用 AI 和 IoT 物聯(lián)網(wǎng)等前沿技術優(yōu)化種植決策,并遠程自動控制溫室種植小番茄。
復賽隊中,五個 AI 的收成,均超過有20年經(jīng)驗的農(nóng)業(yè)種植專家組。
其中,冠軍組 Automatoes 得到滿分,實現(xiàn)畝產(chǎn)資源消耗減少16%,凈利增加121%,充分展現(xiàn)了農(nóng)業(yè)智能決策與溫室自動控制的技術價值,和為農(nóng)民減負的未來潛力。
此外,騰訊 AI Lab 還攜手騰訊TEG架構平臺部,借助在第一屆比賽中自研的 AI 算法、技術經(jīng)驗,打造的云原生「騰訊AIoT智慧種植方案 iGrow」,在 2020 年已落地中國農(nóng)業(yè)大省遼寧。
第一期番茄試點迎來「小豐收」,每畝每季凈利潤增加數(shù)千元,iGrow 的商業(yè)價值得到了初步驗證。
△iGrow方案在遼寧溫室試點
11 月 27 日,騰訊云(莘縣)農(nóng)業(yè)數(shù)字經(jīng)濟產(chǎn)業(yè)基地開園,這是騰訊集團在全國布局的首個農(nóng)業(yè)數(shù)字經(jīng)濟產(chǎn)業(yè)基地。
在新的一年里,騰訊 AI Lab 研發(fā)的 iGrow 解決方案,將在該基地得到進一步研究和應用。
繼化肥、農(nóng)藥和大規(guī)模機械化種植之后,AI 和物聯(lián)網(wǎng),有望讓農(nóng)業(yè)更進一步擺脫靠天吃飯的傳統(tǒng)模式。
通過分析和預測天氣條件、溫濕度、二氧化碳濃度變化動態(tài)調(diào)整種植策略,可讓產(chǎn)量得到最優(yōu)的提升。
未來,如果再配合自動化溫室和垂直農(nóng)場等新型農(nóng)業(yè)技術,農(nóng)業(yè)的生產(chǎn)效率可望實現(xiàn)質的飛躍,甚至可推廣到原本不適宜農(nóng)業(yè)生產(chǎn)的地區(qū),助力消除人類社會仍未解決的饑餓問題。
AI+游戲:游戲仿真世界,「絕悟」AI 策略協(xié)作能力再升級
「AI+游戲」,也是騰訊 AI Lab 深耕的研究領域。
基于圍棋、《王者榮耀》、《毀滅戰(zhàn)士》、《星際爭霸》等游戲平臺,騰訊 AI Lab 已經(jīng)研發(fā)許多有價值的前沿技術,并創(chuàng)造了中國國家隊圍棋訓練專用 AI 等真實應用。
此外,基于游戲環(huán)境開發(fā)的深度強化學習方法,在機器人等領域也有重要應用前景。
4 月份,騰訊 AI Lab 開發(fā)的圍棋 AI「絕藝」,與中國國家圍棋隊續(xù)約三年。
作為「教練」,絕藝能從對弈、復盤、拆解、分析等多個維度,為中國圍棋事業(yè)的發(fā)展提供助力,與人類頂尖棋手一起探索圍棋的更多可能。
立足于國民手游《王者榮耀》,騰訊 AI Lab 開發(fā)出了策略協(xié)作型 AI 「絕悟」。
2020年,通過開放挑戰(zhàn)和職業(yè)競技,騰訊 AI Lab 在復雜環(huán)境決策、多智能體合作與博弈以及策略預測與規(guī)劃方面的成果得到了展現(xiàn)。
2020年5月1~4日,「絕悟」首次向玩家大規(guī)模開放。
在此期間,從職業(yè)玩家、到游戲主播、再到普通業(yè)余玩家,都向絕悟發(fā)起了挑戰(zhàn),并見識了絕悟在戰(zhàn)術規(guī)劃、玩家行為預測、多英雄配合等方面的能力。
8月18日,騰訊牽頭構建的 AI 多智能體與復雜決策開放研究平臺「開悟」正式對高校開放,同時開啟了首屆「開悟AI+游戲高校大賽」。
依托于騰訊 AI Lab 和「王者榮耀」在算法、數(shù)據(jù)(脫敏)、算力方面的核心優(yōu)勢,「開悟」致力于發(fā)展成為國內(nèi)領先、國際一流的研究與應用探索平臺。
11月28日,「絕悟完全體」進入王者峽谷,并在28-30日間開啟了三天公眾體驗。
不同于5月份開放的版本,完全體版本的絕悟解禁了全部英雄池,掌握了所有英雄的所有技能,同時其它多項策略也得到優(yōu)化。
相關論文,已被AI頂級會議NeurIPS 2020與頂級期刊TNNLS收錄。
為了讓絕悟 AI 掌握全部英雄,騰訊 AI Lab 提出了一種新方法:課程自對弈學習?(CSPL)。
這是一種讓 AI 從易到難的漸進式學習方法:
先引入「老師分身」模型,讓每個AI老師通過深度強化學習技術,在單個陣容上訓練至精通。
再引入一個AI學生,模仿學習所有的AI老師。
最終,讓絕悟掌握所有英雄的所有技能,成為一代宗師。
△CSPL流程圖
《王者榮耀》等 MOBA 類游戲非常復雜,同時,涉及多樣化的合作與對抗博弈,非常適合作為策略型 AI 的開發(fā)平臺、用于研發(fā)適用于不同場景的通用型 AI 技術。
這類技術,在許多真實世界場景中也有重要的應用價值。
例如,在路況復雜的城市道路上,協(xié)調(diào)自動駕駛汽車;為快遞員或快遞無人機,規(guī)劃配送區(qū)域和路線。
除此之外,2020 年 12 月,騰訊 AI Lab 絕悟團隊借助「開悟」平臺開發(fā)的足球 AI 「絕悟-WeKick 版本」,在 Google Research 與英超曼城俱樂部聯(lián)合舉辦的足球 AI Kaggle 競賽上獲得冠軍。
這項競賽,使用 Google Brain 基于開源足球游戲 Gameplay Football 開發(fā)的強化學習環(huán)境 Google Research Football。
這場 Kaggle 競賽,也是首場相關競賽。
不同于《王者榮耀》,足球 AI 比賽涉及到 11 個智能體的相互配合、以及與另外 11 個智能體的對抗,同時獎勵相比于 MOBA 游戲還更稀疏。
即便如此,WeKick 依然以顯著優(yōu)于第二名的成績獲得了冠軍。這體現(xiàn)了完全體「絕悟」底層技術和框架的通用性。
雖然都是 RTS (即時戰(zhàn)略)游戲,星際爭霸中需要控制多種不同類型不同數(shù)量的單位,這些單位又有各自的運動和攻擊特點,因而動作空間更大、策略空間更豐富。
騰訊 Robotics X ,開源了首個通用的大規(guī)模多智能體博弈訓練框架TLeague,并據(jù)此訓練出能擊敗大師級選手的星際爭霸強AI TStarBot-X。
這個星際AI,只使用了AlphaStar的50分之一的算力。
AI+內(nèi)容:TranSmart再升級,用AI賦能人工翻譯
騰訊交互翻譯TranSmart,是目前業(yè)界唯一可實現(xiàn)人機交互的互聯(lián)網(wǎng)機器翻譯產(chǎn)品。
經(jīng)過三年積累,TranSmart的功能,已經(jīng)覆蓋人工翻譯全流程,如按鍵、詞、短語、句子、翻譯記憶等。
2020年,TranSmart開啟商業(yè)化探索之旅,獲得了業(yè)界伙伴的積極認可:
閱文集團的海外編輯人員,將通過網(wǎng)文定制翻譯引擎,翻譯上千部出海的小說作品;華泰證券的證券分析師,將通過翻譯記憶融合與交互翻譯,高效發(fā)布中英雙語研報。
騰訊云官網(wǎng),在國際版官網(wǎng)和技術文檔翻譯過程中,將定制翻譯引擎準確處理Markdown、XML等標記文本,高效復用術語、雙語句對等語言資產(chǎn),助力騰訊云數(shù)百款產(chǎn)品出海遠航。
TranSmart繼承和發(fā)展了交互翻譯的技術概念,在保證人作為翻譯主體的同時,也具備量身定制的個性化機器翻譯,全方位賦能人工翻譯過程:
①自動翻譯質量:在目標場景中,通過語料增強和模型優(yōu)化,自動翻譯質量穩(wěn)居行業(yè)前列;
②實時譯文建議:譯文片段智能推薦和整句補全,顯著減少用戶反復修改錯誤譯文的困擾,大幅改善人工翻譯體驗;
③翻譯記憶融合:動態(tài)結合用戶已完成的雙語句對,生成更符合期望的自動譯文,性能顯著優(yōu)于傳統(tǒng)靜態(tài)和增量式訓練的機器翻譯;
④翻譯輸入法:參照原文上下文和機器翻譯知識,實現(xiàn)精準組詞,加快人工翻譯過程中的輸入效率。
行業(yè)應用以外,騰訊 AI Lab在前沿研究上也有不少進展。
前沿研究進展
作為國內(nèi)領先、世界一流的企業(yè)級人工智能實驗室,騰訊 AI Lab 一直秉承開放合作的理念,與全球高校和研究機構,共同探索 AI 技術前沿。
2020 年,騰訊AI Lab的高校合作項目「犀牛鳥專項研究計劃」,完成了第三年度閉環(huán),共發(fā)表高水平論文 50 多篇,項目的多項成果,已應用于智能語音交互產(chǎn)品、直播自動解說系統(tǒng)、和視覺識別系統(tǒng)等。
新的一年,「犀牛鳥」還將繼續(xù)飛翔,繼續(xù)發(fā)現(xiàn)前沿研究中的挑戰(zhàn)性問題并開展原創(chuàng)性研究,同時探索新技術的行業(yè)應用案例,打造持續(xù)共贏的產(chǎn)學研合作生態(tài)和科研成果轉化平臺。
此外,騰訊 AI Lab 還啟動了「開悟」AI多智能體、與復雜決策開放研究平臺產(chǎn)學研生態(tài)建設,發(fā)起了首屆王者榮耀開悟 AI 學術交流賽。
此外,騰訊AI Lab還邀請清華大學、北京大學、中科院等 18 所高校師生,開展了百人專項培訓和競賽,為今后向高校進一步開放「開悟」,打下了良好基礎。
在學術成果上,2020 年騰訊 AI Lab 和 Robotics X 實驗室,在計算機視覺、語音、自然語言處理、多模態(tài)、知識圖譜、機器學習、機器人等更眾多 AI 領域,都做出了業(yè)界領先的貢獻。
當然,實驗室也通過學術會議、期刊和公開平臺,分享了這些勞動成果。
在 ACL、INTERSPEECH、IROS、NeurIPS、AAAI 等主要頂級學術會議上,騰訊 AI Lab 和 Robotics X 實驗室,整體發(fā)表的論文數(shù)量位居國內(nèi)企業(yè)實驗室前列。
據(jù)上海交通大學 Acemap 學術地圖統(tǒng)計,騰訊 2020 年在 AI 領域的論文(其中相當大一部分來自騰訊 AI Lab)發(fā)表數(shù)位列全球大學與機構第 8 位,H-index 全球并列第 5 位。
在中國的大學和機構排名中,騰訊的 AI 論文數(shù)量排名第 4, H-index 并列第 2,大幅領先國內(nèi)其它企業(yè)。
下面,將分為幾個主題,簡單梳理騰訊 AI Lab 在2020年的重要研究成果。
多模態(tài)研究
多模態(tài)研究的目標,是讓 AI 或機器人通過整合多種不同來源的信號,來理解環(huán)境和做出判斷,比如視覺、雷達、GPS、語音、語言和互聯(lián)網(wǎng)數(shù)據(jù)等。
因此,多模態(tài)研究,對通用人工智能、虛實集成世界兩大長期愿景來說,具有極為重要的價值。
多模態(tài)研究雖然重要,但 AI 領域,目前還沒有專門面向多模態(tài)研究的頂級會議或頂級期刊。
也因此,騰訊 AI Lab 的多模態(tài)研究成果,分散地發(fā)表在不同的學術會議和期刊上。
2020 年騰訊 AI Lab 在多模態(tài)方向上的研究,主要集中于音頻/視頻/圖像與文本的多模態(tài)學習。
除了前文已經(jīng)介紹過的虛擬人成果,騰訊 AI Lab 還提出了一種針對視頻中時序句子定位、和事件描述學習模態(tài)間交互的新方法,能學習成對模態(tài)交互,并改善兩項任務的性能。
另外,騰訊 AI Lab 還研究了如何基于場景圖分解來生成自然語言描述、通過遞歸子查詢構造改善視覺和自然語言匹配、以及一種新的視覺-文本匹配模型。
△ 用于描述并定位視頻事件的視頻-文本多模態(tài)學習框架
除了視頻-文本多模態(tài),騰訊 AI Lab 也在視頻-音頻多模態(tài)上,取得了一些研究成果。
比如發(fā)表在INTERSPEECH 2020的一項研究中,騰訊 AI Lab 提出了一種利用跨域視覺,生成特征輔助障礙語音識別的方法。
這種方法利用大量域外音頻-視覺數(shù)據(jù)進行訓練,從而為有限、或沒有視覺數(shù)據(jù)的說話人,生成視覺特征。
這項語音識別技術,能夠幫助有發(fā)音障礙的說話人,有望實現(xiàn)一些重要的「科技向善」應用。
△ 多模態(tài)語音分離框架
另外,在多模態(tài)人機交互上, 騰訊 AI Lab 還提出了多模態(tài)說話人diarization、多模態(tài)語音分離、以及多模態(tài)語音識別方案。
這是融合音頻、視頻、 聲紋、空間信息等多個模態(tài),針對「雞尾酒會」一類復雜場景的人機交互整體解決方案。
△ 多模態(tài)語音分離、識別的聯(lián)合訓練框架
騰訊 AI Lab 還提出了一種新的深度多模融合框架:信道交換網(wǎng)絡(CEN) [12]。
這一框架通過在訓練中自我引導地、動態(tài)地交換特定通道的特征,在保持足夠的模態(tài)內(nèi)學習特征的同時,還能促進模態(tài)間的特征交互。
機器學習
機器學習,是 AI 的核心過程和標志性能力。
近些年的 AI 發(fā)展熱潮,正是源自深度學習等機器學習技術的突破。
機器學習領域的研究重心,除了繼續(xù)優(yōu)化深度學習方法、和拓展其應用范圍外,還在積極探索其與其它學習范式的組合。
由此,誕生了深度強化學習、生成對抗網(wǎng)絡的成功技術。而擅長梳理網(wǎng)絡關系的深度圖學習,也成為領域的熱門研究方向。
2020 年,騰訊 AI Lab 在多個機器學習方向上都得到了重要的研究成果,也為機器學習模型的可解釋性、魯棒性等理論分析做出了貢獻。
這些研究成果,多數(shù)在NeurIPS 2020 等 AI 領域頂級會議、和 Nature Communications 等頂級期刊上發(fā)表。
其中,深度強化學習,是騰訊 AI Lab 的一大核心研究方向。
立足于圍棋和《王者榮耀》等視頻游戲等場景,騰訊 AI Lab 在深度強化學習方面的探索,已達世界前列水平。
基于這項技術開發(fā)的圍棋 AI 「絕藝」,已在中國國家圍棋隊的訓練中得到了實際應用。
而《王者榮耀》AI 「絕悟」,也已進化為「完全體」,并通過首次大規(guī)模 MOBA AI 智能體性能測試,接受了廣大玩家的檢驗。
完全體絕悟的成功,基于騰訊 AI Lab 對新方法與成熟方法的有效組合,包括課程自博弈學習、多頭價值估計、策略注入、蒙特卡洛樹搜索和離策略等。
在深度圖學習方面,騰訊 AI Lab 也成績斐然,包括前文提到的,完全基于自監(jiān)督訓練的圖神經(jīng)網(wǎng)絡框架 GROVER。
通過在原子、化學鍵、分子級別的自監(jiān)督任務設計,GROVER可以從海量的無標簽分子中學習到大量結構/語義信息。
同時,為了編碼分子中海量的復雜信息,GROVER 還整合了消息傳播網(wǎng)絡和Transformer,得到一個有更強表達能力的圖神經(jīng)網(wǎng)絡模型 GTransformer。
在藥物研發(fā)上,這一模型具有廣闊的應用潛力。
此外,騰訊 AI Lab 還提出了一種基于狄利克雷分布的圖變分自編碼器框架,并證明了該框架與經(jīng)典平衡圖分割方法的等價性。
騰訊 AI Lab 還通過分子逆合成分析,探索了深度圖學習在化學領域的應用。
此外,在 2020 年的 ACM SIGKDD 會議上,騰訊AI Lab、清華大學、香港中文大學等機構聯(lián)合組織,通過一場為期一天的課程,系統(tǒng)性地講解了圖神經(jīng)網(wǎng)絡。
騰訊 AI Lab 還有一項將深度強化學習與圖學習組合起來的研究成果,這是一種針對文字游戲提出的基于分層堆疊注意力機制的深度強化學習算法。
這項研究使用了知識圖進行顯式推理以進行決策,從而通過可解釋的推理程序生成并支持智能體的決策。加上一種新提出的分層堆疊注意力機制,可通過利用知識圖的結構來構造推理過程的顯式表示。
△ 分層堆疊注意力網(wǎng)絡架構
騰訊 AI Lab 在網(wǎng)絡架構搜索方面也取得了一些進展。
相較于人工設計網(wǎng)絡架構,自動化網(wǎng)絡架構搜索效率更高,而且還可能找到人類難以構想出的結構,目前該技術已經(jīng)在諸多領域得到了廣泛應用。
在用于提升網(wǎng)絡架構搜索的計算效率方面,騰訊 AI Lab 提出了一種過渡性的仿射參數(shù)共享訓練策略。
這一策略,對參數(shù)共享的程度進行了量化分析,并動態(tài)地調(diào)整搜索訓練速度、和備選網(wǎng)絡結構的可區(qū)分性,以提升網(wǎng)絡搜索的效率與精度。
在結合多任務學習方面,騰訊 AI Lab 采用了基于任務的結構控制器,來針對不同的任務產(chǎn)生針對性的網(wǎng)絡結構,并采用元學習的方式,使得網(wǎng)絡參數(shù)可以快速適應到新的任務上。
此外,騰訊 AI Lab 還在相關理論分析方面做出了一些貢獻,包括一項評估神經(jīng)機器翻譯的可解釋性方法,可幫助打開深度學習黑箱。
騰訊 AI Lab ,還研究了選擇性機制對自注意網(wǎng)絡的改善情況。
這項研究,解釋了該機制在順序編碼和結構建模上的主要貢獻,對于進一步改進自注意力網(wǎng)絡,有一定的啟發(fā)和指導意義。
最后,騰訊 AI Lab 的一篇 ECCV 2020 論文也提出了一種基于神經(jīng)科學研究的新式卷積:語境門限卷積(Context-Gated Convolution)。
這是一種輕量級的組件,可以很好地應用在現(xiàn)有的卷積神經(jīng)網(wǎng)絡中,在圖像識別、視頻理解、機器翻譯上都可以顯著提升現(xiàn)有模型性能。
△ 門限卷積示意圖
自然語言處理
隨著 BERT 與 OpenAI GPT 等基于 Transformer 的大規(guī)模語言模型的出現(xiàn),一些專家認為,NLP將在未來十年內(nèi)迎來重大突破。
騰訊 AI Lab 正開展研究工作,為推動自然語言處理技術的發(fā)展努力。
在 2020 年 7 月舉辦的自然語言處理領域頂級會議 ACL 2020 上,騰訊 AI Lab 貢獻了 20 篇論文,位列國內(nèi)企業(yè)研究機構前列。
在文本理解方面,騰訊AI Lab在2020年4月,開放了文本理解系統(tǒng)TexSmart,可對中文和英文兩種語言的文本進行詞法、句法和語義分析。
△TexSmart的特色功能
與其它現(xiàn)有公開的文本理解工具相比,TexSmart除了支持分詞、詞性標注、粗粒度命名實體識別(NER)、句法分析、語義角色標注等常見功能外,還提供細粒度命名實體識別、語義聯(lián)想、深度語義表達等特色功能。
TexSmart 系統(tǒng),獲得了2020 中國計算語言學大會(CCL)的最佳系統(tǒng)演示獎。
在對話理解方面,騰訊AI Lab提出了對話語義角色標注(Conversational Semantic Role Labeling)技術,將對話的語義表示成多個「謂詞-論元」結構。
這項技術可以同時處理對話中常見的信息缺失和指代問題,有效地提升了對話的理解和下游任務的性能,如對話改寫和對話生成。
同時,騰訊AI Lab將這項技術與對話理解其他技術結合,在京東智能客服對話比賽中獲得第一名。
此外,騰訊 AI Lab 還在長文本閱讀理解、從高資源語言向低資源語言的泛化、基于對話的關系抽取等方面取得了一些研究進展。
在語言生成與對話方面,除了前文的SongNet,騰訊 AI Lab 還在如何更好地理解對話上下文、如何打造千人千面的對話機器人、如何融合常識等知識、流暢且符合邏輯的自然語言生成等課題上取得了進展。
相關研究成果,包括面向多輪對話的語義角色標注與對話改寫、利用灰度數(shù)據(jù)增強多輪對話理解、知識融合型對話生成、基于開放領域表格的邏輯性自然語言生成、提升對話一致性的三階段生成模型等。
在機器翻譯方面,騰訊AI Lab致力于改善翻譯模型的效果。
騰訊AI Lab提出的數(shù)據(jù)重生、和多領域通用翻譯模型,可以更有效地利用大規(guī)模、多領域,混合訓練數(shù)據(jù)。
同時,騰訊AI Lab繼續(xù)深耕于理解并改進Transformer模型,包括理解選擇性機制對自注意力網(wǎng)絡的重要性,推理置信度校準研究、評估神經(jīng)機器翻譯的可解釋性方法。
受益于此,騰訊AI Lab的自動翻譯(中英和英中)系統(tǒng)準確度繼續(xù)保持國內(nèi)前列,在國際翻譯比賽WMT2020中也取得了1項第一,3項第二的成績。
計算機視覺
2020 年,騰訊 AI Lab 在計算機視覺方面成果頗豐。
在計算機視覺領域頂級會議 CVPR 和 ECCV 上,騰訊 AI Lab 各有 11 和 18 篇論文入選,包括多模態(tài)學習、視頻內(nèi)容理解、對抗攻擊與對抗防御、基于生成模型的圖像編輯等多項課題。
此外,騰訊AI Lab在 NeurIPS 2020 上,也有多篇相關論文入選。
先來看針對視覺的對抗攻擊問題,這是基于深度神經(jīng)網(wǎng)絡的計算機視覺模型的一大核心弱點,也是很多實際計算機視覺應用的最后一道門檻。
當然,這也是騰訊 AI Lab 的一大重要研究課題。
2020 年,騰訊 AI Lab 提出了一些實現(xiàn)對抗攻擊的新策略,比如一種針對深度聚類的對抗策略。
這項策略可以挖掘易于使聚類層出現(xiàn)預測偏差,但不會影響深度嵌入網(wǎng)絡性能的樣本。
論文所提出的無監(jiān)督對抗聚類網(wǎng)絡,能利用對抗攻擊與防御訓練方法,提升深度聚類網(wǎng)絡的魯棒性。
另一項發(fā)表在ECCV上的研究也提出了利用擾動分解實現(xiàn)稀疏對抗攻擊的新思路。
△ 稀疏對坑攻擊示例
同時,騰訊 AI Lab 也提出了一些用于防御對抗攻擊的技術,包括一種針對對抗攻擊的魯棒目標跟蹤方法,能在產(chǎn)生輕量對抗擾動時候,將時序信息納入考慮、從而提升模型魯棒性。
在圖像去模糊和超分辨率方面,騰訊AI Lab也成果頗豐。
在 ECCV 入選論文中,騰訊 AI Lab 有兩篇論文研究了如何消除視覺場景的雨滴,包括一種基于語義理解的雙目去雨方法、和一種利用雨痕和雨霧分析進行圖像去雨的技術。
超分辨率方面,騰訊 AI Lab 提出了一種結合3D臉部結構先驗的人臉超分辨算法,該算法能充分利用臉部結構、及身份信息,來輔助處理困難的臉部姿態(tài)變化。
當然,騰訊 AI Lab 也沒有缺席熱門的視頻研究領域。
2020 年的相關研究,包括一種可用于時序動作分割的邊界感知級聯(lián)網(wǎng)絡,這種新的級聯(lián)模式,能讓模型自適應地調(diào)整感受野,并對語義模糊的視頻幀做出置信率更高的預測。
此外,騰訊 AI Lab 還提出了一種新的短時序動作檢測框架——移動中心點檢測器(MOC-Detector),其可將動作實例視為運動點的軌跡,實現(xiàn)高質量的長時動作檢測。
手語自動翻譯上,騰訊 AI Lab 也做出了一些研究進展。
它提出了一種基于多粒度視頻片段的、手語翻譯層次化特征學習方法。
這種方法,能自適應地利用多粒度時序信息,對視頻語義進行局部和全局建模,從而極大緩解對手勢分割的需求,提升翻譯質量。
希望這項研究,能更進一步轉化為「科技向善」的應用成果。
語音
高質量語音數(shù)據(jù)識別,是一個已經(jīng)基本得到解決的問題,但在現(xiàn)實生活應用中,語音領域還面臨著雞尾酒會問題,以及在人們自由聊天時,口語化表達、風格多樣等問題。
高自然度和表現(xiàn)力的合成語音,仍舊是語音合成的研究目標。
2020 年,語音技術頂級會議INTERSPEECH,共接收了 16 篇騰訊 AI Lab 論文。
其中,既有騰訊在語音前沿技術方向的進一步探索,也包含一些理論研究和分析,同時還有在科技向善與文化遺產(chǎn)保護等方面的應用成果。
在這其中,騰訊 AI Lab 為解決雞尾酒會問題,提出了多項潛在的解決策略。
例如,使用視覺數(shù)據(jù),進行輔助識別。
又或者,使用帶強干擾的聲源數(shù)據(jù),來進行學習。這能「迫使」模型在非常糟糕的干擾條件下,學習到足夠具有區(qū)分、泛化性能的表征。
此外,也可以改進多通道語音增強波束形成技術。
通過提出全新的基于遞歸神經(jīng)網(wǎng)絡的波束形成方法,領域首次突破了傳統(tǒng)波束形成技術,在PESQ等客觀指標、和WER等語音識別指標上,同時達到最優(yōu)。
騰訊AI Lab還提出了一種端到端的多通道語音分離技術, 相比傳統(tǒng)的多通道技術,性能提高了10%。
另外,在語音識別方面,騰訊 AI Lab 著力提升復雜條件下的識別性能。
研究人員通過有效結合分離和識別技術,將在各種干擾下的語音識別準確率,相對提升了20% ,該技術正廣泛應用于信息流產(chǎn)品視頻內(nèi)容理解、短視頻及直播視頻字幕生成中。
而在語音合成方面,DurIAN 是騰訊 AI Lab 多年研究的重要結晶,也是騰訊虛擬人語音系統(tǒng)的核心組件。
DurIAN 不僅能合成更加自然流暢的說話語音,還能用于合成歌聲,騰訊 AI Lab 甚至還探索了其在京劇合成方面的應用,從技術角度為中國傳統(tǒng)文化的保護和傳承提供一個方向。
騰訊 AI Lab 的語音合成技術,在2020 年完成端到端合成工業(yè)化落地之后,不斷朝著更高的目標演進。
目前在語言合成上,不但發(fā)音人音色數(shù)量大幅增加,每個音色都具有多種情感和多種不同風格的語音合成能力,還可以綜合不同風格和情感,實現(xiàn)針對不同場景、不同文本的、更自然的表達。
在此基礎上,騰訊 AI Lab 還實現(xiàn)了韻律詞、字級別的細粒度控制能力,可以靈活地對單個字、詞的語氣情感進行調(diào)節(jié)。
在一句話內(nèi)部,也能實現(xiàn)豐富的變化,大幅提升了合成語音的表現(xiàn)力和感染力。
細粒度控制的合成技術,正在落地到游戲解說和小說合成等應用場景中。
秉承「科技向善」的信念和「Make AI Everywhere」的愿景,以通用人工智能和虛實集成世界為長期目標,騰訊 AI Lab 在這一年中做出了更多積極的應用和研究貢獻。
這些貢獻,涵蓋虛擬人、多智能體、農(nóng)業(yè)、醫(yī)療、藥物研發(fā)和機器人等諸多領域。
期待騰訊AI Lab在2021年的表現(xiàn)。
開源項目&論文傳送門:
https://mp.weixin.qq.com/s/OjQj7ZLe9vfadidSKT22zg
- 首個GPT-4驅動的人形機器人!無需編程+零樣本學習,還可根據(jù)口頭反饋調(diào)整行為2023-12-13
- IDC霍錦潔:AI PC將顛覆性變革PC產(chǎn)業(yè)2023-12-08
- AI視覺字謎爆火!夢露轉180°秒變愛因斯坦,英偉達高級AI科學家:近期最酷的擴散模型2023-12-03
- 蘋果大模型最大動作:開源M芯專用ML框架,能跑70億大模型2023-12-07