谷歌年度AI技術(shù)總結(jié)來了!Jeff Dean執(zhí)筆,附贈(zèng)27個(gè)開源工具和數(shù)據(jù)大禮包
五大趨勢總結(jié),附贈(zèng)27個(gè)開源工具和數(shù)據(jù)集大禮包
楊凈 夢晨 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
Jeff Dean親筆盤點(diǎn)谷歌AI研究成果,已經(jīng)成了一年一度的保留節(jié)目。
今年也不例外,還是他抽出一部分假期時(shí)間完成的。
過去一年,谷歌研發(fā)投入依然是全球最高,在一整年的時(shí)間里產(chǎn)出不少成果。
光論文數(shù)就達(dá)750+篇,讓人眼花繚亂。
如果你擔(dān)心自己錯(cuò)過了一些的話也不用擔(dān)心,這位谷歌AI掌門人都幫你總結(jié)好了。
Jeff本人親眼目睹了AI過去幾十年的諸多進(jìn)展,對當(dāng)下最大的感觸是:
早期機(jī)器學(xué)習(xí)方法往往不盡如人意,不過終于催生出了很多非常成功的現(xiàn)代方法,這些進(jìn)步最終將惠及數(shù)十億人的生活。
他把2021年機(jī)器學(xué)習(xí)進(jìn)展總結(jié)成五大趨勢,另外還給讀者送上一份大禮包——
一年來谷歌發(fā)布的27個(gè)開源工具和數(shù)據(jù)集匯總。
涵蓋多語言文本、醫(yī)學(xué)、建筑、舞蹈動(dòng)作、電影標(biāo)題、文本到表格生成等眾多領(lǐng)域。
如果你有需要可在微信公眾號(hào)后臺(tái)回復(fù)關(guān)鍵詞“姐夫2021”獲取。
下面就先來看一下,這個(gè)被譽(yù)為行業(yè)風(fēng)向標(biāo),Jeff眼中的機(jī)器學(xué)習(xí)五大趨勢都有哪些。
簡單速覽:
- 趨勢1:模型更大讓AI能力更通用
- 趨勢2:機(jī)器學(xué)習(xí)效率持續(xù)提高
- 趨勢3:AI應(yīng)用對個(gè)人更有益
- 趨勢4:AI推動(dòng)科學(xué)研究和醫(yī)學(xué)健康
- 趨勢5:對機(jī)器學(xué)習(xí)的理解加深
趨勢1:模型更大讓AI能力更通用
過去一年中,語言模型的參數(shù)規(guī)模仍在不斷增長,紛紛超過1750億的GPT-3。
例如DeepMind的Gopher有2800億,微軟英偉達(dá)聯(lián)合推出的威震天-圖靈到了5300億。
谷歌自己的GShard和GLaM模型更是達(dá)到6千億和1.2萬億。
訓(xùn)練這些模型用到的數(shù)據(jù)集規(guī)模也在同步增長。
數(shù)據(jù)集和模型大小的增加讓AI在傳統(tǒng)NLP任務(wù)上的準(zhǔn)確性顯著提高,還在更多新能力上有所突破。
代表性的研究有Quoc Le團(tuán)隊(duì)提出新的微調(diào)方法Instruction Tuning。
新模型FLAN在沒訓(xùn)練過的任務(wù)上的零樣本學(xué)習(xí)能力超過GPT-3少樣本版本的表現(xiàn)。
以及谷歌I/O大會(huì)上所演示的LaMDA模型,在開放式多輪對話上有所突破。
除了語言模型,圖像、視頻方面這一年都被Transformer架構(gòu)同時(shí)刷新了模型規(guī)模和性能基準(zhǔn)。
谷歌在這方面代表性的研究便是Vision Transformer(ViT)以及Video ViT。
另外還有一個(gè)重要的結(jié)論是,同時(shí)用圖像和視頻數(shù)據(jù)訓(xùn)練可以提高模型在視頻任務(wù)的性能。
圖像生成上,這一年里擴(kuò)散模型?(Difusion Model)成了GAN的有力競爭對手。
級聯(lián)(Cacade)擴(kuò)散模型SR3以低分辨率圖像為輸入,便可從純噪聲中構(gòu)建出對應(yīng)的高分辨率圖像。
多模態(tài)模型方面,模型規(guī)模的增大還讓機(jī)器人get新能力。
機(jī)械臂只需要學(xué)會(huì)自然語言描述的“把葡萄放在碗中”這項(xiàng)任務(wù),便可執(zhí)行“把水瓶放在托盤中”的全新任務(wù)。
Jeff總結(jié)到,這些大模型通常使用自監(jiān)督學(xué)習(xí)方法,這個(gè)趨勢令人興奮。
一方面可以大大減少工作量,另一方面在長尾任務(wù)中也能取得更好表現(xiàn)。
谷歌AI下一步的努力方向是研發(fā)一個(gè)叫Pathway的稀疏模型新架構(gòu),把它訓(xùn)練成可以執(zhí)行成千上萬種任務(wù)的通用模型。
趨勢2:機(jī)器學(xué)習(xí)效率持續(xù)提高
參數(shù)規(guī)模和數(shù)據(jù)量的擴(kuò)大,對模型的訓(xùn)練效率提出了新的挑戰(zhàn)。
作為應(yīng)對,谷歌在加速芯片、編譯器、模型架構(gòu)和算法方面分別取得了進(jìn)展。
芯片方面,新發(fā)布的TPUv4與上一代相比性能提高2.7倍,用高速網(wǎng)絡(luò)連接在一起可以支持超大模型的訓(xùn)練。
移動(dòng)設(shè)備上,新一代Pixel6手機(jī)上搭載全新的Tensor處理器,在手機(jī)上做到4k60幀視頻處理,以及實(shí)時(shí)機(jī)器翻譯。
編譯器方面,谷歌推出基于XLA編譯器的自動(dòng)并行化系統(tǒng)GSPMD。
即使硬件沒有進(jìn)步,也能做到在150種模型上性能全面提高5%-15%,甚至個(gè)別情況下提高了2.4倍。
這一成果已經(jīng)用在了GShard-M4、LaMDA、ViT等多個(gè)大模型上。
架構(gòu)方面,一種提升效率的方法是靠人類的創(chuàng)造力設(shè)計(jì)。
這里還是要說到Transformer的各類變體在這一年中大放異彩,同時(shí)在NLP和CV領(lǐng)域頻頻刷榜。
另一種方法便是機(jī)器驅(qū)動(dòng)的神經(jīng)架構(gòu)搜索(NAS),大大減少算法開發(fā)的工作量。
雖然NAS本身的計(jì)算量很大、成本高昂,但總體上可以顯著降低下游開發(fā)和生產(chǎn)環(huán)境中的計(jì)算量。
如NAS方法搜索出來的Evovled Transformer,在參數(shù)減少37.6%的情況下獲得0.7%的英德翻譯性能提升。
視覺任務(wù)上,NAS方法得到的Efficientnetv2模型訓(xùn)練速度比之前的SOTA模型提高了5-11倍。
除了模型架構(gòu),AutoML-Zero還使用NAS方法來尋找新的、更有效的強(qiáng)化學(xué)習(xí)/監(jiān)督學(xué)習(xí)算法。
算法方面,增加對稀疏性(Sparsity)的利用是一個(gè)重要進(jìn)展。
谷歌稀疏的Switch Transformers與密集的T5模型相比,訓(xùn)練效率提高了7倍。
GLaM模型把Transformer與Mixer of Expert風(fēng)格的層結(jié)合起來,訓(xùn)練和推理成本與GPT-3相比分別減少了3倍和2倍。
另外,BigBird模型用稀疏性降低了Transformer的核心機(jī)制——注意力模塊的計(jì)算成本。
盡管稀疏性取得如此多成績,Jeff Dean還是認(rèn)為目前的研究僅觸及了這個(gè)方向上的皮毛。
未來更繼續(xù)深入研究還有更高的潛在回報(bào)。
趨勢3:AI應(yīng)用對個(gè)人更有益
除此之外,Jeff Dean還關(guān)注到移動(dòng)設(shè)備上的個(gè)性化AI應(yīng)用。
得益于ML的發(fā)展與處理器的創(chuàng)新,手機(jī)可以更加連續(xù)有效地感知周圍環(huán)境,用戶體驗(yàn)也更加豐富。
對一些日常使用的功能,比如計(jì)算攝影、實(shí)時(shí)翻譯等都帶來了改變。與此同時(shí),還加強(qiáng)了隱私保護(hù)。
以計(jì)算攝影HDR+功能為例,即便在非常暗的光線下拍照,也能展現(xiàn)更真實(shí)的情況。
跨語言實(shí)時(shí)交流也成為一大趨勢。由于自監(jiān)督學(xué)習(xí)、noisy student training自訓(xùn)練算法等技術(shù)的發(fā)展,語音識(shí)別的準(zhǔn)確性繼續(xù)取得重大進(jìn)展,嘈雜、重疊語音等環(huán)境以及跨語言的效果有了明顯改善。
日常交互也變得越來越自然,比如自動(dòng)呼叫、機(jī)器學(xué)習(xí)代理,即使經(jīng)常執(zhí)行的簡短任務(wù),也可通過智能文本選擇工具進(jìn)行改進(jìn)。
還有一些小例子也體現(xiàn)出AI的有益之處,比如注視識(shí)別技術(shù),防止你看手機(jī)屏幕時(shí)變暗。
機(jī)器學(xué)習(xí)在確保個(gè)人和社區(qū)安全上也提供新方法。
比如“可疑信息警告”來應(yīng)對疑似網(wǎng)絡(luò)釣魚攻擊,“安全路線”可以幫助識(shí)別和檢測什么時(shí)候該踩剎車,提示備用路線。
鑒于構(gòu)成這些新功能的數(shù)據(jù)具有敏感性,隱私計(jì)算也就搬到了臺(tái)前。
安卓系統(tǒng)可確保私有計(jì)算核心處理的數(shù)據(jù)不被任何APP共享,與此同時(shí)還阻止了其內(nèi)部的任何功能直接訪問網(wǎng)絡(luò)。
趨勢4:AI推動(dòng)科學(xué)研究和醫(yī)學(xué)健康
近年來,我們已經(jīng)看到機(jī)器學(xué)習(xí)對基礎(chǔ)科學(xué)的影響越來越大,從物理學(xué)到生物學(xué),有很多令人興奮的實(shí)際應(yīng)用。
計(jì)算機(jī)視覺作為典型,已經(jīng)應(yīng)用于解決個(gè)人和全球范圍的問題。
它既可以幫助醫(yī)生進(jìn)行日常工作,擴(kuò)展對神經(jīng)生理學(xué)的理解,也可以提供天氣預(yù)報(bào)預(yù)測以及救災(zāi)工作的優(yōu)化。
去年,谷歌與哈佛合作展開了第一個(gè)大規(guī)模人類大腦皮層突觸連接的研究,重建了人類大腦組織成像。
ps:圖中顯示了成人大腦860億個(gè)神經(jīng)元中的6個(gè)
而若向外延伸,計(jì)算機(jī)視覺在應(yīng)對全球挑戰(zhàn)上也有突出的作用,比如基于深度學(xué)習(xí)的天氣預(yù)測,預(yù)報(bào)12小時(shí)內(nèi)的天氣和降水,比傳統(tǒng)的物理模型更準(zhǔn)確。
還有像在文檔、游戲,包括芯片上的自動(dòng)化設(shè)計(jì)布局,以及在醫(yī)學(xué)、人類健康、應(yīng)對氣候變化上的關(guān)鍵作用也不容忽視。
以醫(yī)學(xué)健康為例,在基因組學(xué)的研究中機(jī)器學(xué)習(xí)可以幫助處理序列數(shù)據(jù),看到基因組數(shù)據(jù)的隱藏特征,還能加速對個(gè)性化、健康的基因組信息的使用。
Jeff Dean還強(qiáng)調(diào)在疾病診斷,尤其是在醫(yī)學(xué)成像上的應(yīng)用,比如在改善乳腺癌篩檢、檢測肺癌、加速癌癥的放射治療、標(biāo)記異常X射線和前列腺癌期活檢等領(lǐng)域。
另一個(gè)值得關(guān)注的方向就是利用NLP技術(shù)來分析結(jié)構(gòu)化數(shù)據(jù)與醫(yī)療記錄,輔助臨床醫(yī)生提供更準(zhǔn)確的診斷護(hù)理。
盡管機(jī)器學(xué)習(xí)對于擴(kuò)大獲取途徑和提高臨床診斷的準(zhǔn)確性非常重要,但我們看到一個(gè)同樣重要的新趨勢正在出現(xiàn):智能手機(jī)上的健康功能,幫助用戶對自己的健康狀況進(jìn)行評估。
趨勢5:做負(fù)責(zé)任的人工智能
隨著機(jī)器學(xué)習(xí)越來越廣泛地應(yīng)用于社會(huì)中去,保證其更公平公正的使用正成為下一個(gè)技術(shù)出發(fā)點(diǎn)。
一個(gè)重點(diǎn)領(lǐng)域就是基于用戶活動(dòng)的推薦系統(tǒng),最近工作揭示了如何提高單個(gè)組件和整個(gè)推薦系統(tǒng)的公平性。
在機(jī)器翻譯上的應(yīng)用也同樣重要,因?yàn)榇蠖鄶?shù)機(jī)器翻譯系統(tǒng)是孤立地翻譯單個(gè)句子的,沒有附加的語境。
它們往往會(huì)加強(qiáng)與性別、年齡或其他領(lǐng)域有關(guān)的偏見。去年谷歌發(fā)布了個(gè)數(shù)據(jù)集,用于研究翻譯維基百科傳記時(shí)的性別偏見。
部署機(jī)器學(xué)習(xí)模型的另一個(gè)常見問題是分布轉(zhuǎn)移。如果模型所依據(jù)的數(shù)據(jù)統(tǒng)計(jì)分布與所輸入的數(shù)據(jù)統(tǒng)計(jì)分布不一致,那么模型的行為可能是不可預(yù)測的。
在最近的工作中,谷歌Deep Bootstrap框架可以幫助比較、理解模型在這兩種情況下的表現(xiàn),使得模型更好適應(yīng)未知環(huán)境,并對固定的訓(xùn)練數(shù)據(jù)集不會(huì)產(chǎn)生太大的偏見。
除此之外在機(jī)器學(xué)習(xí)上游——數(shù)據(jù)收集和數(shù)據(jù)集管理上,也有相應(yīng)的探索。
還有像處理網(wǎng)上辱罵行為、模型的交互式分析和調(diào)試、機(jī)器學(xué)習(xí)的可解釋性(以AlphaZero國際象棋系統(tǒng)為典型),以及改善社區(qū)生活等維度都是谷歌解決的方向。
總之,再三強(qiáng)調(diào)一個(gè)愿景:做負(fù)責(zé)任的人工智能。
One More Thing
在這篇博文下互動(dòng)區(qū),看到了熟悉的身影。
那就是讓Jeff Dean陷入歧視風(fēng)波的那位前員工Timnit Gebru,她也轉(zhuǎn)發(fā)了一波~
不過,這畫風(fēng)……嗯,就有點(diǎn)尷尬。
好了,感興趣的旁友,可戳下方鏈接看詳細(xì)報(bào)告~
以及別忘了到微信公眾號(hào)后臺(tái)回復(fù)“姐夫2021”,獲取27個(gè)谷歌開源工具及數(shù)據(jù)集匯總。
直達(dá)鏈接:
https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18