華為云田奇:云原生時代,視覺預(yù)訓(xùn)練大模型探索與實踐
近日,在Qcon全球軟件開發(fā)大會(深圳站)上,華為云人工智能領(lǐng)域首席科學(xué)家、IEEE FELLOW田奇博士,作了題為“云原生時代,視覺預(yù)訓(xùn)練大模型探索與實踐”的主題演講,介紹了云原生時代華為云在AI基礎(chǔ)研究、視覺預(yù)訓(xùn)練模型研發(fā)和行業(yè)實踐,以及AI開發(fā)平臺ModelArts的最新進展。
近日,在Qcon全球軟件開發(fā)大會(深圳站)上,華為云人工智能領(lǐng)域首席科學(xué)家、IEEE FELLOW田奇博士,作了題為“云原生時代,視覺預(yù)訓(xùn)練大模型探索與實踐”的主題演講,介紹了云原生時代華為云在AI基礎(chǔ)研究、視覺預(yù)訓(xùn)練模型研發(fā)和行業(yè)實踐,以及AI開發(fā)平臺ModelArts的最新進展。
以下是田奇博士演講要點:
隨著企業(yè)數(shù)字化的轉(zhuǎn)型,傳統(tǒng)企業(yè)已基本上將業(yè)務(wù)從線下搬到了云上。其中,第一個階段是將企業(yè)的業(yè)務(wù)簡單地部署到云上,我們可以稱之為ON CLOUD,在這種形態(tài)下,通過資源池化,解決了IDC時代運維、部署、擴容的難題。但是,傳統(tǒng)方法的過于厚重、煙囪式的架構(gòu),導(dǎo)致云對業(yè)務(wù)的價值還僅僅停留在資源供給階段,未充分發(fā)揮出云計算的潛力。隨著企業(yè)的數(shù)字化建設(shè)逐步邁入智能化階段,企業(yè)需要充分利用云計算帶來的紅利,就需要讓其業(yè)務(wù)能力內(nèi)生于云,由現(xiàn)在的ON CLOUD進階到IN CLOUD階段,即基于云的技術(shù)架構(gòu)來構(gòu)建企業(yè)業(yè)務(wù),通過構(gòu)建多云、多中心的分布式架構(gòu)以及敏捷、智能的企業(yè)數(shù)字化業(yè)務(wù),將企業(yè)的數(shù)字化建設(shè)帶入智能化新階段。此時,云對業(yè)務(wù)的價值不再是簡單的資源供給,還能夠以應(yīng)用為中心,為業(yè)務(wù)賦能。
一站式AI開發(fā)平臺,加速行業(yè)AI落地,踐行普惠AI
華為云提供了一站式的AI開發(fā)平臺,加速行業(yè)AI落地,踐行普惠AI。華為云對AI平臺打造了四層體系,第一層是智能體;第二層是知識計算解決方案;第三層是ModelArts Pro,針對專業(yè)應(yīng)用開發(fā)套件;第四層是ModelArts Fundamental。對于一站式的AI開發(fā)平臺,主要聚焦在模型高效、數(shù)據(jù)高效以及知識高效。這些強大的AI服務(wù),底層都是基于云原生容器的Volcano高效能調(diào)度引擎,而Volcano調(diào)度引擎將訓(xùn)練任務(wù)的效率提升了50%。
華為云AI基礎(chǔ)研究進展
華為云長期扎根AI技術(shù)基礎(chǔ)研究,在計算機視覺、語音語義、決策優(yōu)化三個方向做了深入探索與研究。為此,我們針對數(shù)據(jù)、模型和知識提出了六個子計劃。其中,針對模型包含兩個計劃,一個是針對大模型的模型摸高計劃,提供極致的性能;第二是針對小模型的模型瘦身計劃。針對數(shù)據(jù)提出了兩個計劃,一個是處理多模態(tài)的數(shù)據(jù)魔方計劃;另一個是針對小樣本學(xué)習(xí)的數(shù)據(jù)冰山計劃。最后針對知識的高效提取,我們提出了兩個計劃:建造通用AI系統(tǒng)的萬物預(yù)視計劃以及學(xué)習(xí)一種新范式的虛實合一計劃。在這些計劃中,我們始終聚焦在模型高效、數(shù)據(jù)高效、知識高效等重點方向上。對于自主研發(fā)的一些新技術(shù),比如自動學(xué)習(xí)、知識蒸餾、預(yù)訓(xùn)練模型等等,都會以即插即用的方式部署到華為云線上,助力AI行業(yè)落地。
在眾多AI領(lǐng)域中,計算機視覺具有廣泛的落地場景,在智能汽車、智能手機、無人機、智能眼鏡等應(yīng)用都有計算機視覺算法的身影。這些年隨著計算能力和5G通信技術(shù)的極大提高,以計算機視覺為代表的大批AI技術(shù),已跨越了早期僅在研究領(lǐng)域取得進展的階段,過渡到了與社會環(huán)境協(xié)同發(fā)展、共同促進的階段。未來視覺AI技術(shù)會在千行百業(yè)進行落地,比如政府、醫(yī)療、工業(yè)、能源、交通、物流、金融等等。但是,技術(shù)落地也面臨著巨大的挑戰(zhàn),由于AI應(yīng)用的碎片化、定制化等因素,極大地限制了AI在真實環(huán)境下的落地部署。為了解決應(yīng)對AI碎片化等問題,我們提出了預(yù)訓(xùn)練大模型的解決方案,希望能用大量無標注的數(shù)據(jù)和更大的模型來實現(xiàn)更通用的AI系統(tǒng)。
在自然語言處理領(lǐng)域,這兩年大規(guī)模預(yù)訓(xùn)練模型取得了突破性進展,但是預(yù)訓(xùn)練模型對算力有極大的需求,而且我們預(yù)計更大規(guī)模、更大參數(shù)的模型還會繼續(xù)出現(xiàn)。因此,受到自然語言處理中預(yù)訓(xùn)練模型的啟發(fā),在計算機視覺中我們也希望構(gòu)建通用的AI系統(tǒng),為下游各種視覺任務(wù)提供一個高效的初始化模型。
現(xiàn)在主流的學(xué)習(xí)方式有兩種,一種是監(jiān)督學(xué)習(xí),一種是強化學(xué)習(xí)。監(jiān)督學(xué)習(xí)需要海量標注樣本,泛化能力相對比較弱,另一種是強化學(xué)習(xí),強化學(xué)習(xí)需要海量的試錯,同樣缺乏通用系統(tǒng)所需要的可適用性、可重復(fù)性以及魯棒性。我們認為,自監(jiān)督學(xué)習(xí)是邁向常識學(xué)習(xí)的關(guān)鍵步驟,但是目前自監(jiān)督學(xué)習(xí)在視覺任務(wù)中的應(yīng)用還不夠成熟。過去,在數(shù)據(jù)標注、模型訓(xùn)練和輸出階段,分別要做大量的重復(fù)工作。未來,我們希望可以對計算機視覺或者自然語言處理任務(wù)構(gòu)建一個通用預(yù)訓(xùn)練模型,僅通過下游少量的標注樣本進行微調(diào)就可以高效完成任務(wù),從而大量節(jié)約開發(fā)成本。
視覺預(yù)訓(xùn)練大模型研究和實踐
接下來的報告,我會介紹一下我們在預(yù)訓(xùn)練模型方面的工作,主要是在自監(jiān)督學(xué)習(xí)過程中預(yù)訓(xùn)練模型的一些進展。
自監(jiān)督學(xué)習(xí)由于不需要任何人工標注便能夠?qū)W習(xí)圖像的內(nèi)在表征,近年來受到了業(yè)界的極大關(guān)注。在沒有人工標注的情形下,自監(jiān)督學(xué)習(xí)需要預(yù)先設(shè)定一些預(yù)訓(xùn)練任務(wù)輔助模型學(xué)習(xí)。2016年以前,一些預(yù)訓(xùn)練任務(wù)推動該領(lǐng)域出現(xiàn)了一些大的進展。自監(jiān)督學(xué)習(xí)主要分為兩種,一種是生成式,一種是對比式,近幾年最新的一些工作大多是基于實例區(qū)分的對比學(xué)習(xí)。
基于實例區(qū)分的對比自監(jiān)督學(xué)習(xí)在最近幾年取得了極大的進展,在一些任務(wù)上刷新了現(xiàn)有自監(jiān)督預(yù)訓(xùn)練任務(wù)的SOTA結(jié)果。最近我們在對比自監(jiān)督學(xué)習(xí)方面有兩項優(yōu)化工作,首次實現(xiàn)了在ImageNet線性分類任務(wù)中達到全監(jiān)督基線性能,并且在小樣本分類上大大超越了之前的方法。然而,現(xiàn)有的自監(jiān)督預(yù)訓(xùn)練模型仍然處于探索階段,存在大量的問題未能夠解決:現(xiàn)有的自監(jiān)督預(yù)訓(xùn)練算法迭代緩慢,很難復(fù)制到大模型以及超大規(guī)模數(shù)據(jù)集;另外,相較于全監(jiān)督學(xué)習(xí),其特征表達在大多數(shù)下游任務(wù)上僅僅能獲得與之相比擬的結(jié)果,其進一步的性能優(yōu)勢還有待挖掘。因此,如何利用自監(jiān)督學(xué)習(xí)在超大數(shù)據(jù)集合,超大模型上獲取更強的泛化性能將會是未來的發(fā)展方向。
在這里,介紹一下我們最新的幾個工作,在對比自監(jiān)督學(xué)習(xí)框架下,我們提出了基于鄰域保持的混合圖像增強,在業(yè)界首次提出了利用不同圖像數(shù)據(jù)增強策略提升其泛化性能。過去,對比學(xué)習(xí)通常利用同一樣本的不同數(shù)據(jù)增強生成正樣本集合,并且把其他樣本均視為負樣本的策略,將樣本特征的距離拉近或者拉遠作對比學(xué)習(xí)任務(wù),而我們首次提出了選取不同正樣本的方法。同時,提出了基于局部領(lǐng)域混合增強的技術(shù),把多個相似樣本的特征拉近,不同樣本的距離拉遠。我們的方法在ImageNet線性分類評估上,TOP-1的精度達到了75.5%準確率,離監(jiān)督學(xué)習(xí)基線76.5%僅僅差了1個百分點。通過對預(yù)訓(xùn)練模型在小樣本標注數(shù)據(jù)上進行微調(diào)(1%和10%標注的數(shù)據(jù)),我們的精度達到了最好的結(jié)果。
接下來介紹一個我們今年剛剛完成的工作,基于等級化語義聚集的對比自監(jiān)督學(xué)習(xí)框架。在上述工作的基礎(chǔ)上,我們進一步發(fā)現(xiàn)即使顯示地拉近語義相似性樣本,特征表達的可分離特性并沒有達到我們的預(yù)期目標,這限制了其泛化表征能力。自監(jiān)督學(xué)習(xí)仍然存在優(yōu)化困難,收斂速度慢等問題,為此,我們做了兩點改進,第一,我們拓展了自監(jiān)督學(xué)習(xí)算法中正樣本數(shù)目,使得正樣本集合能夠更加高效的被聚集,同時避免受大量負樣本優(yōu)化的影響。第二,我們在淺層特征上引入對比自監(jiān)督學(xué)習(xí),通過精心設(shè)計的淺層優(yōu)化目標加速訓(xùn)練過程,在淺層特征上實現(xiàn)了更好的可分離性,我們發(fā)現(xiàn)這些優(yōu)勢對小樣本學(xué)習(xí)有極大的提升。從結(jié)果來看,我們在線性分類任務(wù)中達到了76.4%的精度,首次達到了和全監(jiān)督基線相比擬的性能,而且通過將預(yù)訓(xùn)練模型在小樣本標注數(shù)據(jù)上進行微調(diào),在之前的結(jié)果上又得達到了新的SOTA,特別地,僅僅使用10%標注,我們在ImageNet 分類上達到了75.1%的TOP-1精度。
上述兩項工作都是在沒有任何標簽設(shè)置下完成的,更進一步,我們探索了如何把對比學(xué)習(xí)和數(shù)據(jù)標簽高效地結(jié)合起來,通過引入圖像真實標簽來輔助對比學(xué)習(xí),我們認為應(yīng)該將自監(jiān)督學(xué)習(xí)得到的表觀特征和監(jiān)督學(xué)習(xí)的語義特征相結(jié)合,它的本質(zhì)是把表觀相似和語義相似的樣本距離拉近,將不相似樣本的距離推遠。從結(jié)果上看,這個工作在各個下游工作中(比如檢測、語義分割、實例分割)的表現(xiàn)全面超越了以往的自監(jiān)督和全監(jiān)督的泛化能力。
華為云的第二個核心研究方向是如何設(shè)計高效的視覺識別模型,即模型高效。在這個方向主要聚焦兩個方面,第一是如何設(shè)計神經(jīng)網(wǎng)絡(luò)模型,第二是在神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索中,如何在原子算子層面上進行搜索。關(guān)于神經(jīng)網(wǎng)絡(luò)模型設(shè)計,最初的方式都是手工設(shè)計的,這種方式經(jīng)過高速發(fā)展后,也進入了一個瓶頸,因此從2017年開始,自動的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索經(jīng)歷了一個迅猛發(fā)展的過程,也取得了一些可喜的成績。但是搜索出的網(wǎng)絡(luò)也面臨幾個問題,第一個問題,搜索空間仍然是手工定義的;第二個,搜索的卷積算子是人工定義的,而且相比于手工設(shè)計的網(wǎng)絡(luò),搜索的網(wǎng)絡(luò)可遷移性也是比較差的。
我們在網(wǎng)絡(luò)架構(gòu)搜索上第一個工作是P-DARTS,提出漸進的可微分網(wǎng)絡(luò)架構(gòu)搜索算法。之前的網(wǎng)絡(luò)架構(gòu)搜索面臨著搜索網(wǎng)絡(luò)和測試網(wǎng)絡(luò)深度不一樣的問題,在較淺的搜索網(wǎng)絡(luò)中搜索出來的架構(gòu)并不適合較深的測試網(wǎng)絡(luò)。早期的方法直接加深搜索的深度,但是會造成顯存爆炸的問題,并且導(dǎo)致搜索不穩(wěn)定。為了解決這個問題,我們提出了兩個思想,一個是搜索空間近似,第二個是搜索正則化。搜索空間近似,是指采用漸進搜索策略,逐漸加深搜索的深度;同時進行鏈接權(quán)重的學(xué)習(xí),把權(quán)重比較小的鏈接運算都扔掉,這樣減少了搜索空間。搜索正則化主要是對搜索得到的一些skip connect的數(shù)量上的限制。從結(jié)果上看,我們把P-DARTS搜索的網(wǎng)絡(luò)遷移到ImageNet上,在ImageNet分類任務(wù)上與基線方法相比提高了兩個百分點。P-DARTS網(wǎng)絡(luò)搜索算法是在P100上完成的,大概需要0.3個GPU-days。與去年同期的DARTS工作進行大致的比較,它的搜索時間是4個GPU-days,而在性能和速度都有超越的情況下,我們的方法只需要0.3個GPU-days。我們在架構(gòu)搜索上的第二個工作是PC-DARTS,這是業(yè)界搜索速度最快的網(wǎng)絡(luò)架構(gòu)方法之一,其主要思想有兩個,一個是采用局部連接的思想來解決網(wǎng)絡(luò)冗余的問題,第二個是采用邊正則化的思想來解決網(wǎng)絡(luò)搜索穩(wěn)定性的問題。并且,這個工作首次在大規(guī)模圖像數(shù)據(jù)集ImageNet上進行了神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索。
我們最新的一個相關(guān)工作是GOLD-NAS,漸進剪枝的單階段可微分搜索算法。這個算法主要的一個貢獻是它打破了傳統(tǒng)可微分搜索空間的諸多限制,因此大大增加了搜索空間的容量,并提出了單階段優(yōu)化策略和漸進剪枝的優(yōu)化策略。從結(jié)果上看,在擴大的搜索空間中,算法不僅能夠找到絕對性能更強的網(wǎng)絡(luò),也能找到具有更高性價比的網(wǎng)絡(luò)。
我們第四個工作是卷積搜索,提出對卷積操作進行搜索,當(dāng)前的模型搜索都是采用一些固定的卷積操作,比如1×1、3×3的卷積,這種方式限制了模型的性能。因此,為了將卷積的設(shè)計也納入搜索的范圍,這個工作提出了針對點云任務(wù)的基于數(shù)據(jù)驅(qū)動的模型搜索,同時對卷積的結(jié)構(gòu)也進行了搜索,將來將進一步擴展到傳統(tǒng)的圖像領(lǐng)域。
我們最近兩年在計算機視覺三大頂會CVPR、ICCV、ECCV大概發(fā)表了近百篇文章,基本進入視覺研究領(lǐng)域第一梯隊,極大地提高了華為在計算機視覺領(lǐng)域的國際競爭力,同時有一些工作也獲得了最佳論文和最佳論文提名。而且最新的算法已經(jīng)逐漸部署到華為的一站式AI開發(fā)平臺,在一些行業(yè)得到了廣泛的應(yīng)用,下面再介紹一下視覺任務(wù)的進展和在行業(yè)的實踐。
第一個進展是圖像分類技術(shù),在ImageNet上,今年我們的分類準確率達到了85.8%,而之前谷歌最好的精度是85.5%。從今年3月份以來,我們在這方面一直保持著領(lǐng)先水平。
第二個進展是弱標注場景下的圖像分類技術(shù)。在WebVision大規(guī)模弱標注的網(wǎng)絡(luò)圖像分類比賽中,大約有5000個類別的1600萬張圖像,有90多支參賽隊伍競爭,華為云在分類準確率上取得了業(yè)界第一的水平。我們把圖像分類技術(shù)應(yīng)用到了一些傳統(tǒng)行業(yè),比如米旗蛋糕店。結(jié)果上看,我們的技術(shù)讓商品整盤識別率達到了99%以上的精度。另外,我們的模型訓(xùn)練時間小于一天,因此每天都可以進行模型更新,商品的識別時間也小于1秒。
第三個進展是圖像檢測、分割技術(shù),在業(yè)界權(quán)威的目標檢測數(shù)據(jù)集MS-COCO數(shù)據(jù)集上,不論是單模型還是多模型,我們都取得了今年業(yè)界第一的成績。我們將檢測、分割技術(shù)用到了醫(yī)療智能體,在今年新冠肺炎AI-CT輔助篩查中實現(xiàn)了自動智能檢測,而且已經(jīng)在各大醫(yī)院成功部署。
我們第四個進展是多模態(tài)數(shù)據(jù)處理技術(shù),相對于單模態(tài),多模態(tài)具有天然的互補優(yōu)勢,比如在無人駕駛中除了圖像的輸入,還有激光雷達信號、GPS、圖像分割的數(shù)據(jù)。在最權(quán)威的三維目標檢測NuScenes數(shù)據(jù)上,我們提出的技術(shù)也取得了非常好的成績,我們的結(jié)果比第二名領(lǐng)先了3.1%。同時我們將多模態(tài)處理技術(shù)用在了深圳交通智能體上,實現(xiàn)對紅綠燈控制的智能化,在交通總量相同的情況下將平均通行車速提高了15%,將平均等待時間、延誤時間下降了17.7%。
最后介紹一下華為云一站式AI開發(fā)管理平臺ModelArts。ModelArts有兩個不同層次的版本,一個是ModelArts Fundamental,一個是ModelArts Pro。根據(jù)華為云在十多個行業(yè)常年的技術(shù)積累,ModelArts Pro開發(fā)平臺主要提供五大類的專業(yè)應(yīng)用開發(fā)套件,包括文字識別套件、視覺套件、知識圖譜套件、多模態(tài)開發(fā)套件、自然語言處理套件,還提供了四十多個行業(yè)級的高精度預(yù)置的算法, 包含數(shù)據(jù)準備、數(shù)據(jù)處理、 模型設(shè)計、模型管理及部署等等。
以上是華為云在視覺預(yù)訓(xùn)練模型上的一些基礎(chǔ)研究最新進展和行業(yè)實踐的案例,以及在華為云AI開放平臺沉淀的一些工作。謝謝!
— 完 —