MEET2021 | 地平線黃暢:軟件2.0時代,數(shù)據(jù)驅(qū)動進化,算力將成為智能化的基石
“車載AI芯片,不僅是智能汽車的數(shù)字發(fā)動機,也是整個芯片行業(yè)的珠穆朗瑪峰?!?/p>
編輯部 整理自 MEET 2021
量子位 報道 | 公眾號 QbitAI
當(dāng)下,AI芯片將迎來什么樣的挑戰(zhàn)?
隨著軟件步入“2.0時代”,數(shù)據(jù)開始驅(qū)動AI進化,算力也逐漸成為智能化的基石。
但除了芯片本身的算力提升,AI算法對芯片的要求,也還會越來越高。
一方面,AI算法的發(fā)展日新月異,從人工設(shè)計特征,到深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,發(fā)展速度已經(jīng)遠超AI硬件改進的速度。
另一方面,軟件2.0時代,靈活的AI開發(fā)、有效的數(shù)據(jù)閉環(huán),將成為AI系統(tǒng)的新特征,這又會對AI芯片提出更多要求。
前后浪潮,一同夾擊。AI芯片,應(yīng)當(dāng)如何破圈?
在MEET 2021智能未來大會現(xiàn)場,地平線聯(lián)合創(chuàng)始人兼技術(shù)副總裁黃暢,給我們分享了對于AI芯片行業(yè)發(fā)展的思考。
在不改變原意的基礎(chǔ)上,量子位對黃暢的演講內(nèi)容進行了編輯整理。
關(guān)于MEET 智能未來大會:MEET大會是由量子位主辦的智能科技領(lǐng)域頂級商業(yè)峰會,致力于探討前沿科技技術(shù)的落地與行業(yè)應(yīng)用。本次大會現(xiàn)場有李開復(fù)等20余位行業(yè)頂級大咖分享,500余名行業(yè)觀眾參與,超過150萬網(wǎng)友在線收看直播。包括新華社、搜狐科技、澎湃新聞、封面新聞等數(shù)十家主流媒體在內(nèi)紛紛報道,線上總曝光量累計超過2000萬。
演講要點
- AI的核心理念,就是不斷地用機器替代人做更多的事情,包括學(xué)習(xí)本身。
- “軟件2.0”,指的是將整套AI系統(tǒng)的開發(fā)、測試、改進、安全評估,放在真實的物理世界中迭代提升,形成一個數(shù)據(jù)迭代閉環(huán)。
- 如今,圖像識別算法的進化速度,甚至已超過半導(dǎo)體行業(yè)的摩爾定律。
- 即使功耗再低、面積再小,芯片也不能沒有性能。而芯片的運算能力指標(biāo)(TOPS),并不能反映最先進的算法帶來的性能提升。因此,地平線提出了一個新指標(biāo)MAPS,來合理地評估計算性能。
- 只有將最先進的算法、和最先進的處理器架構(gòu)結(jié)合在一起,才能更好地對算法進行優(yōu)化。
- 車載AI芯片,不僅是智能汽車的數(shù)字發(fā)動機,也是整個芯片行業(yè)的珠穆朗瑪峰。
(以下為黃暢演講分享全文)
飛速演進的AI算法
自上世紀(jì)60年代被提出后,AI經(jīng)歷了幾個發(fā)展階段。
從早期的符號主義、基于規(guī)則的專家系統(tǒng),到后來的人工設(shè)計特征、淺層學(xué)習(xí),再到今天的深度學(xué)習(xí)、超越深度學(xué)習(xí)的新范式……
每個發(fā)展階段中,AI的核心理念,都是不斷地用機器替代人做更多的事情,包括學(xué)習(xí)本身。
但與其他領(lǐng)域不同,AI涉及的問題,難以用分解簡化。
以計算機視覺為例。
在我們看來,下圖是一只貓;但對于計算機而言,它只是一堆數(shù)據(jù)。
如何讓計算機理解這張圖,是一個復(fù)雜、高度非線性的問題。
上世紀(jì)80~90年代,計算機視覺的先驅(qū),曾提出一種場景理解框架:用計算機提取圖片中的物體邊緣、構(gòu)造2D物體,并理解2D物體之間的深度關(guān)系(2.5D信息),以獲得3D模型。
但這個框架過于理想化。
不僅在框架計算時會引入大量不確定性(錯誤、噪音),輸入圖像本身也存在物體尺度變化、流水遮擋、同類物體類內(nèi)差異等問題。
而且,現(xiàn)實場景下存在大量光源,各種光會從不同角度、位置出發(fā),在空間中發(fā)生反射、折射等變換。
但計算機,卻無法逆向還原這一過程。
伴隨著AI發(fā)展進入下一階段,專家們開始嘗試設(shè)計一些簡單特征(如SIFT、HOG等特征)。
這些特征,通常用于描述邊緣、紋理等信息。
然后,計算機會用機器學(xué)習(xí)中的淺層學(xué)習(xí)(如SVM、隨機森林等)模型來處理特征。
這些模型的參數(shù)不多,通常只經(jīng)過2~3層非線性變化。
十幾年前,隨著稀疏編碼(Sparse Coding)出現(xiàn),這條路走到了極致。
這種方法基于無監(jiān)督學(xué)習(xí),將特征表達從低維映射到高維,并在高維稀疏空間中,用線性方法進行圖像分類。
盡管參數(shù)很多,但稀疏編碼并非端到端學(xué)習(xí)模式,仍屬于淺層應(yīng)用框架。因此,它的提升空間非常有限。
2012年,深度學(xué)習(xí)開始在計算機視覺領(lǐng)域“一飛沖天”。
隨著深度學(xué)習(xí)的發(fā)展,各種AI模型的運算效率變得更高。
如果配合上特定的硬件設(shè)計,還能很好地擴大模型的容量、提升模型識別精度。
早期的深度學(xué)習(xí)網(wǎng)絡(luò),仍然由專家設(shè)計。但后來,研究者們開始讓AI自主發(fā)現(xiàn)能提取最優(yōu)關(guān)鍵特征的網(wǎng)絡(luò)架構(gòu)、構(gòu)造神經(jīng)網(wǎng)絡(luò)。
這期間,AI模型變得更加多樣化,算法也在不斷進步,其速度甚至超過了半導(dǎo)體行業(yè)的摩爾定律。
過去8~10年里,處理器性能大約每隔18個月翻倍,但在保持精度相同的前提下,算法的計算量每隔10~14個月就能減半。
如今,只需要幾百分之一的計算量,AI算法就能達到8年前圖像識別的精度。
相比于傳統(tǒng)方法(下圖黑線)會導(dǎo)致精度飽和,深度學(xué)習(xí)(下圖紅線)的優(yōu)勢在于,它能很好地利用大數(shù)據(jù)、大模型和大計算量,來提升模型精度。
但與AlphaGo不同,基于深度學(xué)習(xí)的AI系統(tǒng)不能只建立在模擬器中。
以地平線從事的自動駕駛行業(yè)為例。
相比于虛擬世界,自動駕駛所應(yīng)用的真實物理世界(像動植物、自然氣候等)在不斷發(fā)展變化、并持續(xù)涌現(xiàn)出新的任務(wù)和邊角案例(corner case)。
因此,我們不能只在“虛擬世界”(如模擬器)中,訓(xùn)練端到端算法(感知、預(yù)測、規(guī)劃、決策)、再將它們部署到汽車上。
我們必須將整套AI系統(tǒng)的開發(fā)、測試、改進、安全評估,放在真實的物理世界中迭代提升,形成一個數(shù)據(jù)迭代閉環(huán)。
這,便是所謂的“軟件2.0”。
軟件2.0時代,AI芯片新指標(biāo)
軟件2.0開發(fā)系統(tǒng),是目前可行度最高的大規(guī)模持續(xù)迭代AI系統(tǒng)。
這個AI系統(tǒng)建立于自動化平臺上,通過構(gòu)造一個完整的數(shù)據(jù)閉環(huán),來快速提取物理世界的數(shù)據(jù)。
然后,將數(shù)據(jù)送入后端訓(xùn)練、迭代模型,以提升系統(tǒng)的精度與效率,再通過OTA更新前端模型。
這是一個包含數(shù)據(jù)和計算系統(tǒng)在內(nèi)的、非常完整的體系。
那么,這個數(shù)據(jù)閉環(huán)長什么樣?
如下圖,傳統(tǒng)的“數(shù)據(jù)標(biāo)注→訓(xùn)練→評測”,只是其中的一個小閉環(huán),里面的數(shù)據(jù)是“死”的。
真正的大數(shù)據(jù)閉環(huán),實際上包含這一訓(xùn)練模型,它會通過OTA服務(wù)器,將模型部署到機器人端(如自動駕駛車輛)。
然后,再由機器人端采集數(shù)據(jù),并通過數(shù)據(jù)挖掘送到閉環(huán)數(shù)據(jù)系統(tǒng),進行快速迭代。
這樣的“小閉環(huán)+大閉環(huán)”,構(gòu)成了整個“軟件2.0”的開發(fā)系統(tǒng)。
這些年來,我們的軟件算法演進速度很快。
但算法的演進速度,是以巧妙的算法設(shè)計為代價的。算法越巧妙,對計算架構(gòu)的要求就更高。
像傳統(tǒng)的通用并行計算架構(gòu)GPU,已經(jīng)無法滿足目前先進AI算法的需求,因為它的整體計算效率,其實相當(dāng)?shù)拖隆?/p>
舉個例子,下面是用運算能力(TOPS)達每秒30萬億次的處理器系統(tǒng),運行各種算法任務(wù)的結(jié)果。
理想情況下,系統(tǒng)的算力利用率,應(yīng)該能達到100%;但實際上,算力利用率普遍只有5%~60%。
精度相同時,算法計算量越小,計算效率通常也越低。
因此,處理器的架構(gòu)設(shè)計非常重要。架構(gòu)設(shè)計得越合理,算法運行就越高效。
為了合理地評估計算性能,地平線提出了一個新指標(biāo)MAPS(Mean Accuracy-guaranteed Processing Speed,在精度有保障范圍內(nèi)的平均處理速度)。
為什么要提出這個新的指標(biāo)?
事實上,芯片的評估,往往有三個指標(biāo)(PPA):性能(Performance)、功耗(Power)、面積(Area)。
其中,功耗和面積分別決定了芯片的使用、制造成本,但無論功耗再低、面積再小,芯片都不能沒有性能。
然而運算能力(TOPS)指標(biāo),并不能反映最先進算法帶來的性能提升。
因此,我們定義了MAPS,這個指標(biāo)通過可視化和量化的方式,在合理的精度范圍內(nèi),以“快”和“準(zhǔn)”兩個維度,評估芯片對數(shù)據(jù)的平均處理速度。
例如,在不同芯片上對ImageNet數(shù)據(jù)集進行圖像分類。
首先,選擇適合芯片的算法,然后從“快”和“準(zhǔn)”兩個維度,對芯片的速度和精度進行評估。
上圖的三條曲線,就對應(yīng)了三顆不同芯片的物體識別效果。
這三顆芯片,分別是地平線第三代處理器、第五代處理器和英偉達Xavier芯片。
對比發(fā)現(xiàn),在圖像分類中,地平線第三代處理器只需要8%的功耗,就能達到英偉達50%的性能;第五代芯片只需要50%的功耗,就能達到英偉達500%的性能。
在目標(biāo)檢測中,第五代處理器同樣用50%的功耗,就達到了英偉達13倍的性能。
如果只沿用通用計算架構(gòu),很難為先進算法做出優(yōu)化。
只有將最先進的算法、和最先進的處理器架構(gòu)設(shè)計結(jié)合,才能在功耗和性能上同時達到最優(yōu)。
在軟件2.0時代,算力的重要性不言而喻,尤其是領(lǐng)域相關(guān)的算力,而非通用算力。
如果對領(lǐng)域相關(guān)的算力進行評估,一個更合理的指標(biāo)就是MAPS。從這一指標(biāo)來看,地平線設(shè)計芯片的功耗和性能,要比通用設(shè)計芯片的優(yōu)勢更大。
在鉆研AI芯片技術(shù)的過程中,我們也發(fā)現(xiàn)一個很有趣的現(xiàn)象。
一方面,我們在不斷提高AI技術(shù);另一方面,AI技術(shù)也改進了我們的生產(chǎn)制造。以芯片設(shè)計為例,普通工程師進行電路連線需要6周,但AI只需要6小時。
事實上,AI技術(shù)的出現(xiàn),給芯片設(shè)計帶來了巨大挑戰(zhàn)。
AI任務(wù)要求,芯片除了算力、還必須攜帶大量計算和存儲單元,即對存儲帶寬提出了更高要求。
反之,AI技術(shù),也在快速推動AI芯片的發(fā)展。
車載AI芯片,行業(yè)的珠穆朗瑪峰
地平線渴望萬物智能的時代,在我們看來,汽車終將成為四個輪子上的超級計算機。
而車載AI芯片,不僅是智能汽車的數(shù)字發(fā)動機,也是整個芯片行業(yè)的珠穆朗瑪峰,其設(shè)計難度和質(zhì)量要求(車規(guī)級)都很高。
地平線的定位是Tier2,為產(chǎn)業(yè)賦能。我們既能供應(yīng)芯片,也能提供完整方案,同時,還可以開放工具鏈,提供算法、模型樣例,進行專業(yè)化的培訓(xùn)服務(wù)。
今年,地平線開啟了前裝量產(chǎn)元年。
地平線車規(guī)級芯片“征程2”,目前出貨量已突破10萬,還簽下了20多個前裝定點項目。
目前,全球僅有三家公司,實現(xiàn)了車規(guī)級AI芯片規(guī)?;慨a(chǎn),地平線就是其中一家,也是國內(nèi)唯一一家實現(xiàn)車規(guī)級AI芯片大規(guī)模量產(chǎn)的企業(yè)。
而長安UNI-T和奇瑞螞蟻,也已經(jīng)率先采用地平線的芯片,用作智能駕艙和高級別輔助駕駛。
今年3月,“征程2”在長安UNI-T上實現(xiàn)前裝量產(chǎn);9月,奇瑞螞蟻搭載“征程2”正式上市,實現(xiàn)L2+級自動駕駛。
從自動駕駛到智能座艙,汽車智能化的大潮即將涌來,勢不可當(dāng)。
我們希望通過努力去賦能百業(yè),讓我們的客戶和用戶,都能享受到AI帶來的收益。同時,我們也愿意與更多伙伴一起踏上這一征程。
謝謝大家!