MEET2021 | 地平線黃暢:軟件2.0時代,數(shù)據(jù)驅動進化,算力將成為智能化的基石
“車載AI芯片,不僅是智能汽車的數(shù)字發(fā)動機,也是整個芯片行業(yè)的珠穆朗瑪峰。”
編輯部 整理自 MEET 2021
量子位 報道 | 公眾號 QbitAI
當下,AI芯片將迎來什么樣的挑戰(zhàn)?
隨著軟件步入“2.0時代”,數(shù)據(jù)開始驅動AI進化,算力也逐漸成為智能化的基石。
但除了芯片本身的算力提升,AI算法對芯片的要求,也還會越來越高。
一方面,AI算法的發(fā)展日新月異,從人工設計特征,到深度學習神經網(wǎng)絡模型,發(fā)展速度已經遠超AI硬件改進的速度。
另一方面,軟件2.0時代,靈活的AI開發(fā)、有效的數(shù)據(jù)閉環(huán),將成為AI系統(tǒng)的新特征,這又會對AI芯片提出更多要求。
前后浪潮,一同夾擊。AI芯片,應當如何破圈?
在MEET 2021智能未來大會現(xiàn)場,地平線聯(lián)合創(chuàng)始人兼技術副總裁黃暢,給我們分享了對于AI芯片行業(yè)發(fā)展的思考。
在不改變原意的基礎上,量子位對黃暢的演講內容進行了編輯整理。
關于MEET 智能未來大會:MEET大會是由量子位主辦的智能科技領域頂級商業(yè)峰會,致力于探討前沿科技技術的落地與行業(yè)應用。本次大會現(xiàn)場有李開復等20余位行業(yè)頂級大咖分享,500余名行業(yè)觀眾參與,超過150萬網(wǎng)友在線收看直播。包括新華社、搜狐科技、澎湃新聞、封面新聞等數(shù)十家主流媒體在內紛紛報道,線上總曝光量累計超過2000萬。
演講要點
- AI的核心理念,就是不斷地用機器替代人做更多的事情,包括學習本身。
- “軟件2.0”,指的是將整套AI系統(tǒng)的開發(fā)、測試、改進、安全評估,放在真實的物理世界中迭代提升,形成一個數(shù)據(jù)迭代閉環(huán)。
- 如今,圖像識別算法的進化速度,甚至已超過半導體行業(yè)的摩爾定律。
- 即使功耗再低、面積再小,芯片也不能沒有性能。而芯片的運算能力指標(TOPS),并不能反映最先進的算法帶來的性能提升。因此,地平線提出了一個新指標MAPS,來合理地評估計算性能。
- 只有將最先進的算法、和最先進的處理器架構結合在一起,才能更好地對算法進行優(yōu)化。
- 車載AI芯片,不僅是智能汽車的數(shù)字發(fā)動機,也是整個芯片行業(yè)的珠穆朗瑪峰。
(以下為黃暢演講分享全文)
飛速演進的AI算法
自上世紀60年代被提出后,AI經歷了幾個發(fā)展階段。
從早期的符號主義、基于規(guī)則的專家系統(tǒng),到后來的人工設計特征、淺層學習,再到今天的深度學習、超越深度學習的新范式……
每個發(fā)展階段中,AI的核心理念,都是不斷地用機器替代人做更多的事情,包括學習本身。
但與其他領域不同,AI涉及的問題,難以用分解簡化。
以計算機視覺為例。
在我們看來,下圖是一只貓;但對于計算機而言,它只是一堆數(shù)據(jù)。
如何讓計算機理解這張圖,是一個復雜、高度非線性的問題。
上世紀80~90年代,計算機視覺的先驅,曾提出一種場景理解框架:用計算機提取圖片中的物體邊緣、構造2D物體,并理解2D物體之間的深度關系(2.5D信息),以獲得3D模型。
但這個框架過于理想化。
不僅在框架計算時會引入大量不確定性(錯誤、噪音),輸入圖像本身也存在物體尺度變化、流水遮擋、同類物體類內差異等問題。
而且,現(xiàn)實場景下存在大量光源,各種光會從不同角度、位置出發(fā),在空間中發(fā)生反射、折射等變換。
但計算機,卻無法逆向還原這一過程。
伴隨著AI發(fā)展進入下一階段,專家們開始嘗試設計一些簡單特征(如SIFT、HOG等特征)。
這些特征,通常用于描述邊緣、紋理等信息。
然后,計算機會用機器學習中的淺層學習(如SVM、隨機森林等)模型來處理特征。
這些模型的參數(shù)不多,通常只經過2~3層非線性變化。
十幾年前,隨著稀疏編碼(Sparse Coding)出現(xiàn),這條路走到了極致。
這種方法基于無監(jiān)督學習,將特征表達從低維映射到高維,并在高維稀疏空間中,用線性方法進行圖像分類。
盡管參數(shù)很多,但稀疏編碼并非端到端學習模式,仍屬于淺層應用框架。因此,它的提升空間非常有限。
2012年,深度學習開始在計算機視覺領域“一飛沖天”。
隨著深度學習的發(fā)展,各種AI模型的運算效率變得更高。
如果配合上特定的硬件設計,還能很好地擴大模型的容量、提升模型識別精度。
早期的深度學習網(wǎng)絡,仍然由專家設計。但后來,研究者們開始讓AI自主發(fā)現(xiàn)能提取最優(yōu)關鍵特征的網(wǎng)絡架構、構造神經網(wǎng)絡。
這期間,AI模型變得更加多樣化,算法也在不斷進步,其速度甚至超過了半導體行業(yè)的摩爾定律。
過去8~10年里,處理器性能大約每隔18個月翻倍,但在保持精度相同的前提下,算法的計算量每隔10~14個月就能減半。
如今,只需要幾百分之一的計算量,AI算法就能達到8年前圖像識別的精度。
相比于傳統(tǒng)方法(下圖黑線)會導致精度飽和,深度學習(下圖紅線)的優(yōu)勢在于,它能很好地利用大數(shù)據(jù)、大模型和大計算量,來提升模型精度。
但與AlphaGo不同,基于深度學習的AI系統(tǒng)不能只建立在模擬器中。
以地平線從事的自動駕駛行業(yè)為例。
相比于虛擬世界,自動駕駛所應用的真實物理世界(像動植物、自然氣候等)在不斷發(fā)展變化、并持續(xù)涌現(xiàn)出新的任務和邊角案例(corner case)。
因此,我們不能只在“虛擬世界”(如模擬器)中,訓練端到端算法(感知、預測、規(guī)劃、決策)、再將它們部署到汽車上。
我們必須將整套AI系統(tǒng)的開發(fā)、測試、改進、安全評估,放在真實的物理世界中迭代提升,形成一個數(shù)據(jù)迭代閉環(huán)。
這,便是所謂的“軟件2.0”。
軟件2.0時代,AI芯片新指標
軟件2.0開發(fā)系統(tǒng),是目前可行度最高的大規(guī)模持續(xù)迭代AI系統(tǒng)。
這個AI系統(tǒng)建立于自動化平臺上,通過構造一個完整的數(shù)據(jù)閉環(huán),來快速提取物理世界的數(shù)據(jù)。
然后,將數(shù)據(jù)送入后端訓練、迭代模型,以提升系統(tǒng)的精度與效率,再通過OTA更新前端模型。
這是一個包含數(shù)據(jù)和計算系統(tǒng)在內的、非常完整的體系。
那么,這個數(shù)據(jù)閉環(huán)長什么樣?
如下圖,傳統(tǒng)的“數(shù)據(jù)標注→訓練→評測”,只是其中的一個小閉環(huán),里面的數(shù)據(jù)是“死”的。
真正的大數(shù)據(jù)閉環(huán),實際上包含這一訓練模型,它會通過OTA服務器,將模型部署到機器人端(如自動駕駛車輛)。
然后,再由機器人端采集數(shù)據(jù),并通過數(shù)據(jù)挖掘送到閉環(huán)數(shù)據(jù)系統(tǒng),進行快速迭代。
這樣的“小閉環(huán)+大閉環(huán)”,構成了整個“軟件2.0”的開發(fā)系統(tǒng)。
這些年來,我們的軟件算法演進速度很快。
但算法的演進速度,是以巧妙的算法設計為代價的。算法越巧妙,對計算架構的要求就更高。
像傳統(tǒng)的通用并行計算架構GPU,已經無法滿足目前先進AI算法的需求,因為它的整體計算效率,其實相當?shù)拖隆?/p>
舉個例子,下面是用運算能力(TOPS)達每秒30萬億次的處理器系統(tǒng),運行各種算法任務的結果。
理想情況下,系統(tǒng)的算力利用率,應該能達到100%;但實際上,算力利用率普遍只有5%~60%。
精度相同時,算法計算量越小,計算效率通常也越低。
因此,處理器的架構設計非常重要。架構設計得越合理,算法運行就越高效。
為了合理地評估計算性能,地平線提出了一個新指標MAPS(Mean Accuracy-guaranteed Processing Speed,在精度有保障范圍內的平均處理速度)。
為什么要提出這個新的指標?
事實上,芯片的評估,往往有三個指標(PPA):性能(Performance)、功耗(Power)、面積(Area)。
其中,功耗和面積分別決定了芯片的使用、制造成本,但無論功耗再低、面積再小,芯片都不能沒有性能。
然而運算能力(TOPS)指標,并不能反映最先進算法帶來的性能提升。
因此,我們定義了MAPS,這個指標通過可視化和量化的方式,在合理的精度范圍內,以“快”和“準”兩個維度,評估芯片對數(shù)據(jù)的平均處理速度。
例如,在不同芯片上對ImageNet數(shù)據(jù)集進行圖像分類。
首先,選擇適合芯片的算法,然后從“快”和“準”兩個維度,對芯片的速度和精度進行評估。
上圖的三條曲線,就對應了三顆不同芯片的物體識別效果。
這三顆芯片,分別是地平線第三代處理器、第五代處理器和英偉達Xavier芯片。
對比發(fā)現(xiàn),在圖像分類中,地平線第三代處理器只需要8%的功耗,就能達到英偉達50%的性能;第五代芯片只需要50%的功耗,就能達到英偉達500%的性能。
在目標檢測中,第五代處理器同樣用50%的功耗,就達到了英偉達13倍的性能。
如果只沿用通用計算架構,很難為先進算法做出優(yōu)化。
只有將最先進的算法、和最先進的處理器架構設計結合,才能在功耗和性能上同時達到最優(yōu)。
在軟件2.0時代,算力的重要性不言而喻,尤其是領域相關的算力,而非通用算力。
如果對領域相關的算力進行評估,一個更合理的指標就是MAPS。從這一指標來看,地平線設計芯片的功耗和性能,要比通用設計芯片的優(yōu)勢更大。
在鉆研AI芯片技術的過程中,我們也發(fā)現(xiàn)一個很有趣的現(xiàn)象。
一方面,我們在不斷提高AI技術;另一方面,AI技術也改進了我們的生產制造。以芯片設計為例,普通工程師進行電路連線需要6周,但AI只需要6小時。
事實上,AI技術的出現(xiàn),給芯片設計帶來了巨大挑戰(zhàn)。
AI任務要求,芯片除了算力、還必須攜帶大量計算和存儲單元,即對存儲帶寬提出了更高要求。
反之,AI技術,也在快速推動AI芯片的發(fā)展。
車載AI芯片,行業(yè)的珠穆朗瑪峰
地平線渴望萬物智能的時代,在我們看來,汽車終將成為四個輪子上的超級計算機。
而車載AI芯片,不僅是智能汽車的數(shù)字發(fā)動機,也是整個芯片行業(yè)的珠穆朗瑪峰,其設計難度和質量要求(車規(guī)級)都很高。
地平線的定位是Tier2,為產業(yè)賦能。我們既能供應芯片,也能提供完整方案,同時,還可以開放工具鏈,提供算法、模型樣例,進行專業(yè)化的培訓服務。
今年,地平線開啟了前裝量產元年。
地平線車規(guī)級芯片“征程2”,目前出貨量已突破10萬,還簽下了20多個前裝定點項目。
目前,全球僅有三家公司,實現(xiàn)了車規(guī)級AI芯片規(guī)?;慨a,地平線就是其中一家,也是國內唯一一家實現(xiàn)車規(guī)級AI芯片大規(guī)模量產的企業(yè)。
而長安UNI-T和奇瑞螞蟻,也已經率先采用地平線的芯片,用作智能駕艙和高級別輔助駕駛。
今年3月,“征程2”在長安UNI-T上實現(xiàn)前裝量產;9月,奇瑞螞蟻搭載“征程2”正式上市,實現(xiàn)L2+級自動駕駛。
從自動駕駛到智能座艙,汽車智能化的大潮即將涌來,勢不可當。
我們希望通過努力去賦能百業(yè),讓我們的客戶和用戶,都能享受到AI帶來的收益。同時,我們也愿意與更多伙伴一起踏上這一征程。
謝謝大家!
- 首個GPT-4驅動的人形機器人!無需編程+零樣本學習,還可根據(jù)口頭反饋調整行為2023-12-13
- IDC霍錦潔:AI PC將顛覆性變革PC產業(yè)2023-12-08
- AI視覺字謎爆火!夢露轉180°秒變愛因斯坦,英偉達高級AI科學家:近期最酷的擴散模型2023-12-03
- 蘋果大模型最大動作:開源M芯專用ML框架,能跑70億大模型2023-12-07