高通萬衛(wèi)星:終端側(cè)生成式AI時代已經(jīng)來臨|中國AIGC產(chǎn)業(yè)峰會
開發(fā)AI應(yīng)用就像“把大象塞入冰箱”一樣簡單
編輯部 整理自 AIGC峰會
量子位 | 公眾號 QbitAI
AI手機、AI PC硬件新物種正嶄露頭角。
高通作為技術(shù)及芯片廠商,所提供的產(chǎn)品和解決方案正在推動AIGC相關(guān)產(chǎn)業(yè)的規(guī)?;瘮U展。
在本次AIGC產(chǎn)業(yè)峰會上,高通公司Al產(chǎn)品技術(shù)中國區(qū)負(fù)責(zé)人萬衛(wèi)星分享了這樣的觀點:
2024年,高通會重點支持多模態(tài)模型以及更高參數(shù)量的大語言模型在端側(cè)的部署。而高通頂尖的異構(gòu)計算設(shè)計使AI能力貫穿整個SoC,將CPU、GPU和NPU的能力都充分釋放給開發(fā)者。
同時,借助高通AI Hub,開發(fā)者可以輕松地開發(fā)自己的創(chuàng)新AI應(yīng)用,就 像“把大象塞入冰箱”一樣簡單。

為了完整體現(xiàn)萬衛(wèi)星的思考,在不改變原意的基礎(chǔ)上,量子位對演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來更多啟發(fā)。
中國AIGC產(chǎn)業(yè)峰會是由量子位主辦的行業(yè)峰會,20位產(chǎn)業(yè)代表與會討論。線下參會觀眾近千人,線上直播觀眾300萬,獲得了主流媒體的廣泛關(guān)注與報道。
話題要點
- 基于圖像語義理解的多模態(tài)大模型發(fā)展是當(dāng)下的重要趨勢。
- 芯片廠商如何滿足生成式AI多樣化的要求。
- 虛擬化身AI助手,充分利用高通異構(gòu)計算能力的端到端用例解析。
- 利用高通AI Hub進(jìn)行應(yīng)用開發(fā)的過程就像“把大象塞進(jìn)冰箱”一樣簡單。
以下為萬衛(wèi)星演講全文:
終端側(cè)生成式AI時代已經(jīng)來臨
我們相信,終端側(cè)生成式AI時代已經(jīng)來臨。
高通在2023年10月發(fā)布的第三代驍龍8和驍龍X Elite兩款產(chǎn)品上,已經(jīng)實現(xiàn)了大語言模型完整地在端側(cè)運行,并且已經(jīng)或即將為眾多AI手機和AI PC提供支持。
在手機方面,去年年底和今年年初,包括三星、小米、榮耀、OPPO和 vivo 等眾多OEM廠商發(fā)布的Android旗艦產(chǎn)品,都已經(jīng)具備了在端側(cè)運行生成式AI的能力。
基于圖像語義理解的多模態(tài)大模型發(fā)展是當(dāng)下的重要趨勢。
在今年2月的MWC巴塞羅那期間,高通也展示了全球首個在Android手機上運行的多模態(tài)大模型(LMM)。
具體來說,我們在搭載第三代驍龍8的參考設(shè)計上運行了基于圖像和文本輸入、超過70億參數(shù)的大語言和視覺助理大模型(LLaVa),可基于圖像輸入生成多輪對話。
具有語言理解和視覺理解能力的多模態(tài)大模型能夠賦能諸多用例,例如識別和討論復(fù)雜的視覺圖案、物體和場景。
設(shè)想一下,有視覺障礙的用戶就可以在終端側(cè)利用這一技術(shù),實現(xiàn)在城市內(nèi)的導(dǎo)航。同時,高通在驍龍X Elite上也演示了全球首個在Windows PC上運行的音頻推理多模態(tài)大模型。
接下來看看高通作為技術(shù)及芯片廠商,如何滿足生成式AI多樣化的要求。
不同領(lǐng)域的生成式AI用例具有多樣化的要求,包括按需型、持續(xù)型和泛在型用例,其背后所需的AI模型也是千差萬別,很難有一種處理器可以完美適用所有生成式AI用例或非生成式AI用例。
比如,有些用例需要進(jìn)行順序控制,對時延比較敏感;有些用例是持續(xù)型的,對算力和功耗比較敏感;有些用例需要始終在線,對功耗尤其敏感。
高通公司推出的高通AI引擎就是領(lǐng)先的異構(gòu)計算系統(tǒng),它包含多個處理器組件,包括通用硬件加速單元CPU和GPU、專門面向高算力需求的NPU,以及高通傳感器中樞,它們在AI推理過程中扮演不同角色。
前面提到的順序執(zhí)行的按需型任務(wù),可以運行在CPU或GPU上;對AI算力要求比較高的持續(xù)型任務(wù),例如影像處理、生成式AI等,都可以運行在NPU上;對于需要始終在線、對功耗尤其敏感的任務(wù),可以運行在高通傳感器中樞上。
簡單介紹一下高通NPU的演進(jìn)路線,這是非常典型的由上層用例驅(qū)動底層硬件設(shè)計的案例。
2015年及更早之前,AI主要用于一些比較簡單的圖像識別、圖像分類用例,所以我們給NPU配置了標(biāo)量和向量加速器。
2016—2022年間,計算攝影概念開始流行,我們把研究方向從圖像分類轉(zhuǎn)移到了AI計算攝影及視頻等等,包括對自然語言理解和處理的支持,以及對Transformer模型的支持,我們給NPU硬件在標(biāo)量和向量加速器的基礎(chǔ)之上,增加了張量加速器。
2023年,大模型熱度很高,我們在業(yè)內(nèi)率先完成了端側(cè)的大模型支持,給NPU配置了專門的Transformer加速模塊。
2024年,我們會重點支持多模態(tài)模型,以及更高參數(shù)量的大語言模型在端側(cè)的部署。
接下來為大家更深入的介紹高通Hexagon NPU。
第三代驍龍8上的Hexagon NPU不僅進(jìn)行了微架構(gòu)升級,還專門配置了獨立的供電軌道,以實現(xiàn)最佳的能效。
我們還通過微切片推理技術(shù)支持網(wǎng)絡(luò)深度融合,獲取更極致的性能。
此外Hexagon NPU還集成了專門為生成式AI打造的Transformer加速模塊,更高的DDR傳輸帶寬,更高的主頻等先進(jìn)技術(shù)。
所有這些技術(shù)相結(jié)合,使得Hexagon NPU成為面向終端側(cè)生成式AI的行業(yè)領(lǐng)先NPU。
接下來看一個具體案例,虛擬化身AI助手——這是非常典型的充分利用高通異構(gòu)計算能力的端到端用例。
它包括眾多復(fù)雜AI工作負(fù)載,首先需要自動語音識別(ASR)模型負(fù)責(zé)將語音信號轉(zhuǎn)成文本,這部分工作負(fù)載可以運行在高通傳感器中樞上;接下來會由大語言模型負(fù)責(zé)處理文本輸入,生成回復(fù)和對話,這部分工作負(fù)載可以運行在NPU上;再通過文本生成語音(TTS)模型把文本輸出轉(zhuǎn)變成語音信號,這部分負(fù)載可以運行在CPU;最后由GPU模塊負(fù)責(zé)基于語音輸出同步完成虛擬化身渲染,這樣就能得到一個端到端的用語音來交互的虛擬化身助手用例。
前面介紹了硬件技術(shù),接下來分享一下高通平臺的AI性能。
在智能手機領(lǐng)域,第三代驍龍8不管是在魯大師AIMark V4.3、安兔兔AITuTu這些AI基準(zhǔn)測試的總分方面,還是在MLCommon MLPerf推理:
Mobile V3.1的具體模型推理性能測試方面,表現(xiàn)都遠(yuǎn)超于競品。在PC方面,驍龍X Elite在面向Windows的UL Procyon AI推理基準(zhǔn)測試中,表現(xiàn)也超過了基于X86架構(gòu)的競品。
高通除了提供領(lǐng)先的硬件平臺設(shè)計之外,也推出了一個跨平臺、跨終端、跨操作系統(tǒng)的統(tǒng)一軟件棧,叫做高通AI軟件棧(Qualcomm AI Stack)。
高通AI軟件棧支持所有目前主流的訓(xùn)練框架和執(zhí)行環(huán)境,我們還為開發(fā)者提供不同級別、不同層次的優(yōu)化接口,以及完整的編譯工具鏈,讓開發(fā)者可以在驍龍平臺上更加高效的完成模型的開發(fā)、優(yōu)化和部署。
值得強調(diào)的是,高通AI軟件棧是一個跨平臺、跨終端的統(tǒng)一解決方案,所以開發(fā)者只要在高通和驍龍的一個平臺上完成模型的優(yōu)化部署工作,便可以非常方便的將這部分工作遷移到高通和驍龍的其他所有產(chǎn)品上。
今年MWC巴塞羅那期間,高通發(fā)布了非常重量級的產(chǎn)品,高通AI Hub(Qualcomm AI Hub)。該產(chǎn)品面向第三方開發(fā)者和合作伙伴,可以幫助開發(fā)者更加充分的利用高通和驍龍底層芯片的硬件算力,開發(fā)出自己的創(chuàng)新AI應(yīng)用。
利用高通AI Hub進(jìn)行應(yīng)用開發(fā)的過程就像“把大象塞進(jìn)冰箱”一樣簡單。
第一步,根據(jù)用例選擇所需模型。
第二步,選擇需要部署的高通或驍龍平臺。
第三步,只需要寫幾行腳本代碼,就可以完成整個模型部署,在終端側(cè)看到應(yīng)用或算法的運行效果。
目前,高通AI Hub已經(jīng)支持約100個模型,其中有大家比較關(guān)心的生成式AI模型,包括語言、文本和圖像生成,也包括傳統(tǒng)AI模型,例如圖像識別、圖像分割,自然語言理解、自然語言處理等等。具體的模型信息,歡迎大家訪問高通AI Hub網(wǎng)站進(jìn)行查詢。
最后總結(jié)一下高通的AI領(lǐng)先優(yōu)勢。
第一,高通支持實現(xiàn)無與倫比的終端側(cè)AI性能。
第二,高通具備頂尖的異構(gòu)計算能力,使AI能力能夠貫穿整個SoC,將CPU、GPU、NPU和高通傳感器中樞的能力都充分釋放給應(yīng)用開發(fā)者。
第三,高通提供可擴展的AI軟件工具,即前面提到的高通AI軟件棧等。
最后,高通可以支持廣泛的生態(tài)系統(tǒng)和AI模型。
高通AI Hub
AIHUB.QUALCOMM.COM