清華芯片研究再獲頂會MICRO加持:軟件定義芯片團(tuán)隊出品,最佳論文提名后又一突破
他們曾獲得MICRO 2019最佳論文提名
楊凈 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
最近,第53屆國際微架構(gòu)大會(MICRO)在線上順利召開。
作為計算機(jī)體系結(jié)構(gòu)四大頂級會議,清華大學(xué)魏少軍、劉雷波團(tuán)隊有兩篇入選該會議論文。
這是該團(tuán)隊既去年斬獲MICRO 2019最佳論文提名后,在體系結(jié)構(gòu)頂級會議上的又一重要突破。
在會議上,他們做了兩篇學(xué)術(shù)報告。
分別為:
Constant-time Alteration Ternary CAM with Scalable In-Memory Architecture
一種基于可擴(kuò)展存內(nèi)架構(gòu)并支持常數(shù)時間更新的三態(tài)內(nèi)容尋址存儲器。
TFE: Energy-efficient Transferred Filter-based Engine to Compress and Accelerate Convolutional Neural Networks
一種基于轉(zhuǎn)換卷積核的卷積網(wǎng)絡(luò)壓縮與加速架構(gòu)。
報告人分別是兩篇論文一作清華大學(xué)微電子所博士生陳迪貝和莫匯宇,論文通訊作者均是劉雷波教授。
什么樣的研究?
基于可擴(kuò)展存內(nèi)架構(gòu)并支持常數(shù)時間更新的三態(tài)內(nèi)容尋址存儲器
△清華微電子所博士生陳迪貝同學(xué)報告論文的主要工作
三態(tài)內(nèi)容尋址存儲器(TCAM)憑借其不錯的匹配性能,廣泛應(yīng)用于現(xiàn)代交換機(jī)和路由器的高速包分類。
然而,傳統(tǒng)TCAM依賴于物理地址的規(guī)則優(yōu)先級編碼面向高速匹配設(shè)計,無法滿足規(guī)則快速更新的需求。主流硬件交換機(jī)每秒僅支持大約四十至五十條規(guī)則更新,高達(dá)數(shù)百毫秒的更新延遲成為了網(wǎng)絡(luò)性能瓶頸。
于是,基于這個問題,陳迪貝介紹了一種支持常數(shù)時間更新的三態(tài)內(nèi)容尋址存儲器CATCAM。
△CATCAM芯片原型
具體來說,就是提出了基于矩陣的優(yōu)先級編碼方法,將規(guī)則的優(yōu)先級關(guān)系與地理地址解耦。
規(guī)則的優(yōu)先級關(guān)系被編碼在優(yōu)先級矩陣中,當(dāng)輸入項通過匹配矩陣完成匹配后,其結(jié)果將遍歷優(yōu)先級的匹配規(guī)則,對應(yīng)8T SRAM的位線計算邏輯。
借助雙電壓列寫方法,新規(guī)則可插入矩陣中任意空位,實現(xiàn)常數(shù)時間的規(guī)則更新。
△基于矩陣的優(yōu)先級編碼及其存內(nèi)計算實現(xiàn)
此外,該工作還設(shè)計了運用全局優(yōu)先級編碼的層次化擴(kuò)展架構(gòu),采用基于區(qū)間的動態(tài)調(diào)度邏輯,在滿足擴(kuò)展性的同時保證了任意規(guī)模下常數(shù)時間的規(guī)則更新。
△CATCAM硬件架構(gòu)
最終,通過重新設(shè)計三態(tài)內(nèi)容尋址存儲器的優(yōu)先級機(jī)制,CATCAM消除了規(guī)則更新導(dǎo)致的大量現(xiàn)有規(guī)則遷移,在提升更新吞吐量和響應(yīng)速度的同時保證了擴(kuò)展性。
與現(xiàn)有最先進(jìn)的解決方案相比,實現(xiàn)了至少三個數(shù)量級的加速比。
主要合作者還有李兆石、熊天柱、劉志偉、尹首一等。
基于轉(zhuǎn)化卷積核的神經(jīng)網(wǎng)絡(luò)壓縮和加速架構(gòu)
△清華微電子所博士生莫匯宇同學(xué)報告論文的主要工作
神經(jīng)網(wǎng)絡(luò)模型的參數(shù)決定了模型大小,大網(wǎng)絡(luò)會消耗更多的參數(shù)和計算來提高網(wǎng)絡(luò)的擬合能力。
無論使用GPU、CPU,都需要考慮現(xiàn)存或內(nèi)存對整個模型參數(shù)的保存能力,對面積、功耗極為敏感的邊緣端設(shè)備,無法接受過多的參數(shù)和計算。
此前,就有研究人員提出轉(zhuǎn)換卷積核的方法,利用結(jié)構(gòu)化壓縮,來使硬件運行更高效。但該方法由于存在著大量的重復(fù)計算,限制了卷積運算速度的進(jìn)一步提升。
基于此,莫匯宇同學(xué)介紹了一種基于結(jié)構(gòu)化壓縮的神經(jīng)網(wǎng)絡(luò)加速方法,并提出了一種高效的神經(jīng)網(wǎng)絡(luò)加速架構(gòu)。
在同樣工藝和頻率下,該架構(gòu)的面積為Eyeriss結(jié)構(gòu)的57.96%,功耗為其24.12%。
△整體硬件架構(gòu)
這一方法減少了卷積核轉(zhuǎn)化過程中大量冗余計算。在模型壓縮率不變的情況下,有效提高了網(wǎng)絡(luò)模型的運算速度和能效。
該工作設(shè)計了堆疊的寄存器堆,當(dāng)相同權(quán)值出現(xiàn)在轉(zhuǎn)化卷積模型卷積核的同一行時,使用寄存器堆存儲每個權(quán)值與輸入激活值的乘積,以及不同權(quán)值和輸入激活值的局部和結(jié)果。
當(dāng)處理不同的轉(zhuǎn)化卷積模型時,通過與之對應(yīng)的數(shù)據(jù)和控制流,將共享乘積和局部和傳輸?shù)讲煌挠嬎銌卧?,以便重?fù)利用生成不同輸出通道的結(jié)果。
△堆疊寄存器組重復(fù)利用存轉(zhuǎn)化卷積核模型運算的中間局部和
此外,研究人員還設(shè)計了一種有效的存儲調(diào)度方式。
在整個卷積處理過程中,輸入數(shù)值按行輸入,每行都會同時和卷積核的所有行卷積運算,其卷積結(jié)果將會分別存儲在單獨的存儲模塊中。
這樣,存儲單元里的卷積結(jié)果將會被不同輸出結(jié)果共同使用,且該結(jié)果將會隨著卷積過程進(jìn)行循環(huán)更新。
即能重復(fù)利用存儲模塊,也能提高卷積結(jié)果的復(fù)用率。
△整行卷積結(jié)果的復(fù)用
最終,實驗結(jié)果表明,與最優(yōu)的神經(jīng)網(wǎng)絡(luò)架構(gòu)在經(jīng)典VGGNet網(wǎng)絡(luò)上相比,該架構(gòu)實現(xiàn)了最大4×的模型壓縮,2.72×的加速及10.74×的能效提升。
主要合作者還有朱文平、栗強(qiáng)、尹首一等。
清華魏少軍、劉雷波團(tuán)隊
關(guān)注芯片、體系結(jié)構(gòu)等領(lǐng)域的伙伴對這一團(tuán)隊并不陌生。
清華大學(xué)魏少軍教授、劉雷波教授團(tuán)隊在軟件定義芯片領(lǐng)域取得了多項重要技術(shù)突破。
相關(guān)技術(shù)在多項國家重大工程中得到批量應(yīng)用,曾獲國家技術(shù)發(fā)明二等獎、教育部技術(shù)發(fā)明一等獎、電子學(xué)會技術(shù)發(fā)明一等獎、中國發(fā)明專利金獎、世界互聯(lián)網(wǎng)大會15項世界互聯(lián)網(wǎng)領(lǐng)先科技成果等。
△魏少軍教授
在JSSC/TIFS/TPDS等領(lǐng)域頂級期刊上發(fā)表論文200多篇,在ISCA/HOT CHIPS/DAC/VLSI等領(lǐng)域頂級會議發(fā)表論文20余篇。
去年8月,他們的研究成果登上高性能芯片頂級會議Hot Chips,這是31年來中國高校首篇一作論文。官方介紹稱,他們這一技術(shù)有望解決中國95%以上服務(wù)器CPU面臨的芯片安全難題。
一個月之后,在頂會MICRO上,他們獲得了MICRO 2019最佳論文提名,這是MICRO 52年歷史上第二次有亞洲高校及機(jī)構(gòu)獲得該獎項。
就在上個月,他們以「后量子密碼硬件加速」技術(shù)登上第22屆密碼硬件與嵌入式系統(tǒng)會議(CHES)。這是國際密碼芯片和物理安全方向最重要的頂會之一。
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06