清華芯片研究再獲頂會(huì)MICRO加持:軟件定義芯片團(tuán)隊(duì)出品,最佳論文提名后又一突破
他們?cè)@得MICRO 2019最佳論文提名
楊凈 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
最近,第53屆國(guó)際微架構(gòu)大會(huì)(MICRO)在線上順利召開(kāi)。
作為計(jì)算機(jī)體系結(jié)構(gòu)四大頂級(jí)會(huì)議,清華大學(xué)魏少軍、劉雷波團(tuán)隊(duì)有兩篇入選該會(huì)議論文。
這是該團(tuán)隊(duì)既去年斬獲MICRO 2019最佳論文提名后,在體系結(jié)構(gòu)頂級(jí)會(huì)議上的又一重要突破。
在會(huì)議上,他們做了兩篇學(xué)術(shù)報(bào)告。
分別為:
Constant-time Alteration Ternary CAM with Scalable In-Memory Architecture
一種基于可擴(kuò)展存內(nèi)架構(gòu)并支持常數(shù)時(shí)間更新的三態(tài)內(nèi)容尋址存儲(chǔ)器。
TFE: Energy-efficient Transferred Filter-based Engine to Compress and Accelerate Convolutional Neural Networks
一種基于轉(zhuǎn)換卷積核的卷積網(wǎng)絡(luò)壓縮與加速架構(gòu)。
報(bào)告人分別是兩篇論文一作清華大學(xué)微電子所博士生陳迪貝和莫匯宇,論文通訊作者均是劉雷波教授。
什么樣的研究?
基于可擴(kuò)展存內(nèi)架構(gòu)并支持常數(shù)時(shí)間更新的三態(tài)內(nèi)容尋址存儲(chǔ)器
△清華微電子所博士生陳迪貝同學(xué)報(bào)告論文的主要工作
三態(tài)內(nèi)容尋址存儲(chǔ)器(TCAM)憑借其不錯(cuò)的匹配性能,廣泛應(yīng)用于現(xiàn)代交換機(jī)和路由器的高速包分類。
然而,傳統(tǒng)TCAM依賴于物理地址的規(guī)則優(yōu)先級(jí)編碼面向高速匹配設(shè)計(jì),無(wú)法滿足規(guī)則快速更新的需求。主流硬件交換機(jī)每秒僅支持大約四十至五十條規(guī)則更新,高達(dá)數(shù)百毫秒的更新延遲成為了網(wǎng)絡(luò)性能瓶頸。
于是,基于這個(gè)問(wèn)題,陳迪貝介紹了一種支持常數(shù)時(shí)間更新的三態(tài)內(nèi)容尋址存儲(chǔ)器CATCAM。
△CATCAM芯片原型
具體來(lái)說(shuō),就是提出了基于矩陣的優(yōu)先級(jí)編碼方法,將規(guī)則的優(yōu)先級(jí)關(guān)系與地理地址解耦。
規(guī)則的優(yōu)先級(jí)關(guān)系被編碼在優(yōu)先級(jí)矩陣中,當(dāng)輸入項(xiàng)通過(guò)匹配矩陣完成匹配后,其結(jié)果將遍歷優(yōu)先級(jí)的匹配規(guī)則,對(duì)應(yīng)8T SRAM的位線計(jì)算邏輯。
借助雙電壓列寫(xiě)方法,新規(guī)則可插入矩陣中任意空位,實(shí)現(xiàn)常數(shù)時(shí)間的規(guī)則更新。
△基于矩陣的優(yōu)先級(jí)編碼及其存內(nèi)計(jì)算實(shí)現(xiàn)
此外,該工作還設(shè)計(jì)了運(yùn)用全局優(yōu)先級(jí)編碼的層次化擴(kuò)展架構(gòu),采用基于區(qū)間的動(dòng)態(tài)調(diào)度邏輯,在滿足擴(kuò)展性的同時(shí)保證了任意規(guī)模下常數(shù)時(shí)間的規(guī)則更新。
△CATCAM硬件架構(gòu)
最終,通過(guò)重新設(shè)計(jì)三態(tài)內(nèi)容尋址存儲(chǔ)器的優(yōu)先級(jí)機(jī)制,CATCAM消除了規(guī)則更新導(dǎo)致的大量現(xiàn)有規(guī)則遷移,在提升更新吞吐量和響應(yīng)速度的同時(shí)保證了擴(kuò)展性。
與現(xiàn)有最先進(jìn)的解決方案相比,實(shí)現(xiàn)了至少三個(gè)數(shù)量級(jí)的加速比。
主要合作者還有李兆石、熊天柱、劉志偉、尹首一等。
基于轉(zhuǎn)化卷積核的神經(jīng)網(wǎng)絡(luò)壓縮和加速架構(gòu)
△清華微電子所博士生莫匯宇同學(xué)報(bào)告論文的主要工作
神經(jīng)網(wǎng)絡(luò)模型的參數(shù)決定了模型大小,大網(wǎng)絡(luò)會(huì)消耗更多的參數(shù)和計(jì)算來(lái)提高網(wǎng)絡(luò)的擬合能力。
無(wú)論使用GPU、CPU,都需要考慮現(xiàn)存或內(nèi)存對(duì)整個(gè)模型參數(shù)的保存能力,對(duì)面積、功耗極為敏感的邊緣端設(shè)備,無(wú)法接受過(guò)多的參數(shù)和計(jì)算。
此前,就有研究人員提出轉(zhuǎn)換卷積核的方法,利用結(jié)構(gòu)化壓縮,來(lái)使硬件運(yùn)行更高效。但該方法由于存在著大量的重復(fù)計(jì)算,限制了卷積運(yùn)算速度的進(jìn)一步提升。
基于此,莫匯宇同學(xué)介紹了一種基于結(jié)構(gòu)化壓縮的神經(jīng)網(wǎng)絡(luò)加速方法,并提出了一種高效的神經(jīng)網(wǎng)絡(luò)加速架構(gòu)。
在同樣工藝和頻率下,該架構(gòu)的面積為Eyeriss結(jié)構(gòu)的57.96%,功耗為其24.12%。
△整體硬件架構(gòu)
這一方法減少了卷積核轉(zhuǎn)化過(guò)程中大量冗余計(jì)算。在模型壓縮率不變的情況下,有效提高了網(wǎng)絡(luò)模型的運(yùn)算速度和能效。
該工作設(shè)計(jì)了堆疊的寄存器堆,當(dāng)相同權(quán)值出現(xiàn)在轉(zhuǎn)化卷積模型卷積核的同一行時(shí),使用寄存器堆存儲(chǔ)每個(gè)權(quán)值與輸入激活值的乘積,以及不同權(quán)值和輸入激活值的局部和結(jié)果。
當(dāng)處理不同的轉(zhuǎn)化卷積模型時(shí),通過(guò)與之對(duì)應(yīng)的數(shù)據(jù)和控制流,將共享乘積和局部和傳輸?shù)讲煌挠?jì)算單元,以便重復(fù)利用生成不同輸出通道的結(jié)果。
△堆疊寄存器組重復(fù)利用存轉(zhuǎn)化卷積核模型運(yùn)算的中間局部和
此外,研究人員還設(shè)計(jì)了一種有效的存儲(chǔ)調(diào)度方式。
在整個(gè)卷積處理過(guò)程中,輸入數(shù)值按行輸入,每行都會(huì)同時(shí)和卷積核的所有行卷積運(yùn)算,其卷積結(jié)果將會(huì)分別存儲(chǔ)在單獨(dú)的存儲(chǔ)模塊中。
這樣,存儲(chǔ)單元里的卷積結(jié)果將會(huì)被不同輸出結(jié)果共同使用,且該結(jié)果將會(huì)隨著卷積過(guò)程進(jìn)行循環(huán)更新。
即能重復(fù)利用存儲(chǔ)模塊,也能提高卷積結(jié)果的復(fù)用率。
△整行卷積結(jié)果的復(fù)用
最終,實(shí)驗(yàn)結(jié)果表明,與最優(yōu)的神經(jīng)網(wǎng)絡(luò)架構(gòu)在經(jīng)典VGGNet網(wǎng)絡(luò)上相比,該架構(gòu)實(shí)現(xiàn)了最大4×的模型壓縮,2.72×的加速及10.74×的能效提升。
主要合作者還有朱文平、栗強(qiáng)、尹首一等。
清華魏少軍、劉雷波團(tuán)隊(duì)
關(guān)注芯片、體系結(jié)構(gòu)等領(lǐng)域的伙伴對(duì)這一團(tuán)隊(duì)并不陌生。
清華大學(xué)魏少軍教授、劉雷波教授團(tuán)隊(duì)在軟件定義芯片領(lǐng)域取得了多項(xiàng)重要技術(shù)突破。
相關(guān)技術(shù)在多項(xiàng)國(guó)家重大工程中得到批量應(yīng)用,曾獲國(guó)家技術(shù)發(fā)明二等獎(jiǎng)、教育部技術(shù)發(fā)明一等獎(jiǎng)、電子學(xué)會(huì)技術(shù)發(fā)明一等獎(jiǎng)、中國(guó)發(fā)明專利金獎(jiǎng)、世界互聯(lián)網(wǎng)大會(huì)15項(xiàng)世界互聯(lián)網(wǎng)領(lǐng)先科技成果等。
△魏少軍教授
在JSSC/TIFS/TPDS等領(lǐng)域頂級(jí)期刊上發(fā)表論文200多篇,在ISCA/HOT CHIPS/DAC/VLSI等領(lǐng)域頂級(jí)會(huì)議發(fā)表論文20余篇。
去年8月,他們的研究成果登上高性能芯片頂級(jí)會(huì)議Hot Chips,這是31年來(lái)中國(guó)高校首篇一作論文。官方介紹稱,他們這一技術(shù)有望解決中國(guó)95%以上服務(wù)器CPU面臨的芯片安全難題。
一個(gè)月之后,在頂會(huì)MICRO上,他們獲得了MICRO 2019最佳論文提名,這是MICRO 52年歷史上第二次有亞洲高校及機(jī)構(gòu)獲得該獎(jiǎng)項(xiàng)。
就在上個(gè)月,他們以「后量子密碼硬件加速」技術(shù)登上第22屆密碼硬件與嵌入式系統(tǒng)會(huì)議(CHES)。這是國(guó)際密碼芯片和物理安全方向最重要的頂會(huì)之一。
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06