存算一體芯片已到大規(guī)模應(yīng)用前夜,兩大技術(shù)方向怎么走?丨對(duì)撞派 · 圓桌實(shí)錄
?量子位智庫(kù) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
存算一體技術(shù)已成為目前芯片領(lǐng)域的熱門(mén)話題之一,學(xué)術(shù)界與產(chǎn)業(yè)界都在關(guān)注其發(fā)展動(dòng)態(tài)。
對(duì)于一項(xiàng)創(chuàng)新技術(shù),從理論到應(yīng)用落地會(huì)經(jīng)歷哪些環(huán)節(jié)?怎樣布局以確保把風(fēng)險(xiǎn)降到最低?
過(guò)去兩周,量子位對(duì)撞派推出了「存算一體芯片」專(zhuān)題,先后邀請(qǐng)到做存算一體大算力AI芯片研發(fā)的后摩智能,和國(guó)內(nèi)最早入局存算一體且已實(shí)現(xiàn)量產(chǎn)的知存科技,從不同角度與我們探討了存算一體技術(shù)的價(jià)值、潛力以及關(guān)于商業(yè)化的思考。
在這一系列專(zhuān)題中,我們聊到了存算一體芯片的定義、技術(shù)路線、行業(yè)現(xiàn)狀、產(chǎn)業(yè)生態(tài)等等……
精華版文字內(nèi)容在此,快來(lái)看看業(yè)內(nèi)人士怎么說(shuō)~(文末還有彩蛋噢)
第一場(chǎng):對(duì)話后摩智能
后摩智能專(zhuān)注于存算一體技術(shù)的大算力AI芯片研發(fā)。通過(guò)底層架構(gòu)創(chuàng)新,大幅提升芯片性能,可用于智能駕駛、泛機(jī)器人等邊緣端及云端推理場(chǎng)景。
對(duì)談嘉賓:
信曉旭(左一):后摩智能創(chuàng)始人兼產(chǎn)品副總裁
孫廣宇(右一):北京大學(xué)集成電路學(xué)院副教授
Q1:如何定義存算一體,以及如何理解其深層價(jià)值?
A1:存算一體是讓計(jì)算單元和存儲(chǔ)單元的距離拉近,從而增大它們之間的帶寬。從這個(gè)角度講,存算一體會(huì)有不同的技術(shù)路線(計(jì)算單元和存儲(chǔ)單元距離的遠(yuǎn)近),核心目的是減少距離和增大帶寬。
不同路線的技術(shù)成熟度:
從學(xué)術(shù)界來(lái)講,在計(jì)算上不存在技術(shù)成熟度,畢竟都是用logic來(lái)做,成熟度指的更多是存儲(chǔ)成熟度。SRAM、DRAM、Flash相對(duì)來(lái)說(shuō)是成熟的存儲(chǔ)工藝,新型工藝像MRAM、RRAM,成熟度各不相同。成熟的工藝并不代表一定會(huì)比其他都好,這里面需要做各種設(shè)計(jì)權(quán)衡。具體來(lái)講,不能單一地認(rèn)為距離近了就一定好,或者距離遠(yuǎn)了就一定不好,同時(shí)需要考慮場(chǎng)景和工藝成熟度以及應(yīng)用特點(diǎn)。應(yīng)該在整個(gè)大的領(lǐng)域里根據(jù)應(yīng)用選擇最合適的工藝和制程,去做最合適的設(shè)計(jì)。
從器件來(lái)說(shuō),可以進(jìn)行成熟度分類(lèi),但從設(shè)計(jì)本身來(lái)講成熟度/優(yōu)勢(shì)對(duì)比,沒(méi)有唯一的答案。
Q2:在產(chǎn)業(yè)應(yīng)用當(dāng)中應(yīng)該如何進(jìn)行技術(shù)路線選擇?哪些因素會(huì)影響優(yōu)先選擇的方向?
A2:技術(shù)路線和應(yīng)用場(chǎng)景是強(qiáng)相關(guān)的,現(xiàn)在存算有兩個(gè)大方向,一個(gè)是偏digital(數(shù)字)的CIM-D,一個(gè)是偏analog(模擬)的CIM-A,這兩種路線適合的技術(shù)場(chǎng)景不太一樣,由它們的技術(shù)特點(diǎn)決定。CIM-A看起來(lái)精度比較低,但其能效比在低精度的情況下更好,在AIoT中偏consumer的場(chǎng)景里,CIM-A更有競(jìng)爭(zhēng)力;對(duì)精度要高的場(chǎng)景,比如自動(dòng)駕駛領(lǐng)域,會(huì)用CIM-D的方案。
需要充分考慮技術(shù)特點(diǎn)能不能解決場(chǎng)景里面用戶和客戶的實(shí)際問(wèn)題,對(duì)于后摩來(lái)說(shuō),從定義最后的目標(biāo)市場(chǎng),產(chǎn)品整個(gè)策略的角度,充分考慮技術(shù)和產(chǎn)品的匹配度,是一個(gè)綜合考量。
Q3:后摩智能是如何思考和布局軟硬協(xié)同的?
A3:首先,簡(jiǎn)單拆分軟硬協(xié)同,把它分成兩部分,一個(gè)是偏應(yīng)用側(cè)的。這部分我們把它留給客戶和合作伙伴去做,因?yàn)樗麄兏@部分。在更貼近底層硬件的這部分,比如說(shuō)硬件抽象層、編譯器、基礎(chǔ)的工具鏈等等,這些和硬件貼得更近的這部分是我們自研的,那我其實(shí)剛才已經(jīng)基本提到了您回答的這個(gè)問(wèn)題。我們做這件事情軟硬件協(xié)同的整體的考慮就兩點(diǎn)。
后摩做軟硬協(xié)同考慮兩點(diǎn):
1)從目標(biāo)市場(chǎng),場(chǎng)景來(lái)反推,給硬件團(tuán)隊(duì)一個(gè)明確的目標(biāo)。比如說(shuō)聚焦在偏CV的場(chǎng)景里,硬件團(tuán)隊(duì)就會(huì)針對(duì)這個(gè)場(chǎng)景做優(yōu)化。
2)在應(yīng)用性上,會(huì)充分考慮用戶的遷移成本,后摩在這部分的學(xué)習(xí)成本上做了充分考量。
Q4:業(yè)界目前都在關(guān)注新型存儲(chǔ)器的研發(fā)進(jìn)展,新型存儲(chǔ)器的優(yōu)勢(shì)和特征是什么?
A4:新型存儲(chǔ)器包括RRAM, MRAM, phase change memory(PCM), 鐵電等。存儲(chǔ)介質(zhì)最開(kāi)始做是為了解決存儲(chǔ)本身的問(wèn)題,在演進(jìn)過(guò)程中發(fā)現(xiàn)它的新特點(diǎn)可以去做存算。不同的存儲(chǔ)器在器件本身的設(shè)計(jì)特點(diǎn)以及反應(yīng)出來(lái)的特性都有所不同,從架構(gòu)角度講,業(yè)內(nèi)比較關(guān)注訪存的延遲(器件如何做),功耗,讀寫(xiě)的壽命,可靠性等。
新存儲(chǔ)介質(zhì)里相對(duì)成熟的是MRAM,它的好處是讀寫(xiě)速度快(接近SRAM),密度比SRAM 高,讀寫(xiě)次數(shù)多(耐久性好)。
PCM也有商業(yè)化。Intel的3D Xpoint,密度比較高,適用數(shù)據(jù)中心這種比較大的存儲(chǔ)介質(zhì),可以去存比較大的數(shù)據(jù)。問(wèn)題:磨損壽命有限,有待優(yōu)化。
RRAM,做起來(lái)簡(jiǎn)單(結(jié)構(gòu)簡(jiǎn)單),可以用不同的參數(shù)來(lái)做,未來(lái)可以做一個(gè)性能不錯(cuò),密度比較高且在不同層次都能去用的存儲(chǔ)器?,F(xiàn)在面臨的問(wèn)題是穩(wěn)定性不夠(variation大),需要器件和foundry層面一起對(duì)它進(jìn)行打磨。
新器件未來(lái)會(huì)有不同的適用層次,新器件不一定是要替代傳統(tǒng)器件,而且新器件之間也會(huì)是協(xié)同去做。因?yàn)樵瓉?lái)的存儲(chǔ)架構(gòu)是分層次的,走到存算的領(lǐng)域后,不會(huì)是一個(gè)打平的狀態(tài)。這里面也會(huì)是不同層次。
Q5:后摩智能對(duì)于新型存儲(chǔ)介質(zhì)的布局和想法是怎樣的?
A5:后摩的規(guī)劃有兩條線:一條是產(chǎn)品線,一條是技術(shù)線。
產(chǎn)品最后要給到客戶,首先要確保它一定是基于成熟的技術(shù)。當(dāng)前的產(chǎn)品是基于成熟的SRAM在做,基于SRAM做相對(duì)于傳統(tǒng)架構(gòu)也有幾倍的能效比優(yōu)勢(shì)。
技術(shù)線會(huì)先產(chǎn)品一代做新介質(zhì)的探索,達(dá)到產(chǎn)品可用需要做技術(shù)的驗(yàn)證,會(huì)提前摸清楚各個(gè)參數(shù)是不是能夠達(dá)到產(chǎn)品要求。有可能最后的產(chǎn)品是一個(gè)mix,RRAM+SRAM的組合,大家在各自里面解決的問(wèn)題是不一樣的,但整體來(lái)說(shuō)新的技術(shù)一旦它在某一個(gè)點(diǎn)成熟,能解決問(wèn)題,就會(huì)考慮把它用起來(lái)。
一代不止一款產(chǎn)品,當(dāng)前基于SRAM會(huì)有2-3顆芯片出來(lái),根據(jù)應(yīng)用場(chǎng)景(自動(dòng)駕駛,泛機(jī)器人)也會(huì)是高中低幾個(gè)檔位的——一代芯片里可能會(huì)有幾款不同的產(chǎn)品。等這一代芯片差不多之后,新器件的探索有機(jī)會(huì)幫助進(jìn)一步提升下一代產(chǎn)品的競(jìng)爭(zhēng)力。
按照傳統(tǒng)的方法,2-4年之后,產(chǎn)品的提升在10%-20%,看不到非常大的跳躍——技術(shù)生命力較差;在存算里,學(xué)術(shù)界和產(chǎn)業(yè)界積極探索,因?yàn)樗纳Ψ浅?qiáng),一旦一個(gè)技術(shù)突破后,就會(huì)有指數(shù)級(jí)的跳躍,產(chǎn)品的競(jìng)爭(zhēng)力會(huì)比之前架構(gòu)下的有非常大的飛躍。
Q6:存算一體在產(chǎn)業(yè)界發(fā)展的關(guān)鍵因素有哪些?
A6:首先要選對(duì)方向和場(chǎng)景,存算一體技術(shù)能夠真正解決客戶場(chǎng)景里的問(wèn)題,這樣落地的速度會(huì)更快,商業(yè)閉環(huán)也會(huì)更快。存算要有成功的案例,實(shí)現(xiàn)商業(yè)閉環(huán),能夠給產(chǎn)業(yè)界更大的信心。
如果閉環(huán)的場(chǎng)景是個(gè)相對(duì)大的場(chǎng)景,能夠帶動(dòng)更多人關(guān)注更大的產(chǎn)業(yè),這對(duì)于存算的發(fā)展將會(huì)起更大的推動(dòng)作用。一旦一個(gè)大的場(chǎng)景出來(lái),會(huì)帶動(dòng)更多產(chǎn)業(yè)界和資本圈的人來(lái)關(guān)注,加速商業(yè)化進(jìn)程——找對(duì)大的場(chǎng)景快速落地。
第二場(chǎng):對(duì)話知存科技
知存科技專(zhuān)注存內(nèi)計(jì)算芯片領(lǐng)域,創(chuàng)新使用Flash存儲(chǔ)器完成神經(jīng)網(wǎng)絡(luò)的儲(chǔ)存和運(yùn)算,解決AI的存儲(chǔ)墻問(wèn)題,提高運(yùn)算效率,降低成本。
對(duì)談嘉賓:
王紹迪:知存科技創(chuàng)始人兼CEO
Q1:近存計(jì)算和存內(nèi)計(jì)算兩種技術(shù)路線會(huì)帶來(lái)哪些后續(xù)的區(qū)別,知存如何選擇?
A1:技術(shù)路線在后面會(huì)完全不同。近存計(jì)算解決的是馮諾依曼架構(gòu)下的數(shù)據(jù)搬運(yùn)問(wèn)題,它面向的是更廣范圍的應(yīng)用。思考的問(wèn)題是對(duì)于CPU、GPU如何把數(shù)據(jù)和存儲(chǔ)拉得更近,應(yīng)用場(chǎng)景針對(duì)的是數(shù)據(jù)量大的場(chǎng)景,包括服務(wù)數(shù)據(jù)中心、礦機(jī);存內(nèi)計(jì)算是用存儲(chǔ)器做計(jì)算,在它的系統(tǒng)中沒(méi)有GPU、CPU、NPU這些,它本身就是計(jì)算類(lèi)的芯片,它自己去替代計(jì)算類(lèi)的芯片,直接在存儲(chǔ)器上完成計(jì)算,它的應(yīng)用場(chǎng)景大部分在人工智能場(chǎng)景。
知存布局的場(chǎng)景:知存創(chuàng)始團(tuán)隊(duì)從2012年開(kāi)始做存內(nèi)計(jì)算,主要應(yīng)用場(chǎng)景是泛人工智能場(chǎng)景,存內(nèi)計(jì)算可以應(yīng)用在各種各樣的人工智能領(lǐng)域,人工智能中用的計(jì)算大部分是深度學(xué)習(xí),深度學(xué)習(xí)95%以上用的都是矩陣乘法,所有矩陣乘法用存內(nèi)計(jì)算去做都可以大幅提高效率。
存內(nèi)計(jì)算可以應(yīng)用于各種各樣的人工智能場(chǎng)景,在有些場(chǎng)景它的優(yōu)勢(shì)很強(qiáng),有些場(chǎng)景優(yōu)勢(shì)相對(duì)較弱。整體來(lái)說(shuō),算力需求越大,對(duì)能效要求越高的場(chǎng)景,存算一體的優(yōu)勢(shì)越強(qiáng)。
Q2:存算一體目前處在產(chǎn)業(yè)發(fā)展的哪個(gè)階段?
A2:存算一體的概念在上世紀(jì)60年代就有,前面沒(méi)有興起的原因有兩點(diǎn),一是那時(shí)候存算一體可以解決一部分性能提升,但當(dāng)時(shí)能解決的部分在整個(gè)系統(tǒng)中只占到10%-20%,只解決這個(gè)問(wèn)題是沒(méi)有意義的,后來(lái)隨著人工智能時(shí)代到來(lái),需要的算力很大,這時(shí)候存算一體就能解決90%計(jì)算的問(wèn)題,它的存在就有意義了。
另外是在過(guò)去幾十年存算一體沒(méi)有真正出現(xiàn)也是因?yàn)槟柖蛇€在持續(xù)往下走,在摩爾定律能持續(xù)往下走的時(shí)候,我們看不到任何架構(gòu)的創(chuàng)新,大家不需要做架構(gòu)創(chuàng)新,每一到兩年換一代芯片的工藝,性能自然提升幾倍,成本自然降低,并且性能提升的速度非???,不需要做架構(gòu)上的創(chuàng)新。
但到2010年之后,進(jìn)入到后摩爾時(shí)代。后摩爾時(shí)代的架構(gòu)創(chuàng)新是必要的,摩爾定律已經(jīng)走到盡頭,加之人工智能時(shí)代到來(lái),存算一體應(yīng)運(yùn)而生,受到越來(lái)越多關(guān)注。最早在2011年,學(xué)術(shù)圈也開(kāi)始提倡去研究存算一體。2017年,知存成立,算是第一批做存內(nèi)計(jì)算的公司。目前存內(nèi)計(jì)算中有一些技術(shù)已經(jīng)可以落地了,這個(gè)時(shí)候需要產(chǎn)業(yè)界加大投入,把它做成好的產(chǎn)品。還有很多的技術(shù)是需要開(kāi)發(fā)的,存內(nèi)計(jì)算未來(lái)的發(fā)展還有大概10年的過(guò)程,存內(nèi)計(jì)算本身也有一個(gè)類(lèi)似“摩爾定律”的發(fā)展過(guò)程,快速迭代,包括工藝方面代工廠針對(duì)存內(nèi)計(jì)算專(zhuān)用的工藝上的提升。其次是先進(jìn)的材料,目前能夠量產(chǎn)的存內(nèi)計(jì)算存儲(chǔ)器只有Flash和SRAM新型的存儲(chǔ)器(emerging memory)更適合做存內(nèi)計(jì)算,需要更多在新型存儲(chǔ)器件上的研究。另外,存內(nèi)計(jì)算從算法到供應(yīng)鏈生態(tài)上也需要產(chǎn)學(xué)研結(jié)合,相互融合促進(jìn)發(fā)展。產(chǎn)業(yè)界落地一部分,學(xué)術(shù)界/研究所繼續(xù)研究下一代,不斷地往前推進(jìn)。知存科技會(huì)持續(xù)加大對(duì)工藝、工具鏈、技術(shù)標(biāo)準(zhǔn)化等方面的投入,推動(dòng)產(chǎn)業(yè)生態(tài)共建。
Q3:在發(fā)展的每個(gè)階段中遇到的瓶頸是什么,有哪些解決方法?
A3:知存目前第二代產(chǎn)品已實(shí)現(xiàn)量產(chǎn),約每月10萬(wàn)片的量級(jí),且已經(jīng)落地到智能可穿戴設(shè)備市場(chǎng)。從16年驗(yàn)證概念到現(xiàn)在量產(chǎn)落地,需要很多工程化;還有在產(chǎn)品層面去解決存內(nèi)計(jì)算存在的一些問(wèn)題。
存內(nèi)計(jì)算有自己的優(yōu)勢(shì):運(yùn)算效率高,運(yùn)算密度大,運(yùn)算成本低;但還是一個(gè)新興技術(shù),測(cè)試標(biāo)準(zhǔn)、量產(chǎn)方法、測(cè)試方法、計(jì)算范式跟現(xiàn)有的方式都完全不一樣,需要一步步建立,建立之后還需要保證可靠性。
在量產(chǎn)過(guò)程中遇到了很多之前沒(méi)有遇到的問(wèn)題,因?yàn)榇鎯?nèi)計(jì)算和存儲(chǔ)器不同,和傳統(tǒng)的計(jì)算芯片也不同。比如存儲(chǔ)器覆蓋的應(yīng)用和存內(nèi)計(jì)算所覆蓋的存儲(chǔ)器的應(yīng)用方式是完全不一樣的。像存內(nèi)計(jì)算遇到的問(wèn)題,可能存儲(chǔ)器領(lǐng)域之前幾十年都沒(méi)有遇到過(guò),這些都需要一步步去解決,才能把存內(nèi)計(jì)算從技術(shù)demo走向量產(chǎn)。
Q4:對(duì)于行業(yè)而言,目前最重要的一個(gè)節(jié)點(diǎn)是什么?
A4:存算一體正處在量產(chǎn)到大規(guī)模應(yīng)用的關(guān)鍵階段。知存科技研發(fā)的存算一體芯片已經(jīng)達(dá)成每年千萬(wàn)片量級(jí)的小規(guī)模量產(chǎn),我認(rèn)為下一個(gè)關(guān)鍵節(jié)點(diǎn),算力將達(dá)到16Tops以上、精度將達(dá)到10-bit以上、成本將比現(xiàn)有芯片有2-5倍的優(yōu)勢(shì),量產(chǎn)規(guī)模上億片。存算一體芯片將在更大規(guī)模的應(yīng)用中具備絕對(duì)優(yōu)勢(shì)。
Q5:存算一體領(lǐng)域的進(jìn)入門(mén)檻有哪些?
A5:主要在于工藝、架構(gòu)層面,做存算一體最大的困難在于,無(wú)法預(yù)判會(huì)遇到什么樣的問(wèn)題。存算一體的設(shè)計(jì)方式跟數(shù)字電路和模擬電路都不一樣,它是把模擬技術(shù)跟存儲(chǔ)器結(jié)合在一起,所以應(yīng)用方式也不一樣。
現(xiàn)在做一個(gè)大型芯片通常是通過(guò)寫(xiě)代碼,代碼自動(dòng)化通過(guò)EDA工具生成一個(gè)芯片設(shè)計(jì),EDA工具保證芯片設(shè)計(jì)出來(lái)的可用性,只要工藝沒(méi)有問(wèn)題。但是存算一體沒(méi)有EDA工具指導(dǎo),很多東西需要手動(dòng)設(shè)計(jì)。
另外,存算一體芯片的生產(chǎn)工藝不保證手動(dòng)設(shè)計(jì)仿真出來(lái)的東西一定可用,因?yàn)樗挠梅ǜ鷤鹘y(tǒng)的芯片不一樣,在foundry廠那邊的工藝上不保證存內(nèi)計(jì)算所應(yīng)用的部分。只能通過(guò)不斷地測(cè)試、驗(yàn)證解決,花費(fèi)的時(shí)間可能是幾年——需要玩家持續(xù)性探索的能力。
Q6:存算一體產(chǎn)業(yè)的未來(lái)趨勢(shì)是什么?如何去看待這項(xiàng)技術(shù)?
A6:現(xiàn)在在芯片行業(yè),很多人都在觀望下一個(gè)關(guān)鍵節(jié)點(diǎn)的出現(xiàn),發(fā)生大規(guī)模的替代。對(duì)人工智能整個(gè)產(chǎn)業(yè)來(lái)說(shuō),存算一體技術(shù)的逐漸成熟,將帶來(lái)更低成本,更高算例、更高能效、更低功耗,幫助更多人工智能落地??梢哉f(shuō)存算一體將成為是未來(lái)人工智能時(shí)代的基石之一。
對(duì)于存算一體,首先要保持耐心,作為一項(xiàng)全球范圍的新興技術(shù),還有很多待發(fā)現(xiàn)和解決的問(wèn)題;其次要保持期待,重點(diǎn)關(guān)注未來(lái)存算一體可以做的更多的事情。
One More Thing
錯(cuò)過(guò)了直播的小伙伴可以點(diǎn)擊我們的直播回看視頻,了解更多技術(shù)細(xì)節(jié)和問(wèn)題詳解~
第一期:后摩智能
https://www.bilibili.com/video/BV1Tv4y1T7xr
第二期:知存科技
https://www.bilibili.com/video/BV1w3411A7v1
在存算一體芯片領(lǐng)域,智庫(kù)后續(xù)還會(huì)推出深度報(bào)告與金句視頻。歡迎掃碼添加小助手,進(jìn)入垂直社群:
如果您深耕于存算一體芯片領(lǐng)域,歡迎掃碼添加分析師進(jìn)行深度討論與交流。
關(guān)于量子位智庫(kù):
量子位旗下科技創(chuàng)新產(chǎn)業(yè)鏈接平臺(tái)。致力于提供前沿科技和技術(shù)創(chuàng)新領(lǐng)域產(chǎn)學(xué)研體系化研究。面向前沿AI&計(jì)算機(jī)、生物計(jì)算、量子技術(shù)及健康醫(yī)療等領(lǐng)域最新技術(shù)創(chuàng)新進(jìn)展,提供系統(tǒng)化報(bào)告和認(rèn)知。通過(guò)媒體、社群和線下活動(dòng),幫助決策者更早掌握創(chuàng)新風(fēng)向。
關(guān)于對(duì)撞派:
量子位智庫(kù)旗下的高端圓桌欄目。
對(duì)撞派致力于邀請(qǐng)前沿科技領(lǐng)域的專(zhuān)業(yè)人士,如創(chuàng)業(yè)公司CEO及CTO、資深科學(xué)家、專(zhuān)業(yè)投資人等,對(duì)特定趨勢(shì)進(jìn)行深度討論及解讀。從業(yè)內(nèi)與專(zhuān)業(yè)的角度,幫助讀者更為準(zhǔn)確地把握未來(lái)科技動(dòng)向。