40納秒完成圖像分類(lèi),速度提升幾十萬(wàn)倍,圖像傳感器自帶神經(jīng)網(wǎng)絡(luò)登上Nature
魚(yú)羊 曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
AI芯片還可以怎么搞?最新登上Nature的研究帶來(lái)新啟發(fā)。
過(guò)去,我們做圖像分類(lèi)都是分成好幾步:先用傳感器收集圖像模擬信號(hào),數(shù)模轉(zhuǎn)換后再交給計(jì)算機(jī)處理。整個(gè)過(guò)程既耗能又費(fèi)時(shí),就像眼睛把圖像傳給大腦。
試想一下,如果人類(lèi)眼睛可以直接處理圖像——不用勞煩大腦,那視覺(jué)圖像信息的處理速度豈不是可以大大提升?
今天,Nature這篇新研究開(kāi)拓性在于,直接讓“眼睛”處理圖像。而且效果反饋也相當(dāng)震撼:
利用新感光元件,僅僅40納秒即可完成圖像分類(lèi),比交給計(jì)算機(jī)處理快了幾十萬(wàn)倍。
真是不得了。
光電二極管網(wǎng)絡(luò)
核心來(lái)說(shuō),研究團(tuán)隊(duì)在芯片上構(gòu)建了一個(gè)光電二極管網(wǎng)絡(luò),并選擇2D半導(dǎo)體二硒化鎢(WSe2)作為光敏材料。
△單個(gè)二硒化鎢光電二極管示意圖
光電二極管陣列由27個(gè)具有良好均勻性、可調(diào)性和線(xiàn)性度的檢測(cè)器組成,排列為3×3的成像陣列,像素大小約為17×17μm,每個(gè)像素由3個(gè)二硒化鎢光電二極管(子像素)組成,其對(duì)光的響應(yīng)度可以通過(guò)柵極電壓調(diào)節(jié)。
也就是說(shuō),可以通過(guò)改變施加的電壓來(lái)調(diào)節(jié)半導(dǎo)體對(duì)光的響應(yīng),從而調(diào)節(jié)每個(gè)二極管的靈敏度。
實(shí)際上,這就將光電傳感器網(wǎng)絡(luò)變成了神經(jīng)網(wǎng)絡(luò),將光學(xué)傳感和神經(jīng)形態(tài)計(jì)算結(jié)合起來(lái),使其能夠執(zhí)行簡(jiǎn)單的計(jì)算任務(wù)。
改變二極管的靈敏度,就相當(dāng)于改變神經(jīng)網(wǎng)絡(luò)中的權(quán)重。
把權(quán)重放在傳感器上
與其他神經(jīng)不同的是,這套系統(tǒng)的權(quán)重不是存在計(jì)算機(jī)的內(nèi)存和硬盤(pán)里,而是直接集成在圖像傳感器上。
實(shí)驗(yàn)中使用的有硒化鎢光電二極管制成的特殊門(mén)電路。它的特殊就在于可以調(diào)制,相當(dāng)于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
隨著外接偏置電壓的不同,二極管對(duì)光線(xiàn)的敏感程度也不同,等于將網(wǎng)絡(luò)的訓(xùn)練結(jié)果直接放在傳感器端。
之前的神經(jīng)網(wǎng)絡(luò)都是將訓(xùn)練權(quán)重存儲(chǔ)在外部存儲(chǔ)器上,通過(guò)電路發(fā)送到每個(gè)檢測(cè)器件上。
就像電腦的內(nèi)存,斷電后就會(huì)丟失存儲(chǔ)信息。
而這一套設(shè)備,更像是硬盤(pán),即使掉電后也能將權(quán)重信息存儲(chǔ)下來(lái)。
研究人員將調(diào)制的電極也就是浮柵(floating gate)埋在氮化硼絕緣層中,一開(kāi)始先對(duì)氧化鋁絕緣層中的柵極加上電壓,接著撤去外部電壓。
浮柵依舊能在接下來(lái)的2300秒內(nèi)維持對(duì)光電二極管的調(diào)制,直到改變外部偏置電壓為止。
研究人員用這種方法實(shí)現(xiàn)了兩種類(lèi)型的神經(jīng)網(wǎng)絡(luò):分類(lèi)器和自動(dòng)編碼器。
在分類(lèi)器中,光電二極管陣列、芯片感知器以及在芯片外的非線(xiàn)性激活函數(shù)一起運(yùn)行。這種類(lèi)型的神經(jīng)代表一種監(jiān)督學(xué)習(xí)算法,該算法能夠?qū)⑤斎雸D像P分為不同的輸出類(lèi)別y。
實(shí)際效果如何呢?他們3×3像素制作了一組“簡(jiǎn)陋”的字母,分別是n、v、z。
圖像傳感器經(jīng)過(guò)訓(xùn)練后,只需測(cè)量對(duì)應(yīng)電路的電流是否為0,就能知道是哪個(gè)字母。
通過(guò)電壓隨時(shí)間的變化圖可以看出,當(dāng)傳感器接受到圖像40ns后,n和v兩種輸入產(chǎn)生的電壓開(kāi)始出現(xiàn)巨大的差異,約100ns后差異達(dá)到最大。
第二種神經(jīng)網(wǎng)絡(luò)是自動(dòng)編碼器,可以在無(wú)監(jiān)督的訓(xùn)練過(guò)程中學(xué)習(xí)輸入圖像P的有效表示。它與解碼器一起使用,對(duì)解碼器進(jìn)行訓(xùn)練后,就可以在其輸出中重現(xiàn)圖像。
編碼器由光電二極管陣列本身構(gòu)成,解碼器由外部電子器件構(gòu)成。
在這個(gè)過(guò)程中,圖像的傳輸數(shù)據(jù)得到了壓縮。
潛力巨大,但仍需大量后續(xù)研究
40納秒就分辨出了兩張不同的圖像,AI視覺(jué)仿佛朝著人類(lèi)大腦的效率更進(jìn)一步。
但需要說(shuō)明的是:這一令人興奮的新技術(shù),距離實(shí)際應(yīng)用,還有很長(zhǎng)的路要走。
首先,由于光電二極管陣列僅由27個(gè)檢測(cè)器組成,最大只能處理3×3的圖像。
其次,想要真正應(yīng)用于自動(dòng)駕駛和機(jī)器人技術(shù),視覺(jué)系統(tǒng)需要捕獲具有廣闊視野的三維動(dòng)態(tài)圖像和視頻。而現(xiàn)在,該技術(shù)是將3D視覺(jué)信息轉(zhuǎn)換成2D來(lái)處理,丟失了運(yùn)動(dòng)信息和深度。
其圖像傳感器陣列的平面形狀,也限制了廣角相機(jī)的能力。
此外,根據(jù)Nature的報(bào)道,論文中描述的設(shè)備很難在昏暗光線(xiàn)下成像。并且,其設(shè)計(jì)需要高電壓和大功率,相比之下,生物神經(jīng)網(wǎng)絡(luò)中每項(xiàng)操作消耗的能量?jī)H為10-15到10-13焦耳。
從工藝角度上講,芯片所采用的薄半導(dǎo)體目前很難大面積生產(chǎn)加工。
而且,盡管圖像傳感器兼具了采集和計(jì)算功能,減少了模數(shù)轉(zhuǎn)換,但外部電路仍然存在固有延遲問(wèn)題,還是會(huì)影響整個(gè)系統(tǒng)的等待時(shí)間。
不過(guò),雖然還有很大的研究空間,在傳感器中計(jì)算的相關(guān)研究,推動(dòng)了AI硬件的進(jìn)一步發(fā)展。而這樣的研究思路,也不僅僅局限于計(jì)算機(jī)視覺(jué),可以擴(kuò)展到聽(tīng)覺(jué)、觸覺(jué)等其他物理輸入中。
其他嘗試
人們對(duì)快速處理圖像信息的要求越來(lái)越高,很多科學(xué)家都在研究在輸入端處理圖像的方法。
最近來(lái)自荷蘭和美國(guó)學(xué)者也發(fā)明了一種在傳感器端直接處理圖像的方法。
不過(guò)他們不是輸出圖像的分類(lèi),而是輸出圖像的邊緣,這對(duì)于目標(biāo)檢測(cè)和語(yǔ)義分割有重要的意義。
他們?cè)趥鞲衅髑胺郊尤肓艘粋€(gè)“超表面”:不到半毫米厚的藍(lán)寶石薄片,鍍上206 nm厚、142 nm高、間距300 nm的硅長(zhǎng)條。
把它放置在CCD感光芯片的表面上時(shí),超表面的作用就像一個(gè)透鏡,光線(xiàn)只能以陡峭的角度射向它,而過(guò)濾掉入射角很小的光。
圖像的特征是由不同光波的組合而成,濾除了光波攜帶的其他細(xì)節(jié),僅留下了較尖銳的分量,例如人臉的邊緣,而不是單色的背景。
整個(gè)過(guò)程僅需要150納秒的時(shí)間,而交給計(jì)算機(jī)處理需要幾毫秒,二者相差4個(gè)數(shù)量級(jí)。
研究團(tuán)隊(duì)
最后介紹下研究團(tuán)隊(duì),來(lái)自?shī)W地利維也納工業(yè)大學(xué)的Unterrainer group。
論文一作:Lukas Mennel,是電氣工程與光子學(xué)專(zhuān)業(yè)在讀博士,曾作為訪(fǎng)問(wèn)學(xué)者赴MIT交流學(xué)習(xí),研究量子光子學(xué)。
△Lukas Mennel
論文的另一位通訊作者,是維也納工業(yè)大學(xué)副教授Thoms Mueller——托馬斯·穆勒,雖然不知道這位托馬斯·穆勒擅不擅長(zhǎng)踢足球,但在2D材料科學(xué)領(lǐng)域,穆勒教授的研究涵蓋基礎(chǔ)研究、光電設(shè)備、電子集成電路、光子集成電路等,亦是卓有成就。
△Thoms Mueller
論文地址:https://www.nature.com/articles/s41586-020-2038-x
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開(kāi)源之光多模態(tài)統(tǒng)一模型,來(lái)了2025-07-30