40納秒完成影象分類，速度提升幾十萬倍，影象感測器自帶神經網路登上Nature

魚羊曉查發自凹非寺

量子位報道 | 公眾號 QbitAI

AI晶片還可以怎麼搞？最新登上Nature的研究帶來新啟發。

過去，我們做影象分類都是分成好幾步：先用感測器收集影象模擬訊號，數模轉換後再交給計算機處理。整個過程既耗能又費時，就像眼睛把影象傳給大腦。

試想一下，如果人類眼睛可以直接處理影象——不用勞煩大腦，那視覺影象資訊的處理速度豈不是可以大大提升？

今天，Nature這篇新研究開拓性在於，直接讓“眼睛”處理影象。而且效果反饋也相當震撼：

利用新感光元件，僅僅

40納秒

即可完成影象分類，比交給計算機處理快了

幾十萬倍

。

真是不得了。

光電二極體網路

核心來說，研究團隊在晶片上構建了一個光電二極體網路，並選擇2D半導體二硒化鎢（WSe2）作為光敏材料。

△

單個二硒化鎢光電二極體示意圖

光電二極體陣列由27個具有良好均勻性、可調性和線性度的檢測器組成，排列為3×3的成像陣列，畫素大小約為17×17μm，每個畫素由3個二硒化鎢光電二極體（子畫素）組成，其對光的響應度可以透過柵極電壓調節。

也就是說，可以透過改變施加的電壓來調節半導體對光的響應，從而調節每個二極體的靈敏度。

實際上，這就將光電感測器網路變成了神經網路，將光學感測和神經形態計算結合起來，使其能夠執行簡單的計算任務。

改變二極體的靈敏度，就相當於改變神經網路中的權重。

把權重放在感測器上

與其他神經不同的是，這套系統的權重不是存在計算機的記憶體和硬盤裡，而是直接整合在影象感測器上。

實驗中使用的有硒化鎢光電二極體製成的特殊閘電路。它的特殊就在於可以調製，相當於神經網路的訓練。

隨著外接偏置電壓的不同，二極體對光線的敏感程度也不同，等於將網路的訓練結果直接放在感測器端。

之前的神經網路都是將訓練權重儲存在外部儲存器上，透過電路傳送到每個檢測器件上。

就像電腦的記憶體，斷電後就會丟失儲存資訊。

而這一套裝置，更像是硬碟，即使掉電後也能將權重資訊儲存下來。

研究人員將調製的電極也就是浮柵（floating gate）埋在氮化硼絕緣層中，一開始先對氧化鋁絕緣層中的柵極加上電壓，接著撤去外部電壓。

浮柵依舊能在接下來的2300秒內維持對光電二極體的調製，直到改變外部偏置電壓為止。

研究人員用這種方法實現了兩種型別的神經網路：分類器和自動編碼器。

在分類器中，光電二極體陣列、晶片感知器以及在晶片外的非線性啟用函式一起執行。這種型別的神經代表一種監督學習演算法，該演算法能夠將輸入影象P分為不同的輸出類別y。

實際效果如何呢？他們3×3畫素製作了一組“簡陋”的字母，分別是n、v、z。

影象感測器經過訓練後，只需測量對應電路的電流是否為0，就能知道是哪個字母。

透過電壓隨時間的變化圖可以看出，當感測器接受到影象40ns後，n和v兩種輸入產生的電壓開始出現巨大的差異，約100ns後差異達到最大。

第二種神經網路是自動編碼器，可以在無監督的訓練過程中學習輸入影象P的有效表示。它與解碼器一起使用，對解碼器進行訓練後，就可以在其輸出中重現影象。

編碼器由光電二極體陣列本身構成，解碼器由外部電子器件構成。

在這個過程中，影象的傳輸資料得到了壓縮。

潛力巨大，但仍需大量後續研究

40納秒就分辨出了兩張不同的影象，AI視覺彷彿朝著人類大腦的效率更進一步。

但需要說明的是：這一令人興奮的新技術，距離實際應用，還有很長的路要走。

首先，由於光電二極體陣列僅由27個檢測器組成，最大隻能處理3×3的影象。

其次，想要真正應用於自動駕駛和機器人技術，視覺系統需要捕獲具有廣闊視野的三維動態影象和影片。而現在，該技術是將3D視覺資訊轉換成2D來處理，丟失了運動資訊和深度。

其影象感測器陣列的平面形狀，也限制了廣角相機的能力。

此外，根據Nature的報道，論文中描述的裝置很難在昏暗光線下成像。並且，其設計需要高電壓和大功率，相比之下，生物神經網路中每項操作消耗的能量僅為10-15到10-13焦耳。

從工藝角度上講，晶片所採用的薄半導體目前很難大面積生產加工。

而且，儘管影象感測器兼具了採集和計算功能，減少了模數轉換，但外部電路仍然存在固有延遲問題，還是會影響整個系統的等待時間。

不過，雖然還有很大的研究空間，在感測器中計算的相關研究，推動了AI硬體的進一步發展。而這樣的研究思路，也不僅僅侷限於計算機視覺，可以擴充套件到聽覺、觸覺等其他物理輸入中。

其他嘗試

人們對快速處理影象資訊的要求越來越高，很多科學家都在研究在輸入端處理影象的方法。

最近來自荷蘭和美國學者也發明了一種在感測器端直接處理影象的方法。

不過他們不是輸出影象的分類，而是輸出影象的邊緣，這對於目標檢測和語義分割有重要的意義。

他們在感測器前方加入了一個“超表面”：不到半毫米厚的藍寶石薄片，鍍上206 nm厚、142 nm高、間距300 nm的矽長條。

把它放置在CCD感光晶片的表面上時，超表面的作用就像一個透鏡，光線只能以陡峭的角度射向它，而過濾掉入射角很小的光。

影象的特徵是由不同光波的組合而成，濾除了光波攜帶的其他細節，僅留下了較尖銳的分量，例如人臉的邊緣，而不是單色的背景。

整個過程僅需要150納秒的時間，而交給計算機處理需要幾毫秒，二者相差4個數量級。

研究團隊

最後介紹下研究團隊，來自奧地利維也納工業大學的Unterrainer group。

論文一作：Lukas Mennel，是電氣工程與光子學專業在讀博士，曾作為訪問學者赴MIT交流學習，研究量子光子學。

△

Lukas Mennel

論文的另一位通訊作者，是維也納工業大學副教授

Thoms Mueller

——托馬斯·穆勒，雖然不知道這位托馬斯·穆勒擅不擅長踢足球，但在2D材料科學領域，穆勒教授的研究涵蓋基礎研究、光電裝置、電子積體電路、光子積體電路等，亦是卓有成就。

△

Thoms Mueller

論文地址：

—完—

@量子位 · 追蹤AI技術和產品新動態

深有感觸的朋友，歡迎贊同、關注、分享三連վ‘ᴗ’ ի ❤

小蜜蜂問答

小蜜蜂問答

40納秒完成影象分類，速度提升幾十萬倍，影象感測器自帶神經網路登上Nature

推薦文章

小蜜蜂問答

小蜜蜂問答

40納秒完成影象分類，速度提升幾十萬倍，影象感測器自帶神經網路登上Nature

相關文章

愛普生l1300印表機列印模糊？

康佳551電視無法放大？

受顯微鏡下線蟲啟發， MIT人工智慧實驗室推出「液態」神經網路

人工智慧是否會取代人腦？

推薦文章