
在人工智能迅速發(fā)展的時代,人體動作識別技術(shù)正成為安全監(jiān)控、視頻檢索、人機交互以及自主導航等領(lǐng)域的重要支撐。然而,現(xiàn)有基于視頻序列的方法仍然面臨復雜挑戰(zhàn),例如背景雜亂、部分遮擋、尺度或視角變化,以及光照和外觀的差異。當前,長短期記憶網(wǎng)絡(luò)憑借其循環(huán)結(jié)構(gòu),在處理時間序列的復雜動作數(shù)據(jù)方面展現(xiàn)出優(yōu)勢,但也存在依賴海量數(shù)據(jù)、訓練耗時耗能等局限。相比之下,人類視覺系統(tǒng)展現(xiàn)了更高效的解決方案:依靠視網(wǎng)膜中光感受器、雙極細胞和神經(jīng)節(jié)細胞的協(xié)同工作,它能夠?qū)崟r完成圖像增強與分類。這種天然的功能互補,使得人類視覺系統(tǒng)能夠在動態(tài)與靜態(tài)、模糊與清晰的多樣環(huán)境中保持卓越的感知與適應(yīng)能力。這種受生物啟發(fā)的多功能視覺信息處理策略,正在成為研發(fā)高效人工視覺系統(tǒng)的重要靈感來源。

本文亮點:
新型器件結(jié)構(gòu)設(shè)計:研究團隊提出并成功制備了一種基于 GaN/AlN 的超薄量子盤-納米線類神經(jīng)突觸傳感器,開拓了人工視覺硬件的新方案。
電壓可調(diào)的多功能集成:通過電壓調(diào)控,器件可在“短程”與“長程”兩種工作模式之間切換,分別實現(xiàn)圖像增強和高魯棒性的儲備池計算功能。
高效的人工視覺系統(tǒng):在此基礎(chǔ)上,研究團隊構(gòu)建了一個融合多功能的人工視覺感知和類神經(jīng)傳感系統(tǒng),并對人體動作識別任務(wù)中取得了顯著性能提升。
內(nèi)容簡介:
中國科學技術(shù)大學微電子學院iGaN實驗室孫海定教授團隊提出并實現(xiàn)了一種多功能仿生視覺神經(jīng)傳感器。該器件由氮化鎵/氮化鋁(GaN/AlN)超薄量子盤-納米線(QD-NW)構(gòu)成,具備可重構(gòu)的光電特性,能夠模擬生物細胞的多種視覺響應(yīng)行為。研究團隊設(shè)計的納米線結(jié)構(gòu)包含底層 n-GaN 層、GaN/AlN 多量子阱以及頂層 n-GaN層,形成了 n-i-n 型能帶結(jié)構(gòu)。這種設(shè)計既抑制了光生電子與空穴的分離,又利用 AlN 量子壘實現(xiàn)了載流子的有效約束,利于產(chǎn)生雙模態(tài)的持續(xù)光電流(PPC)。此外,每個量子盤中僅有單層或雙層 GaN,顯著增強了量子限制斯塔克效應(yīng)與自發(fā)極化強度,使得波函數(shù)重疊和非平衡載流子復合概率可控,從而實現(xiàn)了PPC在“長程模式”和“短程模式”之間的電壓可調(diào)。在“長程”模式下,器件可用于圖像傳感與預處理;在“短程”模式下,研究團隊構(gòu)建了基于 QD-NWs 的儲備池計算(RC)系統(tǒng),顯著提升了人體動作識別的準確率——從 51.4% 提升至 81.4%。該項工作展示了基于QD-NW的仿生視覺傳感器在集成化與高性能人工視覺系統(tǒng)開發(fā)中的巨大潛力,為下一代緊湊型、低功耗、智能化視覺器件提供了全新思路。
圖文導讀:
人類視覺系統(tǒng)是一套高度層級化的結(jié)構(gòu),由視網(wǎng)膜、視神經(jīng)和視覺皮層等部分共同構(gòu)成(圖 1a)。視覺信息首先由感光細胞捕獲,隨后在雙極細胞、神經(jīng)節(jié)細胞等協(xié)作下完成初步處理,從而實現(xiàn)高效的視覺感知。其中,神經(jīng)節(jié)細胞根據(jù)功能差異可分為兩類:大細胞(Magno)與小細胞(Parvo)。大細胞體積較大、響應(yīng)速度快,主要負責運動檢測;小細胞體積較小、反應(yīng)較慢,卻在低對比度環(huán)境下表現(xiàn)突出。這種分工協(xié)作的特性,使人類視覺能夠兼顧圖像細節(jié)和運動分類,同時保持高效低耗的計算模式。受這一生物學啟發(fā),研究團隊開發(fā)了一種基于GaN納米線的仿生視覺傳感器。憑借電壓可調(diào)的光電響應(yīng)特性,該器件能夠在兩種模式下工作:
“長程模式”:適用于圖像傳感和傳感器內(nèi)的預處理(圖 1b);
“短程模式”:適用于構(gòu)建儲備池計算系統(tǒng),實現(xiàn)高性能的人體動作識別(圖 1c)。
這種雙模態(tài)的光學響應(yīng)行為,與生物視覺系統(tǒng)的功能分化高度一致,啟發(fā)團隊構(gòu)建出一個功能融合的高性能人工視覺系統(tǒng),并在人體動作分類中表現(xiàn)出卓越性能。

圖 1 人類視覺系統(tǒng)及基于納米線的類腦視覺器件示意圖。(a) 人類視覺系統(tǒng)示意圖;(b) 器件在負偏壓下工作,對應(yīng)長程模式,實現(xiàn)圖像感知與內(nèi)部預處理;(c) 器件在正偏壓下工作,對應(yīng)短程模式,用于儲備池計算和動態(tài)動作分類。
研究團隊首先利用掃描透射電鏡對GaN/AlN QD-NWs的微觀結(jié)構(gòu)進行了驗證,結(jié)果顯示納米線多層結(jié)構(gòu)清晰可辨(圖2a-2c)。隨后,器件的整體結(jié)構(gòu)示意圖(圖2d)以及能帶仿真結(jié)果(圖2e-2f)進一步揭示了其能帶結(jié)構(gòu)和電子空穴在GaN量子阱中的局域化效應(yīng)。基于此,研究人員構(gòu)建了垂直結(jié)構(gòu)的光電傳感器,并在254 nm深紫外光照下測試其性能,結(jié)果顯示器件在外加偏壓下產(chǎn)生穩(wěn)定的光電流,而在光源關(guān)閉后電流并未立即消失,而是呈現(xiàn)出緩慢衰減的持續(xù)光電流(圖2g)。結(jié)合能帶示意圖的物理分析(圖2h),這一現(xiàn)象可歸因于光生載流子在外電場驅(qū)動下被分離,并因AlN勢壘的存在而被有效束縛在GaN量子阱中,從而導致電流延遲衰減。整體來看,該納米線器件不僅展現(xiàn)了優(yōu)異的深紫外光響應(yīng)性能,還模擬了生物突觸中類似的“記憶效應(yīng)”,為后續(xù)構(gòu)建仿生人工視覺系統(tǒng)奠定了基礎(chǔ)。
圖2 納米線結(jié)構(gòu)及器件特性示意圖。(a) 單根納米線的 HAADF-STEM 圖像;(b) 納米線局部放大圖;(c) GaN/AlN量子阱結(jié)構(gòu)原子像;(d) 基于納米線的垂直結(jié)構(gòu)光電器件結(jié)構(gòu)示意圖,電極尺寸為 200×200 μm²;(e) 納米線能帶結(jié)構(gòu);(f) 量子阱區(qū)域能帶結(jié)構(gòu);(g) 254 nm 紫外光照下觀察到的持續(xù)光電流;(h) (I) 在正偏壓及 254 nm光照下的光生電流產(chǎn)生機制;(II) 光照后載流子輸運機制示意圖。
在負偏壓下,外加電場與QD-NW器件的極化場方向一致,加劇能帶傾斜,降低量子阱中的電子和空穴波重疊程度,因而降低了電子和空穴的復合幾率,延長光生載流子壽命,從而產(chǎn)生長時程的持續(xù)光電流(圖3a-3c)。基于這樣的特性,研究團隊構(gòu)建了一個由 8×8的QD-NW器件陣列。通過調(diào)控光強,器件能夠有效調(diào)節(jié)光電流衰減速度,從而實現(xiàn)輸入圖像的對比度增強。例如,當將字母“G”的光掩膜圖案投射到傳感器陣列上時,器件在長時間衰減后能夠顯著抑制背景噪聲字母“A”和“N”,從而凸顯目標圖案(圖3d-3f)。采用簡單的神經(jīng)網(wǎng)絡(luò)(圖3g)對圖像增強效果的評估,經(jīng)過傳感器增強后的圖像識別精度上實現(xiàn)了顯著提升,從 71.6% 提高至 91.4%(圖3i)。這一結(jié)果充分表明,納米線傳感器不僅能夠模擬生物視覺系統(tǒng)中的長期記憶和突觸可塑性,還能在圖像識別中發(fā)揮強大的預處理與增強作用,為智能視覺感知系統(tǒng)的開發(fā)帶來巨大潛力。
圖 3 基于長程模式的圖像增強功能。(a) 負偏壓下QD-NW器件工作模式示意,對光照作緩慢響應(yīng),對應(yīng) Parvo 細胞行為;(b) 負偏壓下量子阱的能帶結(jié)構(gòu)示意,電子空穴波函數(shù)重疊程度減少;(c) 器件在負偏壓和254 nm光照下觀察到的長程 PPC 行為;(d) 輸入圖像示意,包括主要字母和噪聲字母疊加形成模糊圖像;(e) 納米線內(nèi)部預處理后圖像,字母 “G” 明顯增強;(f) 不同光強引起的電流衰減特性及對比度隨時間增加;(g) 構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)示意,用于圖像識別;(h) 圖像增強前(SNR=1/0.3)和增強后(SNR=1/0.15)對比;(i) 圖像經(jīng)預處理前后的識別準確率。
當器件處于正偏壓時,器件表現(xiàn)出快速光響應(yīng)特性。外加電場方向與極化場相反,削弱了極化場作用,增加了電子與空穴的波函數(shù)重疊并加速了非平衡載流子的復合,形成了短程PPC(圖4a-4c)。基于這一短程模式響應(yīng),研究團隊進一步構(gòu)建了高魯棒性的RC系統(tǒng)。該系統(tǒng)以器件的4-bits 編碼能力為核心,以“奔跑”動作為例,連續(xù)的4幀視頻被映射為按時間序列輸入的光脈沖信號,其中每個像素點的二值化結(jié)果被轉(zhuǎn)化為4位光脈沖序列并注入儲備池陣列(圖4d-4f)。在動作識別任務(wù)中,QD-NW 儲備池能夠有效捕捉時空特征,在僅經(jīng)過20輪訓練后,“奔跑”動作的識別率即可達到95%(圖4h)。這一結(jié)果證明,基于QD-NW構(gòu)建的RC系統(tǒng)不僅具備可調(diào)易失性記憶和非線性動力學讀出特性,還能夠在硬件層面實現(xiàn)高效的人體動作識別,為新一代類腦人工視覺系統(tǒng)的發(fā)展提供了重要突破。

圖 4 基于短程模式的QD-NW RC系統(tǒng)用于人體動作分類。(a) 正偏壓下傳感器示意,對光照快速響應(yīng),對應(yīng) Magno 細胞行為;(b) 正偏壓下極化減弱,波函數(shù)重疊增加;(c) 納米線器件在正偏壓和254 nm光照下的短程 PPC 行為;(d) 視頻分類任務(wù)輸入的 4 幀光脈沖編碼示意;(e) 四組代表性輸入 “1100”“0110”“1110”“1111” 的光電響應(yīng)特性及特征提??;(f) 16 組光脈沖輸入產(chǎn)生的讀出電流;(g) “wave1” 和 “run” 動作的儲備池輸出示意;(h) 構(gòu)建的儲備池系統(tǒng)訓練與驗證識別準確率;(i) 10 種動作識別準確度。
為了展示QD-NW傳感器在復雜環(huán)境中人體動作識別的潛力,研究團隊構(gòu)建了集短程模式儲備池計算和長程模式圖像增強于一體的多功能集成芯片(圖5a-5c)。在圖像處理過程中,短程模式首先對輸入光信號進行快速特征提取并轉(zhuǎn)化為持續(xù)光電流,隨后通過長期模式實現(xiàn)圖像增強,有效提高目標像素與背景的對比度,從而顯著降低噪聲干擾(圖5d-5e)。進一步測試表明,即使在噪聲比達到50%的情況下,RC系統(tǒng)仍能保持超過90%的識別準確率(圖5f-5h),展示出優(yōu)異的魯棒性。最終,在融合兩種模式后,系統(tǒng)在帶噪人體動作識別任務(wù)中的精度從51.4%提升至81.4%(圖5i)。這表明,基于QD-NW的多功能集成傳感器能夠?qū)崿F(xiàn)高效、精準的動作分類,為下一代類腦人工視覺系統(tǒng)提供了強有力的硬件支持。
圖 5 雙模式整合及高魯棒性人工視覺系統(tǒng)增強識別準確率。(a) QD-NW 傳感器陣列捕獲的時間序列圖像幀示意;(b) QD-NW傳感器陣列概念示意圖;(c) 傳感器系統(tǒng)電路示意;(d) 輸入視頻 SNR=1/0.3 時提取的 “wave2” 動作;(e) 輸入視頻 SNR=1/0.15 時提取的 “wave2” 動作;(f) RC系統(tǒng)在不同高斯噪聲率(0和0.5)下的 “bend” 動作讀出電流示意;(g) 不同噪聲率下器件輸出的驗證準確率;(h) 10種動作識別準確率與噪聲率關(guān)系;(i) 噪聲下識別準確率對比。
總之,本工作受神經(jīng)元“線條式”結(jié)構(gòu)及神經(jīng)元工作原理啟發(fā),構(gòu)建了基于氮化鎵納米線結(jié)構(gòu)的仿生視覺傳感器,模擬了生物突觸中類似的“記憶效應(yīng)”。該氮化鎵基仿生傳感器不僅能夠模擬生物視覺系統(tǒng)中的長期記憶和突觸可塑性,還能在圖像識別中發(fā)揮強大的預處理與增強作用,最終實現(xiàn)高效、精準的動作分類。
更進一步,未來我們可以通過利用氮化物半導體材料優(yōu)越的能帶連續(xù)可調(diào)性 (通過摻銦或鋁即可覆蓋對整個從深紫外到近紅外全波段的光譜響應(yīng))構(gòu)建寬光譜仿生器件。因此,本工作展示了氮化鎵基新型器件架構(gòu)在集成化與高性能仿生人工視覺系統(tǒng)開發(fā)中的重要潛力,為下一代緊湊型、低功耗、智能化視覺器件提供了全新思路和硬件基礎(chǔ)。
此項研究工作得到了國家自然科學基金等項目資助,并獲得了中國科學技術(shù)大學微電子學院、微納研究與制造中心、物理科學實驗中心的大力支持。微電子學院高志祥博士生和余華斌博士后,以及新加坡ASTAR巨鑫博士為論文共同第一作者,閆勇副研究員和孫海定教授為論文共同通訊作者。
發(fā)表的論文鏈接:https://doi.org/10.1007/s40820-025-01888-w
Zhixiang Gao, Haiding Sun et al., Ultrathin Gallium Nitride Quantum-Disk-in-Nanowire-Enabled Reconfigurable Bioinspired Sensor for High-Accuracy Human Action Recognition, Nano-Micro Letters 18, 54 (2026)
