中科大发布全球首款三合一二极管：一个器件实现拍照降噪识别

作者: admin 分类: AI技术 3 次浏览发布时间: 2026-05-06 09:11

一颗二极管，能看、能记、还能算

2026年1月，中国科学技术大学孙海定团队在《自然·电子学》上公布了一项让半导体基础元件“老树开新花”的研究成果：他们造出了全球首款集感知、存储、计算于一体的新型二极管。这个消息之所以值得关注，不在于它创造了某个打破物理极限的纪录，而在于它回答了半个多世纪以来二极管的根本性问题——除了发光、探测和作为开关，这个最简洁的两端器件还能做什么？答案让人意外：它能同时实现拍照、降噪和图案识别，而且是在一个微型器件里，不需要额外的模数转化和数据搬运。

从结构上看，这项创新的核心并不复杂。传统p-n结二极管通常只有单一功能，要么是光电探测器，要么是整流器，要么是发光器。孙海定团队的设计是在经典的p-GaN/n-GaN结之间，插入了一层宽禁带的n型AlGaN，形成p-GaN/n-AlGaN/n-GaN的垂直结构。这一层n-AlGaN扮演了“电荷储蓄池”的角色：当光线照射时，光生载流子中的电子被储存在这个“储蓄池”里，到了需要处理的时刻，再通过施加外加电压提取出来。这种能带工程的创新，本质上是在不增加器件端子数、不堆叠外围电路的前提下，用材料本身的结构特性实现了功能的微调和复合。在追求集成度的半导体行业里，这种“用结构换功能”的思路，远比简单增加晶体管数量来得精妙。

要理解这个创新的意义，需要回到一个行业现实：当前AI视觉芯片的主流方案，无论是传统CMOS图像传感器加专用AI芯片的组合，还是近来兴起的感存算一体方案，大多离不开多种器件的协同或异质集成。这带来的直接代价是硬件复杂度攀升、芯片面积增大、功耗难以收敛，以及数据传输环节的隐私泄露风险——家庭摄像头拍摄画面后传到云端做识别，原始视频一旦外泄，隐私防线形同虚设。孙海定团队给出的替代路径很直接：既然一个二极管同时具备了感知、存储、计算能力，那为什么不让它直接在本地完成识别？研究团队用10×10的二极管阵列在FMNIST图像识别任务中做了验证，经过原位去噪后，识别准确率从不足60%跃升至超过95%。这个数据的变化值得推敲：准确率的提升不仅仅依赖“存算一体”带来的模式匹配效率，还归功于“原位去噪”——噪声在信号进入“储蓄池”的过程中就被过滤了，而不需要传出去让另一个芯片处理后再送回来。

更值得注意的是这项工艺与CMOS的完全兼容性。这意味着，它不需要重新建设晶圆厂、不需要改变现有的芯片设计流程，现有集成电路制造的产线可以直接复用。对于一个从原型验证走向产业落地的技术来说，“能产”往往比“能做”更关键。研究团队在报道中透露，已有公司联系希望将其做成机器人的眼睛，预计视觉相机和小型相机可能率先落地——应用场景覆盖手机、安防监控、物联网、工业检测、医疗装置、无人机和机器人。

对照近年边缘计算的演进路线来看，这类感存算一体的终端器件正在逐步填补“端侧智能”的最后一块空白。过去，我们把计算能力从云端前移到网关、从网关前移到设备本身，但处理单元和传感器之间依然存在物理距离和数据搬运的成本。当一个二极管本身就能看、能记、能算，而且不依赖模数转换、不依赖外部存储、不依赖云端下行数据时，“边缘智能”就从一个大致的工程方向，变成了一项具体可执行的原子级方案。从产业视角看，这不仅是器件性能的跃迁，更是系统架构的简化——它拉通了从数据采集到数据处理的物理距离，也同时打通了一条更低功耗、更高隐私、更短延时的人工智能落地路径。

一条路，三重困境：传统机器视觉的‘不可能三角’

在当前的机器视觉处理流程中，无论是手机拍照、安防监控还是工业检测，其基础运作模式大体相同：图像传感器（如CMOS）负责拍摄，然后将原始图像数据搬运至专门的处理器或云端服务器，由那里的算法完成降噪、识别等计算任务，最后再将结果传回。这条“拍摄→搬运→计算”的路径看似清晰，实则暗含三重相互制约的困境—功耗、延迟与隐私—几乎构成了一个“不可能三角”。

第一重困境：数据搬运的能耗与延迟代价。 数据的每一次搬运，都意味着高能耗与不可避免的延迟。以家庭安防摄像头为例，它需要持续地将高分辨率的视频流通过Wi-Fi上传到云端。在这一过程中，视频数据的压缩、封装、传输不仅消耗大量电能，也让摄像头产生了可感知的发热与功耗，对于电池供电的IoT设备而言更是严重瓶颈。同时，数据上传与云端处理引入了毫秒甚至秒级的延迟，这在自动驾驶或工业实时控制等场景中是不可接受的。也正因如此，业界始终在探索“边缘计算”，试图将计算任务下沉到终端设备附近。但传统架构中，感、存、算分离的物理结构决定了一刀切式的边缘化会遇到硬件复杂度与面积的瓶颈—例如在CMOS图像传感器中，每个像素周边需要配上数个晶体管来完成基础功能，这本身就是一种因“搬运”而产生的结构冗余。

第二重困境：隐私安全在“云端”的放大效应。 更深刻的矛盾在于隐私。大量家庭摄像头的默认工作模式是将原始视频上传至云服务商的服务器上完成识别与存储。这意味着，用户的私人影像被外包给了第三方企业，其间经历了多跳网络与服务器，存在被黑客攻击、内部人员泄露或监管不当导致数据滥用的风险。即便用户选择本地部署，传统方案也需将原始视频数据存储于本地的硬盘或NAS中，一旦设备被物理或网络侵入，隐私数据同样会被窃取。隐私问题的根源在于：原始数据在识别完成前就被“外传”了，也即数据在未被理解的情况下就已离开了物理边界。这本质上是一个架构问题，因为感知与计算在物理上是分离的，迫使数据不得不被搬运。

第三重困境：性能与精度的折扣。 数据的搬运还带来了另一重隐性代价：信号质量损失。摄像头采集的原始信号中，往往混杂着噪声，这些噪声在传统流程中需要通过后端算法进行专门去噪。然而，由于数据搬移过程中ADC（模数转换）位深、压缩算法等限制，会引入特定噪声与环境噪声相互叠加，导致后端算法需要更多精力来分离有效信号与噪声。这一过程会直接拉低识别准确率。参照素材中的数据：在FMNIST图像识别任务中，传统流程（含噪声）的识别准确率不足60%，而通过将感知与去噪过程在器件层面同步完成，准确率可跃升至95%以上。这说明了噪声在数据搬运与转化过程中的累积效应，对系统最终性能造成了显著损失。

维度	传统图像处理流程（搬运→计算）	感存算一体二极管阵列（本地同步）
核心路径	摄像头拍摄→模数转换→数据搬运至云端/处理器→降噪→识别→返回结果	二极管阵列直接感知光子并本地去噪→本地计算识别→仅输出结果
能耗/延迟	高：数据搬运消耗大量能源，云端处理引入毫秒到秒级延迟	低：感知与计算在本地完成，无需数据搬运，理论上可实现纳秒级响应
隐私风险	高：原始视频数据需上传至服务器，多跳路径中面临泄露可能	低：原始数据仅在本地处理，上传的仅为识别结果，物理隔离隐私风险
识别精度受干扰	较高：数据搬移与模数转换可能引入噪声，需额外去噪；噪声累积后识别准确率不足60%（FMNIST任务）	低：器件原位去噪，噪声在源头被抑制，识别准确率可达95%以上（FMNIST任务）

从这张对比表不难看出，单就机器视觉系统的效率与安全性而言，传统的“数据搬运”模式正站在与时代要求相悖的拐点上。功耗、隐私、精度三个维度相互牵制，难以同时优化。而孙海定团队展示的新型二极管阵列，恰好用它的结构设计—在器件内部同时融合感知、存储与计算—为打破这个“不可能三角”提供了底层器件层面的起点。对于长期关注系统架构演进的从业者而言，这或许是一个清晰的信号：当数据处理从“搬运到别处去算”变为“在产生数据的地方直接算”，架构的天花板才会被真正捅破。

如何塞进一个‘电子储蓄池’？——机制与工程创新

当业界还在围绕冯·诺依曼架构的存算分离困境讨论各种系统级优化方案时，中科大孙海定团队给出的回答，却是在最底层的元件——二极管上动手。他们不是在系统架构上修修补补，而是从半导体物理层面重新定义了器件的能力边界。

从“两堵墙”到“三层楼”：能带工程如何创造“电子储蓄池”

传统p-n结二极管只有一个功能，要么探测光，要么发光，要么整流，原理很简单：光照射p-n结产生电子-空穴对，然后很快被电场扫走形成光电流——只产生、不存储、不运算。孙海定团队的创新，本质上是在这个“即来即走”的通道中插入了一个“滞留区”。

他们设计的p-GaN/n-AlGaN/n-GaN结构，关键是在原本直接接触的p-GaN和n-GaN之间，加了一层宽禁带的n型AlGaN。这一层AlGaN在能带结构上形成一个“势阱”，相当于在电子从p区奔向n区的路上挖了一个“蓄水池”。光照射后产生的光生载流子中，电子会被这个势阱捕获并存储起来，而不会立刻被扫走。

这带来的第一个突破性改变是：同一个器件同时具备了光感知（产生电子）和存储（滞留电子）的能力。更为关键的是，这个存储是“原位”的，不依赖任何外置的DRAM或SRAM单元。存储在势阱中的电子数量，直接对应了光照强度的历史信息——这相当于二极管自己“记住了”它看到了什么。

当需要计算时，只需施加特定的电压脉冲，将势阱中的电子按需放出，电流的大小就编码了存储的信息。这样一来，同一器件在同一位置完成了“感知-存储-读取”三步，完全不需要在芯片之间搬运数据。

为何不增加端子？——对“加法思维”的反思

实现“感存算一体”，传统思路往往是做加法。要么在二极管旁边堆一堆晶体管（如CMOS图像传感器每个像素配3-4个晶体管），要么给二极管增加第三甚至更多端子（此前孙海定团队也发过基于三端口FET调制的光电器件）。这些方法虽然有效，但代价是硬件复杂度飙升、芯片面积膨胀、功耗同步增长。这与AI算力追求的低功耗、高密度大方向是矛盾的。

该团队的思路是回头审视基础元件本身：能不能在不改变二极管“两端器件”的简洁架构下，通过材料工程和能带工程让它“一专多能”？他们给出的答案正是插入一层AlGaN，让这个“电子储蓄池”成为内置功能模块。这本质是一种“减法思维”：不增加外围电路数量，而是在器件内部做增量功能。这种设计哲学，对于长期从事系统优化的我而言，颇有启发——很多时候，问题不在系统层面，而在更底层的元件能力上限。

工艺兼容性的现实意义

该研究的另一关键价值是：工艺与CMOS完全兼容。这意味着，这一新型二极管阵列可以直接在现有成熟的硅基氮化镓(GaN-on-Si)量产线上制造，无需重建产线。相比那些需要异质集成（比如把不同材料用特殊工艺粘合）的“感存算一体”方案，这种全兼容工艺的商业化路径要短得多。

从产业化角度看，这意味着以下几个现实优势：

维度	传统方案（分离器件+外围电路）	本项研究方案
器件架构	两端二极管 + 多个晶体管 + 存储单元	单个两端器件集成三重功能
数据流转	需通过外围电路进行模数转换、存储、搬运	模拟域原位处理，无需数据搬运
工艺兼容性	部分方案需异质集成，产线改造成本高	与CMOS完全兼容，可复用现有产线
识别准确率（FMNIST任务）	–	从不足60%提升至超过95%
响应速度	受限于外围电路和模数转换	纳秒级响应

表中可以看出，最值得关注的是识别准确率的跃升：从不足60%到超过95%。这一跃升并非单纯靠算法优化，而是源于硬件层面的噪声消除能力——由于存储和计算都在原位完成，避免了数据传输过程中引入的额外噪声，且AlGaN势阱本身的深度可设计调节，能滤除部分低信噪比信号。

从系统架构视角看：瓶颈在哪就要在哪突破

从业多年，我习惯于从“瓶颈”出发思考系统优化。传统摄像头的性能瓶颈，往往不在传感器本身，而在数据传输和处理的路径上：传感器采集图像→模数转换→搬运至CPU/GPU/DSP→存入内存→调出计算→最终输出。每一步都有延迟和功耗开销。尤其是在边缘端设备（如手机摄像头、机器人眼睛、安防摄像头），受限于功耗和体积，算力本来就有限，数据搬运更成为主瓶颈。

孙海定团队的方案，相当于把“搬运”这个步骤直接取消——数据在哪里产生，就在哪里完成处理。这种“零搬运”架构对边缘计算意义深远：既降低了延迟（纳秒级响应），又减少了功耗（每跳过一次多余的数据传输，就省一次能量），还提升了隐私安全（数据不会离开传感器芯片，仅传出结果而非原始图像）。

当然，目前10×10阵列还是实验室演示规模，距离商用摄像头几百万到数千万像素还差多个数量级。但这项工作的意义在于，它证明了在半导体物理层面，一个“看得见、记得住、算得出”的基础元件是可行的。当这种元件的规模化和成本问题被解决后，整个视觉系统的架构设计都将被重新定义——不是做系统的微调，而是从底层芯片开始的范式重构。

从实验室到产业：下一站，机器人眼睛与手机摄像头

一项技术从实验室论文走向规模量产，往往要跨越两道鸿沟：一是工程上能否以可接受的成本实现可靠量产，二是市场上是否存在足够明确的刚需应用场景。中科大孙海定团队这项研究的巧妙之处在于，它同时踩准了这两条线。从工艺层面看，论文明确披露“工艺与互补金属氧化物半导体（CMOS）完全兼容”，这意味着该器件不需要像某些新型存储芯片或量子器件那样为制造工艺建新产线，可以直接在现有CMOS晶圆厂中完成流片。对于从0到1的产业化来说，工艺兼容性是降本增效的关键杠杆——它大幅缩短了从设计到验证的周期，也降低了芯片设计公司采纳新技术时的工艺切换风险。

在应用端，研究团队给出了一幅清晰的近期落地路径。根据报道，团队预测“视觉相机或小型相机有可能更快落地应用”，覆盖场景已然不限于实验室展示，而是直接指向手机摄像头、安防监控、物联网、工业检测装备、医疗装置，甚至无人机和机器人。这一判断并非空穴来风。传统摄像头+云端识别的解决方案存在三个长期痛点：图像数据传输过程耗电大、延迟明显、隐私数据外泄风险难控。而新型二极管阵列能够在器件层直接“拍摄并过滤噪声，还可直接分类识别图像”，相当于在信号产生的最前端就完成了预处理，仅输出识别结果。以家庭安防摄像头为例，如果摄像头本地就能完成识别，不需将原始画面实时上传云服务器，用户隐私保护的级别将发生质变——不再是“云端加密算法多强”的问题，而是“原始画面根本上不了网”。

更值得关注的一条产业信号是团队透露的外部反馈：“目前已有公司联系我们，希望将这种相机做成机器人的眼睛。”这句话背后指向了一个更深远的趋势——边缘智能终端的硬件架构正在从“通用处理器+算法”向“专用感存算一体芯片”蜕变。机器人需要实时感知环境、识别目标并做出动作反馈，其对延时和功耗的敏感到达了手机等其他消费电子难以企及的程度。当前大多数机器视觉方案仍然依赖摄像头+图像传感器+外部DSP或NPU的分离式架构，数据每一层的搬运都在消耗能量和响应时间。而将感知、存储、计算压缩到一个两端二极管阵列中，意味着机器人的“眼睛”不再只是一个感光元件，而是一块能自主判断的微型视觉芯片。这不仅仅是器件维度的提升，更是系统架构层面的简化。

据此推测，这项技术在近期（2-3年）很可能先在特定封闭场景中大显身手：工业检测装备需要高吞吐、低延迟的图像识别而不用过多考虑成本；安防监控对隐私保护有强制需求，愿意为本地化方案支付溢价；物联网终端节点算力受限但对功耗极度敏感，恰恰与“感存算一体”极简设计的优势高度匹配。而手机摄像头作为体量最大的消费电子赛道，虽然对成本和集成度要求苛刻，但CMOS兼容性降低了准入门槛，一旦形成成熟的片上系统方案，极有可能成为下一代智能手机影像系统的差异化突破点。技术逻辑已经跑通，产业需求也已确认，真正决定速度的变量，可能只剩下量产良率与商业定价这两个经典的产业问题。

颠覆的背后：经典元件如何回应AI时代的‘新需求’

当我们审视中科大团队的这项突破，会发现它不仅是一项器件创新，更折射出AI时代对基础硬件架构的系统性倒逼。过去几十年，半导体产业的演进逻辑主要是“摩尔定律式的纵向微缩”——在相同面积内塞进更多晶体管。但AI计算的核心矛盾并非单纯的算力堆砌，而是数据在感知端、存储端、计算端之间的搬运效率瓶颈。传统摄像头拍下图像后，需要将数据传到其他芯片去降噪和识别，这种“搬运数据不仅费电、占空间，还涉及隐私风险”。孙海定团队给出的解法，恰恰是用一个基础元件同时实现感知、存储、计算，从根本上消除了数据搬运的必要性。这种从“功能分离”到“功能融合”的跃迁，映射的是AI对硬件架构“从单元到系统”的全新需求——不是简单地提升某一环节的性能，而是重新定义信息流经的路径。

如果把视角拉远，这种“三合一”二极管带来的二阶效应，可能会深刻改变数据隐私保护的格局。当下家庭摄像头之所以存在隐私忧虑，根本原因在于“需将数据上传到云端进行识别”。一旦这类感存算一体芯片普及，摄像头“在本地就能完成识别，不用上传原始视频而是仅需上传识别结果”，数据暴露面将被大幅压缩。这并非一个渐进式的改进，而是安全模型的重构：从“信任云端”转向“信任终端”。类似地，在工业检测、医疗影像、机器人视觉等场景中，敏感数据就地处理、仅输出决策结果，意味着隐私保护的边际成本大幅下降。据此推测，这类芯片很可能成为边缘计算隐私合规的“隐形守门人”，而技术方案所承诺的“工艺与CMOS完全兼容”又为这一前景增添了落地的现实基础。

当然，从实验室原型到产业级应用，仍有必要保持冷静的审视。目前研究团队展示的仅是10×10的二极管阵列，图像识别任务也定位于FMNIST这样相对标准的场景。若要真正替代手机摄像头或机器人眼睛的完整视觉系统，至少需要验证三个关键维度：阵列规模扩大后的稳定性、长期工作条件下的器件寿命，以及以纳秒级响应为标尺的良率控制与成本曲线。下表可以更清晰地呈现这项技术当前阶段与商业化目标之间的差距：

维度	当前研究状态（基于素材）	产业化所需状态	潜在挑战
阵列规模	10×10	百万像素级	一致性、良率
识别精度	FMNIST任务从<60%提升至>95%	真实场景复杂图像	泛化能力
工艺兼容性	与CMOS完全兼容	现有产线适配	量产良率、成本
落地场景	已有公司联系（机器人眼睛）	手机、安防、医疗	封装、功耗、系统集成

方向已经明确，技术逻辑也已跑通，接下来的关键变量就是工程化推进的速度。回顾半导体产业史上的若干次经典迭代——从发光二极管到快充GaN器件，从光电探测器到本次的感存算一体结构，氮化镓这一“明星材料”再次展现了超越传统硅基器件的潜力。作为一名长期跟踪技术趋势的从业者，我的判断是：这项研究并非孤立的技术奇点，而是“基础元件智能化”浪潮中的一个重要里程碑。它揭示了硬件不再只是被动的感知器或执行器，而是正在成为具备初步判断能力的“智能前端”。未来三到五年，我们很可能看到更多类似“在经典结构中塞进新功能”的破局方案浮现，边缘计算的硬件形态也将因此被重新定义。说到底，AI时代的新需求，从来不是等芯片算力足够高再去满足的，而是从每一颗二极管开始，重新思考信息和计算的关系。

三合一二极管中科大孙海定机器视觉神经形态计算

杨建荣的学习笔记

中科大发布全球首款三合一二极管：一个器件实现拍照降噪识别

一颗二极管，能看、能记、还能算

一条路，三重困境：传统机器视觉的‘不可能三角’