清华大学,Nature!
学研汇 技术中心 纳米人 2023-10-30

1698654106417323.png

特别说明:本文由学研汇技术 中心原创撰写,旨在分享相关科研知识。因学识有限,难免有所疏漏和错误,请读者批判性阅读,也恳请大方之家批评指正。

原创丨彤心未泯(学研汇 技术中心)

编辑丨风云


研究背景

计算机视觉在自动驾驶、机器人、医疗诊断和可穿戴设备等多个领域具有广泛的应用。尽管深度学习在算法层面显着提高了视觉任务的性能,但这些任务从根本上受到传统数字计算单元的能耗和计算速度的限制。光子计算可以更快、更节能地处理视觉数据。


关键问题

然而,光子计算用于视觉任务仍存在以下问题:

1、现有的光子计算系统仍受到严重的实际限制

虽然光子计算具有高达每瓦1.58万亿次运算(TOPS)的计算效率,但现有的光子计算系统仍然受到复杂的光学非线性实现、ADC的巨大功耗以及容易受到噪声和系统错误的影响等多种限制。

2、基于光子计算的可部署系统的实验优势仍是一个挑战

光学神经网络(ONN)可能对低信噪比(SNR)下的噪声敏感,由于曝光时间超短,因此很容易受到散粒噪声波动的影响,这严重阻碍了现有光子计算在实际计算机视觉任务中表现出比传统数字计算的系统优势。    


新思路

有鉴于此,清华大学戴琼海、乔飞、方璐、吴嘉敏等人开发了一种全模拟芯片(ACCEL),该芯片结合电子和光计算,系统能效为每秒74.8 千万亿次/瓦,比现有技术高三个数量级,计算速度为每秒4.6千万亿次运算,比现有技术高一个数量级。将衍射光学计算用作特征提取的光学编码器后,光生光电流直接在集成模拟计算芯片中进行进一步计算,无需模数转换器,从而实现72ns/帧的低计算延迟。通过光电计算和自适应训练的联合优化,ACCEL在Fashion-MNIST、3级ImageNet分类和延时视频识别任务中分别实现了85.5%、82.0%和92.6%的分类准确率,同时展示了优越的系统性能弱光条件下的稳定性。预计ACCEL可广泛用于可穿戴设备、自动驾驶和工业检查等多种应用。


技术方案:

1、阐明了ACCEL的架构    

作者以全模拟的方式设计了光电混合架构,以减少大量ADC,实现具有竞争性任务性能的高速、低功耗视觉任务。

2、评估了ACCEL的性能特征

作者展通过数值模拟来定量评估ACCEL,表明ACCEL具有高准确率、高噪声稳定性,通过自适应训练方法可以减少精度降低。

3、实验验证了ACCEL对高性能图像分类的精度

作者用制作好的ACCEL芯片进行了实验,表明ACCEL在图像分类上具有极具竞争力的测试精度。

4、证实了ACCEL在高速延时任务中的应用

作者证实了ACCEL促进了延时任务的高速处理,并展示了其在自主系统中的潜在应用。

5、测试了ACCEL的计算速度和效率

作者通过计算,直接表明了ACCEL在实际中达到相同的精度时,与最先进的GPU上的数字神经网络相比,全模拟ACCEL通过实验将系统延迟和能耗降低了几个数量级。


技术优势:

1、开发了极具竞争力的全模拟芯片ACCEL

作者开发了一种结合电子和光的全模拟芯片,该芯片可用于节能和超高速视觉任务,具有极具竞争力的任务性能和可扩展性。ACCEL将衍射光学模拟计算(OAC)和电子模拟计算(EAC)与可扩展性、非线性和灵活性融合在一块芯片中。

2、将能效提高了3个数量级,计算速度提高1个数量级

ACCEL实现了74.8 peta-OPS W−1的实验能效和4.6 peta-OPS的计算速度,分别比最先进的计算芯片高出3个和1个数量级。    

3、开发了自适应训练方法,提高了计算高精度

作者开发了一种自适应训练方法,弥补了制造缺陷和对准误差,获得了极高的稳定性,精度也提高了29.4%。


技术细节

ACCEL的架构

作者以全模拟的方式设计了光电混合架构,以减少大量ADC,实现具有竞争性任务性能的高速、低功耗视觉任务。通过用相干光或非相干光照射目标,将信息编码到光场中。作者阐明了ACCEL的工作模式,并将这些功能以全模拟方式集成在一块芯片上,以实现广泛的应用,并且与现有的数字神经网络兼容,以完成更复杂的任务。作者展示了OAC的数据压缩性能、EAC对计算速度的提高了计算速度以及读出噪声的减少。


1698654124459429.png

图  ACCEL的架构 

   

1698654137194846.png

图  ACCEL的实施


ACCEL的性能特征

作者展示了ACCE的典型工作流程,在实验演示之前,首先进行了数值模拟来定量评估ACCEL。结果表明ACCEL在所有分类中的准确率-模拟模式在数值上达到98%,即使对于更具挑战性的分类任务,全模拟ACCEL在数值上也显示出与数字神经网络相当的性能。此外,ACCEL还表现出噪声稳定性,即使在每帧0.14fJμm2的极低光强度下,ACCEL的测试精度仍然很高。通过建立自适应训练方法,可以减轻由于制造相位误差或移位和旋转未对准而导致的精度下降。  

 

4.png

图  ACCEL性能的数值评估


高性能图像分类

为了进一步验证ACCEL架构,作者用制作好的ACCEL芯片进行了实验。作者在三个数据集上对ACCEL进行了验证,结果表明全模拟模式下的 ACCEL 实验精度分别达到 MNIST、Fashion-MNIST和KMNIST的90.9%、80.9%和67.6%,接近模拟性能。通过将小型数字神经网络连接到ACCEL,实验精度分别提高到97.1%、85.5%和74.6%,而无需牺牲系统处理速度和能耗。在具有高分辨率图像的更具挑战性的任务上,ACCEL通过全模拟方式使用单层OAC和 EAC实验取得了80.7%的测试精度。    


5.png

图  ACCEL用于图像分类的实验结果


高速延时任务

除了静态图像分类之外,ACCEL还通过提供从模拟计算到数字存储和计算的灵活且低功耗的接口,促进延时任务的高速处理。连接简单的数字芯片后,ACCEL 可以将串行输出存储在内存中,并使用小规模的单层网络计算最终结果。仅使用低成本比较器即可将模拟信号转换为1位数字信号,从而大大降低能耗和延迟。作者还展示了ACCEL在自主系统中的潜在应用, ACCEL在每帧5.0fJμm2的实验上实现了92.6%的预测精度。当在弱光条件下降低光强度时, ACCEL依然在实验上保持了高精度,甚至优于数字三层神经网络。  

 

1698654169482795.png

图  ACCEL对于延时任务的实验结果


计算速度和效率

ACCEL对每一帧的完整处理时间包括复位时间tr,响应时间tp以及累积时间ta。作者建立了两个实验来分别测量重置时间、响应时间和累积时间。复位时间tr的实验上限为12.5ns,平均响应时间为7.8ns,平均累积时间为9.2ns。对于3级分类,ACCEL 包括三个脉冲的完整处理时间约为 72ns。测得的 ACCEL 对于3级ImageNet 分类的平均系统能耗为 4.4nJ,实验系统能量效率为7.48×104 TOPSW1。ACCEL的实验系统LeNet等效计算速度和能源效率分别为301.39TOPS和4.95×103TOPSW1,远高于最先进的数字和光子器件。  

 

1698654185458624.png

图  ACCEL处理时间和能耗的实验测量


展望

总之,通过结合光子计算和电子计算的优点,本工作开发的ACCEL通过实验实现了4.55×103 TOPS的系统计算速度和7.48×104 TOPSW1的能源效率,比最先进的方法高出几个数量级。与电子处理器中的数字神经网络相比,该芯片在各种智能视觉任务中保持有竞争力的准确性。除了作为模拟光信号到数字信号的通用平滑接口外,ACCEL还为可穿戴设备、机器人、自动驾驶、工业检查和医疗诊断等光电模拟计算的广泛实际应用开辟了新的视野。


参考文献:

Chen, Y., Nazhamaiti, M., Xu, H. et al. All-analog photoelectronic chip for high-speed vision tasks. Nature (2023). 

https://doi.org/10.1038/s41586-023-06558-8 

加载更多
793

版权声明:

1) 本文仅代表原作者观点,不代表本平台立场,请批判性阅读! 2) 本文内容若存在版权问题,请联系我们及时处理。 3) 除特别说明,本文版权归纳米人工作室所有,翻版必究!
纳米人
你好测试
copryright 2016 纳米人 闽ICP备16031428号-1

关注公众号