- +1
Light | “极简化”机器视觉,无透镜光电神经网络
随着现代图形处理单元的处理能力和并行计算能力的提升,基于卷积神经网络(CNN)的深度学习得到迅速发展,为人工智能的多种应用提供了有效的解决方案。然而,庞大的算力需求和数据量以及计算延时等问题,限制了 CNN 应用于便携、节能、高效的边缘系统中。
近年来,光学计算被认为可以突破电子计算的瓶颈限制,光的并行性、高速度和低损耗可以极大提高计算速度、降低能耗与延迟。然而,目前绝大部分光神经网络计算需要相干激光作为光源,必须搭建独立的光学系统才能够工作,因此很难适用于非相干光环境,尤其是在自然光照场景下难以与成熟的机器视觉系统直接结合。
为了进一步提高实用性,综合利用光与电的计算优势,科学家们提出了前端为光,后端为电的光电混合神经网络。但是,主要基于透镜组的光电混合神经网络硬件系统(如4f系统)具有尺寸庞大的外形,难以部署在如自动驾驶、机器人或其他物联网外围设备中。
近日,来自清华大学的 陈宏伟 教授团队提出了一种用于机器视觉任务的无透镜光电神经网络(LOEN)架构,该架构利用成像光路中插入的无源掩模版在光域执行卷积运算,解决了自然场景中非相干光源和宽带光信号处理带来的挑战。同时,将整个链路中产生、接收、处理、决策的各个环节(光学端、图像数字处理、电神经网络)相结合,面向特定视觉任务联合优化,实现了全链路功耗和体积的“极简化”。
图1. LOEN:无透镜光电神经网络应用示意
该研究成果以“LOEN: Lensless opto-electronic neural network empowered machine vision”为题在线发表在 Light: Science & Applications。清华大学博士研究生史宛鑫、黄铮为共同第一作者,陈宏伟教授为通讯作者。
相比于传统机器视觉的硬件架构,本文提出用光学振幅掩模版取代透镜组,紧贴传感器放置。根据光直线传播的理论,空间场景可以看成一组发光点,光信号经过掩模版的空间调制,在图像传感器上实现移位叠加的卷积操作。实验证明,光学掩模版可以代替卷积神经网络(CNN)的部分卷积层,实现光域上的特征提取。
图2. 光域卷积原理
研究团队以手写数字识别任务验证了该架构中光学卷积的性能,使用单核掩模版的手写数字识别准确率可以达到 93.47%。为进一步提高识别精度,在掩模版上并行排列多核实现单层多通道卷积运算,识别精度可提升至 97.21%。相比传统机器视觉链路,可节省大约 50% 的能耗。
图3. LOEN系统装置示意图
更进一步,扩大光学掩模版的维度,使得图像经过光域卷积,在传感器上呈现出人眼不可辨认的混叠图像,可以天然地实现对场景中隐私信息的加密。研究团队以人脸识别任务验证了该架构中光学加密的性能,相比于未经优化(由随机M序列生成pattern)的掩模版,使用端到端的无透镜光电神经网络联合优化后的掩模版的人脸识别精度可提升超过 6%,实现隐私保护加密的同时,基本可以达到与无加密人脸识别相近的精度。
图4. 无透镜光电神经网络联合优化流程图
该工作提出了一种针对机器视觉系统“极简化”的有效方案,不仅实现了自然场景下光电融合神经网络计算,而且打通光电全链路完成联合优化,实现面向某一特定视觉任务的最佳效果。未来,随着对非线性材料的进一步研究,将光学掩模版与非线性材料结合有可能实现全自然光神经网络,使计算速度进一步提高、能耗进一步降低。
论文信息
Shi, W., Huang, Z., Huang, H. et al. LOEN: Lensless opto-electronic neural network empowered machine vision. Light Sci Appl 11, 121 (2022).
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司