下载客户端

Light | 呼之欲出：裸眼3D时代终要到来

2022-09-07 20:06

来源：澎湃新闻·澎湃号·湃客

从维多利亚时期的立体镜(stereoscope)到高度电子化的 Oculus Quest 2，光学显示与电气工程领域的一次次进步正在逐渐模糊虚拟与现实的边界。

计算全息(CGH)通过数字化记录虚拟或真实存在物体的光波振幅与相位，可以复现具有物理景深效果且能够裸眼观看的真实三维场景。这令其成为虚拟现实以及增强现实领域的下一个变革性技术与研究热点。

为了获取计算全息图，传统方法通常采用光波仿真加相位编码，或基于迭代的相位检索(phase retrieval)以满足相位型空间调制器无法调制强度的约束。

前者快捷，但相位编码需要针对不同场景手动调节最优滤波强度，以获得清晰无散斑的三维显示，且当三维场景远离全息图所在平面时，需要更强的滤波消除散斑，因此将牺牲一定的空间分辨率。后者可实现无人工干预的端到端生成，但迭代算法非常耗时。

近来基于监督学习与无(半)监督学习训练的神经网络被分别用来加速前后两类算法。这些算法虽然取得了显著的进步，但改进后的两类算法相对的优劣势依然存在。

为了突破这一局限，来自麻省理工学院的研究团队提出了两阶段(监督+无监督)训练法以融合两类方法的优势，并首次引入了分层深度图像（Layered Depth Image，LDI）以替代体素与 RGB-D 图片作为神经网络的输入表征，实现了完整且渲染高效的三维信息传递。

该研究成果以“End-to-end Learning of 3D Phase-only Holograms for Holographic Display”为题在线发表于 Light: Science & Applications。通讯作者为麻省理工学院计算机与人工智能实验室 Wojciech Matusik 教授，第一作者/共同通讯作者史亮博士生，第二作者李北辰博士生。该工作得到了 MIT.nano NCSOFT Seed Grant 的支持。

图1：分层深度图像与体素的三维编码效率对比：（a）分层深度图像的渲染逻辑，（b）分层深度图像的渲染结果，三层即可记录相机视角下几乎完整的三维信息，（c）体素渲染结果，高质量三围编码需要使用细粒度的体素间隔，导致结果稀疏，编码效率相对低下，且深度信息被量化。

图2：两阶段神经网络训练管线

相较课题组前期的工作(Nature 2021, 591, 7849)，研究者引入了基于LDI和掩膜分层法(silhouette-mask layer-based method)计算的全新大规模全息图数据集 MIT-CGH-4K-V2，以实现更为逼真的 3D 景深效果。研究者同时提出了基于第二阶段无监督学习的深度双相位编码(deep double-phase method)，可以针对距离全息图平面不同传播距离的三维场景实现端到端高质量纯相位全息图生成。

图3：（a）三维投影拍摄结果展示，相较前期工作，本文改善了前景背景边界的失真，实现了更逼真的景深效果，（b）神经网络同时实现全息投影像差矫正

研究结果显示，该方法能够稳健地处理非完美深度图的真实采集输入，且通过用户闭环(user-in-the-loop)校准数据集，可以实现端到端生成光学像差矫正后的三维投影，已达到去除用户佩戴矫正眼镜的需求。

视频1：基于神经辐射场（NeRF）输出的RGB-D所计算拍摄的三维全息投影(00:17)

本研究的开展，解决了两大类传统算法各自的痛点，提供了基于神经网络的计算全息图渲染训练新思路以及更适合的三维输入表征。该方法的稳健性使得由神经辐射场(NeRF)重建的带有不完美深度图的三维场景也能够被转化高质量的计算全息图，从而极大地减小了真实采集输入的获取难度。此外针对像差修正的集成为计算全息在轻量级、可穿戴的便携式全息近眼显示的实现提供了技术可行性支持。

| 论文信息 |

Shi, L., Li, B. & Matusik, W. End-to-end learning of 3D phase-only holograms for holographic display. Light Sci Appl 11, 247 (2022).

https://doi.org/10.1038/s41377-022-00894-6

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报