- +1
40年风云与浮沉,计算机视觉打开智能新世界
文/陈根
作为智能世界的双眼,计算机视觉是人工智能技术里的一大分支。计算机视觉通过模拟人类视觉系统,赋予计算机“看”和“认知”的能力,是计算机认识世界的基础。
确切地说,计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能,是创建了能够在 2D的平面图像或者 3D的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。
计算机视觉利用成像系统代替视觉器官作为输入手段,利用视觉控制系统代替大脑皮层和大脑的剩余部分完成对视觉图像的处理和解释,让计算机自动完成对外部世界的视觉信息的探测,做出相应判断并采取行动,实现更复杂的指挥决策和自主行动。
作为人工智能最前沿的领域之一,视觉类技术是人工智能企业的布局重点,具有最大的技术分布。计算机视觉40多年的发展中,人们提出了大量的理论和方法。总体来看,可分为三个主要历程。即马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。
1982 年,马尔(David Marr)在其《Vision》一书中提出的视觉计算理论和方法,标志着计算机视觉成为了一门独立的学科。
马尔计算视觉理论包含二个主要观点:首先,马尔认为人类视觉的主要功能是复原三维场景的可见几何表面,即三维重建问题;其次,马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的,并提出了一套完整的计算理论和方法。因此,马尔视觉计算理论在一些文献中也被称为三维重建理论。
马尔计算视觉认为,从二维图像复原物体的三维结构,涉及三个不同的层次。首先是计算理论层次,也就是说,需要使用何种类型的约束来完成这一过程。马尔认为合理的约束是场景固有的性质在成像过程中对图像形成的约束。其次是表达和算法层次,也就是说如何来具体计算。最后是实现层次,马尔对表达和算法层次进行了详细讨论。
马尔认为,从二维图像恢复三维物体,经历了三个主要步骤,即图像初始略图(sketch)物体到2.5维描述,再到物体3维描述。其中,初始略图是指高斯拉普拉斯滤波图像中的过零点(zero-crossing)、短线段、端点等基元特征。
物体2.5维描述是指在观测者坐标系下对物体形状的一些粗略描述,如物体的法向量等。物体3维描述是指在物体自身坐标系下对物体的描述,如球体以球心为坐标原点的表述。
马尔计算视觉理论在计算机视觉领域的影响是深远的,他所提出的层次化三维重建框架,至今是计算机视觉中的主流方法。
80 年代开始,计算机视觉掀起了全球性的研究热潮,方法理论迭代更新,主要得益于二方面的因素:一方面,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议(teleconference)、考古、虚拟现实、视频监控等。
另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。在这一阶段,OCR和智能摄像头等问世,并进一步引发了计算机视觉相关技术更为广泛的传播与应用。
80年代中期,计算机视觉已经获得了迅速发展,主动视觉理论框架、基于感知特征群的物体识别理论框架等新概念、新方法、新理论不断涌现。
90年代,计算机视觉开始在工业环境中得到广泛的应用,同时基于多视几何的视觉理论也得到迅速发展。90 年代初,视觉公司成立,并开发出第一代图像处理产品。而后,计算机视觉相关技术就被不断地投入到生产制造过程中,使得计算机视觉领域迅速扩张,上百家企业开始大量销售计算机视觉系统,完整的计算机视觉产业逐渐形成。在这一阶段,传感器及控制结构等的迅速发展,进一步加速了计算机视觉行业的进步,并使得行业的生产成本逐步降低。
进入21世纪,计算机视觉与计算机图形学的相互影响日益加深,基于图像的绘制成为研究热点。高效求解复杂全局优化问题的算法得到发展。更高速的 3D 视觉扫描系统和热影象系统等逐步问世,计算机视觉的软硬件产品蔓延至生产制造的各个阶段,应用领域也不断扩大。
当下,计算机视觉作为人工智能的底层产业及电子、汽车等行业的上游行业,仍处于高速发展的阶段,具有良好的发展前景。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司