2.1 计算机视觉是什么

计算机视觉是指用计算机实现人的视觉功能——对客观世界的三维场景的感知、识别和理解。

这意味着计算机视觉技术的研究目标是使计算机具有通过二维图像认知三维环境信息的能力。因此,不仅需要使机器能感知三维环境中物体的几何信息(形状、位置、姿态、运动等),还能对它们进行描述、存储、识别与理解。可以认为,计算机视觉与人类或动物的视觉是不同的,它借助几何、物理和学习技术来构筑模型,用统计的方法处理数据。

人工智能的完整闭环包括感知、认知、推理再反馈到感知的过程,视觉在我们的感知系统中占据大部分的感知过程。因此,研究视觉是研究计算机感知的重要一步。

1. 学科的诞生

计算机视觉真正的诞生时间是在1966年,MIT(麻省理工学院)人工智能实验室成立了计算机视觉学科,标志着计算机视觉成为一门人工智能领域中可研究的学科,同时,历史的发展也证明了计算机视觉是人工智能领域中增长最快的一个学科。

2. 视觉理论

20世纪80年代初,MIT人工智能实验室的David Marr出版了《视觉》(全名《Vision:A Computational Investigation into the Human Representation and Processing of Visual Information》)一书,提出了一个观点:视觉是分层的。

他认为视觉是个信息处理任务,应该从3个层次来研究和理解,即计算理论、算法、实现算法的机制或硬件。

(1)计算理论:这个层次研究的是对什么信息进行计算和为什么要进行这些计算。

(2)算法:这个层次研究的是如何进行所要求的计算,即设计特定的算法。

(3)实现算法的机制或硬件:这个层次研究的是完成某一特定算法的计算机构。

视觉理论使人们对视觉信息的研究有了明确的内容和较完整的基本体系,目前仍被看作研究的主流。

3. 关键任务

计算机视觉的关键任务主要如下。

• 物体识别:识别图像物体属于的类别。

• 物体检测:用框去标出物体的位置,并给出物体的类别。

• 分类+定位:分类问题就是给输入图像分配标签;找到图像中某一目标物体在图像中的位置,即定位。

• 图像分割:将数字图像细分为多个图像子区域(像素的集合,也被称为超像素)的过程。