1.1 机器感知与视觉信息

1.1.1 机器感知

机器感知(Machine Cognition)也称为机器认知(Machine Recognition),通常指由很多传感器采集信息,并经过机器(或计算机)处理后得到一些感知结果的过程。机器感知能延伸和扩展人的感知能力,包括机器视觉(Machine Vision)、机器触觉(Machine Touch)和机器听觉(Machine Hearing)等。其中,机器感知的主要信息来源是机器视觉。

机器视觉系统是用光学装置和非接触传感器取代人眼来获取信息及进行判断的系统。机器视觉系统一般采用计算机进行处理,所以机器视觉有时也称为计算机视觉(Computer Vision)。计算机视觉以达到具有与人类相当的视觉处理水平为发展目标。计算机视觉系统一般包括光源、对象、镜头、相机、图像采集卡、图像处理软件、判断和控制单元等,如图1-1所示[4]

img

图1-1 计算机视觉系统示意

1.1.2 视觉信息感知

视觉(Vision)使人类能感知和理解世界,帮助人们辨认物体及其所处的空间。视觉信息包含5类主要信息:颜色、光照、形状、动态和距离[5]。眼球包含聚光部分及感光的视网膜,其中,聚光部分包含眼角膜(Cornea)、瞳孔(Pupil)、水晶体(Lens)及玻璃体等。其功能是调节及聚合进入眼球的光线;视网膜中的视细胞包含杆状体细胞(Rod Cells)和锥状体细胞(Cone Cells),这两类细胞将眼球聚焦的光线变成电信号,并由大脑解码出适当的信息和反应[6]

1.1.3 视觉机理

1981年的诺贝尔医学奖颁发给了David Hubel、Torsten Wiesel及Roger Sperry[7]。David Hubel 和Torsten Wiesel提出了“视觉系统分级处理信息”的思想,发现视觉中枢存在方向选择性细胞(Orientation Selective Cell)和其他感受野结构[8]。这一发现推动了卷积神经网络(Convolutional Neural Networks,CNN)的突破性发展。CNN在机器视觉、图像识别、语言识别和数据挖掘等多个领域都取得了突出的成果[9]

视觉系统一般先对原始信号进行低级特征抽象处理,再逐渐对高级的抽象特征进行迭代处理。如图1-2所示,像素区的视觉信息先被进行边缘特征提取,再进行高一级的边缘区形状特征提取,最后被抽象成更高层的对象和语义。一般来说,低层特征可组合为抽象的高层表示;而高层的对象和语义表示越清晰,其猜测的可能性就越小,就越利于分类。

img

图1-2 视觉信息的分级处理

但是,要使计算机(或机器)视觉同人眼视觉一样并不是一件容易的事情。因为人们生活在一个三维(3D)的世界里,而计算机试图分析3D空间的物体时,可利用的视觉传感器通常给出的是二维(2D)图像,从三维到二维的映射导致很多特征信息丢失[10]。另外,每个传感器都会受真实环境的噪声干扰,这使得计算机处理变得更加复杂。

机器视觉和机器处理也很难做到实时。“感”和“知”对机器来说是两件事,而对人眼来说可能就是同一个动作。因此,如何让机器同时做到“感”和“知”,也是人们要思考的一个问题。

视觉信息的特征获取是机器视觉的一个关键环节。一个机器视觉与模式识别系统的成败,首先取决于其所利用的特征能否较好地反映将要研究的分类问题[11]。如果数据被很好地表达成了特征,通常线性模型就能达到满意的分类效果。因此,对于模式识别系统的创建,特征的选择和提取是需要优先考虑的。