2.1 视觉系统
视觉是人类感知环境的重要手段。研究分析表明,在人们每天通过多种感官接收到的信息中,视觉信息占比为83%,听觉信息占比为11%,嗅觉信息占比为3.5%,其他信息占比为2.5%,如图2-1所示。这说明视觉信息量大,也表明人类对视觉信息有较高的利用率,同时体现了人类视觉功能的重要性。
图2-1 人类感知环境的信息构成比例
使工业检测设备、机器人或其他智能机器具有像人类一样高效、灵活和通用的视觉功能,是人类多年以来的梦想。自20世纪50年代以来,机器视觉理论和技术得到了迅速发展,使得人类的梦想正在逐步实现。
2.1.1 机器视觉的发展
计算机视觉指利用计算机实现人的视觉功能——对客观世界进行感知、识别和理解。通常认为计算机视觉研究始于20世纪50年代的统计模式识别与分析理论,当时的工作主要集中在二维图像分析、识别和理解范畴,如光学字符识别,工件表面、显微图片、航空照片的分析和解释等。
20世纪60年代,Roberts将环境假设为“积木世界”,即周围的物体都是由多面体组成的,需要识别的物体可以用简单的点、直线、平面的组合表示。通过计算机程序可从数字图像中提取如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。Roberts的研究工作开创了以理解三维场景为目的的三维机器视觉的研究。到了20世纪70年代,一些机器视觉应用系统开始出现[1]。
1973年,英国的Marr教授应邀在麻省理工学院(MIT)的人工智能实验室创建了一个研究小组,专门从事视觉理论方面的研究。1977年,Marr提出了不同于“积木世界”分析方法的视觉计算理论——Marr视觉理论。该理论在20世纪80年代迅速成为计算机视觉研究领域一个重要的理论框架。
到了20世纪80年代中期,计算机视觉获得了快速发展,主动视觉理论框架、基于感知特征群的物体识别理论框架等新概念、新方法、新理论不断涌现。20世纪90年代,计算机视觉在工业环境中得到了广泛应用。进入21世纪以来,计算机视觉技术已经开始进入人们的日常生活。
在上面的讨论中,并没有严格区分计算机视觉和机器视觉这两个术语,在很多文献中也是如此,但这两个术语既有区别又有联系。
计算机视觉采用图像处理、模式识别、人工智能技术相结合的手段,着重于一幅或多幅图像的计算机分析。图像可以是单个或多个传感器获取的图像本身,也可以是单个传感器在不同时刻获取的图像序列。分析是对目标物体进行识别,以便确定目标物体的位置和姿态,并对三维景物进行符号描述和解释。在计算机视觉研究中,经常使用几何模型、复杂的知识表达,并采用基于模型的匹配和搜索技术。常使用的搜索策略包括自底向上、自顶向下、分层和启发式控制策略[2]。
机器视觉则偏重于计算机视觉技术的工程化,通过控制多种条件来自动获取和分析特定的图像,进而控制相应的行为。具体地说,计算机视觉为机器视觉提供图像和景物分析的理论及算法基础,机器视觉为计算机视觉的实现提供传感器模型、系统构造和实现手段[2]。
综上所述,可以认为机器视觉系统是一个能自动获取一幅或多幅目标物体图像,然后对所获取图像的各种特征量进行处理、分析和测量,并对测量结果做出定性分析和定量解释,从而得到对目标物体的某种认识且做出相应决策的系统。以工业检测为例,机器视觉系统的常用功能包括物体定位、特征检测、缺陷判断、目标识别、计数和运动跟踪等。
2.1.2 机器视觉系统的构成与评价指标
机器视觉及其应用是一个多学科融合的领域。它以图像处理为核心技术,涉及光学、机械、电子、计算机等学科。
一个典型的机器视觉系统整体上可以分为硬件系统和软件系统两部分。其中,硬件系统包括光学成像系统、机械控制系统和计算机部分等;软件系统主要包括视觉算法软件。其中,光学成像系统包括相机、镜头、光源及其他配件;机械控制系统包括支撑平台及电气执行机构等;计算机部分包括计算机、工控机、服务器,甚至嵌入式设备。
以工业检测应用背景为例,机器视觉系统的工作原理如图2-2所示。在稳定光源的照射下,检测目标出现在相机和镜头的视野内,此时传感器触发相机采集图像,图像数据经过相机-工控机接口传入工控机,工控机通过图像处理算法对图像进行分析处理,并得到决策信号。决策信号通过数字I/O接口传到PLC控制器,再经过现场总线接口向执行机构发送指令,以执行相应的动作,如剔除残次品等。图2-3所示为在工业现场拍摄的机器视觉系统实例。
图2-2 机器视觉系统的工作原理
1—检测目标;2—相机和镜头;3—光源;4—传感器;5—工控机;6—相机-工控机接口;7—图像数据;8—机器视觉算法图像处理过程;9—检测结果;10—数字I/O接口;11—PLC控制器;12—现场总线接口;13—执行机构
图2-3 在工业现场拍摄的机器视觉系统实例
在不同的应用领域,机器视觉系统具有不同的评价指标。在以测量和缺陷检测为目的的工业领域,机器视觉系统常用的指标有检测精度、检测速度、漏检率和误检率等。
检测精度指每个像素代表的实际尺寸,单位为mm/piexl,有时也称为像素当量。检测速度指每秒检测产品的个数,有时也可以用帧率来衡量。漏检率指所有缺陷样本中,检测出的缺陷样本占总样本的比例。误检率指被判定为缺陷样本的非缺陷样本占总样本的比例。
在其他应用领域,还可用混淆矩阵等多种指标对机器视觉系统进行评价。
2.1.3 机器视觉的应用
视觉的最大优点是观测者与被观测的对象无接触,因此对观测者与被观测的对象都不会产生任何损伤。
视觉方式所能检测的对象十分广泛,理论上人眼能够观察的对象,机器视觉就可以观察到;而对于人眼观察不到的范围和对象,机器视觉同样可以观察到。例如,对于红外线、微波、超声波等,人类视觉是观察不到的,但机器视觉可以利用红外线、微波、超声波等敏感器件成像进行分析检测。因此,可以说机器视觉扩展了人类的视觉范围。
从持续时间来说,人的体力是有限的,所以人无法长时间在恶劣环境中观察对象;而机器能不知疲倦、始终如一地观测,所以机器视觉可以用于长时间、恶劣工作环境的观测。
正是基于以上特点,机器视觉在国民经济、科学研究及国防建设等领域都得到了广泛的应用。下面对不同领域的机器视觉应用进行举例说明。
1.工业自动化生产线
机器视觉在工业自动化生产线中的应用实例包括产品质量检测、工业无损探伤、自动流水线生产和装配、自动焊接、印制电路板检查等。将图像和视觉技术用于生产自动化,不仅可以加快生产速度、保证质量的一致性,还可以避免因人类疲劳、注意力不集中等带来的误判。图2-4所示为机器视觉在汽车装配中的应用。
图2-4 机器视觉在汽车装配中的应用
2.检验和监视
机器视觉在检验和监视方面的应用实例包括标签文字标记检查、邮政自动化、计算机辅助外科手术、显微医学操作、石油和煤矿等钻探中的数据流自动监测与滤波、纺织和印染业中的自动分色与配色、重要场所和环境的自动巡视与自动跟踪报警等。图2-5所示为机器视觉在医疗辅助器械中的应用实例。
3.视觉导航
机器视觉在视觉导航领域的应用实例包括无人机、自动驾驶车辆、移动机器人、精确制导及自动巡航捕获目标和确定距离等。这些应用既可避免人的参与及由此带来的危险,还可提高导航精度和控制速度。图2-6所示为机器视觉在视觉导航领域的应用实例。
图2-5 机器视觉在医疗辅助器械中的应用实例
图2-6 机器视觉在视觉导航领域的应用实例
4.图像自动解释与判读
机器视觉不仅能够对放射图像、显微图像、医学图像、遥感多波段图像、合成孔径雷达图像、航天航测图像等实现自动解释与判读,还能够实时自动发现监控区域的异常行为。图2-7所示为机器视觉在利用X光放射图像进行血管检测方面的应用。
图2-7 机器视觉在利用X光放射图像进行血管检测方面的应用
5.人机交互
机器视觉能够识别人的各种动作与意图,实现智能代理等应用。例如,可以让计算机借助人的手势(手语)、嘴唇动作、躯干运动(步态)、表情等了解人的意识,进而执行人的指令,这既符合人类的交互习惯,也可以增加交互的方便性和临场感等。图2-8所示为机器视觉在手势识别方面的应用。
图2-8 机器视觉在手势识别方面的应用
6.虚拟现实
机器视觉还可以应用在飞机驾驶员训练、医学手术模拟、场景建模、战场环境表示、电视电影特效等领域。这些应用可以帮助人们超越人类的生理极限,并且找到“身临其境”的感觉,提高工作效率。图2-9所示为机器视觉在虚拟试衣间中的应用。
图2-9 机器视觉在虚拟试衣间中的应用
以上只给出了机器视觉的常见应用,随着人工智能和计算机视觉理论的发展,相信机器视觉系统会深入人们工作和生活的很多方面。