机器视觉的发展历程
机器视觉是人工智能领域的一个分支,其目标是使机器能够模拟和理解人类视觉系统的功能。机器视觉的发展历史可以追溯到几十年前,经历了多个阶段的演进。
早期阶段(20世纪50年代-60年代):
1956年,Rosenblatt提出了感知机模型,尝试模拟人脑神经元的结构和功能,这是机器学习和神经网络的早期尝试。
基于特征的方法(20世纪60年代-80年代):
1960年代末,出现了基于特征的方法,如边缘检测、角点检测等。这一时期主要关注于图像的低级特征提取。
1970年代,David Marr提出了“计算视觉”理论,强调从图像中提取不同层次的特征以实现物体识别。
知识推理方法(20世纪70年代-80年代):
1980年代初,机器视觉的研究逐渐转向知识推理。系统试图使用先前编程的规则和知识来理解和解释图像。
统计学习方法(20世纪80年代-90年代):
1980年代末和1990年代初,统计学习方法开始引入机器视觉。支持向量机、随机森林等方法逐渐应用于目标检测和分类。
深度学习时代(21世纪初至今):
2012年,AlexNet在ImageNet竞赛上获得胜利,标志着深度学习在机器视觉中的崛起。深度学习的卷积神经网络(CNN)取得了在图像分类、目标检测和语义分割等任务上的巨大成功。
2014年,GoogLeNet和VGG等模型的出现进一步推动了深度学习在机器视觉领域的发展。
2017年,Transformer模型在自然语言处理领域的成功,目前也在计算机视觉领域得到逐步推广与广泛使用。
机器视觉系统
机器视觉系统通常使用人眼的光学系统来类比,人眼的光学系统由角膜、玻璃体、晶状体、瞳孔等构成。视网膜将光学图像转换成神经电信号在人脑形成画面。视锥细胞主要用于感受颜色,视杆细胞主要用于感受亮度。
机器视觉是通过光学的装置和非接触的传感器,自动地接收和处理一个真实物体的图像,以获得所需信息或用于控制机器人运动的装置。机器视觉即用机器代替人眼,模拟眼睛进行图像采集,经过图像识别和处理提取信息,最终通过执行装置完成操作。相比于人类视觉,机器视觉技术具有精确性、可靠性高、环境适应性好、可持续工作、生产效率高等优势,在现代工业生产、智能制造、医药、食品包装等领域都发挥着较大的作用。
机器视觉系统主要包硬件系统和软件系统。其中,硬件系统包括(工业)相机、光源、镜头、光学器件、处理器(CPU)与图像存储及显示设备等。软件系统包括图像处理算法、用户界面(GUI)等。下面简单介绍几个核心设备。
相机
相机的作用: 将通过镜头的光信号转换为电信号。
相机的分类:
按芯片技术:CCD相机、CMOS相机
按靶面类型:面阵相机、线阵相机
按输出模式:模拟相机、数字相机
按颜色:彩色相机、黑白相机
按是否带处理器:智能相机、非智能相机
相机主要特性参数:
芯片类型:CCD、CMOS
分辨率:位于CCD&CMOS芯片上的像素数
速度:line/s、fps
光学接口:C,CS,F等
电气接口:USB、IEEE 1394、GigE
光源
光源的作用: 照亮目标,突出感兴趣的特征,机器视觉从获取一张好的图片开始,光源至关重要。
光源的分类:
按照明部件:普通照明灯、LED灯、激光
按照射方式:前向光、背向光、结构光、频闪照明
按照明方式:平面照明、环形光源、同轴光源、平行光源、电光源、低角度光源、线光源、光栅
按光源波长:白光、单色光、近可见光、X-ray
光源光路技术: 补光、滤光、反射、分光、漫射
镜头
镜头的作用: 实现光束变换、将目标成像在图像传感器的光敏面上,类似于针孔成像的针孔和人眼晶状体的作用。
镜头分类:
按等效焦距:广角镜头、中焦距镜头、长焦距镜头
按功能:变焦距镜头、定焦距镜头、定光圈镜头
特殊镜头:微距镜头、显微镜头、远心镜头、红外线镜头、紫外线镜头
镜头基本参数: 视野(FOV)、景深(DOV)、工作距离(WD)
机器视觉应用
相机作为机器视觉的最核心的传感器设备,已广泛应用于安防、智能制造、汽车、手机等领域,单一相机所涉及到的视觉技术:
全景联动技术:全景对感兴趣的目标检测分析,控制长焦的球机进行联动抓拍获得局部高清图像。
目标自适应快门:根据环境亮度为目标自适应选择合适的快门时间。
场景图像自适应:对场景进行识别根据其类型自动调整色彩配置。
AI-ISP降噪:利用深度学习实现图片降噪。
图像识别、检测与跟踪、图像分割、三维重建、SLAM(即时定位与建图)等
随着机器视觉的发展,单一相机往往获取环境的信息是有限的,为了处理一些复杂的任务,我们常常需要多维感知,多传感器融合的方法。例如雷视融合(获取速度)、热成像可见光融合(获取温度)、偏振成像(获取应力)、短波红外(看穿浓雾)、高光谱(辨认元素)、X光(透视物体)等等。将这种组合的方法转化为产品进行落地,往往能够解决一些仅依靠相机难以解决的棘手问题。
案例分析
产品质量检测
现状与难点:大量的产品质量检测仍依赖人工进行,以终端生产为例,QC(质量控制)在生产线工人中所占比例越来越高,而一种产品的缺陷种类往往多达几十或上百种,通常存在难检、漏检和误检的问题,机器视觉与人工智能为解决产品质量检测的痛点和难点提供了希望。
算法需要具备对环境的适应性包括:
平移不变性和旋转不变性(即被测目标在视场内有平移或旋转,算法也能准确匹配图像中的被测目标,并返回其位置和相对模板图像的旋转角度)
目标交叠(被测目标之间相互覆盖时,算法应仍能正确匹配到目标,并返回被覆盖部分占整个目标的比例)
图像尺度变换
光线强度线性或非线性变化
噪声和模糊目标
图像模板匹配
通过分析图像和目标图像中灰度、边缘、外形结构以及对应关系等特征的相似性和一致性,从目标图像中寻找与模版图像相同或相似区域的过程。一般输出为匹配目标的数量、相似度、位置和角度相对于模板的缩放比例一般分为学习和匹配两个阶段。
学习:从模板图像中提取特征信息,并将它们以便于搜索的方式存放在模板图像库中以备后用。
匹配:从被测目标图像中提取同类型的特征信息,分析它们与模板图像中的特征信息的相似性和一致性,以确定目标图像中与模板图像相匹配的区域。
图像相减
使用图像相减进行缺陷检测,参与运算的图像至少满足如下条件:
目标图像和模板图像中的被测件图像尺寸相同
目标图像和模板图像中的被测件图像对准准确
目标图像和模板图像中被测件对于模板图像不存在畸变或畸变已经被矫正
目标图像和模板图像中的被测件图像不存在整体灰度差异
其他噪声的影响已提前被消除
基于深度学习技术获取目标的类别、位置或像素级的分割,此方法首先需要创建数据集,利用深度学习对各产品表面缺陷形态特征进行学习,建立深度学习模型,从而可以分析更加复杂的图像,并提高对图像的分析能力,以此实现自动定义新的缺陷类型。