物体识别
当时MIT的计算机老师组织了一个面向本科生的两个月的Summer Project。这个Project的目的是设计一个系统,能够智能识别场景里头的物体,并区分出类别。当时他们低估了这个问题的难度,结果可想而知。
原因是我们看到的这个物体的样子,只是它在某种背景下某一种光线条件下特定角度的投影的,换一个角度可能就是完全不同的样子。即使是同一个物体,例如人,躺着或者站着,形态都是不一样的。
物体识别
尝试用创建三维模型方法去做物体识别。通常,事先定义一些基本的几何形状,然后把物体表示为基本几何形状的组合,然后去匹配图像。这时候识别问题变成了一个匹配问题。在三维模型库中去搜索可能的视角投影,跟待识别的图像进行匹配。如果找到较合适的匹配,就认为是识别成功了。
但是这么做并不是很有效。首先,很多物体很难用所谓的基本几何形状去描述它,特别是一些非刚体,比如动物;其次,对于一类物体,它可能会有丰富的类内差异性,即使是同一个物体在不同的姿态下也不一样,不可能每一种姿态都预先创建一个三维模型模板;第三,即使解决了之前的问题,如何才能准确地从图像中提取出 这些几何形状也存在困难。
物体识别的步骤
图像特征提取就是提取出一幅图像中不同于其他图像的根本属性,以区别不同的图像。如灰度、亮度、纹理和形状等等特征都是与图像的视觉外观相对应的;而还有一些则缺少自然的对应性,如颜色直方图、灰度直方图和空间频谱图等。基于图像特征进行物体识别实际上是根据提取到图像的特征来判断图像中物体属于什么类别。形状、纹理和颜色等特征是较常用的视觉特征,也是现阶段基于图像的物体识别技术中采用的主要特征。
物体识别的困难与前景
虽然物体识别已经被广泛研究了很多年,研究出大量的技术和算法,物体识别方法的健壮性、正确性、效率以及范围得到了很大的提升,但是现在依然存在一些困难以及识别障碍。这些困难主要有:
信息载体问题:
物体本身是一个高纬信息的载体,但是图像中的物体只是物体的一个二维呈现,并且在人类目前对自己如何识别物体尚未了解清楚,也就无法给物体识别的研究提供直接的指导。目前人们所建立的各种视觉系统绝大多数是只适用于某一特定环境或应用场合的系统,而要建立一个可与人的视觉系统相比的通用视觉系统是非常困难的。