人工智能 浅谈图像识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人工智能——浅谈图像识别技术
专业:计算机科学与技术班级:三班姓名:孙清茂学号:200805030312教师:罗俊松
摘要
随着计算机技术与信息技术的发展,图像识别技术获得了越来越广泛的应用。本文对图像识别的基本方法,并展望了图像识别技术所面临的问题及发展方向。
1图像识别定义
1.1定义
图形刺激作用于感觉器官,人们辨认出它是经验过的某一图形的过程,也叫图像再认。在图像识别中,既要有当时进入感官的信息,也要有记忆中存储的信息。只有通过存储的信息与当前的信息进行比较的加工过程,才能实现对图像的再认。
图像识别,是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。地理学中指将遥感图像进行分类的技术。
1.2研究问题
图像识别所研究的问题,是如何用计算机代替为人自动去处理大量的物理信息,解决人类生理器官所不能识别的问题,从而从部分上代替人的脑力劳动。图像的含义也比较广泛,最早是指图片,后来把如声波的波形图也归为图像。具体来说,图像可以是各种图画,字符,声波信号,透视胶片,空间物体。综合来说,又可以分为直观视觉图像(图案,文字)和间接转换图像(声音,心率等)两类。
由于图像识别涉及许多学科,图像本身含义也相当广泛性和丰富性,本文只从由光学采集器获得二维灰度图像的识别的几个重要方面做一些综述。
2图像识别内容
2.1图像识别基础
图像识别可能是以图像的主要特征为基础的。每个图像都有它的特征,如字母A有个尖,P有个圈、而Y的中心有个锐角等。对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制,它能把分阶段获得的信息整理成一个完整的知觉映象。
在人类图像识别系统中,对复杂图像的识别往往要通过不同层次的信息加工才能实现。对于熟悉的图形,由于掌握了它的主要特征,就会把它当作一个单元来识别,而不再注意它的细节了。这种由孤立的单元材料组成的整体单位叫做组块,每一个组块是同时被感知的。在文字材料的识别中,人们不仅可以把一个汉字的笔划或偏旁等单元组成一个组块,而且能把经常在一起出现的字或词组成组块单位来加以识别。
2.2图像识别基本方法
图像识别的方法很多,可概括为三种:统计(或决策理论)法,结构(或句法)方法和神经网络法。
对于一幅实际图像来说,目标和背景常常不是线性可分的,统计法是一种分类误差最小的方法。它以数学上的决策理论为基础,根据这种理论建立统计学识别模型。其基本模型是对研究的图像进行大量的统计分析,找出规律性认识,提出反映图像本质特点的特征进行识别。如Bayes模型和马尔科夫(MRF)模型。但是统计方法基本严格的数学模型,而忽略了图像中被识别对象的空间相互关系,即结构关系,所以当被识别物体的结构特征为主要特征时,用统计方法便会很难识别。
句法识别是对统计识别方法的补充,统计方法用数值来描述图像的特征,句法方法则是用符号来描述图像特征的。它模仿了语言学中句法的层次结构,采用分层描述方法,把复杂图像分解为单层或多层的简单子图像,主要突出识别对象的结构信息。模式识别是从统计方法发展起来的,而句法方法更扩大了模式识别的能力,使其不仅限于对象物的分类,而且用于景物的分析与物体结构的识别。
神经网络方法是指用神经网络的算法对图像进行识别的方法,神经网络系统是由大量简单的处理单元(神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特性,是人脑神经网络系统的简化,抽象和模拟。句法方法侧重于模拟人的逻辑思维,而神经网络侧重于模拟和实现人的认知过程中的感知觉过程,形象思维,分布式记忆和自学自组织的过程,与符号处理是一种互补的关系。但神经网络具有大规模并行,分布式存储和处理,自组织,自适应和自学习的能力,特别适用于处理需要同时考虑许多因素和条件的不精确和模糊的信息处理问题。
2.3其它图像识别方法
模糊集识别法。在模式识别,自动控制等方面有广泛应用。在图像识别中,有些问题极其复杂,很难用一些确定的标准做出判断。人脑的识别精度不高,却能够用一些不够精确,也即模糊的概念准确地辨识复杂事物的特征,怎样用不太精确的方式来描述复杂的系统,怎样建立合理的数学模型来研究模糊现象,并能快速准确地进行识别,就是模糊识别法研究的目的。
标记松弛法是另一种采用符号来描述图像特征的识别方法,在这种方法中,处理对象一般称为目标,而描述目标的符号则称为标记,标记松弛法先对目标给定一组不确切的标记,通过迭代运算[3]逐次更新标记,最后求得这组目标的较为确切的标记集,算法的整个过程与人对某一事物的猜测推理过程相类似。由于以迭代方式进行,所以易于实现,但所缺点是计算量太大[4],只有采用并行处理的方法,标记松弛法才能充分发挥它的作用。
此外,还有实用性很强的模板匹配法,模板匹配法是按照预置在机内的模板
用匹配的方法来识别目标,模板可以是数字量,也可以是符号串等。因此可以把它看作是统计法和句法方法的一种特例来研究。模板匹配法简单方便,各种自动售货机,字符阅读机等往往按此构成,但由于噪声的影响和实际图像结构千变万化,模板匹配在较复杂的情况下往往得不到理想的效果。
3图像识别技术所面临的问题和发展趋势
3.1面临问题
分辨现实世界中的各种复杂景物对为类来说是一件轻而易取的事,而用计算机进行图像识别却非常困难,图像识别大多数成功的应用是相对简单(或对识别环境有严格的限制)的领域,并且多是二维的。当前图像识别所面临者许多问题:首先,完成一幅图像的识别要经过许多不同的处理过程,图像的识别正是这些过程的综合作用的结果。但是缺少一个普遍的原理来指导这些过程在完成特定任务时应该如何组织和搭配,即使是对于各种常用的图像分割算法之间的性能比较,也没有一个较好的统一的标准。
还有,现在的各种图像识别算法都或多或少带有一定的局限性,图像识别是人工智能的一个重要领域。为了编制模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型。例如模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫模板。当前的刺激如果能与大脑中的模板相匹配,这个图像也就被识别了。例如有一个字母A,如果在脑中有
个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。这个模型简单明了,也容易得到实际应用。但这种模型强调图像必须与脑中的模板完全符合才能加以识别,而事实上人不仅能识别与脑中的模板完全一致的图像,也能识别与模板不完全一致的图像。例如,人们不仅能识别某一个具体的字母A,也能识别印刷体的、手写体的、方向不正、大小不同的各种字母A。同时,人能识别的图像是大量的,如果所识别的每一个图像在脑中都有一个相应的模板,也是不可能的。在一种环境下效果很好,但另一种环境下就可能很差,传统的只简单处理方法很难构造图像中景物的完整描述。
再次,一些能用性,效果好的算法往往计算量很大,难以实时应用。
最后,为类对生物体的视觉机理还不清楚,不能给计算机图像识别提供有力的指导。
3.2发展趋势
前面提到的模版问题,格式塔心理学家又提出了一个原型匹配模型。这种模型认为,在长时记忆中存储的并不是所要识别的无数个模板,而是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为原型,拿它来检验所要识别的图像。如果能找到一个相似的原型,这个图像也就被识别了。这种模型从神