文字识别原理概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文字识别原理概述
1.文字图像识别简介
文字图像的识别过程主要由以下 4个部分组成:①正确地分割文字图像区域;②正确地分离单个文字;③正确识别单个文字;④正确地连接单个文字。关于②,由于仅从分割处理不能对其进行评价,采用文字识别地评价值来判断分离的正确性。单纯的文字识别是指经二值化处理后的单个文字识别。
1.1文字识别系统的原理,文字图像分割的目的就是根据文字图像的特征的视线文字图像区域的定位和分割,将真正的文字图形分割出来,以便后续进行识别,识别与处理部分的功能是将已分割出的文字图形信息加以区分,去除信号中的污点、空白等噪声,增强文字图像的信息。并根据一定的准则除掉一些非本质信号,对文字的大小、位置和笔画粗细等进行规范化,以便简化判断部分的复杂性。特征提取部分是从整形和
规范化的信号中抽取反映字符本身的有用信息,供识别部分进行识别。作为特征提取的内容是比较多的,可以是几何特征,如文字线条的端点、折点和交点等。识别判断部分则是根据抽取的特征,运用一定的识别原理,对文字进行分类,确定其属性,达到识别的目的,实际上判断部分就是一个分离器。
识别系统学习部分的功能是生成计算机特征字典,学习根据已准备好的多个字样,抽出代表该字的特征,进行修改,按照字典的规定位置存放该特征。学习分为两种:一种是在人的参与下进行,称为“有教师”学习;一种由计算机自动进行,称为“无教师学习”。
1.2文字识别的方法
文字识别是指用计算机字典、高速地识别现在介质(如纸张等)上的数字、英文符号或汉字。文字识别实际上就是解决文字的分类问题,一般通过特征及特征匹配的方法来进行处理。特征判别是通过文字类别(例如英文或汉字)的共同规则(如区域特征、四周边特征等)进行分类判别。它不需要利用各种文字的具体知识,根据特征抽取的程度(知识的使用程度)分解到地使用结构分析的办法完成字符的识别。匹配的方法则是根据文字的知识(称为自动)采取按形式匹配的方法进行。只抽出部分图像与字典进行匹配。然后根据各部分形状及相对位置关系,与保存在字典中的知识进行对照,从而识别出每一个具体的文字。
1.2.1统计模式识别法
统计模式识别的目的在于确定已知样本所属的类别。它以数学上的决策理论为依据,并根据此理论建立了统计学识别模型。其基本模型是在对研究的图像进行大量统计分析,找出规律性认识,抽出反映图像本质特点的特征进行识别。统计模式的识别框图上半部分是识别部分,即对未知类别的图像进行分类;下半部分是分析部分,即对已知类别的图像样本制定出规则,使得对未知类别的图像能够进行分类。由于所输入的图像需要进行数字化,这就会产生误差;光照不均匀,噪声干扰会损坏图像的质量等。所有这些都需要进行预处理。经过预处理的图像进行特征提取,最后进行判决分类,得到识别结果。为了进行分类,必须有图像样本。框图右下角是学习训练部分。当用训练图像样本根据某些准则制定出一些判决规则后,再对这些训练样本逐个进行检测,观察是否有误差,如果有的话,再进一步改进判决规则,直到比较满意为止。
1.2.2决策理论方法
统计模式是由图像信息获取进而图像预处理,然后再特征提取、特征选择,最终进行分类。统计模式识别方法最终归结为分类问题。假如已抽取出 N个特征,而图像可分为 m类。那么就可以对 N进行分类,从而决定未知图像属于 m类中的那一类。一般把识别模式看成是 N维空间中
的向量 X,即: X=[x1 x2 x3……xN]T
模式识别为 w1,w2,…,wm,识别就是要判断 X是否属于 wi以及属于 wi中的哪一类。
在这个过程中主要解决两个问题:一是如何抽取特征,要求特征数 N尽可能小而且对分类判断有效,二是假设已有了代表模式的向量,如何决定它属于哪一类,这就需要判别函数。例如,模式有 w1,w2,…,wm共 m个类别,则应有 D1(X),D2(X),D3(X),…Dm(X)共 m个判别函数。如果X属于第 i类,则有: Di(X)>Dj(X) (j=1,2,…,m;j≠i) 在两类的分解线上,则有 Di(X)=Dj(X)这是 X既属于第 i类,也属于第 j类,因此这种判别失效。为了进行识别就必须重新考虑其他特征,再进行识别,现在问题的关键就是找到合适的判别函数。
1.2.3线性判别函数
线性判别函数是一种应用较广的一种判别函数。所谓线性判别函数,是指判别函数是图像所有特征向量的线性组合,即:Di(X)=ΣwikXk+wi0 i=1,2,…m式中 Di(X)代表第 i个判别函数, wik 是系数或权重,wi0为常数或称为阙值。在两类之间的判决界处有: Di(X)-Dj(X)=0该方程在在二维空间是直线,在三维空间是平面,在 N维空间则是超平面。 Di(X)-Dj(X)可以写成以下的形式: Di(X)-Dj(X)=Σ(wik-wjk)Xk+(wi0-wj0)
其判决过程可如下进行;如果 Di(X)>Dj(X),或 Di(X)-Dj(X)>0,则 X∈wi,如果 Di(X) Di(X)-Dj(X)<0,则 X∈wj。用线性判别函数进行分类是线性分类器。任何 m类问题都可以分解为( m-1)个二类识别问题。方法是先把模式空间分为一类和其它类,如此进行下去即可。因此,两类线性分类器是最简单和最基本的。 分离两类的判决界由 D1-D0=0表示。对于任何特点的输入模式必须判定 D1大还是 D2大。若考虑某个函数 D=D1-D2,对于 1类模式 D为正,对于二类模式 D为负。于是,只要处理与 D相应的一组权输入模式并判断输出符合即可进行分类。 1.3边缘检测 边缘(Edge)是指图像局部亮度变化量最显著的部分。边缘主要存在于目标与木板、目标与背景、区域与区域(包括不同色彩)之间,是图像分割、纹理特征提前和形状特征提取等图像分析的重要基础。图像分析和理解的第一步常常是边缘检测。由于边缘检测十分重要,因此成为机器视觉研究领域最活跃的课题之一。图像中的边缘通常与图像亮度或图像亮度的一阶导数的不连续性有关。图像亮度的不连续可分为:①阶跃不连续,即图像亮度在不连续处的两边的像素灰度值有着显著的差异;②线条不连续,即图像亮度突然从一个值变化到另一个值,保持一个较小的行程后又返回到原来的值。在实际中,阶跃和线条边缘图像是很少见的,由于大多数传感元件具有低频特性,使得阶跃边缘变成斜坡型边缘,线条边缘变成屋顶形边缘,其中的亮度变化不是瞬间的,而是跨越一定的距离。对一个边缘来说,有可能同时具有阶跃和线条边缘特性,例如在一个表面上,由一个平面变化到发线方向不同的另一个平面上就会产生阶跃边缘;如果这一表面具有镜面反射特性且两平面形成的棱角比较圆滑,则当棱角圆滑表面的法线经过镜面反射角时,由于镜面反射分量,在棱角圆滑表面上会产生明亮光条,这样的边缘看起来像在阶跃边缘上叠加了一个线条边缘。由于边缘可能与场景中物体的重要特征对应,所以它是很重要的图像特征。比如,一个物体的轮廓通常产生阶跃边缘,因为物体的图像亮度不同于背景的图像亮度。