基于特征统计的字符识别

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于特征统计的字符识别

摘要

采用数字字符轮廓结构特征和统计特征相结合的方法,并从中选出稳定的局部特征,利用结构语句是别的方法进行数字的识别,能够实现不同字体数字的准确识别,同时还提高了是别的速度。

关键字:字符识别,MATLAB,统计特征。

前言

字符识别是模式识别的一个分支,它能大大提高信息的采集录入速度,减轻人们的工作强度。随着计算机技,字符识别技术多年来不断改进和完善,现在已经广泛应用于各个领域,使大量的文档资料能快速、方便、省时省力和及时地自动输入计算机,实现信息处理的电子化。到目前为止,尽管人们研究中已取得很多可喜成就,但还不能满足我们日常的需求.研究字符识别技术,提高字符识别率具有非常重要的意义。

一.ORC技术简介

OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

OCR识别技术不仅具有可以自动判断、拆分、识别和还原各种通用型印刷体表格,在表格理解上做出了令人满意的实用结果,能够自动分析文稿的版面布局,自动分栏、并判断出标题、横栏、图像、表格等相应属性,并判定识别顺序,能将识别结果还原成与扫描文稿

的版面布局一致的新文本。表格自动录入技术,可自动识别特定表格的印刷或打印汉字、字母、数字,可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出。提高了表格录入效率,可节省大量人力。同时支持将表格识别直接还原成PTF、PDF、HTML 等格式文档;并可以对图像嵌入横排文本和竖排文本、表格文本进行自动排版面分析。

早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。

OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率。

二.识别算法简介

目前用于字符识别中的算法主要有基于模板匹配的算法以及基于人工神经网络的算法。

1. 基于模板匹配的算法

基于模板匹配的的基本过程是:模板匹配方法是一种经典的模式识别方法,是最直接的识别字符方法,其实现方式是计算输入模式与样本之间的相似性,取相似性最大的样本为输入模式所属类别。首先要建立模版库,将待识别字符进行二值化并将其尺寸大小缩放为字符数据库中模板的大小,然后与所有的模板进行匹配,最后选择最佳匹配作为结果。这种方法具有较快的识别速度,尤其对二值图像速度更快,可以满足实时性要求,但是,它对噪声很敏感,而且对字符的字体风格不具有适应性,任何有关光照、字符清晰度和大小的变化都会

影响识别的正确率,因此在实际应用中为了提高正确率往往需要使用大的模板或多个模板进行匹配,而处理时间则随着模板的增大以及模板个数的增加而增加。该算法的一种改进是基于关键点的模板匹配算法,但针对不同的应用环境,关键点的选取方法是不同的。

该算法可用于类似车牌字符等印刷体字符识别。在字符较规整时,算法对字符图像的缺损、污迹有较强的抗干扰能。

2.基于人工神经网络的算法

神经网络理论自20 世纪中期提出以来,取得了一系列的研究成果。近年来,随着计算机术和非线性科学的发展,神经网络理论的研究又进入一个新的高潮,其应用己经渗透到各个域,并在智能控制、模式识别、计算机视觉、生物医学工程等方面取得了巨大贡献。

用神经网络进行字符识别,主要有两种方法:一种方法是先对待识别字符进行特征提取,然后用所获得的特征来训练神经网络分类器。这种方法实际上是传统方法与神经网络技术的结合,可以利用人的经验来获取模式特征,然后充分利用神经网络的分类能力来识别字符,其识别效果与字符特征的提取有关,而字符的特征提取往往比较耗时。因此,字符特征的提取就成为研究的关键,特征参数过多会增加训练时间,过少会引起判断上的歧义。另一种方法是充分利用神经网络的特点,直接把待处理图像输入网络,由网络自动实现特征提取直至识别。这种网络互连较多,待处理信息量大。这种方法无需特征提取,由网络自动识别字符,抗干扰性能好,识别率高。但该方法产生的网络结构比较复杂,输入模式维数的增加可能导致网络规模庞大。

虽然,神经网络在识别效果上提高的余地较大,具有较强的容错能力,还可进一步训练学习,识别率较高,但其识别速度较慢,不能满足实时性的要求。

正文

一.特征统计匹配法介绍

特征统计匹配法的要点是先提取待识别模式的一组统计特征,再按照一定准则所确定的决策函数进行分类判决。汉字的识别是将字符点阵看作一个整体,根据每个字符的笔画特征不同,将字符分解为横、竖、撇、捺、折、圆中的一种或几种结构特征的集合,经过大量的统计得到所用特征,再与字符库中的特征集合进行匹配,从而得到输入字符的识别结果。

1.字符轮廓的定义

由于受噪声和随机污点的干扰,以及二值化和粘连字符处理会引起的字符变形。为了尽量减少这种变形对信息特征的干扰,或者从变形的字符中提取可靠的特征信息,将字符的整体轮廓分解为顶部,底部,左侧和右侧4个方向的轮廓特征来描述,使得当其中的的某部分的笔画发生变形时,不会改变或者减少对其他部位特征的影响。

左轮廓(LP(K),k=1,2,3….M)定义为字符最左边边界像素点的水平方向坐标值。

LP(i)=min{x|P(x,y)∈C,y=i} i=1,2….M

式中P(x,y)表示图像中的坐标为(x,y)的像素点,C表示字符像素点的集合。同理,右侧轮廓(RP(k), k=1,2,3….M)定义为字符最右边边界像素点的水平方向坐标值。

LP(i)=max{x|P(x,y)∈C,y=i} i=1,2….M

相应的顶部轮廓(TP(K),k=1,2,3….M)定义为字符最高边界像素点的垂直方向坐标值。底部轮廓(BP(K),k=1,2,3….M)定义为字符最低边界像素点的垂直方向坐标值。

TP(j)=min{x|P(x,y)∈C,y=j} j=1,2….N

BP(j)=min{x|P(x,y)∈C,y=j} j=1,2….N

为了描述轮廓变化的特征,定义了4个方向的轮廓的一阶微分:

LPD=LP(i+1)-LP(i);

RPD=RP(i+1)-RP(i);

TPD=TP(j+1)-TP(j);

相关文档
最新文档