文字识别 PPT课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 文字分割 2. 特征提取 3. 相似度比较
• 模板比较和识别方法 • 遇到未知字符则更新模板库
标准模板库
• 确定标准图像 • 待识别图像的比较 • 分辨率100×120
文字读入与分割(1)
• 读入图像并转换为灰度图 • 将灰度图进行二值化
文字读入与分割(2)
• 对列求和，若为0则可以作为分割线
• ② 几何特征抽取法抽取文字的一些几何特征，如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等，根据这些特征的位置和相互关系进行逻辑组合判断，获得识别结果。这种识别方式由于利用结构信息，也适用于手写体文字那样变型较大的文字。
模板匹配的流程
• 建立标准模板库 • 文字识别
c，X和x) • 经验值4000可能对识别造成影响 • 总得来说，只能够识别较为标准
的字母
Thank you!
• 信息的分类判别对去掉噪声并正规化后的文字信息
进行分类判别，以输出识别结果。
识别方法
• ① 模板匹配法将输入的文字与给定的各类别标准文字（模板）进行相关匹配，计算输入文字与各模板之间的相似性程度，取相似度最大的类别作为识别结果。这种方法的缺点是当被识别类别数增加时，标准文字模板的数量也随之增加。这一方面会增加机器的存储容量，另一方面也会降低识别的正确率，所以这种方式适用于识别固定字型的印刷体文字。这种方法的优点是用整个文字进行相似度计算，所以对文字的缺损、边缘噪声等具有较强的适应能力。
——文字识别技术
简介
• 文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。
• 信息采集将纸面上的文字灰度变换成电信号，输入到计算机中去。信息采集由文字识别机中的送纸机构和光电变换装置来实现，有飞点扫描、摄像机、光敏元件和激光扫描等光电变换装置。
• 信息分析和处理对变换后的电信号消除各种由于印刷质量、纸质（均匀性、污点等）或书写工具等因素所造成的噪音和干扰，进行大小、偏转、浓淡、粗细等各种正规化处理。
• 横向求和，去除上下的黑边
文字读入与分割(3)
• 执行了分割 • 对分割后图片使用matlab内置的
imresize函数进行标准化
模板比较和识别
• 将输入图像与标准模板异或操作 • 每个像素点的分量相加 • 结果越小则匹配相似度越高
模板库的更新
• 异或结果均得到较大值时 • 经过一定实验得到了一个经验值
4000 •来自百度文库如果和所有模板的结果都超过
4000，则认为匹配失败，需要更新
运行结果1
• 输入了8个字母，其中X不在模板库之中
运行结果2
• X没有识别出来，添加X的模板之后重新识别，能够识别出来
局限性与不足
• 笔画太细会造成无法识别 • 有偏角和过于潦草的字无法识别 • 相似度太大的字母无法识别(C和