模式识别-第十讲 印刷体汉字识别中的特征提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9.3.2 粗外围特征
• 粗外围特征抽取的过程为:先求出文字的外边框, 再把p×q点阵文字在横向和纵向各分割成n份,n 通常取8。从文字四边框往里面扫描,计算最初 与文字笔划相碰的非文字部分的面积和全部文字 面积之比作为一次粗外围特征(4n维)。
• 再将第二次与文字线相碰的非文字部分面积和全 部文字面积之比作为二次粗外围特征(4n维) ,形 成8n维的特征向量。 • 一次粗外围特征反映了文字轮廓特征,二次粗外 围特征在某种程度上反映了文字内部结构。
9.3.5 汉字特征点
• 汉字基本上由直线笔划构成。在一幅二值化 图像中,汉字信息绝大部分集中在汉字骨架 上,而汉字骨架信息又大多集中在若干笔划 特征点上。 • 汉字笔划特征点包含端点、折点、歧点和交 点。 • 粗外围、粗网格等特征属于统计特征,而汉 字笔划特征点属于结构特征,具有对笔划粗 细、位置变动等的抵抗能力。
9.3 印刷体汉字识别中的一些特征
• 印刷体汉字识别中的关键问题是特征提 取问题。 • 尤其是提取那些比较具有分类价值,同 时又比较容易通过程序计算得到的那些 特征。
• 以及那些对字体的不同、汉字大小的不 同和噪声的影响等因素不敏感的特征。
9.3.1 四边码
• 先找出文字的边框,从文字边框开始,向 内取适当的宽度,以此宽度分割出文字四 周的四个部分。根据每一个部分中含有的 文字黑像素的多少分为四级编码(0,1,2,3)。 • 四边码特征对文字的断线有较强的适应性。
噪声对位置归一化的影响
质心归一化
ຫໍສະໝຸດ Baidu原始图像
干扰图像
外框归一化
9.2.2 大小归一化
• 对不同大小的文字做变换,使之成为同 一尺寸大小的文字,这个过程被称做大 小归一化。通过大小归一化,许多特征 就能够用于识别不同字号混排的文字
大小归一化的两种方法
• 一种是将文字的外边框按比例线性放大 或缩小成为规定尺寸的文字。 • 另一种是根据水平和垂直两个方向文字 黑像素的分布(方差)进行大小归一化。
单体和多体印刷汉字识别
• 不同字体的同一汉字的结构约80%相同,但书写风格、 笔划粗细形状,笔划装饰等有一定差异,主要表现在: (1)笔划装饰及方向角度不同 (2)笔划长短、位置有变化 (3)笔划形态变化 (4)笔划关系变化 (5)偏旁部首占方块字的比例、位置、形态不同
高品质与低品质印刷汉字识别
第九章 印刷体汉字识别中的特征提取
8.1 汉字识别简述
• 汉字识别属于文字识别的内容,文字识 别是模式识别的重要应用领域。 • 应用:手写输入,OCR,盲人阅读机等。
汉字识别的分类
1. 印刷体汉字识别 • 从字体上:单体印刷汉字识别 和 多体印刷汉字识别 • 从品质上: 高品质印刷汉字识别 和 低品质印刷汉字 识别 • 从应用范围上:专用印刷汉字识别 和 通用印刷汉字 识别 2. 手写体汉字识别: • 联机手写体识别 • 脱机手写体识别
9.3.6 包含配选法
• 许多汉字具有相同的偏旁部首,包含配 选法就是利用这一点对汉字分类。 • 分类用的模板是汉字偏旁部首的骨架图 形。分类时,将输入文字和各标准模板 做“与”运算。
• 根据未知输入文字图像和分类用标准模 板图像“与”的结果是否相同于该标准 图像,可以判断出未知文字属于哪一类。
9.3.3 粗网格特征
• 把加框p×q点阵文字分割成n×n份,n通 常取8,取每份中黑像素数对整个文字黑 像素数的比例,将所有n×n值排成一列 形成 n 2维特征向量。
• 粗网格特征体现了文字整体形状的分布, 但该特征抗笔划位置干扰的能力差。
9.3.4 笔划密度特征
• 在加框的p×q点阵中,向不同的方向投影,对 文字黑像素的个数做累加计算,并除以文字面 积。通常取水平、垂直、45度和135度四个扫描 方向,每个方向取n个值(通常n=16)作为特征, 形成4n维特征向量。 • 这种从文字四个方向抽取的笔划密度特征叫做四 方向笔划密度特征,它不但对印刷体汉字分类有 较好的效果,对手写印刷体汉字分类也具有价值。
• 一般认为,印刷体汉字要比手写体汉字规范, 因而印刷体汉字识别要容易一些。
• 从一幅复杂版面中切分出印刷单字是一个较困 难的任务。对印刷体汉字能做到低品质、复杂 版面、通用型的识别系统也是很困难的。
9.2 文字的归一化
• 文字被输入到计算机中提取特征前通常 需要把文字做归一化处理。归一化有三 种: • 位置归一化 • 大小归一化 • 笔划粗细归一化
9.2.1 位置归一化
• 为了消除汉字点阵位置上的偏差,需要 把整个汉字点阵图形移动到规定的位置 上,这个过程被称做位置归一化。
位置归一化的两种方法
• 基于质心的位置归一化方法: 首先计算文字的质心,然后再把质心 移动到指定的位置上来。 • 基于文字外边框的位置归一化方法: 首先计算文字的外边框,并找出中心, 然后把文字中心移动到指定的位置上来。
• 影响汉字品质的主要因素有: (1)文字:笔划存在断开、粘连、油墨深浅 不均等
(2)纸张:洁白度、光洁度、薄纸反透等 (3)版面:污点、行高低不齐、文字旋转等
专用与通用汉字识别
(1)通用:书、刊、报、文件、打印、照 排、不同版面、不同字体、字号 (2)专用:如文件、某种打印体
汉字识别的难易分析