《应用汉字识别》PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 中科院计算所智能计算机研究中心
国内主要研究机构/人物
• 其他 • 清华大学电子系图像所
• 丁晓青教授
• 北京信息工程学院 • 沈阳自动化研究所
2、汉字识别ቤተ መጻሕፍቲ ባይዱ统

1)系统构成

2)OCR技术流程

3)预处理-归一化
1)系统构成
• 脱机识别
信号采集方式
• 扫描仪或者摄像设备
• 数字图像信号
• 联机手写识别
• 手写屏,手写输入板
• 运动轨迹电信号,记录了笔划和笔顺信息 • 电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化
为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们 可以比较容易地抽取笔划和笔顺的信息.
2)OCR技术一般流程
流程简介
• 1)图像获取 • 将文本转换为图象点阵
为了对汉字游程分布有一个大概的了解,对八个离散方向 (00,200,450,700,900,1100,1350,1600)40×40点阵的汉字 进行了游程分布统计。不同角度的平均黑游程长度见下表。
离散方向
00
900
450
黑游程平均长度(像素数) 4.159 4.470 2.677
1350 2.939
根据应用情况的不同汉字识别具体又分为印刷体汉字识别 和手写体汉字识别。
手写体汉字识别又分为两种:在线手写体识别和离线手写体 识别。 本章主要讨论印刷体汉字识别问题…
印刷体汉字识别,从识别字体上可分为单体(一般为宋体) 印刷汉字识别和多媒体汉字识别;从识别文字品质上可分为 高品质印刷汉字识别和低品质印刷汉字识别;从应用范围上 可分为专用印刷汉字识别和通用印刷汉字识别。
第六章 模式识别的应用 汉字识别
1. 文字识别问题 2. 汉字识别系统 3. 汉字的结构特性分析 4. 印刷体汉字的特征描述 5. 汉字识别方法分类
1、文字识别问题

1)汉字识别

2)汉字OCR技术发展历史

3)国内主要研究机构
1)汉字识别
• 汉字识别属于文字识别(OCR)的范畴,文字识别是模式识 别的重要应用领域。汉字识别技术涉及到模式识别、图像 处理、人工智能、模糊数学、组合论、信息论、计算机等 多个学科,也涉及到语言文字学、心理学等学科,是一门 综合性的技术。
• 对于文本区域将进行识别处理 • 对于表格区域进行专用的表格分析及识别处理 • 对于图象区域进行压缩或简单存储。
流程简介
• 4)行字切分 • 将大幅的图象先切割为行 • 从图象行中分离出单个字符
• 5)特征提取——模式表示问题 • 整个环节中最重要的一环,提取的特征的稳定性及有 效性,直接决定了识别的性能 • 从单个字符图象上提取统计特征或结构特征
PU (n,l) P{ f (i, n) 1,i 1, 2,...,l 1, f (n, l) 0}
PR (n,l) P{ f (n i 1, n) 1,i 1, 2,..., l 1, f (n l 1, n) 0}
下面定义周边扫描空程长度熵,它们是四边结构特征所包含信
息量的度量: 左周边熵:
• 扫描仪 (Scanner) • 其它光电扫描设备
• 如传真机,摄象机 • 不同获取设备的差异
• 扫描仪:最优 • 摄像机:识别难度大
流程简介
• 2)图像预处理 • 滤除干扰噪声 • 倾斜校正 • 各种滤波处理
• 3)版面分析 • 完成对于文本图象的总体分析 • 区分出文本段落及排版顺序,图象、表格的区域
离散方向
700 1100 200
黑游程平均长度(像素数) 3.445 3.547 2.261
1600 3.348
笔划特性及分析
每种笔划在汉字中出现的频率是不同的。据统计, 横为28%,竖为18%,撇为15%,点、捺为13%,折 为7%,其他为19%。
但是,要使用图像处理技术自动把汉字中的每种 笔划都准确地提取出来,目前还有很大困难。但 是提取横、竖、撇、捺笔划是可能的。
2)汉字OCR技术发展历史
• 我国自70年代后期开始字符识别方面的研究,80年代以后 ,台湾和香港发展的也很快 • 70年代末期到80年代末期
• 算法和方案探索 :单体汉字识别
• 90年代初期
• 由实验室走向市场,初步实用
• 90年代后期——混排
• 多语言混排文本:如中英文 • 多字体混排文本:如:宋,楷体,…) • 多字号混排文本:不同大小
字根
田日 口 王 卅 土
字根在字库 中出现的百 6.62 33.93 66.02 34.51 31.76 90.09
分比%
以上是对汉字的一些统计结果。在汉字识别研究中可以根据 设计需要对汉字的其他特征和特性做统计,从而使得识别系 统更有效,更可靠。
4、印刷体汉字的特征描述
• 1)复杂指数 • 2)四边码 • 3)粗外围特征 • 4)粗网格特征 • 5)笔划密度特征 • 6)汉字特征点
根据熵的理论,PL (n,l)为等概率分布时,其信息量
(熵)为最大
max HL (n) log2 32 4bit
对于其他三个周边熵也同样如此。
左图给出了四种周边熵 的分布,从图中可见: (1)周边熵是较高。 熵值一般均大于2;2) 角部位置区域的熵值最 大。说明这些部位扫描 线空程的长度变化多, 这些部分结构开头多, 所以提取周边特征和角 部特征或选取角部结构 作为部首的特征是合理 的。
对于后一种归一化方法,先计算文字的:
BR
记 k(i, j) c(i, j) ci, j
c(i,j) 意义如下
iA jL
c(i,j) = 1 表示该像素点为文字黑像素;
c(i,j) = 0 表示该像素点为背景。A, B, L, R分别文字

则质心GI和GJ上为下左右边界。
BR
GI ik i, j iA jL
2)汉字OCR技术发展历史
• 西文OCR技术研究始于50年代 • Optical Character Recognition (OCR) • 几乎所有的早期模式识别研究者都进行过字符识别的 研究。随后的 30 多年来,字符识别一直是模式识别 的重要内容之一
汉字OCR技术
–印刷体汉字的识别最早可以追溯到60年代
有两种简单的位置归一化方法。一种是基于质心的位置归一 化方法;另一种是基于文字外边框的位置归一化。
基于质心的位置归一化方法需要首先计算文字的质 心,然后再把质心移动到指定的位置上来。
基于文字外边框的位置归一化需要首先计算文字的 外边框,并找出中心,然后把文字中心移动到指定 的位置上来。
污 点
质心归一 化
当前进展状态
• 2000年代后 • 识别率、鲁棒性的提高 • 单纯OCR文档分析
• 多语混排,多字号,多字体 • 版面分析
• 文本的结构 • 表格,图像(如插图),公式 • 摄像设备(非扫描仪)
• 名片手机摄像通讯录
3)国内主要研究机构
• 汉王科技 • 中科院自动化所
• 1985年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利 。1993年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出 任总经理
游程统计特性及分析
游程(Running Length)是指在同一方向上,宽度为一个像素 的扫描线条上亮度相同的连续像素的个数。由笔划像素组成 的黑游程长度记为BRL,由背景像素组成的白游程长度记为WR L。
左图黑白点阵第二行的游程码为 WRL1,2,2,1,2
印刷体汉字的游程统计分布可以反映汉字内部笔划 结构的分布情况,对汉字特征选择和汉字压缩编码 都具有一定参考意义。
汉字识别难度
• 印刷体识别
• 最容易 • 已经有了大量实际应用,图书馆数字化
联机手写体识别
•相对容易,PDA等的推广,大量应用 脱机手写体识别——最难
•脱机手写体数字的识别已有实际应用外,比如邮政编码 的自动识别
•汉字等文字的脱机手写体识别还处在实验室阶段
不同字体的同一汉字的结构约80%相同,但书写风格,笔划 粗细形状,笔划装饰等有一定的差异。不同印刷体汉字字 形差别主要有:
(1)笔划装饰及方向角度不同。
(2)笔划长短、位置有变化。
(3)笔划形态变化:如黑体笔划粗而平直,宽度一 致; 宋体横细竖粗,有装饰角;楷体笔划有较大曲率,其中撇、 捺弯曲程度更大,各个文字大小相差较大;仿宋体横笔划略 向上倾斜。
(4)笔划关系变化:如左偏旁口,黑体为正方形,其他 体左竖笔较长。
(5)偏旁部首占方块字的比例、位置、形态方面,不同 字体也有差异。
上图是笔划的数目分布图
NS,NH,NV,NL和NR分别表示一个字的笔划总数、
横笔划总数、竖笔划总数、撇笔划总数和捺笔划总数。
左图是笔划的长度 分布图
LH,LV,LL和LR分别表
示横笔划长度、竖笔 划长度、撇笔划长度 和捺笔划长度(以像 素为单位)。
字根统计特性及分析
汉字有很多字根,这些字根简繁不一。下表统计了几种字根 在6763个汉字中出现的频率。
1) 复杂指数
•文字x方向和y方向的复杂指数被定义为
• 80年代初期,日本武藏野电气研究所研制的可以识别2 300个多体汉字的印刷体汉字识别系统,代表了当时汉 字识别的最高水平
• 日本的三洋、松下、理光和富士等公司也有其研制的 印刷汉字识别系统
• 简评
• 这些系统在方法上,大都采用基于KL数字变换的匹配 方案,使用了大量专用硬件,其设备有的相当于小型 机甚至大型机,价格极其昂贵,没有得到广泛应用
右周边熵
32
HL (n) PL n,l log2 PL n,l l 1
32
HR (n) PR n,l lo g2 PR n,l l 1
上周边熵
32
HU (n) PU n,l log2 PU n,l l 1
下周边熵
32
HD (n) PD n,l log2 PD n,l l 1
• 包括细化(Thinning),归一化(大小等)等步骤
流程简介
• 6)文字识别 • 模式识别研究范畴 • 从学习得到的特征库中找到与待识字符相似度最高的 字符类
• 7)后处理 • 利用词义、词频、语法规则或语料库等语言先验知识 对识别结果进行校正的过程
3) 归一化
•为了消除汉字点阵位置上的偏差,需要把整个汉字点阵图 形移动到规定的位置上,这个过程被称做位置归一化。
原始图像 干扰后图像
外框归一 化
上图给出了两种方法的示例,从中不难看出,基于 质心的位置归一化方法抗干扰力更强。
3)归一化
对不同大小的文字做变换,使之成为同一尺寸大小的文字, 这个过程称做大小归一化。通过大小归一化,许多特征就能 够用于识别不同字号混排的文字。
常用的大小归一化方法也有两种。一种是将文字的外边框按 比例线性放大或缩小成为规定尺寸的文字。另一种是根据水 平和垂直两个方向文字黑像素的分布进行大小归一化。
–1966年,IBM公司的Casey和Nagy发表了第一篇关于印 刷体汉字识别的论文,在这篇论文中他们利用简单的模 板匹配法识别了1,000个印刷体汉字
2)汉字OCR技术发展历史
• 70年代以来,日本人做了许多工作
• 日本的常用汉字有2000个左右
• 1977年东芝综合研究所研制了可以识别2000个汉字的 单体印刷汉字识别系统
BR
GJ jk i, j iA jL
•下面计算水平和垂直方向的散度σI 和 σJ :
BR
k(i, j) c(i, j) ci, j
iA jL
2 I
B
iA
R
jL
k(i,
j)i
GI
2
2
J
B
iA
R
jL
k(i,
j)
j GJ
2
最后按比例将文字线性放大或缩小成规定散度的点阵。
3、汉字的结构特性分析
字点阵时在第n条扫描线第l个点位置上第一次遇到笔划黑像素
的概率。
nl
l
n
n 1, 2,...,32 l 1, 2,...,32
PL (n,l) P{ f (n,i) 1,i 1, 2,...,l 1, f (n,l) 0}
PR (n,l) P{ f (n, n i 1) 1,i 1, 2,..., l 1, f (n, n l 1) 0}

周边特征分析

游程统计特征及分析

笔划特征及分析

字根统计特征及分析
汉字的图像点阵
如 “大”字
汉字的图像点阵可用
一个离散的二元函数
来表示
0 (i, j)处为黑色
f (i, j) 1
否则
周边特征分析
每一个汉字用32×32点阵表示,分别从左、右、上、下四个方
面顺次扫描汉字点阵。 用PL( n, l ), PR( n, l ), PU ( n, l ), PD( n, l ),分别表示按上述四个方向扫描汉
相关文档
最新文档