第11讲印刷体汉字的分类和识别

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

min(xi, yi )
(x, y) i
1
2
i
(xi yi )
min(xi, yi)
(x, y) i
max(xi, yi)
i
min(xi, yi )
(x, y) i
xi yi
i
返回
二值特征相似度
二值特征向量的分量只能取值0或1。 二值特征分量有四种基本匹配 二值特征向量有四种匹配特征数 二值特征向量有五种常用相似度
返回
印刷体汉字分类举例
在下图中,“3”所代表的文字不仅在类别A中, 也可能同时在类别C中。在细分判别A和C类中 的文字时应同时考虑“3”所代表的文字。返回
印刷体汉字分类的方法
采用复合特征的分类 多级分类
返回
采用复合特征的分类
选用N种具有互补特征作为类特征 在学习阶段,对训练样本进行N次互不
由于“替换” 、“删除”和“插入”可 以解释为基因序列的三种演化操作,因 此编辑距离又称为演化距离。
返回
编辑距离Ed的计算方法
a=a1a2…am, b=b1b2…bn
返回
xi=a1a2…ai, yj =b1b2…bj
“-”表示删除或插入, Ed(a, b)=Ed(xm, yn)
E(x 0 d ,yj)j,E(x id ,y 0 ) i
yi)2)
i1
f是单调减函数。返回
角度相似系数
(x,y)cox,sy)(xTy xTy
xy (xTx)yTy
返回
相关系数
(x,y)
(xx)T(yy)
[x (x)T(xx)y (y)T(yy)]
返回
指数相似系数
(x,y)1 ni n1ex p4 3[(xi i2yi)2]
返回
非负特征相似度
返回
印刷体汉字的识别
在选取特征之后,需要选择或寻找适当 的判别准则来判断待识字的特征与哪一 个类别的特征最近。常用准则有两类:
(1)基于距离的识别准则 (2)基于相似度的识别准则
返回
基于距离的识别准则
距离的数学定义 常用距离 距离计算举例:例1,例2
返回
距离的数学定义
距离是满足如下三条公理的二元函数:
返回
四种基本匹配
设二值特征向量x和y的第i个分量为xi和yi, 如果xi =1且yi=1,则称xi和yi (1-1)匹配; 如果xi =1且yi=0,则称xi和yi (1-0)匹配; 如果xi =0且yi=1,则称xi和yi (0-1)匹配; 如果xi =0且yi=0,则称xi和yi (0-0)匹配;
返回
相似度的数学定义
相似度是满足如下三个条件的二元函数:
1. 非负性:
(x,y)0
2.自大性:
(x,x)(x,y)
3. 对称性:
(x,y)(y,x)
返回
常用相似度
距离相似度,角度相似系数 相关系数,指数相似系数 非负特征相似度,二值特征相似度
返回
距离相似度
(x,y)f(
n
(xi
返回
曼哈顿街区距离
N
d(x,y)xi yi
i1
又称为分量绝对值求和距离。 返回
欧氏距离
1
N
ห้องสมุดไป่ตู้
2 2
d(x,y) i 1 xi yi
返回
切比雪夫(Chebychev)距离
d(x,y)m
i
axix yi
又称为分量绝对值最大距离。返回
s阶闵可夫斯基距离
1
N
s s
d(x,y) i1 xi yi
(Minkowski)距离。返回
马氏(Mahalanobis)距离
1
d(x,y)[x (y)T 1(xy)2 ]
是一个正定矩阵。返回
Camberra距离
d(x,y)i N 1x xii y yii,(xi,yi0xi,yi0)
返回
编辑距离和演化距离
通过“替换”、“删除”和“插入”三 种 b和=操bb的1b作2编…,辑b把n距所字离需符。的串最a=小a操1a2作…次am数变,成称为a
E(d xi1,yj1)d(ai,bj)
1,ab
E(d xi,yj)miE n(d xi,yj1)d(,bj) E(d xi1,yj)d(ai,)
,d(a,b) 0,ab
距离计算举例
计算下面“汉”和“字”点阵之间的几种 距离
距离计算结果
曼哈顿街区距离=70 欧氏距离= 70 8.3666 切比雪夫距离=1 s阶闵可夫斯基距离= s 70 Camberra距离=70
汉字识别通常都要对汉字做一级或多级 分类,然后再细分判别,从而大大提高 识别效率。
返回
印刷体汉字分类的基本要求
粗分类的正确分类率和分类稳定性要高。 文字识别是先粗分类,然后再细分。粗 分类的正确与否会影响到后面的识别。
粗分类的速度要快。这要求分类的算法 简单,同时要求分在各个类别中的汉字 的数目比较平均,从而提高分类的效率。
相关的分类,然后组合N次分类结果, 完成特征空间的划分。 分类时,根据待分字的特征进行N次分 类,组合分类结果求得子类。 返回
多级分类
学习阶段,对训练样本进行多级分类, 每一级分类是在上级分类基础上进行的; 分类时重复上述多级分类过程。
树分类是一种典型的多级分类,具有效 率高的特点,但是汉字字数多会造成分 类树结构庞大,使得分类不够稳定。
第8讲 印刷体汉字 的分类和识别
要点:
印刷体汉字的分类 印刷体汉字的识别 课堂练习 课后练习
印刷体汉字的分类
印刷体汉字分类的必要性 印刷体汉字分类的基本要求 印刷体汉字分类举例 印刷体汉字分类的方法
返回
印刷体汉字分类的必要性
由于汉字数量大,如果不对汉字分类而 直接识别,一方面识别效果不会好,另 一方面计算量往往会很大。
返回
距离计算举例
计算下面序列之间的编辑距离: ab和ac acb和ab ac和abc abcc和cbaa
距离计算结果
ab和ac的编辑距离=1 acb和ab的编辑距离=1 ac和abc的编辑距离=1 abcc和cbaa的编辑距离=3
返回
基于相似度的识别准则
相似度的数学定义 常用相似度 相似度计算举例
(1)非负性:d(x,y)0,
当且仅当y=x时,等号成立;
(2)对称性:d(x,y)= d(y ,x);
(3)三角不等式:
d(x,y)d(x,z)+d(z,y)
返回
常用距离
曼哈顿街区距离, 欧氏距离 切比雪夫(Chebychev)距离 s阶闵可夫斯基(Minkowski)距离 马氏(Mahalanobis)距离, Camberra距离 编辑距离和演化距离
相关文档
最新文档