第11讲印刷体汉字的分类和识别

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表示二值特征向量x和y共同具有的特征总 数和分别具有的特征种类总数之比。返回
Rao系数
表示二值特征向量x和y共同具有的特征 总数和所选特征总数之比。返回
简单匹配系数
表示二值特征向量x和y同时具有或不具有 的特征总数和所选特征总数之比。返回
Dice系数
返回
Kulzinsky系数
表示二值特征向量x和y共同具有的特征 总数和单独具有的特征总数之比。返回
返回
非负特征相似度
返回
二值特征相似度
二值特征向量的分量只能取值0或1。 二值特征分量有四种基本匹配 二值特征向量有四种匹配特征数 二值特征向量有五种常用相似度
返回
四种基本匹配
设二值特征向量x和y的第i个分量为xi和yi, 如果xi =1且yi=1,则称xi和yi (1-1)匹配; 如果xi =1且yi=0,则称xi和yi (1-0)匹配; 如果xi =0且yi=1,则称xi和yi (0-1)匹配; 如果xi =0且yi=0,则称xi和yi (0-0)匹配;
汉字识别通常都要对汉字做一级或多级 分类,然后再细分判别,从而大大提高 识别效率。
返回
印刷体汉字分类的基本要求
粗分类的正确分类率和分类稳定性要高 。文字识别是先粗分类,然后再细分。 粗分类的正确与否会影响到后面的识别 。
粗分类的速度要快。这要求分类的算法 简单,同时要求分在各个类别中的汉字 的数目比较平均,从而提高分类的效率 。•返回
返回
距离计算举例
计算下面序列之间的编辑距离: ab和ac acb和ab ac和abc abcc和cbaa
距离计算结果
ab和ac的编辑距离=1 acb和ab的编辑距离=1 ac和abc的编辑距离=1 abcc和cbaa的编辑距离=3
返回
基于相似度的识别准则
相似度的数学定义 常用相似度 相似度计算举例
返回
印刷体汉字的识别
在选取特征之后,需要选择或寻找适当 的判别准则来判断待识字的特征与哪一 个类别的特征最近。常用准则有两类:
(1)基于距离的识别准则 (2)基于相似度的识别准则
返回Fra Baidu bibliotek
基于距离的识别准则
距离的数学定义 常用距离 距离计算举例:例1,例2
返回
距离的数学定义
距离是满足如下三条公理的二元函数:
通过“替换”、“删除”和“插入”三种操作 , 需把的字最符小串操a作=次a1a数2…,a称m变为成a和b=bb的1b2编…辑bn距所 离。
由于“替换” 、“删除”和“插入”可以解释 为基因序列的三种演化操作,因此编辑 距离又称为演化距离。
返回
编辑距离Ed的计算方法
a=a1a2…am, b=b1b2…bn
返回
xi=a1a2…ai, yj =b1b2…bj
“-”表示删除或插入, Ed(a, b)=Ed(xm, yn)
距离计算举例
计算下面“汉”和“字”点阵之间的几种距离
距离计算结果
曼哈顿街区距离=70
欧氏距离=
8.3666
切比雪夫距离=1
s阶闵可夫斯基距离=
Camberra距离=70
印刷体汉字分类举例
在下图中,“3”所代表的文字不仅在类别A中, 也可能同时在类别C中。在细分判别A和C类中 的文字时应同时考虑“3”所代表的文字。返回
印刷体汉字分类的方法
采用复合特征的分类 多级分类
返回
采用复合特征的分类
选用N种具有互补特征作为类特征 在学习阶段,对训练样本进行N次互不
第11讲印刷体汉字的分 类和识别
2020年6月6日星期六
要点:
印刷体汉字的分类 印刷体汉字的识别 课堂练习 课后练习
印刷体汉字的分类
印刷体汉字分类的必要性 印刷体汉字分类的基本要求 印刷体汉字分类举例 印刷体汉字分类的方法
返回
印刷体汉字分类的必要性
由于汉字数量大,如果不对汉字分类而 直接识别,一方面识别效果不会好,另 一方面计算量往往会很大。
相关的分类,然后组合N次分类结果, 完成特征空间的划分。 分类时,根据待分字的特征进行N次分 类,组合分类结果求得子类。 返回
多级分类
学习阶段,对训练样本进行多级分类, 每一级分类是在上级分类基础上进行的 ;分类时重复上述多级分类过程。
树分类是一种典型的多级分类,具有效 率高的特点,但是汉字字数多会造成分 类树结构庞大,使得分类不够稳定。
相似度计算举例
计算“汉”和“字”点阵向量的角度相似性 以及5种二值特征相似度。
相似度计算结果
角度相似系数= 0.327165 Tanimoto系数=0.195402 Rao系数=0.066406 简单匹配系数= 0.726563 Dice系数= 0.326923 Kulzinsky系数=0.242857 返回
返回
曼哈顿街区距离
又称为分量绝对值求和距离。 返回
欧氏距离
返回
切比雪夫(Chebychev)距离
又称为分量绝对值最大距离。返回
s阶闵可夫斯基距离
(Minkowski)距离。返回
马氏(Mahalanobis)距离
是一个正定矩阵。返回
Camberra距离
返回
编辑距离和演化距离
返回
四种匹配特征数
(1-1)匹配特征数: (0-1)匹配特征数: (1-0)匹配特征数: (0-0)匹配特征数:
所选特征总数n=a+b+c+e 返回
五种常用相似度
Tanimoto系数 Rao系数 简单匹配系数 Dice系数 Kulzinsky系数
返回
Tanimoto系数
(1)非负性:d(x,y)0,
当且仅当y=x时,等号成立;
(2)对称性:d(x,y)= d(y ,x);
(3)三角不等式:
d(x,y)d(x,z)+d(z,y)
返回
常用距离
曼哈顿街区距离, 欧氏距离 切比雪夫(Chebychev)距离 s阶闵可夫斯基(Minkowski)距离 马氏(Mahalanobis)距离, Camberra距离 编辑距离和演化距离
返回
相似度的数学定义
相似度是满足如下三个条件的二元函数 :
1. 非负性: 2.自大性: 3. 对称性:
返回
常用相似度
距离相似度,角度相似系数 相关系数,指数相似系数 非负特征相似度,二值特征相似度
返回
距离相似度
f是单调减函数。返回
角度相似系数
返回
相关系数
返回
指数相似系数
相关文档
最新文档