第11讲印刷体汉字的分类和识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表示二值特征向量x和y共同具有的特征总 数和分别具有的特征种类总数之比。返回
Rao系数
表示二值特征向量x和y共同具有的特征 总数和所选特征总数之比。返回
简单匹配系数
表示二值特征向量x和y同时具有或不具有 的特征总数和所选特征总数之比。返回
Dice系数
返回
Kulzinsky系数
表示二值特征向量x和y共同具有的特征 总数和单独具有的特征总数之比。返回
返回
非负特征相似度
返回
二值特征相似度
二值特征向量的分量只能取值0或1。 二值特征分量有四种基本匹配 二值特征向量有四种匹配特征数 二值特征向量有五种常用相似度
返回
四种基本匹配
设二值特征向量x和y的第i个分量为xi和yi, 如果xi =1且yi=1,则称xi和yi (1-1)匹配; 如果xi =1且yi=0,则称xi和yi (1-0)匹配; 如果xi =0且yi=1,则称xi和yi (0-1)匹配; 如果xi =0且yi=0,则称xi和yi (0-0)匹配;
汉字识别通常都要对汉字做一级或多级 分类,然后再细分判别,从而大大提高 识别效率。
返回
印刷体汉字分类的基本要求
粗分类的正确分类率和分类稳定性要高 。文字识别是先粗分类,然后再细分。 粗分类的正确与否会影响到后面的识别 。
粗分类的速度要快。这要求分类的算法 简单,同时要求分在各个类别中的汉字 的数目比较平均,从而提高分类的效率 。•返回
返回
距离计算举例
计算下面序列之间的编辑距离: ab和ac acb和ab ac和abc abcc和cbaa
距离计算结果
ab和ac的编辑距离=1 acb和ab的编辑距离=1 ac和abc的编辑距离=1 abcc和cbaa的编辑距离=3
返回
基于相似度的识别准则
相似度的数学定义 常用相似度 相似度计算举例
返回
印刷体汉字的识别
在选取特征之后,需要选择或寻找适当 的判别准则来判断待识字的特征与哪一 个类别的特征最近。常用准则有两类:
(1)基于距离的识别准则 (2)基于相似度的识别准则
返回Fra Baidu bibliotek
基于距离的识别准则
距离的数学定义 常用距离 距离计算举例:例1,例2
返回
距离的数学定义
距离是满足如下三条公理的二元函数:
通过“替换”、“删除”和“插入”三种操作 , 需把的字最符小串操a作=次a1a数2…,a称m变为成a和b=bb的1b2编…辑bn距所 离。
由于“替换” 、“删除”和“插入”可以解释 为基因序列的三种演化操作,因此编辑 距离又称为演化距离。
返回
编辑距离Ed的计算方法
a=a1a2…am, b=b1b2…bn
返回
xi=a1a2…ai, yj =b1b2…bj
“-”表示删除或插入, Ed(a, b)=Ed(xm, yn)
距离计算举例
计算下面“汉”和“字”点阵之间的几种距离
距离计算结果
曼哈顿街区距离=70
欧氏距离=
8.3666
切比雪夫距离=1
s阶闵可夫斯基距离=
Camberra距离=70
印刷体汉字分类举例
在下图中,“3”所代表的文字不仅在类别A中, 也可能同时在类别C中。在细分判别A和C类中 的文字时应同时考虑“3”所代表的文字。返回
印刷体汉字分类的方法
采用复合特征的分类 多级分类
返回
采用复合特征的分类
选用N种具有互补特征作为类特征 在学习阶段,对训练样本进行N次互不
第11讲印刷体汉字的分 类和识别
2020年6月6日星期六
要点:
印刷体汉字的分类 印刷体汉字的识别 课堂练习 课后练习
印刷体汉字的分类
印刷体汉字分类的必要性 印刷体汉字分类的基本要求 印刷体汉字分类举例 印刷体汉字分类的方法
返回
印刷体汉字分类的必要性
由于汉字数量大,如果不对汉字分类而 直接识别,一方面识别效果不会好,另 一方面计算量往往会很大。
相关的分类,然后组合N次分类结果, 完成特征空间的划分。 分类时,根据待分字的特征进行N次分 类,组合分类结果求得子类。 返回
多级分类
学习阶段,对训练样本进行多级分类, 每一级分类是在上级分类基础上进行的 ;分类时重复上述多级分类过程。
树分类是一种典型的多级分类,具有效 率高的特点,但是汉字字数多会造成分 类树结构庞大,使得分类不够稳定。
相似度计算举例
计算“汉”和“字”点阵向量的角度相似性 以及5种二值特征相似度。
相似度计算结果
角度相似系数= 0.327165 Tanimoto系数=0.195402 Rao系数=0.066406 简单匹配系数= 0.726563 Dice系数= 0.326923 Kulzinsky系数=0.242857 返回
返回
曼哈顿街区距离
又称为分量绝对值求和距离。 返回
欧氏距离
返回
切比雪夫(Chebychev)距离
又称为分量绝对值最大距离。返回
s阶闵可夫斯基距离
(Minkowski)距离。返回
马氏(Mahalanobis)距离
是一个正定矩阵。返回
Camberra距离
返回
编辑距离和演化距离
返回
四种匹配特征数
(1-1)匹配特征数: (0-1)匹配特征数: (1-0)匹配特征数: (0-0)匹配特征数:
所选特征总数n=a+b+c+e 返回
五种常用相似度
Tanimoto系数 Rao系数 简单匹配系数 Dice系数 Kulzinsky系数
返回
Tanimoto系数
(1)非负性:d(x,y)0,
当且仅当y=x时,等号成立;
(2)对称性:d(x,y)= d(y ,x);
(3)三角不等式:
d(x,y)d(x,z)+d(z,y)
返回
常用距离
曼哈顿街区距离, 欧氏距离 切比雪夫(Chebychev)距离 s阶闵可夫斯基(Minkowski)距离 马氏(Mahalanobis)距离, Camberra距离 编辑距离和演化距离
返回
相似度的数学定义
相似度是满足如下三个条件的二元函数 :
1. 非负性: 2.自大性: 3. 对称性:
返回
常用相似度
距离相似度,角度相似系数 相关系数,指数相似系数 非负特征相似度,二值特征相似度
返回
距离相似度
f是单调减函数。返回
角度相似系数
返回
相关系数
返回
指数相似系数
Rao系数
表示二值特征向量x和y共同具有的特征 总数和所选特征总数之比。返回
简单匹配系数
表示二值特征向量x和y同时具有或不具有 的特征总数和所选特征总数之比。返回
Dice系数
返回
Kulzinsky系数
表示二值特征向量x和y共同具有的特征 总数和单独具有的特征总数之比。返回
返回
非负特征相似度
返回
二值特征相似度
二值特征向量的分量只能取值0或1。 二值特征分量有四种基本匹配 二值特征向量有四种匹配特征数 二值特征向量有五种常用相似度
返回
四种基本匹配
设二值特征向量x和y的第i个分量为xi和yi, 如果xi =1且yi=1,则称xi和yi (1-1)匹配; 如果xi =1且yi=0,则称xi和yi (1-0)匹配; 如果xi =0且yi=1,则称xi和yi (0-1)匹配; 如果xi =0且yi=0,则称xi和yi (0-0)匹配;
汉字识别通常都要对汉字做一级或多级 分类,然后再细分判别,从而大大提高 识别效率。
返回
印刷体汉字分类的基本要求
粗分类的正确分类率和分类稳定性要高 。文字识别是先粗分类,然后再细分。 粗分类的正确与否会影响到后面的识别 。
粗分类的速度要快。这要求分类的算法 简单,同时要求分在各个类别中的汉字 的数目比较平均,从而提高分类的效率 。•返回
返回
距离计算举例
计算下面序列之间的编辑距离: ab和ac acb和ab ac和abc abcc和cbaa
距离计算结果
ab和ac的编辑距离=1 acb和ab的编辑距离=1 ac和abc的编辑距离=1 abcc和cbaa的编辑距离=3
返回
基于相似度的识别准则
相似度的数学定义 常用相似度 相似度计算举例
返回
印刷体汉字的识别
在选取特征之后,需要选择或寻找适当 的判别准则来判断待识字的特征与哪一 个类别的特征最近。常用准则有两类:
(1)基于距离的识别准则 (2)基于相似度的识别准则
返回Fra Baidu bibliotek
基于距离的识别准则
距离的数学定义 常用距离 距离计算举例:例1,例2
返回
距离的数学定义
距离是满足如下三条公理的二元函数:
通过“替换”、“删除”和“插入”三种操作 , 需把的字最符小串操a作=次a1a数2…,a称m变为成a和b=bb的1b2编…辑bn距所 离。
由于“替换” 、“删除”和“插入”可以解释 为基因序列的三种演化操作,因此编辑 距离又称为演化距离。
返回
编辑距离Ed的计算方法
a=a1a2…am, b=b1b2…bn
返回
xi=a1a2…ai, yj =b1b2…bj
“-”表示删除或插入, Ed(a, b)=Ed(xm, yn)
距离计算举例
计算下面“汉”和“字”点阵之间的几种距离
距离计算结果
曼哈顿街区距离=70
欧氏距离=
8.3666
切比雪夫距离=1
s阶闵可夫斯基距离=
Camberra距离=70
印刷体汉字分类举例
在下图中,“3”所代表的文字不仅在类别A中, 也可能同时在类别C中。在细分判别A和C类中 的文字时应同时考虑“3”所代表的文字。返回
印刷体汉字分类的方法
采用复合特征的分类 多级分类
返回
采用复合特征的分类
选用N种具有互补特征作为类特征 在学习阶段,对训练样本进行N次互不
第11讲印刷体汉字的分 类和识别
2020年6月6日星期六
要点:
印刷体汉字的分类 印刷体汉字的识别 课堂练习 课后练习
印刷体汉字的分类
印刷体汉字分类的必要性 印刷体汉字分类的基本要求 印刷体汉字分类举例 印刷体汉字分类的方法
返回
印刷体汉字分类的必要性
由于汉字数量大,如果不对汉字分类而 直接识别,一方面识别效果不会好,另 一方面计算量往往会很大。
相关的分类,然后组合N次分类结果, 完成特征空间的划分。 分类时,根据待分字的特征进行N次分 类,组合分类结果求得子类。 返回
多级分类
学习阶段,对训练样本进行多级分类, 每一级分类是在上级分类基础上进行的 ;分类时重复上述多级分类过程。
树分类是一种典型的多级分类,具有效 率高的特点,但是汉字字数多会造成分 类树结构庞大,使得分类不够稳定。
相似度计算举例
计算“汉”和“字”点阵向量的角度相似性 以及5种二值特征相似度。
相似度计算结果
角度相似系数= 0.327165 Tanimoto系数=0.195402 Rao系数=0.066406 简单匹配系数= 0.726563 Dice系数= 0.326923 Kulzinsky系数=0.242857 返回
返回
曼哈顿街区距离
又称为分量绝对值求和距离。 返回
欧氏距离
返回
切比雪夫(Chebychev)距离
又称为分量绝对值最大距离。返回
s阶闵可夫斯基距离
(Minkowski)距离。返回
马氏(Mahalanobis)距离
是一个正定矩阵。返回
Camberra距离
返回
编辑距离和演化距离
返回
四种匹配特征数
(1-1)匹配特征数: (0-1)匹配特征数: (1-0)匹配特征数: (0-0)匹配特征数:
所选特征总数n=a+b+c+e 返回
五种常用相似度
Tanimoto系数 Rao系数 简单匹配系数 Dice系数 Kulzinsky系数
返回
Tanimoto系数
(1)非负性:d(x,y)0,
当且仅当y=x时,等号成立;
(2)对称性:d(x,y)= d(y ,x);
(3)三角不等式:
d(x,y)d(x,z)+d(z,y)
返回
常用距离
曼哈顿街区距离, 欧氏距离 切比雪夫(Chebychev)距离 s阶闵可夫斯基(Minkowski)距离 马氏(Mahalanobis)距离, Camberra距离 编辑距离和演化距离
返回
相似度的数学定义
相似度是满足如下三个条件的二元函数 :
1. 非负性: 2.自大性: 3. 对称性:
返回
常用相似度
距离相似度,角度相似系数 相关系数,指数相似系数 非负特征相似度,二值特征相似度
返回
距离相似度
f是单调减函数。返回
角度相似系数
返回
相关系数
返回
指数相似系数