第11讲印刷体汉字的分类和识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编辑距离和演化距离
- 通过“替换”、“删除”和“插入”三 种 b和=操bb的1b作2编…,辑b把n距所字离需符。的串最a=小a操1a2作…次am数变,成称为a
- 由于“替换” 、“删除”和“插入”可 以解释为基因序列的三种演化操作,因 此编辑距离又称为演化距离。
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
第11讲印刷体汉字的分类和识别
非负特征相似度
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
二值特征相似度
- 二值特征向量的分量只能取值0或1。 - 二值特征分量有四种基本匹配 - 二值特征向量有四种匹配特征数 - 二值特征向量有五种常用相似度
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
•Ed(4,1)= 3
•Ed(5,1)= 4
•b
•Ed(0,2)= 2
•Ed(1,2)= 2
•Ed(2,2)= 2
•Ed(3,2)= 2
•Ed(4,2)= 2
•Ed(5,2)= 3
•c
•Ed(0,3)= 3
•Ed(1,3)= 2
•Ed(2,3)= 3
•Ed(3,3)= 2
•Ed(4,3)= 3
•Ed(5,3)= 2
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
基于距离的识别准则
- 距离的数学定义 - 常用距离 - 距离计算举例:例1,例2
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
距离的数学定义
- 距离是满足如下三条公理的二元函数:
- (1)非负性:d(x,y)0,
-
当且仅当y=x时,等号成立;
PPT文档演模板
第11讲印刷体汉字的分类和识别
编辑距离的计算
•c
•a
•c
•b
•c
•Ed(0,0)= •Ed(1,0)= •Ed(2,0)= •Ed(3,0)= •Ed(4,0)= •Ed(5,0)=
0
1
2
3
4
5
•a
•Ed(0,1)= 1
•Ed(1,1)= 1
•Ed(2,1)= 1
•Ed(3,1)= 2
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
印刷体汉字分类的必要性
- 由于汉字数量大,如果不对汉字分类而 直接识别,一方面识别效果不会好,另 一方面计算量往往会很大。
- 汉字识别通常都要对汉字做一级或多级 分类,然后再细分判别,从而大大提高 识别效率。
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
四种基本匹配
- 设二值特征向量x和y的第i个分量为xi和yi, - 如果xi =1且yi=1,则称xi和yi (1-1)匹配; - 如果xi =1且yi=0,则称xi和yi (1-0)匹配; - 如果xi =0且yi=1,则称xi和yi (0-1)匹配; - 如果xi =0且yi=0,则称xi和yi (0-0)匹配;
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
Tanimoto系数
- 表示二值特征向量x和y共同具有的特征总 数和分别具有的特征种类总数之比。返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
Rao系数
- 表示二值特征向量x和y共同具有的特征 总数和所选特征总数之比。返回
PPT文档演模板
- (2)对称性:d(x,y)= d(y ,x);
- (3)三角不等式:
-
d(x,y)d(x,z)+d(z,y)
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
常用距离
- 曼哈顿街区距离, 欧氏距离 - 切比雪夫(Chebychev)距离 - s阶闵可夫斯基(Minkowski)距离 - 马氏(Mahalanobis)距离, Camberra距离 - 编辑距离和演化距离
印刷体汉字分类举例
- 在下图中,“3”所代表的文字不仅在类别A中, 也可能同时在类别C中。在细分判别A和C类中 的文字时应同时考虑“3”所代表的文字。返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
印刷体汉字分类的方法
- 采用复合特征的分类 - 多级分类
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
第11讲印刷体汉字的分 类和识别
PPT文档演模板
2020/11/25
第11讲印刷体汉字的分类和识别
要点:
- 印刷体汉字的分类 - 印刷体汉字的识别 - 课堂练习 - 课后练习
PPT文档演模板
第11讲印刷体汉字的分类和识别
印刷体汉字的分类
- 印刷体汉字分类的必要性 - 印刷体汉字分类的基本要求 - 印刷体汉字分类举例 - 印刷体汉字分类的方法
- 树分类是一种典型的多级分类,具有效 率高的特点,但是汉字字数多会造成分 类树结构庞大,使得分类不够稳定。
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
印刷体汉字的识别
- 在选取特征之后,需要选择或寻找适当 的判别准则来判断待识字的特征与哪一 个类别的特征最近。常用准则有两类:
- (1)基于距离的识别准则 - (2)基于相似度的识别准则
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
3rew
演讲完毕,谢谢听讲!
再见,see you again
PPT文档演模板
2020/11/25
第11讲印刷体汉字的分类和识别
第11讲印刷体汉字的分类和识别
简单匹配系数
- 表示二值特征向量x和y同时具有或不具有 的特征总数和所选特征总数之比。返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
Dice系数
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
Kulzinsky系数
- 表示二值特征向量x和y共同具有的特征 总数和单独具有的特征总数之比。返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
相似度计算举例
- 计算“汉”和“字”点阵向量的角度相 似性以及5种二值特征相似度。
PPT文档演模板
第11讲印刷体汉字的分类和识别
相似度计算结果
- 角度相似系数= 0.327165 - Tanimoto系数=0.195402 - Rao系数=0.066406 - 简单匹配系数= 0.726563 - Dice系数= 0.326923 - Kulzinsky系数=0.242857 - 返回
印刷体汉字分类的基本要求
- 粗分类的正确分类率和分类稳定性要高。 文字识别是先粗分类,然后再细分。粗 分类的正确与否会影响到后面的识别。
- 粗分类的速度要快。这要求分类的算法 简单,同时要求分在各个类别中的汉字 的数目比较平均,从而提高分类的效率。
•返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
第11讲印刷体汉字的分类和识别
距离计算结果
- 曼哈顿街区距离=70
- 欧氏距离=
8.3666
- 切比雪夫距离=1
- s阶闵可夫斯基距离=
- Camberra距离=70
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
距离计算举例
- 计算下面序列之间的编辑距离: - ab和ac - acb和ab - ac和abc - abcc和cbaa
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
曼哈顿街区距离
- 又称为分量绝对值求和距离。 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
欧氏距离
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
切比雪夫(Chebychev)距离
- 又称为分量绝对值最大距离。返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
s阶闵可夫斯基距离
- (Minkowski)距离。返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
马氏(Mahalanobis)距离
- 是一个正定矩阵。返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
Camberra距离
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
四种匹配特征数
- (1-1)匹配特征数: - (0-1)匹配特征数: - (1-0)匹配特征数: - (0-0)匹配特征数:
- 所选特征总数n=a+b+c+e - 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
五种常用相似度
- Tanimoto系数 - Rao系数 - 简单匹配系数 - Dice系数 - Kulzinsky系数
采用复合特征的分类
- 选用N种具有互补特征作为类特征 - 在学习阶段,对训练样本进行N次互不
相关的分类,然后组合N次分类结果, 完成特征空间的划分。 - 分类时,根据待分字的特征进行N次分 类,组合分类结果求得子类。 - 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
多级分类
- 学习阶段,对训练样本进行多级分类, 每一级分类是在上级分类基础上进行的; 分类时重复上述多级分类过程。
PPT文档演模板
第11讲印刷体汉字的分类和识别
课堂练习
- 1.计算abc和cacbc之间的编辑距离; - 2.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)之间
的曼哈顿街区距离、切比雪夫距离和3 阶闵可夫斯基距离; - 3.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)的角 度相似系数。 - 返回
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
相似度的数学定义
- 相似度是满足如下三个条件的二元函数: - 1. 非负性: - 2.自大性: - 3. 对称性:
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
常用相似度
- 距离相似度,角度相似系数 - 相关系数,指数相似系数 - 非负特征相似度,二值特征相似度
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
距离相似度
- f是单调减函数。返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
角度相似系数
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
相关系数
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
指数相似系数
- 返回
PPT文档演模板
编辑距离Ed的计算方法
- a=a1a2…am, b=b1b2…bn
返回
- xi=a1a2…ai, yj =b1b2…bj
- “-”表示删除或插入, Ed(a, b)=Ed(xm, yn)
PPT文档演模板
第11讲印刷体汉字的分类和识别
距离计算举例
- 计算下面“汉”和“字”点阵之间的几种 距离
PPT文档演模板
PPT文档演模板
第11讲印刷体汉字的分类和识别
距离计算结果
- ab和ac的编辑距离=1 - acb和ab的编辑距离=1 - ac和abc的编辑距离=1 - abcc和cbaa的编辑距离=3
- 返回
PPT文档演模板
第11讲印刷体汉字的分类和识别
基于相似度的识别准则
- 相似度的数学定义 - 常用相似度 - 相似度计算举例