笔顺连笔自由的联机手写汉字识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

-,+""’(#"* ,+"b/"’(#.- ,+""’(#]
计算机工程与应用 !""#$!!
/DE
大部分的输入笔画同标准模式中的对应笔画十分接近 ! 即它们 之间的匹配距离很小 " 因此 ! 很多文献中提到了一种基于近邻 优 先 原 则 的 算 法 ! 例 如 文 献 )>+ 的 ?@A2--.B2 CDEE.0/ 和
D5/ 1.0 1 $-& !0!$&%%!&#" ! 固定笔画对应关系 " 即固定距离最短
&
的笔画对应关系 ! $&3%" 跳转到 $’ %" 近邻优先算法的优点是速度快 ! 复杂度为 4 $"’%" 但是 ! 其 确定笔画对应关系的正确率不高 "
%& 匹配的算法复杂度为 ! $"’%!" 为序列点数 " 如果对其
!"#$"% &’()*"$+$)" ), -."/01$++’" 23$"’4% 23.1.5+’1 61’’ ,1)7 8+1)9’ :1/’1 ."/ ;)""’(+$)"
2.) <3’=$)"* >."* ?)"*(3’"* !6;I(=J’;5J ,K 8,’I9J;= <+);5+; (5L %5M)5;;=)5M "<NHO"<2(5M2() "###$#&
全世界已有近四分之一的人在使用汉字 " 近 " C## 万 人 在
89:; <;(=+2 法 % 匈牙利算法 % 近邻优先算法进行比较分析 (
"
连笔自由的整体 67 匹配方法
每一次从落笔到提笔的可见线段序列称为 ,5 线 " 从前一
次的提笔到下一次的落笔所经过的不可见线段称为 ,KK 线 ( 在 笔顺固定的情况下 " 随着 连 笔 的 不 同 ",5 线 和 ,KK 线 的 排 列 组 合也不同 ( 因此 " 如果仅匹配 ,5 线 " 无法解决连笔自由的问题 ( 可将输入汉字所有的 ,5 线和 ,KK 线按笔顺相连 " 去除冗余 点 " 抽取特征点 " 生成新的序列 " 记为 !Z[!",# "$#\##"#%] ( 字典 中的标准模式也按同样方法生成 " 记为 &Z[’(,# "$#\##(#)] ( ! 和 & 的 匹 配 距 离 为 * ,! "& #" 可 用 67 ,615(’)+ 7=,M=(’’)5M # 匹配的方法计算 ^C_( 即通过如下的 67 迭 代 式 计 算 出 一 条 最 佳 的输入序列和标准序列的匹配路径 " 请参见图 / ( * * ,+""’(#Z’)5[* ,+",/"’(F/#‘" - ,+""’(#"* ,+""’(&/#a

表示各个输入笔画对应于离其最近的标准模式笔画 " $’ % 如果不存在 & #2 ! 使 ! $& %8!$2 %!&$2! 则算法终止 !! $& %!
;"&"" 即为所求的笔画对应关系 " 否则表示对应关系发生冲
突 ! 继续执行下一步 " $I % 设对应关系有冲突的输入笔画序号集合为 "! 计算 &38
作者简介 $ 曹喆炯 ,/!EB& #" 硕士研究生 " 研究方向为手写汉字识别 ( 王永成 ,/!$!& #" 博士生导师 " 研究方向为智能信息处理 (
!!!!!!!!"
引言
Fra Baidu bibliotek
文献标识码 )
键的解决连笔自由问题的整体 67 匹 配 方 法 % 解 决 笔 顺 自 由 问 题 的 笔 画 对 应 关 系 确 定 算 法 , 最 小 风 险 算 法 #" 并 同 现 有 的
搜索范围沿对角线加以限制 ! 可以使算法复杂度降为 ! $#"%! 这样同时避免了极端的伸缩匹配 " 另 外 ! 在 (& 匹 配 之 前 可 以 先 用 快 速 的 线 性 匹 配 $ 复 杂 度 为 ! $" %% 进 行 处 理 ! 再 对 匹 配 距 离最小的前 " 个字典标准模式进行 (& 匹 配 ! 这 样 可 以 在 保 证 精度的前提下大幅提高识别速度 )*+"
!"
/
学习汉语 " 说明汉语正在走向世界 ( 但至少对中国人来说 " 除了 语音输入汉字之外 " 最方便的莫过于手写 ( 于是人们一直热衷 于手写输入法的研究 ( 由于手写汉字的自由度太大 " 识别难度 很大 ( 因此 " 人们希望联机识别先行突破 ( 因联机手写时 " 汉字 的笔向 + 笔顺信息可被记载下来以帮助识别 ( 但写字人不一定 完全按规范的笔向 % 笔顺写字 " 更常常喜欢连笔 ( 这就使笔顺自 由 % 连笔自由成了联机识别中的两大难点 ( 从目前国内外的研 究情况来看 " 现有的一些方法在一定程度上解决了笔顺自由或 连 笔 自 由 问 题 "但 是 "既 能 很 好 地 适 应 手 写 汉 字 笔 顺 变 化 又 能 适应笔画数变化的识别方法还有待研究 ( 我们在嵌入式联机手写汉字识别引擎的研发中 " 提出了一 种能同时解决笔顺自由和连笔自由问题 " 而且对形变和噪音具 有很强适应能力的识别方法 ( 并制作了原型系统 " 在对 >?"$/" 字符集进行的测试中 " 取得了较好的效果 ( 本文将介绍其中关
%2$.A.203 CDEE.0/! 文献 )F+ 的 G3D672 CD55.D/2 "
设输入模式为 ,89-&H<"&"": !" 为输入笔画数 !-& 为第 & 个 笔画 " 字典里的标准模式为 ./90’H<"’"$: !$ 为标准笔画数 " 输入笔画和标准模式笔画之间对应关系为 ! $& %#9; !’ !&!$: !
笔画对应关系的算法 ! 最小风险算法 &" 并同现有的 89:; <;(=+2 法 % 匈牙利算法 % 近邻优先算法在识别速度 % 识别率等方 面作了比较 ’ 该方法克服了现有的一些方法的不足 " 能高效地同时解决笔顺自由和连笔自由问题 " 而且由于主要采用全 局特征进行识别 " 对形变和噪音具有很强适应能力 ( 另外 " 字典可以通过聚类自动生成 ( 另外还制作了原型 系 统 " 在 对
(& 匹配方法进行识别 ! 就可以同时解决笔顺自由和连笔自由
的问题 " 而确定输入汉字和标准模式的笔画对应关系问题其实是 一 个 指 派 问 题 $,--./01203 45"6721 %" 设 !"!$89%&’: 为 输 入 笔 画 和标准模式笔画之间的匹配距离矩阵 !%&’ 为输入的第 & 笔 和 标
I=’ JK62 G2D5AL 法
有 人 提 出 了 JK62 G2D5AL 方 法 )M+! 采 用 动 态 规 划 方 法 在 一 个 超 立 方 体 $LNE25AK62% 中 搜 索 输 入 汉 字 和 标 准 模 式 的 正 确 笔 画对应关系 ! 并同时计算出两者之间的匹配距离 " 设 " 为标准笔画数 !$ 为输入笔画数 " 搜索图 $ 也可看作是 一个超立方体 % 中每条从初始状态到终止状态的路径都代表了 一 种 可 能 的 笔 画 对 应 关 系 " 图 O 是 标 准 模 式 为 I 画 的 JK62
(& 匹配的一个明显缺点是它的连笔自由是建立在笔顺不
自由的基础上的 " 虽然 ! 通过向字典里添加笔顺变种的模版 ! 可 在 一 定 程 度 上 解 决 笔 顺 自 由 的 问 题 !但 是 !会 带 来 字 典 过 于 庞 大 #匹 配 速 度 减 慢 等 问 题 !而 且 也 不 可 能 穷 尽 所 有 可 能 的 笔 顺 变化 " 因此 ! 必须加以改进才能用于笔顺自由的识别系统上 "
G2D5AL 的搜索图 "
*
笔顺自由的笔画对应关系确定算法
如果字典中不罗列所有笔顺变化 ! 只存放一种或少数几种
标 准 笔 顺 的 模 式 !为 了 实 现 笔 顺 自 由 !待 识 汉 字 同 标 准 模 式 匹 配 时 !可 以 首 先 找 出 它 们 之 间 的 正 确 的 笔 画 对 应 关 系 !把 输 入 汉字的笔顺和标准模式的笔顺调整一致 ! 然后采用前述的整体
"
准模式的第 ’ 笔的匹配距离 " 而 ""!$(9)&’: 为指派矩阵 ! 且
$
!) (
&’ & 8;
; !!)&’(; !)&’(9<!;: " )&’(; 表示输入的第 & 笔和标准模式的第 ’ 笔
>?"$/" 字符集进行的测试中 " 取得了较好的效果 $ 在笔顺 % 连笔完全自由的情况下 " 单汉字平均识别时间小于 #4$@ " 确定
笔画对应关系的正确率达 !!4/A " 识别率达 !B4CA ( 关键词 联机汉字识别 手写体汉字识别 笔顺自由 连笔自由 中图分类号 G/"B4E)H7$!
文章编号 %""!&’((%& !!""# &!!&#/DEF#$
!"
数据库与信息处理 * *
!!!!!!!!"
笔顺连笔自由的联机手写汉字识别
曹喆炯 王永成 ! 上海交通大学计算机科学与工程系 " 上海 "###$##
%&’()* $+(,-."##/01(2,,3+,’4+5
摘 要 论文针对联机手写汉字识别 的 笔 顺 自 由 % 连 笔 自 由 问 题 " 在 整 体 67 匹 配 方 法 的 基 础 上 " 提 出 了 一 种 新 的 确 定
;"&""! 表示 -& 对应于 0!$&%" 1 $-&!0’% 表示 -& 和 0’ 的匹配距离 "
近邻优先算法为 ’ 将输入序列和字典中所有的标准序列进行匹配 ! 找出匹配 距离最小的标准序列 ! 其所代表的汉字即为识别结果 " 由于将 "# 线和 "$$ 线一视同仁 ! 匹配只依据整体的行笔方 向 # 走势 # 位置等信息 ! 而没有用到落笔 # 提笔的信息 ! 很自然地 解决了连笔的问题 " 甚至可以很好地识别完全连笔的汉字 ! 即 一笔书写而成的汉字 " 而且基于全局特征的匹配使得对局部形 变和噪音的适应能力非常强 ! 可达到相当高的识别率 " 这时对 汉字的描述其实是一维的 ! 由于不需要进行笔画对应关系的试 探搜索 ! 匹配速度很快 " 另外 ! 识别字典可以通过对样本进行聚 类自动生成也是它的一个优点 " $; % 令对应关系的初值为 ! $& %8D5/ 1.0 1 $-& !0’ %!;"&"" !
@A4+1B(+$ H(=M;J)5M K=;; @J=,P; ,=L;= (5L +,55;+J),5 I=,:*;’@ ,5 ,5*)5; 2(5LQ=)JJ;5 82)5;@; +2(=(+J;= =;+,M5)J),5"Q; I=,I,@; R)5)’9’ S)@P T*M,=)J2’ !RST & K,= ,IJ)’(* @J=,P; +,==;@I,5L;5+; L;J;=’)5(J),5 :(@;L ,5 2,*)@J)+ 67 ’(J+2)5M ’;J2,L "(5L +,’I(=; RST Q)J2 89:; <;(=+2"G95M(=)(5 T*M,=)J2’ (5L U;(=;@J V)=@J T*M,=)J2’ )5 J2; (@I;+J@ ,K =;+,M5)J),5 @I;;L (5L =(J;3H2)@ ’;J2,L Q)** 5,J ,5*1 @,*W; J2; I=,:*;’@ ,K K=;; @J=,P; ,=L;= (5L +,55;+J),5 @)’9*J(5;,9@*1 :9J (*@, @2,Q ( 2)M2 J,*;=(5+; K,= L;K,=’(J),5 (5L 5,)@;3X5 (LL)J),5"J2; L)+J),5(=1 +(5 :; M;5;=(J;L (9J,’(J)+(**13R;(5Q2)*; ( I=,J,J1I; @1@J;’ )@ ’(L; (5L 2)M2 =;+,M5)J),5 I;=K,=’(5+; )@ I=,W;L Q2)*; J;@J)5M >?"$/" +2(=(+J;= @;J3H2; (W;=(M; =;+,M5)J),5 J)’; )@ #3$@"J2; =(J; ,K @J=,P; +,==;@I,5L;5+; L;J;=’)5(J),5 =;(+2;@ !!3/Y (5L J2; =;+,M5)J),5 =(J; 2)J@ !B4CA4 C’D0)1E4 $ ,5*)5; 82)5;@; +2(=(+J;= =;+,M5)J),5 "K=;; @J=,P; ,=L;= "K=;; @J=,P; +,55;+J),5
相关文档
最新文档