脱机手写中文识别中粘连文本行的切分与提取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
脱机手写中文识别中粘连文本行的切分与提取
【英文题名】 Segmentation of Text Lines in Off-Line Chinese Handwritten Character Recognition
【作者中文名】周宇;
【导师】张田文;
【学位授予单位】哈尔滨工业大学;
【学科专业名称】计算机科学与技术
【学位年度】 2007
【论文级别】硕士
【基金】黑龙江省自然科学基金;
【关键词】手写汉字识别; 文本行切分; 评价函数;
【英文关键词】handwritten Chinese recognition; segmentation of text lines; evaluation function;
【中文摘要】汉字作为中华民族上千年文化的结晶,在社会发展中一直起着重大的作用,实现手写文档的电子化具有非常重要的意义。
文字识别是指利用计算机自动辨别在纸或其他介质上的文字的过程。
文字识别分为脱机文字识别和联机文字识别两种,主要研究脱机中文手写文字识别。
中文文字识别与英文文字识别有很大的区别,并且中文文字识别的发展滞后于英文文字识别。
从英文文字识别的发展历程来看,中文手写识别应该从现有的单字识别扩展到语句级识别,其中需要解决许多重要问题。
现有文本库均为单字库,没有支持非单字识别的文本库,因此建立了中文文本库HIT-MW。
此文本库是以文本页为基本单位的,识别之前需要将其切分为文本行,这正是本文完成的主要工作。
首先通过直接水平全局投影、小角度纠斜、再次水平全局投影、局部投影四步以获得粘连文本块数据集。
之后对粘连文本块数据集进行了全面详细的分析,并按照难易程度将其分为四类子数据集:两行文字易切分文本块、两行文字难切分文本块、两行文字粘连文本块和三行或更多行文字文本块,对各类数据集采取不同的策略。
然后对文本块进行背景骨架化。
对能够直接获得候选切分路径的数据集,研究了判别最优切分路径的评价函数;对不能获...
【英文摘要】 Chinese character is the crystallization of Chinese nation for thousands of years and has been playing a very important role in the development of our society. It is of great importance to digitalize the handwritten documents. Optical Character Recognition (OCR) is a fast and automatic input for character. Character recognition contains on-line and off-line character recognition, and we focus on the off-line Chinese character recognition. Chinese character recognition is very different from English characte...
摘要 4-5
Abstract 5
第1章绪论 8-17
1.1 研究计算机识别文字的目的及意义 8-9
1.2 汉字识别的问题与困难 9-11
1.2.1 汉字的特点与识别难点 9-11
1.2.2 手写体汉字的特点与识别难点 11
1.3 汉字识别研究的发展历程 11-13
1.4 汉字识别技术研究现状及发展趋势 13-14
1.5 论文背景及研究的主要内容及意义 14-16
1.5.1 论文背景 15
1.5.2 论文研究的主要内容 15
1.5.3 论文研究的主要意义 15-16
1.6 本章小结 16-17
第2章粘连汉字切分方法的研究 17-22
2.1 引言 17
2.2 切分算法 17-19
2.2.1 基于结构特征的算法 17-18
2.2.2 滴水算法 18
2.2.3 基于细化的算法 18
2.2.4 储水池算法 18-19
2.2.5 基元合并算法 19
2.3 切分路径评价方法 19-20
2.3.1 决策树 19-20
2.3.2 混合高斯概率函数 20
2.3.3 贝叶斯置信网络 20
2.4 本章小结 20-22
第3章文本行切分实验数据获得与分析 22-32 3.1 引言 22-23
3.2 文本库HIT-MW简介 23-25
3.2.1 HIT-MW的收集目的 23-25
3.3 实验数据的获得 25-29
3.3.1 原始数据处理步骤 26-28
3.3.2 数据统计 28-29
3.4 实验数据分析 29-31
3.4.1 两行文字易切分文本块集 29-30 3.4.2 两行文字难切分文本块集 30
3.4.3 两行文字粘连文本块集 30-31 3.4.4 三行或更多行文字文本块集 31 3.5 本章小结 31-32
第4章粘连文本行切分与提取 32-42
4.1 引言 32-33
4.2 主要研究内容简介 33
4.3 文本块背景骨架化 33-35
4.4 寻找候选切分路径 35-37
4.5 最优路径判定 37-38
4.5.1 对第三数据集的附加操作 37-38 4.5.2 对第四数据集的附加操作 38
4.6 文本块笔划细化及提取特征点 38-39 4.7 数据统计 39-40
4.8 失败个例分析 40-41
4.9 本章小结 41-42
结论 42-44
参考文献 44-48。