中文印刷体文档数学公式识别系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

expressions
and
to
reconstruct the
as
recognized follows:
expressions
into
publication format.111e system works
Firstly,Image Pretreatment.It will import noise in the process of image
Character
Recognition)。OCR实际上是把
含有印刷体字符或手写体字符(数字、字母、汉字等)的文档图像进行识别 并转换为计算机可以理解的代码(如ASCII码)的过程。0cR涉及模式识别、 图像处理、数字信号处理、人工智能、模糊数学、信息论等学科,是一门综 合性的研究课题。人们对OCR的研究从20世纪50年代就开始了,它是模式 识别领域中最早开始被人们研究的领域之一,但早期这方面的研究受到了当 时计算机计算及存储能力的限制。从20世纪80年代初开始,随着信息技术 的迅猛发展,人们也逐渐显示出对OCR越来越浓厚的研究兴趣。这不仅是因 为该领域充满了无数令人兴奋的挑战,也是因为实用oCR系统研究的成果能 给社会带来巨大的经济效益。经过多年的研究和发展,字符识别技术有了长 足的进步,不断涌现出大量的成果。 按照文字的书写方式不同,字符识别技术可分为印刷体字符识别和手写 体字符识别两大类,后者又可根据字符数据产生的方式不同分为联机 (On—line)和脱机(Off-line)两种。印刷体字符由于其书写规范、规格统一的 特点,其识别技术已经趋于成熟和完善,市场上推出的识别产品也日臻成熟, 识别效果已经较好,即使对印刷质量较差的文档图像也能达到较高的识别率。 目前主流的OER系统能够高效、准确的识别文档中的文字,已经广泛应用于 办公自动化、快速录入等领域,克服了人工输入费时费力的缺点。这方面国 内有代表性的研究单位有清华文通、汉王、北京信息工程学院,国家智能计
作者(签字):
杰盘
日期:
炒7年弓月7日
哈尔滨工稃大学硕士学位论文
第1章绪论
1.1课题研究的目的和意义
随着计算机的普及,人们越来越多的使用计算机处理日常工作和存储信 息。信息化时代的到来,使因特网成为传播、交换信息的主要途径。另外, 对于业务繁忙的公司,如银行、海关、税务和教育等部门,必须在有限的时 间内,查找和处理数量巨大的文件流。所有这些,都迫切要求使用一些廉价 而又有效的方法,把现存的印刷在纸上的文献转化为相应的电子形式,使之 便于计算机处理及因特网传播。 字符识别是模式识别学科的一个传统研究领域,从五十年代开始,许多 研究者就在这一领域开展了广泛的探索,推动了模式识别的发展。字符识别 最主要的应用就是0cR(optical
Chinese characters. And then,Symbol need to know
Recognition.Formulas
we get have
many
characters,we
formula contains,the
location relation
quick approach to segment each character from the
哈尔滨工程大学硕士学位论文
算机研究中心以及重庆大学光机所。现在对于汉字这样的超大字符集,识别 率也达到了95%以上【ll。对于联机手写字符识别,数据是通过书写者使用一 支特殊的笔在一块电子平板上书写获得的,即字符的识别与人的书写必须同 时进行。联机字符识别的研究也比较成熟,国内外已经有多家公司从事联机 手写字符识别的产品开发,市场上常见的“手写板”就是这样的产品。联机 字符识别主要用于信息产品(个人电脑、手机、PDA等)的电子笔输入,以 及数字签名验证、笔迹鉴定等信息安全领域。对于脱机字符识别,数据则是 通过对写好或打印出来的文档扫描成图像获得的。脱机情况下的字符识别比
Abstract
With
the development of science and technology nowadays,mathematical
are
expressions
the
core
part of most science and technology documents.But it is
level of science and
searches,and therefore improve the
technology
in
literature.
他e
syscem proposed in this article has the ability
tO
recognize
mathematics
particular
具有重要意义。
国外于20世纪60年代后期开始数学公式识别的研究,进入90年代,这
个领域的研究热度逐渐增加,作为文档电子化必须要解决的问题,数学公式 识别得到了越来越多的关注。数学公式与普通文本相比有许多不同的特点, 根式、分式、上/下标、极限以及矩阵等特殊结构的存在,使得数学公式在结 构上具有二维特征,这决定了数学公式识别应该包含符号识别与公式结构分 析两部分。而结构分析的准确性会直接影响对公式的理解与重构,因此它决 定了公式识别效果的好坏,是公式识别的关键。 根据数学公式输入方式的不同,可将数学公式识别系统分成两类:联机 数学公式识别和脱机数学公式识别。
特别困难,这也制约了利用计算机和网络开展数学辅助教学的发展。因此对 它的研究可以使数学表达式用于检索。提高文献的科技性:实现公式输入的
自动化,以解决手动输入的低效率问题;改变数学表达式图片的存在形式, 可以节省空间,提高网络的传输速度等。 目前广泛应用的ocR系统对手写、印刷体文本都有很高的识别率,己经 广泛应用于办公自动化等领域,克服了人工输入费时费力的缺点。但是它只 憨识别单个字符,还不能分析公式结构,这样就失去了公式所表达的数学含 义。因此,本文提出一种对文档中的数学公式定位提取后利用基于特征字符 的印刷体数学公式识别方法的设计思想,并给出了完整算法,将印刷体的数 学公式(图像格式)转换成可编辑的电子格式。本文主要分为以下几个部分:
expression until
哈尔滨工稃大学硕士学能论文
At the end,Output the resuR.In this part we introduce how
to use
Word EQ,

and finally,we仃ansfer the grammar tree produced by the structure analyzer into
联机的情况要复杂的多,市场上的一些产品识别效果都不太理想,对书写的
规范性要求较高,脱机识别主要应用于银行票据处理、邮政信件自动分拣、 商业表格识别等领域。
在科技高速发展的现代,许多科技文献中不仅包含普通文字,图像和图
形,还包含大量的数学公式,已有的OCR产品只能识别字符,一般不具备数
学公式的识别与重构功能,仍需要按照图片来处理公式,存储数据量大且无 法编辑、修改。因此,研究公式识别与重构,对于拓宽OCR系统的应用领域
on
and
symbols but also of its changeable layout
the mathematical expressions,which are composed of
expressions be
and technology,Can make the mathematical
contain
mathematical
mathematical formulas
isolated and
are
formulas.When lines tllat confirmed,mathematical formula symbols
contain
can
be
labeled
according to the morphological differences bctwegn them and
creation,and it is hard to deal wim such pictures directly,SO we need do some at first to make the picture more appropriate to dispose.
job
Secondly,Mathematical Formula Labeling.In this thesis,a
is proposed to
statistical method
judge whether one
or
text
line in

typeset Chinese document
contains
mathematical formulas 1ines and lidiffer greatly between pure text
Word EQ document.
Keywords:mathematical expression recognition;structure analysis;formula extraction;symbol labeling;symbol recognition
哈尔滨工程大学
学位论文原创性声明
on
extremely difficult to express the mathematical formula
computer
not only
because of its various characters
ways.So the researches many rules of science used in
进行分割,并对不同的特征字符,采用不同的处理算法,找出各个特征予块。
直到子块中无上下标。然后送行识别。 最后就是结果输出。在这一部分给出了Word EQ域的使用方法。并把结 构分析生成的语法树转换为可编辑的Word EQ格式。 关键词:公式识别;结构分析;公式提取:字符定位;符号识别
哈尔滨工程大学硕士学位论文
本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。
首先是预处理。图像在生成的过程中容易引进噪声,为了使图像达到我
们的要求,要对它进行二值化、平滑去噪、细化、大小归一化等处理。 其次是公式定位。利用统计计算文档正文一行文本字符宽度2阶中心矩 的修正值大小来判定这行文本中是否含有数学公式。在判定含有数学公式的 文本行中,利用数学公式符号与汉字字符外部形态特征的不同把它们区分开, 并定位数学公式。 然后是公式字符识别。由于定位的是~个整体的公式,而我们需要知道 公式包含的各个字符以及它们之间的位置关系,因此,就要分割公式所包含 的字符并且识别它们。本文采用快速算法进行字符的分割,用模板匹配的方 法进行字符识别。 接下来研究结构分析。本文采用基于特征字符的方法进行结构分析,提 出了特征字符和特征子块的概念。对输入的公式,按照特征字符的处理算法
哈尔滨工程大学 硕士学位论文 中文印刷体文档数学公式识别系统 姓名:李蕊 申请学位级别:硕士 专业:模式识别与智能系统 指导教师:王科俊 20070201
哈尔滨工程大学硕士学位论文
摘要
在科技高度发展的现代,数学表达式是大多数科技文献的核心。但是, 数学公式由于使用特殊符号繁多,排版格式复杂多变,因而在计算机上处理
formula based
there is
no
characteristic
character.We
different algorithm
input
deal wi廿l different
charaeteristic superscript
or
character.We segment the
subscript in the block.
between characters.We USe the formula and We can recognize
structure ofthe to
symbol
wiⅡl template marching.
Following.Structure
on
Analysis.We analyze the
use
相关文档
最新文档