手写文字识别技术的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

手写文字识别技术的研究

关兵

摘要:随着计算机性能的提高和科技的不断发展,随着信息时代的到来,为适应社会的需要,文字识别技术也将更完善。OCR技术,利用光学技术对文字或字符进行扫描并转换成计算机内码,其工作原理是通过扫描仪或数码相机等输入设备获取文字、表格、图片等信息,利用各种模式算法分析文字形态特征,判断出文字的标准编码存储在文件中。在现实生活中有着广泛的应用价值。

关键词:手写文字识别 OCR技术形态特征模式识别

引言

计算机文字识别,俗称光学文字识别,其英文术语为Optical Character Recognition(缩写为OCR),是指通过计算机技术及光学技术对印刷或书写的文字进行自动的识别,达到认知的目的,是实现文字高速自动录入的一项关键技术。到目前为止,汉字OCR是模式识别技术的一个分支,其主要目的是将汉字(手写体与印刷体)自动读入计算机。而手写文字识别技术,是指通过计算机来识别手写文字的一种识别文字的技术。

随着信息化的到来,OCR文字识别技术发展很快,在日常生活中日益重要。文字识别是中文信息录入的快捷手段,由于汉字是非字母、非拼音化的文字,笔划复杂多样,人工键入速度慢而劳动强度大,计算机自动识别文字或语言方式解决了这一难题,能快速高效地将汉字输入进计算机;文字识别技术是提高办公自动化水平的主要因素。办公自动化就是要借助计算机来进行文档的处理,以代替人们日常的办公活动,在现代社会,图像信息占有较大的比重,存在大量文字信息,因此,文字的自动识别对图像的处理有重要的意义;文字识别技术丰富和完善了文字识别理论。现在人们已可通过手写文件经OCR产品的识别录入计算机,大大推动发展了文字识别理论;文字识别是智能计算机智能接口的重要组成部分,智能计算机能认识文字、图像和景物,能听懂语音、理解文字。视觉是智能计算机接受外界信息的主要手段,而识别文字是智能计算机必备的功能。

一、OCR技术的发展

OCR概念的诞生,要早于计算机的问世。早期的OCR多以文字的识别方法研究为主,识别的文字当时仅为0-9这几个数字。后来随着计算机的出现和发展,OCR研究才在全球范围内广泛研究和发展。OCR发展至今,可分为三个阶段:

1、第一代OCR产品出现于60年代初期,在此期间,IBM公司、NCR等公司分别研制出了自己的OCR软件,最早的OCR产品应该是IBM公司的IBM1418。它们只能识别印刷体的数字,

英文字母及部分符号,而且都是指定的字体。60年代末,日立公司和富士通公司也

研制出了各自的OCR产品。

2、第二代OCR系统是基于手写体字符的识别,前期只限于手写体数字,从时间上来看,是60年代中期到70年代初期。 1965年IBM公司研发出IBM1287,并在纽约世界博览会上展出,开始能识别印刷体数字、英文字母及部分简单的符号。第一个实现信函自动分拣系统的是东芝公司,两年后NEC公司也推出了这样的系统,到1974年,分拣率达到92%-93%。

3、第三代OCR系统要解决的技术问题是对于质量较差的文稿及大字符集的识别,例如汉字的识别。1966年,IBM公司开发的OCR系统利用简单的模板匹配法识别了1000个复杂的印刷体汉字,到了1977年,东芝公司又制出可识别2000多印刷体汉字的单字汉字识别系统。

我国在OCR 的研究方面起步相对较晚,70年代开始进行数字、英文及符号的识别研究,70年代末开始进行汉字的研究,到1986年,汉字的识别进入了一个具有成果性的阶段,不少单位推出了中文OCR 产品。到目前为止,印刷体汉字的识别率达到了98%以上,手写体的识别率也在70%以上,并且可对多种字体、不同字号混排识别,国家“863”计划对该方面的研究给予了很大的资助。目前,我国正在争取实现OCR 产品识别精度更高、识别速度更快,能同时支持单机和网络操作,使得使用更方便,应用更广泛,达到不同用户的使用要求。

二、文字识别的原理与方法

汉字OCR 的原理是将文字通过光电输入设备,如扫描仪、摄像机、写字板等,转换成二维的点阵信息后,通过对相应的识别方法转换成汉字文字。完成这一套转换工作的是汉字识别系统。文字的识别是指通过一定的方法和技术提取文字的特征并将其存储于机器设备中,实现对文字的自动判别。

1、汉字识别系统的组成

汉字识别系统主要包括以下几个步骤:汉字图形输入、预处理、单字识别及后处理。汉字图形输入是指通过录入设备将文稿录入到计算机中,也就是说实现原始稿件的数字化,现在用的比较普遍的设备是数字化扫描仪、数字相机等;预处理是指在进行文字识别之前的一些准备工作,主要包括版面分析、图像净化及二值化处理、文字切分、正规化处理等,这一阶段的工作是很重要的,处理的效果如何,直接影响到识别的准确率;单字识别则体现着文字识别的核心技术,主要包括文字特征抽出的方法及分类判别算法。人能够通过大脑很简单地认识文字,是因为在人的大脑中已经保存了文字的特征,像文字的结构,笔画等。要想让计算机去认识文字,首先也要存储类似的信息,那么,存储什么样的信息及如何提取这些信息,则是一个比较复杂的事情,而且要求达到很高的识别率。通常的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析,常用的方法是结构分析方法和统计分析方法;后处理是指对识别出的文字,或者多个识别结果采用词语进行上下文匹配,即将单字识别的结果进行分词,与词库中的词进行比较,以提高系统的识别率,减少误识率。

2、汉字识别方法

对于文字的识别,从文字类型上划分,通常分为印刷体文字的识别和手写体文字的识别;从识别的方式划分,通常分为在线识别和脱机识别。由于印刷体与手写体的文字特征差异较大,所以在软件识别上,其处理方法是不同的。下图描述了文字识别系统的组成:

图1 文字识别系统组成图

在汉字识别系统中最为重要的部分是识别器,识别器的质量可以说基本决定了汉字识别系统的性能。目前汉字的识别还只停留在模式识别上,模式识别主要有两种,即统计模式识别和结构模式识别。OCR 的应用主要表现在以下几个方面:在线式的文字识别,是指书写完一个文字后立刻进行识别,如在PDA 中文字的录入,汉字手写板等;表格文字识别,是指对在固定印刷的表格中填写的数据进行识别,如税务申报表的录入;纯文本文字识别,如文件的录入,报刊杂志的录入等。

统计模式识别是指提取待识别汉字的一组特征值,然后按经一定准则所建立的统计函数

相关文档
最新文档