印刷体数字识别方法的研究---周初洪

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

印刷体数字识别方法的研究

周初洪

(上海交通大学医学院资产管理处,上海,2006.2)

摘要:在信息化飞速发展的今天,光学字符识别是一个重要的信息录入与信息转化的手段。其中数字的识别有着非常广泛的应用。本文中作者结合工作实际,分别分析了十个阿拉伯数字的不同特征,设计了具有通用意义的可能性,着重研究探讨该技术的应用可行性,并且尝试将向其他方面推广该技术。

本文首先探讨数字识别技术的现实意义,然后转向技术层面,重点研究图像处理、特征识别、算法推敲等环节。在特征识别技术中提出了“伤口”算法。

在结合相关硬件进行的实际操作中,识别效果良好。

关键词:OCR、数字识别、编号扫描、图像处理

Research of Printed Digit Recognition

ZHOU Chu-hong

(Asset Dept , Medical College of Shanghai Jiao Tong University, Shanghai, 2006.2)

ABSTRACT: OCR(Optical Character Recognition) has become one of the important method in gathering information and information transformation. Printed digit recognition has a promising business feature in many fields in society. The author found something in practice, analyzed the different characteristic of ten Arabic numerals respectively, designed to the possibility of the in general use meaning, emphasizing that technical applied possibility of the research study, and trying to expand that technique toward other aspects.

This text inquiries into numeral recognition to realistic meaning first, then turns to the technique level, the point is to research picture processing, characteristic identification and recognition, calculate way deliberation etc. Put forward "wound" calculate way in the characteristic identification.

We have got a good result combined with related hardware on the database of MNIST and practice.

Key Words: OCR printed digit recognition image processing

1 绪论

1.1 问题的由来

作为光学字符识别技术(Optical Character Recognition, 简称OCR)的一个分支,数字识别(Numeral Recognition),它的研究对象是:使计算机能够自动识别写在传统载体(纸、标牌等)上的数字。

在条形码普遍使用和条码扫描技术日益成熟的今天,脱机印刷体数字的识别仍然具有非常重要的意义和不可代替的作用,比如:邮政编码、统计报表、银行票据、车牌监管、纸币编码识别等等。近几年,我院开始大力推广设备管理的网络化在很大程度上要依赖原始数据信息的输入,如果能通过对设备标牌上编码的识别技术带动设备普查、设备变更等日常工作的同步数字化,无疑会促进这一项目的进一步发展。在以往浩如烟海的标牌中虽然没有使用条形码,但是却有着非常规范的印刷体设备编码,所以作者就开始着手利用现有资源,尝试着用OCR 技术组建设备管理网络。

图1.1 两种款式的现役设备编号标牌

1.1.1 传统设备检查中普遍存在的问题

1、设备较少的部门实现了设备普查,设备多的部门只能抽查。而抽查率由于人力和时限等原因普遍都不高。

2、各部门的设备保管员与设备检查人员重复检查。设备检查前一般都要求各保管员事先进行自查,然后我们再复查。自查的目的是让各保管员熟悉设备状况和安置地点,这样可以便于复查。但现在复查的时候还是需要双方人员反复走。这样既有碍各部门人员的正常工作,也极大地降低了检查效率,间接伤害了保管员的工作热情。

3、一些非常个人化的物品,比如笔记本电脑、移动硬盘等,往往检查不到。保管员对一些敏感人员也有难言之隐。

4、传统的账本正逐步取消,原先的“帐物卡”体系正向“网物卡”的现代管理模式过渡。管理模式的变革要求我们开发出一套全新的设备检查方式,与时俱进,克服上述不足,适应科学的、以人为本的管理理念。

1.1.2 设想方案

1、开发设计手持式设备检查仪。它能像条形码阅读器那样识别阅读标签上的设备编号,并能通过USB等接口与电脑相连。

2、检查某部门前一段时间(具体看该部门设备数量多少)把手持检查仪下发给该单位,让保管员拿着它先自查。这样一些正常、完好的设备大都能覆盖。有些未贴标牌、标牌残损或者手工书写的情况就能暴露出来。

3、自查结束后我们进驻该部门进行复查。从检查仪上导出已检查的设备编号,对照网上账本,对其中的一部分可以再次复查,重点对没有检查到的设备进行检查,重点听取保管员对某些设备出现问题的描述,重点填写好大型设备效益表等。

1.1.3 预期效果

1、设备检查率大大提高。在人力投入增加不多的情况下,实现了精细管理,更好了适应了设备众多化、复杂化的趋势。

2、认真的考核促进科学的管理。考核制度的变革可以引发管理模式的进步。比如规范贴牌、防止标牌污损等。

3、由于设备检查是一年一度的,所以作为管理部门,我们有半年左右的时间进行前期准备,包括检查仪的开发和适应性校验,对各部门保管员的培训等等。

4、对一些特殊设备,如空调或无法贴牌的移液器、狗笼兔笼等还是需要实地查看的。对个人化很强的物品,可以让保管员在自查阶段找到,这也比在几次复查内获得的效果好。

5、检查仪的识别率做不到百分百,面对数以万计的设备编号,它也许会出现比例很小的识别错误或者无法识别的情况。这可能缘于它自身,也可能是标牌污损或者使用不当。这时也需要一定的人工介入。

1.2 OCR方法简介

对多数OCR系统,其一般步骤如图1.2所示。

图1.2 一般识别过程

1、图像采集阶段,是取得要识别所要的原材料,即各个字符集的图像。主要利用光学仪器,如照相机、摄像机、扫描仪等等。

2、预处理阶段,是对上述采集到的图像进行识别前所必要的一些处理工作,主

相关文档
最新文档