基于有限状态机的OCR识别结果逻辑重构研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于有限状态机的OCR识别结果逻辑重构研究
Research on Logical Text Reconstruction of OCR Recognition Results Based on Finite State Machine 王蕊WANG Rui;吕震宇LV Zhen-yu;孙全亮SUN Quan-liang
（华北理工大学管理学院，唐山063200）
（College of Management，North China University of Science and Technology，Tangshan063200，China）摘要:OCR是一种较为成熟的图像文字识别方法，现有OCR技术具有准确性好、效率高等优点，但在实际应用中仅能完成文字的识别，尚不能对识别得到的文字进行业务逻辑重构，从而形成具有上下文逻辑意义的文字结果。

本文构建了一种能够对文字识别结果进行逻辑重构的OCR内容重组方法，通过分析文档版式信息获取文字行状态，结合识别得到的文字结果构建行状态机，通过状态机完成对文字识别结果的逻辑重构。

实验结果表明，该方法在高考招生计划OCR识别过程中，不但能够完整识别高校与专业信息，还能够完成高校和专业间包含关系的识别，具有很好的研究与推广价值。

Abstract:OCR is a relatively mature image text recognition method.The existing OCR technology has the advantages of good accuracy and high efficiency,but it can only complete text recognition in practical applications,and yet not able to reconstruct the content by business logic,so as to form a contextual logic meaning.This paper constructs a method that can logically reconstruct the results of text recognition.By analyzing document layout information,a Finite State Machine is constructed,with the help of text line state,OCR text recognition results are reconstructed through the state machine.The experimental results on College Entrance Examination Plan Recognition show that this method can not only fully identify the information of universities and majors,but also can complete the inclusion relationship between universities and majors,which has good research and promotion value.
关键词:有限状态机；OCR；逻辑重构；高考招生计划
Key words:finite state machine；OCR；logical text reconstruction；college entrance examination plan
中图分类号:TN948.61文献标识码:A文章编号:1006-4311（2021）11-0182-04
0引言
OCR（Optical Character Recognition，光学字符识别）是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

现有OCR技术通常只是机械地将图片上的文字信息识别出来，行与行之间孤立且不具有上下文关系，不能识别出行文字间的逻辑关系。

然而绝大多数待识别文字材料的行与行之间存在复杂的逻辑关系，这些逻辑关系决定着识别结果应该是具有逻辑含义的文字段落信息而不仅仅是一行行孤立的文字。

近年来，高考志愿推荐填报系统的飞速发展对高考招生计划的数字化识别也提出了更高的要求。

由于高考志愿填报窗口期非常短，这就需要一种能够迅速识别高考招生计划文字信息，同时还能将这些文字信息转化为关系型数据的OCR识别结果逻辑重构方法。

高考招生计划文字行之间存在复杂的逻辑关系，这些逻辑关系包括但不限于：①下一行文字是上一行文字的继续。

例如某专业名称特别长，需要多行记录；②下一行文字与上一行文字是同一事物的不同属性。

例如上一行是专业名称，下一行是该专业的学费；③下一行文字与前面几行文字是平行关系。

例如上下若干行都是描述不同的专业信息；④下一行文字与前面几行文字是包含关系。

例如前面几行文字描述的是一所高校，而下面几行描述的专业隶属于上面的高校。

如何有效的识别出这些关系，进而对OCR识别的文字结果进行逻
辑重构，形成结构化数据是摆在面前迫切需要解决的问题。

1相关研究
现有文字识别相关研究主要围绕文本识别和古籍图
书数字化展开。

文本识别领域重点围绕如何提高识别精
度，古籍图书数字化方面围绕通过数字化对古籍图书整
理、推广、保护方面展开。

刘明英[1]研究了OCR技术在档案信息数字化过程中通过设置合适的参数、加强对原始图像
的处理以及进行人工校对来提高OCR识别率的方法。

对OCR识别结果的逻辑重构方面的研究相对较少，主要是根据文字块图像特征推测文字逻辑内容，文字上下文关系
相对较为简单。

兰天[2]等人使用自定义模板技术从电子假条图片中扣取员工姓名、请假时段、事由等信息进行云端OCR识别，文字的逻辑重构取决于模板的定义，流程较为繁琐且缺乏自动化。

陈瑞钦、王大伟[3]发明了一种对名片OCR识别结果进行信息重组的方法，该方法根据名片文字块几何位置布局特征推测文字逻辑内容，进而形成具有逻辑关系的名片识别结果。

以上OCR文字重构的内容相对简单，难以推广至一般OCR识别结果的逻辑重构。

有限状态机简称状态机，是表示有限个状态以及在这
些状态之间的转移和动作等行为的数学模型。

该方法通过
分析所研究问题的逻辑关系，列出状态集和状态转移关系
并构建状态机以解决所研究的问题。

有限状态机通常可以
实现在复杂的状态中进行有限迁移，简化问题复杂度。

闻
霞[4]等人通过设计有限状态机选择工作模式的参数，实现工艺的半自动或全自动选择。

孟祥彩[5]等人将有限状态机应用于无线电电子学领域，实现了一种能在相同报文头情况下区别报文信息的报文检测器。

张子悦[6]等人使用有限
———————————————————————
作者简介:王蕊（1989-），女，河北唐山人，华北理工大学管理学院2018级工程管理专业硕士研究生，研究方向为信
息化与管理创新；吕震宇（通讯作者）（1976-），男，河
北唐山人，华北理工大学管理学院教授，硕士生导师，
研究方向为管理信息系统、数据分析与挖掘。

2.2显性行状态提取
2.2.1基于图像特征的显性行状态提取
针对不同图像特征可以设计不同的显性行状态提取方案。

以陕西省高考招生计划为例，利用二值化图像投影信息可以完成对图像的行切分，根据每行的左边距信息可以提取出基于图像特征的显性行状态信息。

图2中，如果行左边界在左侧竖线左边，则可推断出行状态为“高校首行”（下文中记做“Unv”）；若行左边界在两条竖线中间，可推断出行状态为“专业首行”（下文中记做“Major”）；否则，行状态为“普通行”（下文中记做“Normal”）。

可通过对图像
图3右侧列出了更多的可通过有限状态机推断出来的隐性行状态信息，包括“高校附加行”、“高校地址首行”、“高校地址附加行”等等，结合这些行状态信息，可以构建出更为复杂的上下文关系，从而实现全面的文字逻辑重组。

图4在图3提取的所有行状态信息中，选取8种行状态（高校首行、高校附加行、专业名称首行、专业名称附加行、专业注释首行、专业注释附加行、专业学费首行，专业学费附加行）构建了一个经过简化的有限行状态机，在此行状态机中，状态节点由“显性行状态”和“隐性行状态”共同构成，而驱动行状态变更的因素有两个：①下一行的“显性行状态”；②下一行OCR文字识别结果的文字特征。

图1整体设计流程图
图2高考招生计划截取图图3版式信息中提取的显性行状态和逻辑重构需要的
行状态对比
3实验结果与分析
将陕西省2019年高考招生计划以600dpi 扫描为图
像信息，对图像进行预处理（黑白二值化、去除噪点、倾斜矫正）后，识别图像特征并提取显性行状态信息；根据显性
图5基于有限行状态机和有限上下文状态机的OCR 识别结果逻辑重构过程
图4有限行状态机
0引言随着“智慧城市”的提出，新时代的环保设备的开发以及城市生活垃圾的智能化分类已成为我国环保事业的新方向。

本文设计的智能分类垃圾箱是在自动开关门、垃圾满检测功能的基础上，利用STM32单片机丰富的通信接口和I/O 端口，通过语音控制技术实现垃圾的自主分类、WIFI 远程控制为实时掌握垃圾动态信息提供保障、可回收垃圾称重IC 卡积分功能可建立垃圾分类的激励机制，本设计可使分类垃圾箱更具智能化和实用性。

1总体设计
本文设计的智能分类垃圾箱主要有三大功能：语音识别分类与播报、垃圾满信息远程接收与遥控以及可回收垃圾称重积分。

系统总体设计框图如图1所示，控制系统以STM32F103RCT6单片机为主控芯片，细化设计功能，设计以语音识别模块、语音播放模块、红外传感器模块、WIFI 模块、无线射频识别（RFID ）模块、称重模块、伺服舵机模——————————————————————
—基金项目:江苏省大学生创新创业训练计划项目（编号
202012920024Y ）。

作者简介:何晨辉（2000-），男，浙江嘉善人，南京科技职业学院
机电一体化技术专业。

基于单片机的智能分类垃圾箱设计
Design of Intelligent Sorting Dustbin Based on MCU
何晨辉HE Chen-hui ;李昌胜LI Chang-sheng ;朱一芃ZHU Yi-peng ;王琰WANG Yan
（南京科技职业学院电气与控制工程学院，南京210048）
（School of Electrical and Control Engineering ，Nanjing Polytechnic Institute ，Nanjing 210048，China ）
摘要:设计一种具有语音识别分类与播报、垃圾满信息远程接收与遥控、可回收垃圾称重积分等功能的智能分类垃圾箱及其控制
系统。

该系统以STM32单片机为核心控制单元，外接LD3320语音识别模块、SYN6288语音播放模块、红外传感器模块、RC522RFID 读写模块、HX711称重模块、伺服舵机、LCD 液晶显示屏以及WIFI 模块，通过软硬件系统联调实施全面控制。

系统具有结构简单、性能稳定、低成本、智能化等优点，为智能垃圾分类的研究提供参考。

Abstract:An intelligent sorting dustbin and its control system are designed,which has the functions of speech recognition classification and broadcasting,remote receiving and control of garbage full information,and weighing and integral of recyclable garbage.The system takes STM32single chip microcomputer as the control core,external LD3320speech recognition module,syn6288speech playing module,infrared sensor module,RC522RFID reading and writing module,HX711weighing module,servo actuator,LCD and WIFI module,and implements comprehensive control through debugging of software and hardware system.The system has the advantages of simple structure,stable performance,low cost and intelligence,which provides a reference for the research of intelligent waste classification.
关键词:STM32；语音识别与播报；RFID ；称重；WIFI Key words:STM32；speech recognition and broadcasting ；Radio Frequency Identification ；weighing ；WIFI 中图分类号:V258+.5文献标识码:A 文章编号:1006-4311（2021）11-0185-03
行状态和隐性行状态构建有限行状态机，用于追踪行与行之间的状态变更；同时构建有限上下文状态机用于追踪高校和专业之间的包含关系、专业注释和专业之间的隶属关系、高校名称附加行与高校名称之间的关系等；随着对OCR 识别结果的逐行处理，有限行状态机和有限上下文状态机相互配合将文理按照逻辑关系逐行组装起来，形成最终具有完整业务逻辑关系的关系型数据。

有限上下文状态机的构建与有限行状态机的构建类似，本文不再赘述。

图5展示了陕西省2019年高考招生计划OCR 识别结果逻辑重构的完整过程。

4结束语
本文综合利用图像中的“版式”信息和OCR 文字特征信息识别出每行文字的“显性行状态”，结合“隐性行状态”构建了用于识别行与行之间关系的有限行状态机，使用下一行“显性行状态”和下一行OCR 文字特征作为状态变更条件，实现了从当前行到下一行的行状态跃迁。

配合有限上下文状态机，可以对OCR 识别结果进行精准文字逻辑重组，最终形成具有上下文逻辑关系的结构化数据。

实验结果表明，该方法对文字的逻辑组装准确，上下文识别清晰，还能够借助有限状态机识别出潜在的OCR 文字错误（原理：若无可行的状态变更路径可走，说明OCR 文字识别出现错误或显性行状态识别出现错误）。

该方法解决了传统OCR 只能够文字识别不能对文字进行逻辑重构的问题，可以应用在多种需要识别文字逻辑关系的OCR 场景中。

参考文献:
[1]刘明英.档案数字化过程中OCR 技术的应用分析[J].中国高新技术企业，2017（05）：55-56.
[2]兰天，邓小云.人事部门使用OCR 技术实现OA 系统请假条汇总[J].经济研究导刊，2020（23）：73-74.
[3]陈瑞钦，王大伟.名片识别方法及装置[P].广东：CN106709488A ，2017-05-24.
[4]闻霞，任雯，赖森财，曾显杰.基于有限状态机模型的全自动烫印机控制系统设计[J].工程设计学报，2020，27（06）：771-780.
[5]孟祥彩，王中训.基于状态机的报文检测器设计[J].中国集成电路，2018，27（Z1）：41-44.
[6]张子悦，沈润，马群，王晓辉，李亚会.基于“状态机”模型的扫码操作掌上系统设计[J].科技风，2019（07）：89.。