文本信息抽取优化关键技术研究与系统实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本信息抽取优化关键技术研究与系统实现随着大数据时代的快速发展,企业在日常经营和信息化建设过程
中产生大量富有价值的数据信息。如何从海量分散的数据中快速且准确地分析出真正有用的信息是当前数据挖掘领域的重要研究内容。文本信息抽取技术正是数据挖掘领域的核心问题之一。在一些语义明确的场景下,基于规则的信息抽取方法在抽取的准确率和召回率方面都
有优异的表现。对于较大规模待抽取数据,提升信息抽取系统效率的
关键技术是提高正则表达式的匹配速度。在此背景下,本文对基于正
则表达式匹配的信息抽取技术进行了深入研究,通过对当前正则表达
式匹配加速相关的几种经典算法的比较和分析,针对原始DFA算法状
态跳转查找表中存在的问题,提出了基于字符分组的查找表压缩算法
的设计方案,并依托实验室FPGA硬件平台实现了对正则表达式匹配
速度的优化,并对基于该优化方案的信息抽取系统进行了设计和实现。本文首先介绍了信息抽取系统的主要任务、常用方法和评价标准,又
介绍了正则表达式匹配技术的常用方法和匹配过程的研究现状。然后通过分析现有正则表达式匹配技术的技术瓶颈,提出一种基于字符分
组的正则表达式匹配优化算法,并对算法的性能进行测试和分析。实
验结果表明,经过字符分组优化后的查找表算法,相较于原始查找表
结构,可以实现30%左右的空间压缩率以及超过50%的单个字符平均
匹配周期的缩短幅度。本文基于上述优化算法,对信息抽取系统进行
了设计与实现。该系统主要以裁判文书领域内抽取司法文书、环保部处罚文书及证监会处罚文书关键信息为例,将文本中的主要信息抽取
后结构化存储至数据库中。本文对此系统进行了功能验证和性能测试。实验结果表明,对于符合规范的数据样本,本文提出的方法具有较高
的准确率和召回率,在一定程度上提高了此类系统的抽取性能。