元数据自动抽取调研报告

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

本科毕业论文调研报告

题目科技文献作者信息自动抽取与管理的研究

学生姓名陈飞翔

指导教师陈科文

学院信息科学与工程学院专业班级电子信息1002

本科生院制

内容摘要

元数据提供了网络资源描述、表达、管理和使用的基本方案,是网络资源组织和检索的核心所在。随着计算机技术和网络技术的迅猛发展,面对海量文献描述的需要,如何快速、高效地产生元数据成为数字图书馆建设过程中面临的一大难题。当前数字图书馆建设过程中,元数据大多由人工逐条标记输入,这不仅花费了大量的人力、物力和时间,而且也越来越不能满足海量文献管理的需要。若元数据信息可以自动生成、自动抽取,必将大大减轻信息人员的工作负担,极大地提高工作效率。

本文在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。

关键词：元数据抽取，PDF，基于规则匹配方法，基于格式定位方法

前言 (4)

第一章设计任务和研究背景意义 (5)

1.1设计任务 (5)

1.2研究背景及意义 (5)

1.3国内外研究现状 (6)

第二章PDF文件结构和解析 (7)

2.1 PDF文件的基本组成 (7)

2.2 PDF文档的逻辑结构 (8)

2.3 PDF解析基本语法 (9)

2.4 PDF解析过程 (15)

第三章语义元数据抽取设计的实现 (15)

3.1 PDF文件解析 (15)

3.2 内容元数据抽取分析 (17)

第四章总结 (19)

参考文献 (20)

前言

便携文档格式(Portable Document Format，PDF)格式是Adobe公司在其PostScript语言的基础上创建的一种主要应用于电子出版的文件规范系统。目前, PDF已成为电子文档发行和数字化信息传播事实上的一个标准,其广泛应用于学术界的论文交流和发布,如学术会议、电子期刊及一些论文收录机构等。PDF 文档本身是面向显示的,目的是方便用户阅读,文档格式中不含有便于机器处理的语义信息;同时,PDF字符串一般都经过编码,因而直接对PDF源文档进行语义信息处理,实现起来比较困难。因此,有必要考虑间接的途径,比如先将PDF进行预处理,转换成易于处理的格式。

XML(Extensible Markup Language)由于其所具有的开放性、灵活性、易读性和平台无关性等特点,已成为数据表示和数据交换事实上的标准。因此,随着XML 的日益广泛应用,将传统数据格式转换成XML,以便进行数据传输等操作的需求也随之增加。科技论文是一类具有规范格式的文档,对科技论文的查找与阅读成为当今各领域进行学术交流的重要渠道。因此,针对PDF格式及科技论文的特殊性,对PDF格式的科技论文元数据进行有效抽取,使其便于语义查询等处理具有重要的现实意义。

第一章设计任务和研究背景意义

1.1设计任务

（1）分析各类不同文献中作者信息不同的编排方式，研究PDF等常见类型文档的解析与转换技术以及信息抽取技术；

（2）实现从PDF等类型的电子文献中抽取作者基本信息，论文/项目/成果信息和联系信息：

（3）所抽取的信息存储于数据库货XML格式的文件中，并能对作者信息进行查询、校对增删等操作；

（4）编写文献作者信息抽取与管理程序，能连续处理多篇科技文献，通过实验来验证设计结果，并进行评估和进一步完善；

（5）重点考虑中文期刊文献的处理。

1.2研究背景及意义

随着网络的飞速发展，网上的信息资源也日益增多。人们获取信息的方式不再只局限于书本，更多的时候是在利用网上的电子资源。一些搜索引擎也应运而生，但是它们一般只针对网页文件，对一些文献的搜索力度还远远不够。因为很多搜索引擎都是基于关键字查找和全文检索技术，它们返回的结果对于用户来说往往过于庞大，且很多都是无用的信息，用户很难从中挑选他们所需要的资源。检索科技文献的用户，很多时候都是根据论文的标题和作者信息来进行查找的。而论文摘要和关键字往往涵盖了整篇论文的主要内容。标题、作者、摘要和关键字等元数据信息是基于内容的信息检索的基础，用户通过元数据结构检索能更方便地发现他们所需要的文献资源。因此，很有必要对论文的元数据信息进行自动的抽取、标引和整理工作，以便让人们能更直接、更方便地找到所需的文献资料。目前，网上发布的科技文献资源，大部分都是以PDF形式来发表的。要对文档中的文本内容进行处理，必须先进行格式转化。格式转化后，再对论文的元数据信息进行抽取。最主要、也最关键的元数据抽取工作是抽取出论文的标题、作者、摘要、关键字和引用信息等元数据。

1.3国内外研究现状

国内元数据自动抽取研究主要集中在国外元数据自动抽取工具与方法介绍、Web站点元数据信息抽取、期刊论文元数据抽取、学位论文元数据抽取、课程元数据信息抽取、空间地理信息元数据抽取等方面。通过中国知网（CNKI）数据库的题名检索方式，检索出2001—2008年发表的与上述研究主题相关的论文共14篇。在Web网络元数据信息抽取方面的研究论文有5篇，数量最多。由此可知，对Web元数据信息抽取技术与方法的研究引起了研究者最多的关注。从期刊论文的时间分布可以看出．我国关于元数据自动抽取的研究开始较晚。直到2001年才有图书情报界人十发文介绍国外的Web元数据自动生成工具；2003年没有相关论文发表；2008年元数据抽取相关论文最多。进入2l世纪以来，我国关于这方面的研究一直处在稳步前进状态、但一直没有成为学术界的研究热点。不过，2008年的数量翻倍(虽然总数量依然很低)是一个好的迹象，表明这方面的研究已经引起了更多人的关注。

我国有关元数据的研究起步较晚，在元数据的自动抽取方面的研究也是如此。对于国外元数据自动抽取技术和工具的介绍开辟了我国元数据自动抽取的研究。有关这方面的论文有两篇：一篇是中山大学图书馆的贺亚锋发表在《图书馆杂志》上的《Web站点元数据自动生成工具介绍》(2001)，另一篇是常娥等人的《元数据自动生成技术研究》(2006)。

目前，Web站点元数据自动生成工具可以分为编辑器和生成器两种，前者有英国ROADS计划的元数据编辑工具，后者有澳大利亚MWP计划的元数据生成工具。国外在元数据自动生成方面的项目有MGR，MWP和WWLIB。较有名的元数据自动生成工具有Klarity．DC．dot和CORC系统。虽然它们自动生成元数据项的数量有限，并且质量不高，但它们的出现意味着元数据的自动生成并非可望而不可及。此外，进行自然语言处理和语义网研究的学者也参与了这项研究，如Giuffrida 等人采用基于规则的模式匹配方法．尝试从PostScript格式的学术会议论文中抽取元数据。