关于面向半结构化文本的知识抽取研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于面向半结构化文本的知识抽取研究
半结构化文本是指以半结构化方式存储,凭借文本格式将其归纳成若干名词的集合,具有格式性和自由性相结合的特点,能兼顾风格统一和内容灵活。一方面,半结构化文本类别繁多,另一方面,半结构化文本广泛存在于现实生活中,各行各业中都能看到此类文本,不同的实际情况会产生不同形式的半结构化文本。这些文本都有相同的特点大量存在,更新速度快,存在对历史文本的分析和检索的需求等。为了更好地提高知识获取的效率,实现对半结构化文本的知识抽取、形成标准的格式并进行存储具有十分重要的现实意义。
半结构化文本与结构化文本(如主题词表、数据表)、非结构化文本(如微博、新闻报道)相比,半结构化文本的知识抽取受到结构与语义的双重约束。首先是结构不完备性,遵循的结构不足以直接解析相关内容,受文本载体形式制约较大;其次是语义相关性与复杂性,大量语义信息相关并隐含在句子级、篇章级文本中,内容表征复杂。
基于此,本文在梳理和总结众多学者研究的基础上,以半结构化文本知识抽取的载体类型、内容和技术方法为视角,对面向半结构化文本的知识抽取进行了研究,从而为更好地实现该类文本信息的有效抽取提供思路。
1半结构化文本知识抽取载体类型的划分及其相研究
半结构化文本中,由于数据源比较复杂,涉及的对象比较多,并且表达形式丰富多样,因此形成了不同的知识载体类型,这些不同的载
体存储内容的方式是不同的,导致对于不同的载体需要采用不同的抽取模式与技术方法。目前,已有许多学者从不同的视角对知识抽取载体的类型划分进行了论述,经过对先前研究的归纳与梳理,本文按照半结构化文本资源的表达形式将知识抽取载体类型划分为三大方面,即:科技文献、Web和其他类型。
1)科技文献。科技文献的表现形式多种多样,如作战文书方面,代表人物有郭忠伟、周献中和黄志同等人,他们构造各类作战文书的Schema库,利用Schema上的修辞谓词抽取相应的知识,最终构造文书内容自然语言问卷方面,苏牧、肖人彬等人提出神经网络识别方法和宽度优先法可以将聚类后的各个语句进行知识形式的转换,从而完成由自然语言问卷到面向对象知识体系的知识抽取过程。大百科全书方面,许勇、宋柔等人提出了一种基于隐马尔科夫模型的方法,即利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。在期刊方面,丁君军、郑彦宁、化柏林等人对学术期刊中的属性描述进行了数量关系和情感信息方面的分析,然后对学术概念属性抽取系统进行设计和实现,刘一宁、郑彦宁、化柏林等人针对学术期刊设计了一种学术定义抽取系统,通过混合使用模式规则、语法规则和词频统计以达到定义抽取的目的。
2) Webo Web的表现形式主要有Wikipedia, Web对象,Semantic; Web, Social Networks等,各个方面都得到相关学者的关注和研究。Wikipedia方面,K. Nakayama等人将Wiki作为Web语料库,详细揭示了其特点,并描述了锚文本链接在消除歧义和}可义词抽取中的重
要性。 Web对象方面,Nie Zaiqing等人认为W eb对象是一种有关某一Web信息的数据单元,可以用来收集、索引和排序。他们的项目从W eb数据源中,能自动地实现大规模产品对象的抽取。Semantic; Web方面,U. Shah等人设计了一种从包含自由文本和语义标记W eb 中检索文档的方法,并发现索引和语义标记的结合运用能提高检索效率。Sovial Network、方面,Tang Jie等人讨论了在ArnetMiner系统中的几个关键问题,目的是从学术社会网络中抽取和挖掘专家信息。
3)其他类型。主要有简历和表单等,简历方面,木百鹤等人通过对大量简历文本的分析,概括出了一种简历信息的本体模型,并提出了基于本体的知识抽取框架。表单方面,王振雷等人引人数据元字典和数据字典对报表业务逻辑进行了描述,同时还完成了对表单业务逻辑的描述。
2半结构化文本知识抽取内容的界定及其相关研究
内容是半结构化文本知识抽取的最终目标,是依附于载体而存在的,但同样内容的知识可以存储在不同形式的载体中。不同载体在表现形式上有一定的差异,但从知识内容表达的构成来看,知识抽取内容可以独立于知识抽取载体而存在。在载体分类的基础上,针对不同内容的构成进行相关知识抽取。因此,对知识内容进行界定与区分也是该领域重要的研究部分。综合现有的学术成果,关于知识抽取内容界定及相关研究主要集中在术语、定义、情感倾向性与属性4个方面。
2. 1术语抽取
术语是指在特定学科领域内用来表示概念称谓的集合。术语作为特
殊主题领域内对某特定概念的约定俗成的名称,具有意义单一、低歧义、高专指性、相对固定的上下文环境等特点,表述了领域内最重要的一些概念,并且构成了文献的语义特征。随着网络的飞速发展,新术语层出不穷,在此背景下术语抽取也越来越受到学者的关注。
目前,国内对于术语的研究主要集中在可比语料库构建、多语言抽取、规则过滤和自动、半自动术语抽取等方面。国外相关研究较为广泛和更为深人,主要集中于抽取模型、抽取算法研究等,这些都为术语抽取作出了重大贡献。
2. 2定义抽取
在知识内容表达中,定义是指对于一种事物的本质特征或一个概念的内涵和外延的确切而简要的说明与术语抽取相对应的是,定义抽取是抽取有关术语的说明。
国内较为成功的商业应用是CNKI,其提供对学术定义的快速查询,内容全部来源于CNKI全文库。使用学术定义搜索可以得到想要查询词汇的准确学术定义,并且可直接查询定义出处。不同于一般的网页和文献搜索等参考型搜索引擎系统,CNKI学术定义搜索是一部不断更新完善的学术定义词典,力求为用户提供最权威、最准确的学术定义。刘一宁等设计了一种定义抽取系统,详细介绍了系统中的各项关键技术,包括分词技术、抽取规则导人技术、句子抽取技术和加权词处理技术等,通过混合使用模式规则、语法规则和词频统计以达到定义抽取的目的困。
国外众多学者也展开了相关研究。N. Lavrac等使用形态句法模式、