人物关系抽取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学士学位论文
论文题目:基于人物信息嵌入的人物关系挖掘
姓名:刘春花
学号: BK1231209
院系:信息科学学院
专业:计算机科学与技术
指导教师:于东
二〇一六年六月
北京语言大学学士学位论文
(2012级)
论文题目:基于人物信息嵌入的人物关系挖掘
院系:信息科学学院
专业:计算机科学与技术
学生姓名:刘春花
指导教师姓名:于东
论文完成日期: 2016年6月
论文原创性声明
本人郑重声明:所呈交的论文,是本人在导师指导下,独立进行的研究工作及取得的研究成果。尽我所知,除了文中已经注明引用和致谢的地方外,论文中不包含其他人或集体已经发表或撰写的研究成果,也不包含为获得北京语言大学或其他教育机构的学位或证书所使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
签名:________
日期:________
学位论文知识产权权属声明
本人郑重声明:本人所呈交论文,是在导师指导下所完成的,论文知识产权归属北京语言大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版本,允许论文被查询和借阅,将论文编入有关数据库进行检索等。本人离校后发表或使用学位论文或与该论文直接相关的学术论文获成果时,署名仍为北京语言大学。
签名:________
导师签名:________
日期:________
目录
摘要......................................................................... I ABSTRACT.................................................................... II 第一章绪论 (1)
1.1 研究背景 (1)
1.2 研究现状 (1)
1.2.1 关系抽取的研究现状 (1)
1.2.2 人物关系抽取的研究现状 (2)
1.3 本文研究内容 (3)
1.4 论文框架 (4)
第2章中文信息处理相关工具介绍 (4)
2.1 相关工具 (4)
2.1.1 哈工大语言技术平台(LTP)功能简介 (4)
2.1.2 哈工大语言技术平台(LTP)的使用 (7)
2.2 Perl语言概述 (8)
2.3 正则表达式 (9)
第3章基于规则和依存句法抽取人物实体关系 (9)
3.1 基于半结构化数据上的规则抽取 (9)
3.2 基于依存句法的人物关系抽取 (10)
3.2.1 预处理 (11)
3.2.2人名实体在句中的位置分布 (11)
3.2.3 人名实体关系分类 (12)
3.3 基于句法分析的模式提取 (12)
第4章实验设计和实现 (18)
4.1 实验设计 (18)
4.3实验结果 (19)
第5章总结 (20)
致谢 (21)
参考文献 (22)
基于人物信息嵌入的人物关系挖掘
作者:刘春花指导教师:于东
摘要:互联网技术的高速发展使得网络上的爆发式增长,如何从这些大规模文本中获取有价值的信息并且将其转化为结构化的数据用于计算机的识别与处理是目前研究的重要课
题。开放信息抽取是指从无结构化的文本中抽取出指定的信息,比如实体识别、实体关系抽取,然后将其以结构化的形式填充到数据库中供用户查询或计算机进一步分析、处理。
本文研究的是人物关系抽取。本文以新闻网页和百度百科人物页面作为数据源,使用哈工大语音技术平台作为中文自然语言处理的工具,对无结构化的文本中出现的人物关系进行抽取,以构建人物关系数据库。本文重点研究下面几个问题。
首先,本文以句子作为限定,认为一句话中如果包含两个及以上人名,那么这句话中则有可能有包含人物关系的特征词。还对人名实体在句中的位置分布进行了研究,将人名实体的数量与句子的句法结构相结合进行分类。
其次,通过对中文语句进行句法分析,根据句法分析的结果,统计人名实体与关系特征词之间的依存模式,进而使用这些依存模式大数据上进行人物关系的抽取。
最后,使用人物关系特征词列表对抽取的人物关系三元组进行过滤和关系分类。
关键词:实体关系抽取,人物关系抽取,依存模式挖掘
Th e Figure Relationship Mining Based On Character
Information Embedding
Author: Liu Chunhua Tutor:Yu Dong
ABSTRACT: The rapid development of Internet technology makes the explosive growth of the Internet, how to extract the valuable information from these large-scale texts and convert them into structured data for the study of natural language processing is an extremely important issue. Open information extraction means extract structured information from unstructured text, such as the recognition of entities, and the extraction of their relationships. And then filled in these structured data to the database for further analysis and processing.
This paper studies the extraction of relationship between the characters. In this paper, news pages and Baidu Encyclopedia character page are used as a data source, using LTP as technology platform as the Chinese natural language processing tools, extracting the relationship between humans, and finally build character relational database. This paper focuses on the following questions.
Firstly, the sentence will be taken into consideration if it contains two or more name entities, because this sentence is likely to contain a characteristic relationship between the characters. Also, the location and distribution of the name entities in the sentence were studied, the syntactic structure of sentences and the number of name entities were combined to classification. Secondly, according to the results of the Chinese statement syntax analysis, collect the patterns between name entities and characteristics of their relationship, and then use these patterns to extract the relationships between the characters on big data.
Finally, filter and classify the triples extracted from the pattern by the list of feature words. KEY WORDS:Entity relation extraction, relation extraction figures, dependent pattern mining