基于Bootstrapping的新闻事件型实体关系抽取方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DOI:10.16196/j.cnki.issn.1673-4793.2017.04.009
News Event Relation Extraction Approaches Based on Bootstrapping
SONG Qing1 , QI Cheng-Lin1 , YANG Yue2
( 1. New Media Institute, Communication University of China, Beijing 100024 , China; 2. Faculty of Science and Technology, Communication University of China, Beijing 100024 , China)
第 24 卷,第 4 期 2017 年 8 月
中国传媒大学学报自然科学版 SCIENCE AND TECHNOLOGY) JOURNAL OF COMMUNICATION UNIVERSITY OF CHINA(
Vol 24,No 4 Aug,2017
Leabharlann Baidu
基于 Bootstrapping 的新闻事件型实体关系抽取方法
求, 但仅能提供符合条件的新闻文本, 用户仍需要通 读全文来获取新闻所包含的事件内容。 此外, 新闻 记者进行新闻报道时, 要花费大量的时间从以往相 关报道中获取相关知识作为素材。 因此, 如何帮助 用户快速准确的获取新闻文本中所包含的核心内容
第4期
宋卿等: 基于 Bootstrapping 的新闻事件型实体关系抽取方法
[9 - 11 ]
47
就成为近几年新闻领域的一个研究热点 。 IE ) 技术的主 信息抽取 ( Information Extraction, 要目的是从非结构化自然语言文本中抽取实体 、 实 体关系和事件信息。其中实体关系抽取 ( Entity Relation Extraction) 用于识别实体间的语义关系。 例 如 “国家主席习近平在中南海会见到访的美国总统 , “习近平 ” 奥巴马” 一句中 和“奥巴马 ” 是其中包含 “会见 ” 的两个命名实体, 而 是两个实体间的语义关 系词。我们可以看到: 如果信息抽取是将非结构化 的自然语言文本表述为结构化的表格数据, 而实体 识别确定了表格中各个元素的话, 那么实体关系抽 [1 ] 取则是确定这些元素在表格中的相对位置 。 总 之, 实体关系抽取是在实体识别的基础上 , 将无结构 的自然语言文本中包含的实体间的语义关系提取出 来, 然后以三元组 ( 实体 1 、 关系、 实体 2 ) 的形式存 储在数据库中, 供用户查询或其他软件系统复用 。 本文针对中文新闻的特点, 提出了一种面向开放领 域的中文新闻事件型实体关系抽取方法 。
1 1 2 戚成琳 , 杨越 宋卿 , ( 1. 中国传媒大学 新媒体研究院, 北京 100024 ; 2. 中国传媒大学 理工学部, 北京 100024 )
现有的中文实体关系抽取方法都针对属性型关系 , 忽略了事件型关系的抽取 ; 摘要: 新闻所包含核心内容是事件 , 新闻内容涉及领域广 , 要求关系抽取方法具有良好的领域扩展能力 ; 同时, 开放域人工标注训练语料库的难度较 大。针对上述问题, 本文提出 Bootstrapping 的关系种子集自动生成方法 , 并在迭代过程中加入扩展和过滤规则 , 最 终得到准确度和复用性较高的实体关系提取模式 。通过实验测试, 本文提出的方法在事件型实体关系的提取中能 够取得良好效果。 关键词: 关系抽取; 事件型关系; Bootstrapping; 开放模板 中图分类号: TP391. 1 文献标识码: A 文章编号: 1673 - 4793 ( 2017 ) 04 - 0046 - 05
收稿日期: 2017 - 04 - 15 基金项目: 北京市科委项目( Z161100000216141 ) ; 中国传媒大学工科规划项目 ( 3132016XNG1605 ) 中国传媒大学博士研究生 、 讲师. E - mail: songqing@ cuc. edu. cn 作者简介: 宋卿( 1982 - ) , 男( 汉族) , 贵州人,
Abstract: Event is the core content of the news. The entity relation extraction methods, which have been obtained, can only be used for extracting property relations. And the work on event relation extraction is neglected; News contents involving a wide range of fields, require the relation extraction method has domain expansion capability; and it is difficult to annotate the training corpus. To solve the above problems, we proposed an automatic seed set generation method of bootstrapping , and add the extension and filtering rules throughout the iteration, finally get entity relation extraction template with accuracy and reusability. The experimental results show that the method proposed in this paper can achieve good results in the extraction of event entity relation. Key words: relation extraction ; event relation ; Bootstrapping; open template 随着媒体行业信息化程度不断加深, 互联网已 成为媒体机构最重要的宣传阵地, 中文新闻网页总 量也早已过亿。面对海量的新闻内容, 传统的搜索 引擎基于关键字匹配和网页重要度排序等方法 , 虽 然在一定程度上能够解决用户查询新闻信息的需
相关文档
最新文档