开放信息抽取技术的现状研究_刘振张智雄
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 32 卷 第Байду номын сангаас11 期 2013 年 11 月
情报杂志
JOURNAL OF INTELLIGENCE
Vol. 32 No. 11 Nov. 2013
开放信息抽取技术的现状研究*
刘 振1,2,3 张智雄1
( 1. 中国科学院文献情报中心 北京 100190; 2. 徐州工程学院 徐州 221008) 3. 中国科学院大学 北京 100190)
收稿日期: 2013 - 07 - 05
修回日期: 2013 - 08 - 10
基金项目: 国家自然科学基金“基于语言网络的文本主题中心度计算方法研究”( 编号: 61075047) ; 国家“十二五”科技支撑计划项目“面向外
文科技文献信息的知识组织体系建设与应用示范”( 编号: 2011BAH10B00) 课题五“信息资源自动处理、智能检索与 STKOS 应用服务集成”的
摘 要 如何高效地自动理解网络上出现的海量文本信息,日益成为了个严峻的考验。美国华盛顿大学图灵中心
提出的开放信息抽取,是一个有效的解决方法。它具有领域的独立性,无监督抽取,对大量文本的可伸缩性等特点。
该论文首先介绍了开放信息抽取系统的主要功能,然后详细论述了三个主要的开放信息抽取系统的特点、组成部分
open language learning
0引言
文本是人类知识的基本库,随着微博、论坛社区等 社交媒体的快速发 展,每 天 都 有 海 量 的 文 本 在 网 络 上 产生,面对如此规模级别的数量,如何高效地自动理解 这些文本,日益成为一个严峻的考验。
传统的信息抽取主要满足从较小的同构语料库中 进行准确、狭隘、预先 定 义 的 请 求,如 果 涉 及 到 一 个 新 的领域,就需要定义目标关系,人工建立新的抽取规则
a. 关系抽取。对句子中的每一个动词,发现最长 的单词序列,该序列以该动词开始,还满足语法限制和 词汇限制,如果任何一对匹配相邻或者重叠,就把它们 进行合并。检验关系短语主要是通过正则表达式进行 匹配,如下:
V | VP | VW* P V = verb particle? adv? W = ( noun | adj | adv | pron | det) P = ( prep | particle | inf. marker) 语法限制,减少了支离破碎的抽取和通过轻动词 结构无信息的抽取,该模式限制关系短语或者是一个 简单动词短语,动词短语后面紧跟着一个介词或者助 词,或者是一个动词短语后面紧跟着一个简单名词短 语,最后是一个介词或者助词。 词汇限制 主 要 是 使 用 了 一 个 大 型 的 关 系 短 语 词 典,通过在 50 多亿条 w eb 句子的语料库中发现 POS 模式的所有匹配来构建该词典,为了允许关系短语可 以发生较小的变化,通过去掉辅助动词、形容词和副词 对每一个关系短语进行归一化处理。 b. 论元抽取。对于每一个关系短语,找到在这个 句子里距离该关系 短 语 左 边 最 近 的 名 词 短 语 ,不 是 相 对代词或者”there”,找到在这个句子距离关系短语最 近的名词短语,如果能找到这对( x,y ) ,就把( x,r,y ) 返回。 该系统的算法具有以下鲜明特点: 关系短语是从整体的角度来识别,而不是逐字的 识别; 潜在的短语,是通过大规模语料的统计基础上发 现; REVERB 是关系优先,而不是论元优先。这就避 免了把一个关系短语里的名词当成一个论元,例如 He claimed responsibility for the accident. 这个句子里面 responsibility 就不是一个论元。 2. 3 R2A2 系统 以前的开放信息抽取系统都采 用了简单的启发方法,例如抽取简单的名词性短语或 维基百科实体作为论元。但是这些启发式方法不能适 应语言的复杂性,开放信息抽取系统产生的大量的错 误都是源于 不 正 确 或 者 不 合 适 的 论 元。65% 的 RE-
研究成果之一。
作者简介: 刘 振( 1979 - ) ,男,博士研究生,研究方向: 智能信息处理和信息系统; 张智雄( 1971 - ) ,男,研究员,博士生导师,研究方向: 智能
信息处理。
·146·
情报杂志
第 32 卷
促进领域无关的知 识 抽 取 应 用,它 能 从 文 本 中 抽 取 出 大量关系对,从网络中抽取数百亿的命题,识别蕴含规 则,映射到已有的本体 ,进行学习偏好分析,获得通用 知识,并可被应用到 各 种 类 型 和 规 模 的 通 用 知 识 库 和 问答系统中。除需要标注的文档集外,OIE 不需要任 何其它人工输入,同时为保障在处理大规模文档集时 的效率,OIE 只需要对文档集进行一次处理。从文本 中抽取出三元组,不需要预先准备好的词汇表,在任意 的句子中识别关系 短 语 和 相 关 论 元 ,尽 量 避 免 专 门 的 名词和动词,仅仅根据语法标记或封闭词类型,抽取系 统更加关注关系如 何 用 通 用 的 方 法 表 达 出 来 ,这 样 更 有利于跨领域,主要以动词( 或动词短语) 和特定的论 元的形式,获得海量的文本的浅表语义表示。因此,开 放信息抽取系统一般具有三个显著的特点: 领域的独 立性,无监督抽取,对大量文本的可伸缩性。开放信息 抽取技术可以广泛应用在语义搜索、问答系统建设、网 络内容管理以及知识库构建等领域。
2. 2 REVERB 系统 由于 TEXTRUNNER 系统存 在的两大问题: 支离破碎的抽取: 被抽取出来的关系有 些是没有意义; 不包含信息量的抽取: 抽取时候省略了
关键信息,主要是由于原来的系统对轻动词结构( light verb constructions 由动词和名词组成的多个单词的谓 语,其中名词包含谓语的语义联系内容) 处理不当造 成的。在基础进行了改进,开发出来 REVERB[3]系统 ,在基于动词的关系中,增加了语法限制和词汇限制。 系统在 500 多 万 web 句 子 语 料 库 中,发 现 了 所 有 的 POS 模式的匹配,系统大概有 170 万确切的规范化的 关系短语,在抽取的时候存在内存中,把进行了词性标 注和 NP 组块的句子作为系统的输入,输出是一系列 的 ( x,r,y) 抽取三元组。该系统主要的抽取过程:
3. University of Chinese Academy of Sciences,Beijing 100190)
Abstract How to efficiently and automatically understand the mass text information appearing on the Web is increasingly becoming a severe issue. Introduced by Turing Center of University Washington,Open Information Extraction ( OIE) is an effective method w ith characteristics of domain - independent,unsupervised extraction,scalability to large amounts of text. This paper firstly introduces the main functions of OIE system,and then discusses in detail three major open information extraction systems about their features,components, and advantages and disadvantages,and then analyzes the improvement methods and trends of OIE. Finally,the future development of the OIE technologies is explored. Key words Open Information Extraction( OIE) unsupervised extraction relation phrase argument extraction semantic role labeling
以及优缺点,接着分析了开放信息抽取系统的改进方法和发展趋势。最后对未来进行展望。
关键词 开放信息抽取 无监督抽取 关系短语 论元抽取 语义角色标注 开放语言学习
中图分类号 TP18
文献标识码 A
文章编号 1002 - 1965( 2013) 11 - 0145 - 04
On the State - of - the - art Technology of Open Information Extraction
第 11 期
刘 振,等: 开放信息抽取技术的现状研究
·147·
VERB 的抽取错误虽然都有正确的关系短语,但都有 错误的论元。
R2A2[4]系统增加了一个论元识别器,其实就是一 个论元学习器 ( ARGLEARNER) ,更好在关系短语中 抽取出论元。找到 Arg1 和 Arg2,也就是识别出来每 个论元的左边界和右边界,包含了三个边界分类器,分 别是 Arg1 右边界分类器、Arg1 左边界分类器、Arg2 右 边界分类器,因为 Arg2 一般紧跟着关系短语,所以不 需要一个单独的 Arg2 左边界分类器。Arg1 右边界分 类器使用了 Weka 的 REPTree,另外两个分类器是使用 了序列标签随机访 问 场 分 类 器,特 性 的 标 准 集 包 括 名 词短语问题、名词短语以及整个句子的上下文,例如句 子长度、词性、标点和大写。为了识别 Arg1 右边界,建 立了正则表达式指示器来监测关系短语是否是一个复 合动词以及名词短语是否是这个复合动词的主语。对 于 Arg2,同样也建立一个正则表达式指示器来监测, 例如 Arg2 是否紧跟着一个独立从句或者动词短语。 这些指示器辅助 分 类 器 进 行 类 别 识 别 。 实 验 证 明,无 论在准确率还是召回率都比 REVERB 有了显著的改 善。
或标注新的训练例,基本上无法处理网络上海量的目 标关系。为了适应互联网实际应用的需求,从海量、冗 余、异构、含有大量噪声、不规范的海量网页中大规模 自动化地抽取出实体、关系、事件等多层次的语义单元 信息,并且按照结构化数据格式进行输出,美国华盛顿 大学图 灵 中 心 ( University of Washington Turing Center) 提出开放信息抽取( Open Information Extraction) , 它被称为“新 型 抽 取 范 式”的 一 种 知 识 抽 取 方 法[1]。 OIE 作为一种新型的 Web 信息抽取,任务的目标在于
2 当前主流 OIE 系统的进展
2. 1 TEXTRUNNER 系统 TEXTRUNNER[2]是最 早的开放信息抽取系统,主要通过三步骤 : a. 自监督 学习器: 产生用于抽取关系的基于条件随机场的分类 器。输入一个很小的 语 料 集 样 本 ,学 习 器 就 可 以 产 生 一个分类器,判断候选抽取内容是否可信,自监督的特 性减少了手工来标 记 训 练 数 据 ,非 词 汇 性 更 能 适 应 网 络上海量关系的发现。b. 一次性通过抽取器: 使用词 性标注、名词短语组块等浅语法技巧,应用条件随机场 抽取器来一次性搜 寻 整 个 语 料 库,抽 取 句 子 中 的 所 有 可能的关系,没有使用语法解析器,这样保证了系统的 高效。c. 基于冗余的评价器: 根据文中的冗余的概率 模型对抽取出来的关系进行重新排序。这利用了网络 文本的信息冗余,赋给多次出现的抽取内容较高的置 信度。 总 体 上 讲 跟 以 前 的 WEB 信 息 抽 取 系 统 KNOWITALL 相比,错误率能降低了 30% 。
1 开放信息抽取系统的基本功能
一个典型的开放信息抽取系统一般包括三部分功 能: a. 标记: 抽取中使用启发或远程监督对句子进行自 动标记; b. 学习: 使用序列标签图模型( 例如 CRF) 训 练关系短语抽取器; c. 抽取: 系统以句子作为输入,从 句子中识别出候选的 NP 论元( ARG1,ARG2) ,然后使 用抽取器标记两个 论 元 之 间 的 每 个 单 词 ,或 者 作 为 关 系短语的组成部分,或者舍弃。
Liu Zhen1,2,3 Zhang Zhixiong1
( 1. National Science Library,Chinese Academy of Sciences,Beijing 100190; 2. Xuzhou Institute of Technology,Xuzhou 221008) ;
情报杂志
JOURNAL OF INTELLIGENCE
Vol. 32 No. 11 Nov. 2013
开放信息抽取技术的现状研究*
刘 振1,2,3 张智雄1
( 1. 中国科学院文献情报中心 北京 100190; 2. 徐州工程学院 徐州 221008) 3. 中国科学院大学 北京 100190)
收稿日期: 2013 - 07 - 05
修回日期: 2013 - 08 - 10
基金项目: 国家自然科学基金“基于语言网络的文本主题中心度计算方法研究”( 编号: 61075047) ; 国家“十二五”科技支撑计划项目“面向外
文科技文献信息的知识组织体系建设与应用示范”( 编号: 2011BAH10B00) 课题五“信息资源自动处理、智能检索与 STKOS 应用服务集成”的
摘 要 如何高效地自动理解网络上出现的海量文本信息,日益成为了个严峻的考验。美国华盛顿大学图灵中心
提出的开放信息抽取,是一个有效的解决方法。它具有领域的独立性,无监督抽取,对大量文本的可伸缩性等特点。
该论文首先介绍了开放信息抽取系统的主要功能,然后详细论述了三个主要的开放信息抽取系统的特点、组成部分
open language learning
0引言
文本是人类知识的基本库,随着微博、论坛社区等 社交媒体的快速发 展,每 天 都 有 海 量 的 文 本 在 网 络 上 产生,面对如此规模级别的数量,如何高效地自动理解 这些文本,日益成为一个严峻的考验。
传统的信息抽取主要满足从较小的同构语料库中 进行准确、狭隘、预先 定 义 的 请 求,如 果 涉 及 到 一 个 新 的领域,就需要定义目标关系,人工建立新的抽取规则
a. 关系抽取。对句子中的每一个动词,发现最长 的单词序列,该序列以该动词开始,还满足语法限制和 词汇限制,如果任何一对匹配相邻或者重叠,就把它们 进行合并。检验关系短语主要是通过正则表达式进行 匹配,如下:
V | VP | VW* P V = verb particle? adv? W = ( noun | adj | adv | pron | det) P = ( prep | particle | inf. marker) 语法限制,减少了支离破碎的抽取和通过轻动词 结构无信息的抽取,该模式限制关系短语或者是一个 简单动词短语,动词短语后面紧跟着一个介词或者助 词,或者是一个动词短语后面紧跟着一个简单名词短 语,最后是一个介词或者助词。 词汇限制 主 要 是 使 用 了 一 个 大 型 的 关 系 短 语 词 典,通过在 50 多亿条 w eb 句子的语料库中发现 POS 模式的所有匹配来构建该词典,为了允许关系短语可 以发生较小的变化,通过去掉辅助动词、形容词和副词 对每一个关系短语进行归一化处理。 b. 论元抽取。对于每一个关系短语,找到在这个 句子里距离该关系 短 语 左 边 最 近 的 名 词 短 语 ,不 是 相 对代词或者”there”,找到在这个句子距离关系短语最 近的名词短语,如果能找到这对( x,y ) ,就把( x,r,y ) 返回。 该系统的算法具有以下鲜明特点: 关系短语是从整体的角度来识别,而不是逐字的 识别; 潜在的短语,是通过大规模语料的统计基础上发 现; REVERB 是关系优先,而不是论元优先。这就避 免了把一个关系短语里的名词当成一个论元,例如 He claimed responsibility for the accident. 这个句子里面 responsibility 就不是一个论元。 2. 3 R2A2 系统 以前的开放信息抽取系统都采 用了简单的启发方法,例如抽取简单的名词性短语或 维基百科实体作为论元。但是这些启发式方法不能适 应语言的复杂性,开放信息抽取系统产生的大量的错 误都是源于 不 正 确 或 者 不 合 适 的 论 元。65% 的 RE-
研究成果之一。
作者简介: 刘 振( 1979 - ) ,男,博士研究生,研究方向: 智能信息处理和信息系统; 张智雄( 1971 - ) ,男,研究员,博士生导师,研究方向: 智能
信息处理。
·146·
情报杂志
第 32 卷
促进领域无关的知 识 抽 取 应 用,它 能 从 文 本 中 抽 取 出 大量关系对,从网络中抽取数百亿的命题,识别蕴含规 则,映射到已有的本体 ,进行学习偏好分析,获得通用 知识,并可被应用到 各 种 类 型 和 规 模 的 通 用 知 识 库 和 问答系统中。除需要标注的文档集外,OIE 不需要任 何其它人工输入,同时为保障在处理大规模文档集时 的效率,OIE 只需要对文档集进行一次处理。从文本 中抽取出三元组,不需要预先准备好的词汇表,在任意 的句子中识别关系 短 语 和 相 关 论 元 ,尽 量 避 免 专 门 的 名词和动词,仅仅根据语法标记或封闭词类型,抽取系 统更加关注关系如 何 用 通 用 的 方 法 表 达 出 来 ,这 样 更 有利于跨领域,主要以动词( 或动词短语) 和特定的论 元的形式,获得海量的文本的浅表语义表示。因此,开 放信息抽取系统一般具有三个显著的特点: 领域的独 立性,无监督抽取,对大量文本的可伸缩性。开放信息 抽取技术可以广泛应用在语义搜索、问答系统建设、网 络内容管理以及知识库构建等领域。
2. 2 REVERB 系统 由于 TEXTRUNNER 系统存 在的两大问题: 支离破碎的抽取: 被抽取出来的关系有 些是没有意义; 不包含信息量的抽取: 抽取时候省略了
关键信息,主要是由于原来的系统对轻动词结构( light verb constructions 由动词和名词组成的多个单词的谓 语,其中名词包含谓语的语义联系内容) 处理不当造 成的。在基础进行了改进,开发出来 REVERB[3]系统 ,在基于动词的关系中,增加了语法限制和词汇限制。 系统在 500 多 万 web 句 子 语 料 库 中,发 现 了 所 有 的 POS 模式的匹配,系统大概有 170 万确切的规范化的 关系短语,在抽取的时候存在内存中,把进行了词性标 注和 NP 组块的句子作为系统的输入,输出是一系列 的 ( x,r,y) 抽取三元组。该系统主要的抽取过程:
3. University of Chinese Academy of Sciences,Beijing 100190)
Abstract How to efficiently and automatically understand the mass text information appearing on the Web is increasingly becoming a severe issue. Introduced by Turing Center of University Washington,Open Information Extraction ( OIE) is an effective method w ith characteristics of domain - independent,unsupervised extraction,scalability to large amounts of text. This paper firstly introduces the main functions of OIE system,and then discusses in detail three major open information extraction systems about their features,components, and advantages and disadvantages,and then analyzes the improvement methods and trends of OIE. Finally,the future development of the OIE technologies is explored. Key words Open Information Extraction( OIE) unsupervised extraction relation phrase argument extraction semantic role labeling
以及优缺点,接着分析了开放信息抽取系统的改进方法和发展趋势。最后对未来进行展望。
关键词 开放信息抽取 无监督抽取 关系短语 论元抽取 语义角色标注 开放语言学习
中图分类号 TP18
文献标识码 A
文章编号 1002 - 1965( 2013) 11 - 0145 - 04
On the State - of - the - art Technology of Open Information Extraction
第 11 期
刘 振,等: 开放信息抽取技术的现状研究
·147·
VERB 的抽取错误虽然都有正确的关系短语,但都有 错误的论元。
R2A2[4]系统增加了一个论元识别器,其实就是一 个论元学习器 ( ARGLEARNER) ,更好在关系短语中 抽取出论元。找到 Arg1 和 Arg2,也就是识别出来每 个论元的左边界和右边界,包含了三个边界分类器,分 别是 Arg1 右边界分类器、Arg1 左边界分类器、Arg2 右 边界分类器,因为 Arg2 一般紧跟着关系短语,所以不 需要一个单独的 Arg2 左边界分类器。Arg1 右边界分 类器使用了 Weka 的 REPTree,另外两个分类器是使用 了序列标签随机访 问 场 分 类 器,特 性 的 标 准 集 包 括 名 词短语问题、名词短语以及整个句子的上下文,例如句 子长度、词性、标点和大写。为了识别 Arg1 右边界,建 立了正则表达式指示器来监测关系短语是否是一个复 合动词以及名词短语是否是这个复合动词的主语。对 于 Arg2,同样也建立一个正则表达式指示器来监测, 例如 Arg2 是否紧跟着一个独立从句或者动词短语。 这些指示器辅助 分 类 器 进 行 类 别 识 别 。 实 验 证 明,无 论在准确率还是召回率都比 REVERB 有了显著的改 善。
或标注新的训练例,基本上无法处理网络上海量的目 标关系。为了适应互联网实际应用的需求,从海量、冗 余、异构、含有大量噪声、不规范的海量网页中大规模 自动化地抽取出实体、关系、事件等多层次的语义单元 信息,并且按照结构化数据格式进行输出,美国华盛顿 大学图 灵 中 心 ( University of Washington Turing Center) 提出开放信息抽取( Open Information Extraction) , 它被称为“新 型 抽 取 范 式”的 一 种 知 识 抽 取 方 法[1]。 OIE 作为一种新型的 Web 信息抽取,任务的目标在于
2 当前主流 OIE 系统的进展
2. 1 TEXTRUNNER 系统 TEXTRUNNER[2]是最 早的开放信息抽取系统,主要通过三步骤 : a. 自监督 学习器: 产生用于抽取关系的基于条件随机场的分类 器。输入一个很小的 语 料 集 样 本 ,学 习 器 就 可 以 产 生 一个分类器,判断候选抽取内容是否可信,自监督的特 性减少了手工来标 记 训 练 数 据 ,非 词 汇 性 更 能 适 应 网 络上海量关系的发现。b. 一次性通过抽取器: 使用词 性标注、名词短语组块等浅语法技巧,应用条件随机场 抽取器来一次性搜 寻 整 个 语 料 库,抽 取 句 子 中 的 所 有 可能的关系,没有使用语法解析器,这样保证了系统的 高效。c. 基于冗余的评价器: 根据文中的冗余的概率 模型对抽取出来的关系进行重新排序。这利用了网络 文本的信息冗余,赋给多次出现的抽取内容较高的置 信度。 总 体 上 讲 跟 以 前 的 WEB 信 息 抽 取 系 统 KNOWITALL 相比,错误率能降低了 30% 。
1 开放信息抽取系统的基本功能
一个典型的开放信息抽取系统一般包括三部分功 能: a. 标记: 抽取中使用启发或远程监督对句子进行自 动标记; b. 学习: 使用序列标签图模型( 例如 CRF) 训 练关系短语抽取器; c. 抽取: 系统以句子作为输入,从 句子中识别出候选的 NP 论元( ARG1,ARG2) ,然后使 用抽取器标记两个 论 元 之 间 的 每 个 单 词 ,或 者 作 为 关 系短语的组成部分,或者舍弃。
Liu Zhen1,2,3 Zhang Zhixiong1
( 1. National Science Library,Chinese Academy of Sciences,Beijing 100190; 2. Xuzhou Institute of Technology,Xuzhou 221008) ;