基于隐马尔可夫模型的中文文本事件信息抽取 (1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用 HMMs 进行文本事件信息抽取时, 首先对 不同的抽取域应该建立相应的 HMM, 其中最重要 的两个问题[5]是模型结构学习和进行参数估计。 2.2.1 模型结构学习
要建立用于事件信息抽取的 HMM 模型, 需要
对每类事件要素从训练数据集学习得到一个优化
的模型结构。虽然每个模型包含四类状态, 并且这
些状态之间的转移也有一定的约束, 但用于抽取每
类 事 件 要 素 的 模 型 究 竟 应 该 包 含 几 个 前 缀 状 态 、几
个后缀状态、几个目标状态会更符合真实的语料,
却需要从训练数据集学习确定。图 1 所示的最简单
模型显然不符合真实情况, 例如: 事件语句“原国务
院新闻办公室主任赵启正同志出任人民大学新闻
特定的候选事件语句, 然后利用隐马尔可夫模型从这些语句中抽取每个候选事件的事件要素, 为每一类事件要素
构建一个独立的隐马尔可夫模型用于该类事件要素的抽取, 构建模型的关键是模型结构的学习和参数估计。实验
结果表明, 该方法能较好地实现中文文本事件抽取, 较其他方法有更好的抽取性能。
关键词: 隐马尔可夫模型; 事件信息抽取; 触发词; 事件要素
收稿日期: 2007- 06- 02 基金项目: 教育部博士点基金项目( 20050007023)
触发词是能够很好地表述出某类事件中心意义的 词。例如 , 职务变动事件中的 “任 命 ”、“辞 职 ”等 词 语。( 3) 基于概率统计模型的文本信息抽取。文献[4] 用 一 个 隐 马 尔 可 夫 模 型 ( Hidden Markov Model, HMM) 对计算机科研论文头部信息的所有域进行抽 取 ; 文 献[5]使 用 随 机 优 化 技 术 动 态 选 择 最 合 适 的 HMM 模型从研讨会公告中抽取相关信息。虽然将 统计模型用于本中信息抽取的研究很多, 但和文中 所述的文本事件信息抽取是有区别的。因为这些研 究中待抽取的数据域都可以看成一个非常紧凑的 序列, 而文本中事件的表述往往并不具备这种特 征, 需要抽取的数据域是分散的、稀疏的, 有的待抽 取域甚至距离事件表述中心( 可以看作是触发词所 在的位置) 有一定的距离。
3 实验及结果分析 3.1 触发词词表构建
实 验 中 用 于 进 行 “职 务 变 动 ”类 事 件 抽 取 的 触 发词表采用手工的方式构建, 在构建过程中参照第 3.2 节所提及的真实语料, 并借助于 《现代汉语词 典》和《同义词词林》, 构建出的触发词表包含了 136 个职务变动类事件的触发词。 3.2 训练和测试数据集
学院院长一职。 ”中 事 件 要 素 人 物 : 赵 启 正 前 面 的
“原 国 务 院 新 闻 办 公 室 主 任 ” 在 这 里 由 前 缀 状 态 输
出, 显然这不是一个前缀状态可以完成的。在文中
进 行 模 型 结 构 优 化 时 采 用 了 和 文 献 [5]类 似 的 方 法 。
首先从最简单的模型结构开始 ( 如图 1 中上图所
中图分类号: TP391
文献标识码: A
文章编号: 1000- 7180( 2007) 10- 0092- 03
Event Infor mation Extr action fr om Chinese Text Based on Hidden Mar kov Models
YU Jiang-de1, 2, XIAO Xin-feng1, FAN Xiao-zhong2
k=1
式中, Ci, j 是训练序列中, 从状态 si 转移到状态 sj 的 次数。
bik=
Ci, k
N
,
1≤i≤N, 1≤j≤M
( 3)
!Ci, j
k=1
式中, Ci, k 是训练集中, 从状态 si 输出词语 ok 的次
件语句范围的办法进行了比较。依次分别记为 D_Trigger 和 Full_Stop。两种办法在四类事件要素上 的抽取性能比较如图 2 所示。可以看出, 方法( 2) 确 定的语句范围下抽取性能要稍微好点。
1 引言 当今信息社会, 大量有用信息存在于文本中。
为了应对信息爆炸带来的严重挑战, 迫切需要一些 自 动 化 的 工 具 帮 助 人 们 从 海 量 文 本 数 据 中 快 速 、准 确地找到真正需要的信息。信息抽取研究正是在这 种背景下产生的, 事件信息抽取( 简称事件抽取) 是 信息抽取研究中最具挑战性的任务之一, 旨在利用 计算机从文本中自动地抽取特定类型的事件及其 事件要素。例如, 从新闻报道中抽取职务变动事件 的详细信息: 人员、组织机构、职位、时间等。
第二阶段的机理可以描述为: 为每类待抽取的 事件要素构建一个 HMM 模型, 例如: 职务变动事件 抽取中, 对时间、人物、组 织 机 构 、职 位 分 别 构 建 四 个独立的 HMM 模型。候选事件语句中的词语作为 这些 HMM 模型中状态的输出符号, 如果模型给定, 那么事件抽取过程就是搜索最可能创建词语序列 的状态序列。用于事件抽取的 HMM 模型结构应该 能反映待抽取域的内容和它的上下文特征。为了实 现 正 确 的 事 件 抽 取 , 一 般 引 入 四 种 类 型 的 状 态[5]: ( 1) 目标状态: 可分为多个状态, 用于对目标短语进 行建模。( 2) 前缀状态: 前缀包含一个或多个状态, 这些状态被连接成字符串, 一个前缀状态仅仅转移 到位于该字符串中的下一个状态, 或者如果它是该 字符串的最后一个状态, 则它转移到目标状态。( 3) 后缀状态: 后缀状态在结构上类似于前缀。( 4) 背景 状态: 背景状态主要是对没有被其它类型状态建模 的任何文本建模。图 1 示意了用于事件抽取的两个 HMM 模型结构。 2.2 模型结构学习和参数估计
Abstr act: A method based on hidden Markov models ( HMMs) is proposed for extracting the event information from Chinese texts. Firstly, the method can find a candidate sentence, which contains a description for a kind of specific event via trigger detecting. Then the method constructs a separate HMM for a kind of event argument, and makes use of these HMMs to extract event arguments from these candidate sentences. The key of constructing model is learning HMM structure and parameter estimation. Experimental results show that the method has better performance than other ap- proaches for event extraction from Chinese texts. Key wor ds: hidden Markov model; event information extraction; trigger; event argument
92
微电子学与计算机
2007 年第 24 卷第 10 期
基于隐马尔可夫模型的中文文本事件信息抽取
于江德 1, 2, 肖新峰 1, 樊孝忠 2
( 1 安阳师范学院 计算机与信息工程学院, 河南 安阳 455000; 2 北京理工大学 计算机科学技术学院, 北京 100081)
摘 要: 提出了一种基于隐马尔可夫模型的中文文本事件抽取方法, 该方法首先通过触发词探测从文本中发现
文中实验用到的数据集是 《人民日报》1995 年 全年的生语料, 这些语料是纯文本格式的, 其中包 含了大量的职务变动类事件的新闻报道。将任意 10 个月的生语料借助辅助工具将其中的职务变动类 语句抽取出来, 进行分词、标注后作为训练数据集。 另两个月份的语料作为测试集。 3.3 抽取性能评估
对抽取性能进行评估时, 采用了常用的 3 个评 测指标: 准确率( P) 、召回率( R) 、综合指标 F 值( F, 其中β取值为 1) 。 3.4 职务变动类事件抽取结果
( 1 School of Computer and Information Engineering, Anyang Normal University, Anyang 455000, China; 2 School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China)
在 实 验 数 据 集 上 进 行 “职 务 变 动 ”事 件 抽 取 实 验, 抽取结果如表 1 所示, 其中候选数据语句范围 采用触发词前后最近的两个句号之间的语句。将表 1 中的抽取结果和别的系统或方法进行比较, 发现 文中的方法的抽取性能要优于其他方法。
型结构会产生一些新的结构, 将这些新的结构作为
候选结构, 并在一个标注好的测试集上进行测试,
将得分最高的结构作为下一次循环的起始模型结
构, 直到最后找到一个最优的模型结构。
2.2.2 参数估计
对每类事件要素的 HMM 模型, 当模型结构确
定后, 就可以从标注好的训练语料中用最大似然估
计 学 习 模 型 的 参 数 。 计 算 模 型 的 初 始 状 态 概 率 、状
态转移概率和输出概率如下:
πi =
C( X1 =sj )
N
, 1≤i≤N
( 1)
!C( X1 =si )
j=1
式中, C( X1=si) 是训练语料中, 以 si 为初始状态的序
列个数。
94
微电子学与计算机
2007 年第 24 卷第 10 期
aij=
Ci, j
N
, 1≤i, j≤N
Leabharlann Baidu( 2)
!Ci, k
经过对大量事件表述语句的分析研究, 文中提 出了一种新的中文文本事件抽取方法。该方法将后 两类方法结合起来, 首先在中文文本通过触发词探
2007 年第 24 卷第 10 期
微电子学与计算机
93
测找到候选事件语句, 然后在触发词前后一定范围 的上下文中利用 HMM 来抽取该事件的各个要素。
2 基于 HMMs 的中文文本事件信息抽取 2.1 基于 HMMs 的中文文本事件抽取
文中提出的事件抽取方法分两个阶段: 第一个 阶段是通过触发词探测发现候选事件所在的语句。 第二阶段是利用 HMMs 从 候 选 事 件 语 句 中 抽 取 事 件要素。
在第一阶段, 依据触发词表当在文本中探测到 触发词时, 就认定该触发词所在的语句表述了一个 特定事件, 该语句就是一个候选事件语句。该语句 的上下文范围有两种确定办法: ( 1) 通常情况下, 上 下文的选取是基于核心词左右一定范围进行的, 文 献[6]对自然语言处 理 中 词 语 的 有 效 范 围 进 行 了 定 量研究, 认为汉语核心词最近距离[- 8, +9]位置之间 的上下文范围能包含 85%以上的信息量, 文中将触 发词作为核心词; ( 2) 触发词前后最近的两个句号 之间的语句。最后对候选事件语句进行预处理, 包 括分词、词性标注、过滤停用词等。
示) , 该结构含有最少的状态数。然后对现有模型施
以一系列操作, 这些操作包括: 增加一个前缀状态、
重复一个前缀状 态 、增 加 一 个 后 缀 状 态 、重 复 一 个
后 缀 状 态 、增 加 一 个 目 标 状 态 、重 复 一 个 目 标 状 态 、
增加一个背景状态等。经过这些操作后, 目前的模
国内外对该问题已经进行了一些研究和实验, 概括起来主要有三类: ( 1) 基于抽取模式的文本事 件 抽 取 。 应 用 这 类 方 法 的 典 型 系 统 有 : ExDisco[1], GenPAM[2]。( 2) 基于触发词探测的文本事件抽取[3], 其核心是触发词探测和事件要素及其角色的确定。
要建立用于事件信息抽取的 HMM 模型, 需要
对每类事件要素从训练数据集学习得到一个优化
的模型结构。虽然每个模型包含四类状态, 并且这
些状态之间的转移也有一定的约束, 但用于抽取每
类 事 件 要 素 的 模 型 究 竟 应 该 包 含 几 个 前 缀 状 态 、几
个后缀状态、几个目标状态会更符合真实的语料,
却需要从训练数据集学习确定。图 1 所示的最简单
模型显然不符合真实情况, 例如: 事件语句“原国务
院新闻办公室主任赵启正同志出任人民大学新闻
特定的候选事件语句, 然后利用隐马尔可夫模型从这些语句中抽取每个候选事件的事件要素, 为每一类事件要素
构建一个独立的隐马尔可夫模型用于该类事件要素的抽取, 构建模型的关键是模型结构的学习和参数估计。实验
结果表明, 该方法能较好地实现中文文本事件抽取, 较其他方法有更好的抽取性能。
关键词: 隐马尔可夫模型; 事件信息抽取; 触发词; 事件要素
收稿日期: 2007- 06- 02 基金项目: 教育部博士点基金项目( 20050007023)
触发词是能够很好地表述出某类事件中心意义的 词。例如 , 职务变动事件中的 “任 命 ”、“辞 职 ”等 词 语。( 3) 基于概率统计模型的文本信息抽取。文献[4] 用 一 个 隐 马 尔 可 夫 模 型 ( Hidden Markov Model, HMM) 对计算机科研论文头部信息的所有域进行抽 取 ; 文 献[5]使 用 随 机 优 化 技 术 动 态 选 择 最 合 适 的 HMM 模型从研讨会公告中抽取相关信息。虽然将 统计模型用于本中信息抽取的研究很多, 但和文中 所述的文本事件信息抽取是有区别的。因为这些研 究中待抽取的数据域都可以看成一个非常紧凑的 序列, 而文本中事件的表述往往并不具备这种特 征, 需要抽取的数据域是分散的、稀疏的, 有的待抽 取域甚至距离事件表述中心( 可以看作是触发词所 在的位置) 有一定的距离。
3 实验及结果分析 3.1 触发词词表构建
实 验 中 用 于 进 行 “职 务 变 动 ”类 事 件 抽 取 的 触 发词表采用手工的方式构建, 在构建过程中参照第 3.2 节所提及的真实语料, 并借助于 《现代汉语词 典》和《同义词词林》, 构建出的触发词表包含了 136 个职务变动类事件的触发词。 3.2 训练和测试数据集
学院院长一职。 ”中 事 件 要 素 人 物 : 赵 启 正 前 面 的
“原 国 务 院 新 闻 办 公 室 主 任 ” 在 这 里 由 前 缀 状 态 输
出, 显然这不是一个前缀状态可以完成的。在文中
进 行 模 型 结 构 优 化 时 采 用 了 和 文 献 [5]类 似 的 方 法 。
首先从最简单的模型结构开始 ( 如图 1 中上图所
中图分类号: TP391
文献标识码: A
文章编号: 1000- 7180( 2007) 10- 0092- 03
Event Infor mation Extr action fr om Chinese Text Based on Hidden Mar kov Models
YU Jiang-de1, 2, XIAO Xin-feng1, FAN Xiao-zhong2
k=1
式中, Ci, j 是训练序列中, 从状态 si 转移到状态 sj 的 次数。
bik=
Ci, k
N
,
1≤i≤N, 1≤j≤M
( 3)
!Ci, j
k=1
式中, Ci, k 是训练集中, 从状态 si 输出词语 ok 的次
件语句范围的办法进行了比较。依次分别记为 D_Trigger 和 Full_Stop。两种办法在四类事件要素上 的抽取性能比较如图 2 所示。可以看出, 方法( 2) 确 定的语句范围下抽取性能要稍微好点。
1 引言 当今信息社会, 大量有用信息存在于文本中。
为了应对信息爆炸带来的严重挑战, 迫切需要一些 自 动 化 的 工 具 帮 助 人 们 从 海 量 文 本 数 据 中 快 速 、准 确地找到真正需要的信息。信息抽取研究正是在这 种背景下产生的, 事件信息抽取( 简称事件抽取) 是 信息抽取研究中最具挑战性的任务之一, 旨在利用 计算机从文本中自动地抽取特定类型的事件及其 事件要素。例如, 从新闻报道中抽取职务变动事件 的详细信息: 人员、组织机构、职位、时间等。
第二阶段的机理可以描述为: 为每类待抽取的 事件要素构建一个 HMM 模型, 例如: 职务变动事件 抽取中, 对时间、人物、组 织 机 构 、职 位 分 别 构 建 四 个独立的 HMM 模型。候选事件语句中的词语作为 这些 HMM 模型中状态的输出符号, 如果模型给定, 那么事件抽取过程就是搜索最可能创建词语序列 的状态序列。用于事件抽取的 HMM 模型结构应该 能反映待抽取域的内容和它的上下文特征。为了实 现 正 确 的 事 件 抽 取 , 一 般 引 入 四 种 类 型 的 状 态[5]: ( 1) 目标状态: 可分为多个状态, 用于对目标短语进 行建模。( 2) 前缀状态: 前缀包含一个或多个状态, 这些状态被连接成字符串, 一个前缀状态仅仅转移 到位于该字符串中的下一个状态, 或者如果它是该 字符串的最后一个状态, 则它转移到目标状态。( 3) 后缀状态: 后缀状态在结构上类似于前缀。( 4) 背景 状态: 背景状态主要是对没有被其它类型状态建模 的任何文本建模。图 1 示意了用于事件抽取的两个 HMM 模型结构。 2.2 模型结构学习和参数估计
Abstr act: A method based on hidden Markov models ( HMMs) is proposed for extracting the event information from Chinese texts. Firstly, the method can find a candidate sentence, which contains a description for a kind of specific event via trigger detecting. Then the method constructs a separate HMM for a kind of event argument, and makes use of these HMMs to extract event arguments from these candidate sentences. The key of constructing model is learning HMM structure and parameter estimation. Experimental results show that the method has better performance than other ap- proaches for event extraction from Chinese texts. Key wor ds: hidden Markov model; event information extraction; trigger; event argument
92
微电子学与计算机
2007 年第 24 卷第 10 期
基于隐马尔可夫模型的中文文本事件信息抽取
于江德 1, 2, 肖新峰 1, 樊孝忠 2
( 1 安阳师范学院 计算机与信息工程学院, 河南 安阳 455000; 2 北京理工大学 计算机科学技术学院, 北京 100081)
摘 要: 提出了一种基于隐马尔可夫模型的中文文本事件抽取方法, 该方法首先通过触发词探测从文本中发现
文中实验用到的数据集是 《人民日报》1995 年 全年的生语料, 这些语料是纯文本格式的, 其中包 含了大量的职务变动类事件的新闻报道。将任意 10 个月的生语料借助辅助工具将其中的职务变动类 语句抽取出来, 进行分词、标注后作为训练数据集。 另两个月份的语料作为测试集。 3.3 抽取性能评估
对抽取性能进行评估时, 采用了常用的 3 个评 测指标: 准确率( P) 、召回率( R) 、综合指标 F 值( F, 其中β取值为 1) 。 3.4 职务变动类事件抽取结果
( 1 School of Computer and Information Engineering, Anyang Normal University, Anyang 455000, China; 2 School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China)
在 实 验 数 据 集 上 进 行 “职 务 变 动 ”事 件 抽 取 实 验, 抽取结果如表 1 所示, 其中候选数据语句范围 采用触发词前后最近的两个句号之间的语句。将表 1 中的抽取结果和别的系统或方法进行比较, 发现 文中的方法的抽取性能要优于其他方法。
型结构会产生一些新的结构, 将这些新的结构作为
候选结构, 并在一个标注好的测试集上进行测试,
将得分最高的结构作为下一次循环的起始模型结
构, 直到最后找到一个最优的模型结构。
2.2.2 参数估计
对每类事件要素的 HMM 模型, 当模型结构确
定后, 就可以从标注好的训练语料中用最大似然估
计 学 习 模 型 的 参 数 。 计 算 模 型 的 初 始 状 态 概 率 、状
态转移概率和输出概率如下:
πi =
C( X1 =sj )
N
, 1≤i≤N
( 1)
!C( X1 =si )
j=1
式中, C( X1=si) 是训练语料中, 以 si 为初始状态的序
列个数。
94
微电子学与计算机
2007 年第 24 卷第 10 期
aij=
Ci, j
N
, 1≤i, j≤N
Leabharlann Baidu( 2)
!Ci, k
经过对大量事件表述语句的分析研究, 文中提 出了一种新的中文文本事件抽取方法。该方法将后 两类方法结合起来, 首先在中文文本通过触发词探
2007 年第 24 卷第 10 期
微电子学与计算机
93
测找到候选事件语句, 然后在触发词前后一定范围 的上下文中利用 HMM 来抽取该事件的各个要素。
2 基于 HMMs 的中文文本事件信息抽取 2.1 基于 HMMs 的中文文本事件抽取
文中提出的事件抽取方法分两个阶段: 第一个 阶段是通过触发词探测发现候选事件所在的语句。 第二阶段是利用 HMMs 从 候 选 事 件 语 句 中 抽 取 事 件要素。
在第一阶段, 依据触发词表当在文本中探测到 触发词时, 就认定该触发词所在的语句表述了一个 特定事件, 该语句就是一个候选事件语句。该语句 的上下文范围有两种确定办法: ( 1) 通常情况下, 上 下文的选取是基于核心词左右一定范围进行的, 文 献[6]对自然语言处 理 中 词 语 的 有 效 范 围 进 行 了 定 量研究, 认为汉语核心词最近距离[- 8, +9]位置之间 的上下文范围能包含 85%以上的信息量, 文中将触 发词作为核心词; ( 2) 触发词前后最近的两个句号 之间的语句。最后对候选事件语句进行预处理, 包 括分词、词性标注、过滤停用词等。
示) , 该结构含有最少的状态数。然后对现有模型施
以一系列操作, 这些操作包括: 增加一个前缀状态、
重复一个前缀状 态 、增 加 一 个 后 缀 状 态 、重 复 一 个
后 缀 状 态 、增 加 一 个 目 标 状 态 、重 复 一 个 目 标 状 态 、
增加一个背景状态等。经过这些操作后, 目前的模
国内外对该问题已经进行了一些研究和实验, 概括起来主要有三类: ( 1) 基于抽取模式的文本事 件 抽 取 。 应 用 这 类 方 法 的 典 型 系 统 有 : ExDisco[1], GenPAM[2]。( 2) 基于触发词探测的文本事件抽取[3], 其核心是触发词探测和事件要素及其角色的确定。