无监督的互联网事件抽取框架
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
事件元素
td
td
td
图 4 网页的文档树
具体步骤如下: (1) 地 点 节 点 定 位 ,目 的 是 定 位 页 面 文 档 树 中 包 含 热 门 地 点名称的文字节点。如图 5 所示,表格形式的页面由很多包 含 地 点 要 素 的 事 件 所 组 成 ,利 用 输 入 的 种 子 地 点 名 识 别 模 型 遍历上述文档树则可找到热门地点的文档位置。根据图 5 我 们假定找到了事件 1,3,4,6 的地点要素节点。 (2) 地 点 集 聚 类 ,目 的 是 根 据 地 点 节 点 集 合 聚 类 来 得 到 每 个 地 点 代 表 的 事 件 的 集 合 。 由 上 步 找 到 的 地 点 节 点 集 合 ,则
子 事 件 在 多 个 详 情 页 面 中 匹 配 ,总 结 出 事 件 要 素 之 间 的 分 界 信 息 进 一 步 生 成 正 则 表 达 式 模 式 来 进 行 抽 取 ,且 由 于 详 情 页 面 包 含 事 件 更 广 泛 ,因 此 达 到 了 表 格 页 面 抽 取 与 详 情 页 面 抽 取 的 相 互 促 进 作 用 。比 起 其 他 研 究 者 多 关 注 于 利 用 纯 文 本 文 档的自然语言特征来抽取信息,本文结合 HTML 文档的结构 化 与 详 情 文 档 的 信 息 分 界 特 征 ,清 晰 简 洁 的 完 成 了 事 件 信 息 的抽取。我们手工抽取了 15 个网站的部分网页事件信息作 为 标 准 答 案 ,并 与 本 文 框 架 运 行 产 生 的 事 件 信 息 进 行 比 较 ,达 到了 0.9 以上的 F 值,比常用的包装器生成方法更简单快捷 得完成了这一任务。
事件抽取模式
存储单元
事件抽取模块 件抽取模块
存储单元
事件集合父节点 table
table
事件存储单元
事件集合 tr
tr
tr
tr
tr
tr
图 1 框架流程
2.1 事 件 的 互 联 网 表现 形 式 事 件 信 息 在 互 联 网 中 主 要 有 两 种 表 现 形 式 :一 种 为 表 格
形式 (如图 2 所示),包含多个事件信息,在网页上以表格的形 式出现,具备结构特征;另一种为详情形式(如图 3 所示),一个 网 页 对 应 一 个 事 件 ,描 述 该 事 件 的 详 细 信 息 ,包 括 其 发 生 的 时 间 ,地 点 ,名 称 以 及 介 绍 评 论 等 信 息 。
图 2 事件表格形式
2 互联网事件抽取
现 代 社 会 最 重 要 的 一 个 信 息 源 就 是 互 联 网 ,本 文 关 注 于 如 何 从 互 联 网 中 抽 取 事 件 信 息 并 实 现 一 个 可 用 系 统 ,系 统 包 括 两 部 分 :先 由 网 页 爬 虫 从 互 联 网 中 抓 取 富 含 事 件 信 息 的 网 页 存 储 在 本 地 硬 盘 ,然 后 交 由 事 件 抽 取 框 架 处 理 ,加 上 一 些 热 门 的 事 件 发 生 场 馆 与 事 件 名 称 关 键 字 字 典 的 辅 助 ,从 中 抽 取 到结构化的事件信息并以易于理解查看的形式保存到数据库 中。本文将详细讲解事件抽取框架,如图 1 所示,系统的输入 是 场 所 名 集 合 和 一 组 热 门 的 事 件 信 息 ,从 中 总 结 出 热 门 的 事 件 名 称 关 键 字 ,地 点 名 组 成 正 则 表 达 式 ,以 及 总 结 时 间 识 别 正 则 表 达 式 ,用 作 系 统 的 基 本 种 子 识 别 模 型 输 入 。
Unsupervised web event extraction framework
HE Yi-ming (School of Computer Science and Technology, Fudan University, Shanghai 200433, China)
Abstract:To acquire real event information published to internet effectively and easily, an unsupervised web event extraction framework is proposed. This framework extracts events from table WebPages by using DOM’s parallel structure, the events extracted from table WebPages are used as seeds to summary corresponding patterns from detail WebPages, then patterns summarized are used to further extract events from detail WebPages. Masses of websites are used to verify this framework and the result of extraction, which is compared to common wrapper-generation algorithm, indicated that this framework is feasible and better than wrapper-generation algorithm in quality of detail webpage extraction. Key words:information extraction (IE); web event extraction; table webpage; detail webpage; unsupervised
0引言
由 于 现 代 社 会 信 息 的 爆 炸 式 增 长 ,适 用 于 所 有 用 户 的 综 合性的通用搜索引擎已经不能满足用户针对某个领域和特定 主 题 的 查 询 需 求 。面 向 主 题 的 信 息 服 务 的 目 的 是 提 供 分 类 精 确 、数 据 全 面 、更 新 及 时 的 信 息 ,这 就 对 网 页 的 抽 取 处 理 提 出 了 新 的 要 求 ,特 定 领 域 的 信 息 抽 取 随 之 应 运 而 生 。 特 定 领 域 的 信 息 抽 取 只 限 于 特 定 的 主 题 或 专 门 领 域 ,在 抽 取 过 程 中 对 信息进行进一步筛选,并考虑了页面与领域主题的相关性,避 免 了 泛 滥 的 嘈 杂 信 息 。 在 事 件 领 域 ,现 实 生 活 中 的 事 件 以 不 同的格式分布在互联网上不同的网站中,如何得到通用,易于 扩 展 的 方 法 并 整 合 为 统 一 的 事 件 抽 取 框 架 ,对 于 突 发 事 件 的 查询以及后期的监控和分析处理具有重要意义。
场所名集合
网页存储单元
图 3 事件详情形式
2.2 基 于 文 档 树 结 构的 表 格 形 式 事 件 抽取 表格形式的事件在不同网站中具体 HTML 代码不尽相
同,如果对不同网页编写各自的抽取代码,随着网页增多工作 量 将 会 变 得 不 可 接 受 。本 文 则 采 用 基 于 相 似 平 行 结 构 的 文 档 树分析方法来抽取表格页面中的事件信息。
网页可以抽象为文档树,国际标准为文档对象模型,允许 开 发 者 遍 历 该 树 获 得 特 定 文 档 部 分 的 数 据 信 息 。 例 如 :网 页 是以 HTML 为根的一棵树,由于事件的要素:时间,地点,名称 都是文档树的节点,文档树也看作事件树,如图 4,图 5 所示。
html
事件名关键词 基于 DOM 树的 基于模式的事
第二类使用机器学习训练信息模型对未知语料进行抽 取,文献[8]用马尔科夫关系网对文档中的实体进行分类,利用 实体间的关系达到了很高的准确率。文献[9]通过 DOM 树中 各 部 分 子 树 的 比 较 ,定 位 结 构 化 数 据 节 点 ,并 合 并 单 条 数 据 记 录 形 成 数 据 记 录 表 格 ,但 子 树 比 较 效 率 不 高 ,对 于 特 定 事 件 领 域性能不够。
910 2011, Vol.32, No.3 计算计机算工机程工程与与设设计计CCoommppuuteterrEEnngginineeerirwenku.baidu.cominggaannddDDeesisgignn
无监督的互联网事件抽取框架
何一鸣 (复旦大学 计算机科学技术学院,上海 200433)
摘 要:为高效便捷 地获取互联网上 发布的真实事件 信息,提出了一 种无监督的互联 网事件抽取框 架。该框架利 用 DOM 树 模型 的平行结构特性 对表格页面进 行事件抽取,并以 表格页面抽取的 事件作为种子来 总结详情页面 的对应模式,进一 步使 用总 结的模式在详情 页面中抽取。 在大量网站页面 中应用该框架 ,并 将抽取结果与常 用的包装器生 成算法进行比较 ,结果 表明了该框架的有效性以及在详情页面中的抽取质量优于包装器算法。 关键 词:信息抽取; 互联网事件抽取 ; 表格网页; 详 情网页; 无监 督 中图 法分类号:TP393 文献标 识码:A 文章编号:1000-7024 (2011) 03-0910-04
何一鸣:无监督的互联网事件抽取框架
2011, Vol. 32, No.3 911
站构建模版抽取,耗时耗力,后期采用包装器推导技术 。存 [3-7] 在 SoftMeley,Roadrunner,ViNTs[6]等系统,例如 Roadrunner 根据 页 面 的 结 构 不 断 调 整 而 形 成 最 终 的 页 面 抽 取 规 则 ,但 这 些 系 统 对 信 息 项 之 间 的 相 互 关 系 考 虑 不 足 ,信 息 细 化 区 分 不 完 善 , 2009 年文献 [7] 提出了扫帚形的树结构来对页面记录进行标 注 ,并 根 据 标 签 路 径 信 息 生 成 包 装 器 来 进 行 记 录 级 的 抽 取 ,取 得 0.99 的高 F 值,但其系统仍需人工对页面进行少量标注,影 响对于大量网站的扩展性。
对 于 分 散 在 互 联 网 上 不 同 网 页 的 事 件 ,两 种 主 要 表 达 形 式 为 表 格 与 详 情 ,本 文 针 对 这 个 特 点 ,提 出 了 一 种 无 监 督 的 事件抽取框架,它包括两个模块来分别处理表格与详情形式, 由于表格形式下多组事件以重复的事件列表结构存在于同 一个页面中,本文根据热门地点首先定位 DOM 树中事件列 表 的 地 点 子 节 点 ,再 进 一 步 在 周 围 抽 取 事 件 的 名 称 与 时 间 要 素 ,而 详 情 形 式 下 本 文 则 利 用 表 格 抽 取 到 的 部 分 事 件 作 为 种
1 相关工作
事 件 抽 取 作 为 信 息 抽 取 在 特 定 领 域 的 细 化 ,Automatic Content Extraction (ACE)定义了这一任务,但都是纯文本文档, 研 究 者 例 如 文 献 [1],文 献 [2] 大 多 利 用 自 然 语 言 相 关 的 知 识 提 取 特 征 ,利 用 机 器 学 习 的 方 法 来 解 决 ,但 是 互 联 网 事 件 抽 取 由 于可以利用 html 文档的半结构化信息,和 ACE 任务又有所不 同,目前所知尚没有这方面的论文发表。而对于普通的 Web 信 息 抽 取 已 经 存 在 大 量 的 研 究 ,分 为 两 大 类 :
本 文 则 针 对 事 件 的 特 定 领 域 ,利 用 少 量 领 域 知 识 比 如 热 门事件发生地点,热门事件名称,再结合表格页面 html 结构化 信 息 以 及 详 情 页 面 的 事 件 要 素 分 界 信 息 ,不 需 要 人 工 标 记 全 自动无监督地从各种网站中抽取到事件信息。
事件抽取是把互联网上分散杂乱的信息整合起来以统一 的 形 式 展 示 给 用 户 ,生 成 结 构 化 的 事 件 记 录 形 式 ,如 下 所 示 : 发 生 时 间 :事 件 发 生 时 间 ,发 生 地 点 :事 件 发 生 地 点 ,事 件 名 称 :发 生 事 件 的 名 称 。
td
td
td
第 一 类 使 用 基 于 模 版 - 包 装 器 的 方 式 ,早 先 手 工 为 特 定 网
收稿日期:2010-03-24;修订日期:2010-05-26。 作者简介:何一鸣 (1984-),男,河南孟州人,硕士研究生,研究方向为 Web 信息抽取。E-mail:yiminghe@fudan.edu.cn