基于本体的语义标注工具比较与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 .5 Annot ea Annot ea 由 W3 C 组织研究开发 是基于通用开放式 RDF
构架下 Web 共享的 标 注 系 统~ Annot ea 把 Web 标 注 看 作 是 由文档创作 者 或 第 三 者 对 URI 指 定 文 档 所 作 的 注 释 < 称 为 XDoc > 标注存 储 在 专 有 的 < 本 体> 服 务 器 中~ 标 注 共 享 是 指 访问本体服务器的任何人都能访问与给定文档相关联的标
收稿日期!Z 003 -10 -14 "修订日期!Z 003 -1Z -18 作者简介!邹亮(1971 -) 9男9江西南昌人9工程师9硕士研究生9主要研究方向2语义 Web 技术~ 数据 处 理 技 术; 南昌人9硕士研究生9主要研究方向2语义 Web 技术~ 信息检索技术.
廖 述 梅(1976 -) 9女9江 西
当前国外许多 大 学 和 研 究 机 构 正 在 研 究 和 开 发 Web 内 容的语义标 注 工 具0 基 于 本 体 的 Web 内 容 写 作 与 标 注 ( 原 型 ) 工 具 典 型 的 有2 S MORE ~ Mn M~ Ont o Mat- Annoti Ser ~ Aer o DA ML ~ Annot ea ~ COHSE ~ SHOE Kno W1edge Annot at or 等0
的标注~ Aer o DA ML 由 商 业 信 息 提 取 产 品 Aer o Text 和 DA ML
生成组件构成[5 ] ~ Aer o Text 是高性 能 的 信 息 提 取 系 统 用 于 开发基于 NLP < Nat r a1 Lang age Pr oceSS > 内 容 分 析 的 应 用 在集成的开发环境中提供了先进的图形工具用于简化应用知
第Z4 卷 Z004 年6 月
计算机应用 Co mp t er App1i cati onS
Vo1 Z 4 J ne ,Z 004
文章编号21001 -9081 (Z 004 )06 Z -03Z 8 -03
基于本体的语义标注工具比较与分析
邹 亮1 廖述梅Z C1 . 华中科技大学 软件学院 湖北 武汉 430074 ; Z . 江西财经大学 信息管理学院 江西 南昌 330013 )
Mn M 组件由本体服务器9信息提取工具9增强 的 Web 浏 览器构成9支持五类基本操作2(1 ) 浏览2从本体服务器的 知 识 模 型 库 中 选 择 特 定 的 知 识 组 件 集 9这 一 步 是 信 息 提 取 的 基 础 ; (Z ) 标 记2用 户 选 定 文 档 的 Text 片 断 进 行 标 注9Mn M 将 其 相 关的 SG ML/ X ML 标签插入 文 档9手 动 标 注 的 文 档 作 为 信 息 提取过程的 Tr ai ni ng Cor p S ; (3 ) 学 习2对 已 标 注 的 文 档 组 运 行学习算法学习提取规则; (4 ) 测试2对测试文档组运行I E 机 制9检测其准确度和 查 全 率; (5 ) 提 取2选 定 的I E 机 制 对 未 标 注的文档集进行信息提取9产生带语义标注的文档0
识库的创建 和 维 护~ Aer o Text 通 用 的 体 系 结 构 支 持 各 类 文 本处理 主要由如下四个部件组成= 知识库编辑器~ 知识库引 擎~ 集成的开发环 境 <I DE > 和 通 用 知 识 库~ DA ML 生 成 组 件 访问信息提取结果的内部形式 通过引用提取过程使用到的
RDF 数据 库 中~ 其 开 放 式 构 架 以 W3 C 规 范 为 基 础 使 用 RDF Sche ma 描述标注特性 用 Xpoi nt er 连 接 文 档 与 标 注 通 过 HTTP 实现 客 户 服 务 器 交 互~ Annot ea 中 客 户 服 务 器 之 间交互分为五类= 客户端向服务器发布新标注~ 客户端向服务 器传送请求并获取标注元数据~ 下传标注实体~ 客户端更新标 注并向服务器发布更新~ 从服务器删除标注~
Ont o Mat- Annoti Ser 采取模块化的体系结构9为进 一 步 的 功能扩充( 如信息提取~ 协同的元数据创建~ 集成的本体编辑 和演化) 提供了 P1 g-i n 接口9给出了两种可选工作模式2在 页 面 创 作 的 同 时 产 生 元 数 据; 在 对 已 有 HT ML 页 面 进 行 后 期 标注时产生 元 数 据0 Ont o Mat- Annoti Ser 主 要 由 四 个 P1 g-i n 模块组成2本体浏览器~ HT ML 浏览器~ 本 体 服 务 器 和 帮 助 向 导0 其中2 本 体 浏 览 器 负 责 解 析 本 体 创 建 实 例 和 关 系; HT ML 浏览器负责打开 HT ML 文档并创建标 注0 本 体 服 务 器负责本体的使用和存储0 帮助向导分步骤演示如何标注 HT ML 页面0
1 .3 Ont o Mat- Annoti Ser Ont o Mat- Annoti Ser [3 ] 由 德 国 Kar1Sr he 大 学 AI FB 研 究
院开发9是 CREA M[4 ] 标注环境框架下的一 个 参 考 实 现9最 新 版本为Z 00Z 年4 月6 日 发 布 的 V0 .4 9该 工 具 的 目 标 是 生 成 带标 注 的 Web 页 面9 其 内 容 可 供 语 义 Web AgentS 推 理0 Ont o Mat- Annoti Ser 是基于模块的本体 驱 动 的 Web 页 面 创 作 与标 注 工 具 9其 交 互 模 式 使 用 户 可 在 创 作 和 标 注 之 间 自 由 转 换0
注 并加入自己的标注~ Annot ea 采 取 了 客 户 服 务 器 模 式[6 ] 客 户 端 使 用 的 是
W3 C 测试台编辑/ 浏览器 Amaya 服务器作为本体服 务 器 在 Apache Ser ver 上运行 MYS@L 数据库和 Per1 脚本~ Annot ea 的标注由标注元数据和标注实体组成 存储在文档以外的
S MORE 的主要功能 分 为2(1 ) 普 通 的 文 档 创 作 与 标 注9 包含一个全特性 的 Text / HT ML 编 辑 器 和 三 元 组 示 范 窗 口9 用户可在 Web 页面上选定文档片断9将其放入 三 元 组 占 位 符 中; (Z ) 由 Mai1S MORE 模 块 实 现 的 E- mai1 创 作 与 标 注9用 户 创作 E- mai1 9Mai1S MORE 根 据 已 有 的 E- mai1 本 体 利 用 标 准 的 E- mai1 属性(S bj ect ~t o ~f r o m ~body 等) 创 建 三 元 组; (3 ) 由 Phot oS MORE 模块实现 的 图 片 创 作 与 标 注9 用 RDF 标 注 图 像区域0
与语言知识库直接相关的默认本体 将提取结果转换成相应
的用 DA ML + OI L 语 法 表 示 的 RDF 三 元 组 最 后 串 行 RDF 三元组生成 DA ML 标注~
Aer o DA ML 的缺省本体底层 基 于 Aer o Text 的 通 用 知 识 库 上层基于 Wor d Net no n SynSet hi er archy ~ 产生的标注由 与本体相关联的词汇< 或实体> 和关系组成 其中词汇作为类 的实例~ 关系作为属性的实例~
此外9S MORE 还提供 一 些 辅 助 功 能2(1 ) 本 体 管 理 支 持 本体的查询~ 使用~ 创 建~ 编 辑~ 修 改 和 扩 充; (Z ) 屏 幕 抓 取9对 于带 Labe1ed Fi e1dS ~ Li StS 和 Tab1eS 的 结 构 化 Web 页 面9 Scr een Scr aper 可将页面上 的 结 构 映 射 到 本 体 然 后 标 注 该 区 域; (3 ) 相 关 语 义 素 材 链 接9在 用 户 编 辑 Web 页 面 时9语 义 虚 拟门户可提供到具有类似标注~ 相关图像和数据网页的链接0
1 .Z Mn M Mn M[Z ] 由 K Mi ( Kno W1edge Medi a I nStit t e 9The Open
Uni verSit y ) 研究开发9最新版是Z 00Z 年7 月推出的 Mn M vZ 9 该工具的目标 是 利 用 已 有 本 体 导 出 的 标 记 标 注 文 档0 Mn M 采用了易于理解一般处理模式9集成了自适应的信息提取工 具 Ami1car e 9 支 持 知 识 学 习 和 信 息 提 取0 先 对 Text 或 HT ML 文档学习库进行标注9然后利用标 注 结 果 生 成 词 汇 规 则9该词汇规则可用于对其他未标注的文档集提取信息0
摘 要!本体相关的语义标注工具利用已有本 体 在 Web 页 面 及 其 他 文 档 中 插 入 标 注 或 通 过 标 注文档产生知识库 文中从功能模块和标注特性角度比较分析了已发布的标注工具 并分析了这些 工具的特点与不足
关键词!本体;语义网;标注工具;信息提取;自然语言处理;知识库;RDF ;DA ML ;O WL 中图分类号!TP311 .1 文献标识码!A
1 标注工具的功能比较
1 .1 S MORE S MORE [1 ] ( Se manti c Mar k p 9 Ont o1ogy 9 and RDF
Edit or ) 由 Mar y1and 大 学 MI ND ( Mar y1and I nf or mati on and Net Wor k Dyna mi cS Lab ) S WAP ( Se manti c Web Agent S Pr oj ect ) 研究小组开发9最 新 版 本 为 Z 003 年 4 月 5 日 发 布 的 S MORE V3 .0 9该工具的目 标 是 无 缝 集 成 内 容 发 布 和 语 义 标 注0 S MORE 为用户 在 创 建 Web 页 面 在 线 内 容 的 同 时 方 便 地进行无缝的语义标注提供了集成的开发环境9还扩充了其 他标注工具所不 具 备 的 许 多 特 性9 如 E- mai1 和 图 像 标 注~ 本 体管理~ 屏幕抓取等0
1 .6 COHSE COHSE [3 ] < Concept a1 Open Hyper medi a Ser vi ceS
Envi r on ment > 由 MancheSt er 大 学 I nf or mati on Manage ment Gr o p 和 So t ha mpt on 大 学 I nt e11i gent AgentS M 1ti medi a Gr o p 联合研究 开 发 最 新 版 为 Z 00Z 年 4 月 推 出 的 V1 .0 ~ 这套工具的目标是利 用 元 数 据 支 持 语 义 Web 中 连 接 创 建 与
6月
邹 亮 等 !基 于 本 体 的 语 义 标 注 工 具 比 较 与 分 析
3Z 9Leabharlann Baidu
1 .4 Aer o DA ML Aer o DA ML [3 ] 属 于 U ML BaSed Ont o1ogy Too1Set
< UBOT > 项目的一部分 采 用 自 然 语 言 信 息 提 取 方 法 从 Web 页面自动生成 DA ML 标记的知识标注工具 该工具把常 见 的 概念 和 关 系 与 DA ML 本 体 中 的 类 和 属 性 联 系 起 来~ Aer o DA ML 有 两 个 版 本= Web-enab1ed 版 支 持 常 见 类 型 及 关 系 的 默 认 通 用 本 体 标 注 用 户 只 需 输 入 一 个 URI 即 返 回 该 Web 页面的标注< 此 处 仅 讨 论 Web-enab1ed 版> ~ C1i ent Ser ver 版支持定制本体标注 用户输入一个文件名即产生文本文档
构架下 Web 共享的 标 注 系 统~ Annot ea 把 Web 标 注 看 作 是 由文档创作 者 或 第 三 者 对 URI 指 定 文 档 所 作 的 注 释 < 称 为 XDoc > 标注存 储 在 专 有 的 < 本 体> 服 务 器 中~ 标 注 共 享 是 指 访问本体服务器的任何人都能访问与给定文档相关联的标
收稿日期!Z 003 -10 -14 "修订日期!Z 003 -1Z -18 作者简介!邹亮(1971 -) 9男9江西南昌人9工程师9硕士研究生9主要研究方向2语义 Web 技术~ 数据 处 理 技 术; 南昌人9硕士研究生9主要研究方向2语义 Web 技术~ 信息检索技术.
廖 述 梅(1976 -) 9女9江 西
当前国外许多 大 学 和 研 究 机 构 正 在 研 究 和 开 发 Web 内 容的语义标 注 工 具0 基 于 本 体 的 Web 内 容 写 作 与 标 注 ( 原 型 ) 工 具 典 型 的 有2 S MORE ~ Mn M~ Ont o Mat- Annoti Ser ~ Aer o DA ML ~ Annot ea ~ COHSE ~ SHOE Kno W1edge Annot at or 等0
的标注~ Aer o DA ML 由 商 业 信 息 提 取 产 品 Aer o Text 和 DA ML
生成组件构成[5 ] ~ Aer o Text 是高性 能 的 信 息 提 取 系 统 用 于 开发基于 NLP < Nat r a1 Lang age Pr oceSS > 内 容 分 析 的 应 用 在集成的开发环境中提供了先进的图形工具用于简化应用知
第Z4 卷 Z004 年6 月
计算机应用 Co mp t er App1i cati onS
Vo1 Z 4 J ne ,Z 004
文章编号21001 -9081 (Z 004 )06 Z -03Z 8 -03
基于本体的语义标注工具比较与分析
邹 亮1 廖述梅Z C1 . 华中科技大学 软件学院 湖北 武汉 430074 ; Z . 江西财经大学 信息管理学院 江西 南昌 330013 )
Mn M 组件由本体服务器9信息提取工具9增强 的 Web 浏 览器构成9支持五类基本操作2(1 ) 浏览2从本体服务器的 知 识 模 型 库 中 选 择 特 定 的 知 识 组 件 集 9这 一 步 是 信 息 提 取 的 基 础 ; (Z ) 标 记2用 户 选 定 文 档 的 Text 片 断 进 行 标 注9Mn M 将 其 相 关的 SG ML/ X ML 标签插入 文 档9手 动 标 注 的 文 档 作 为 信 息 提取过程的 Tr ai ni ng Cor p S ; (3 ) 学 习2对 已 标 注 的 文 档 组 运 行学习算法学习提取规则; (4 ) 测试2对测试文档组运行I E 机 制9检测其准确度和 查 全 率; (5 ) 提 取2选 定 的I E 机 制 对 未 标 注的文档集进行信息提取9产生带语义标注的文档0
识库的创建 和 维 护~ Aer o Text 通 用 的 体 系 结 构 支 持 各 类 文 本处理 主要由如下四个部件组成= 知识库编辑器~ 知识库引 擎~ 集成的开发环 境 <I DE > 和 通 用 知 识 库~ DA ML 生 成 组 件 访问信息提取结果的内部形式 通过引用提取过程使用到的
RDF 数据 库 中~ 其 开 放 式 构 架 以 W3 C 规 范 为 基 础 使 用 RDF Sche ma 描述标注特性 用 Xpoi nt er 连 接 文 档 与 标 注 通 过 HTTP 实现 客 户 服 务 器 交 互~ Annot ea 中 客 户 服 务 器 之 间交互分为五类= 客户端向服务器发布新标注~ 客户端向服务 器传送请求并获取标注元数据~ 下传标注实体~ 客户端更新标 注并向服务器发布更新~ 从服务器删除标注~
Ont o Mat- Annoti Ser 采取模块化的体系结构9为进 一 步 的 功能扩充( 如信息提取~ 协同的元数据创建~ 集成的本体编辑 和演化) 提供了 P1 g-i n 接口9给出了两种可选工作模式2在 页 面 创 作 的 同 时 产 生 元 数 据; 在 对 已 有 HT ML 页 面 进 行 后 期 标注时产生 元 数 据0 Ont o Mat- Annoti Ser 主 要 由 四 个 P1 g-i n 模块组成2本体浏览器~ HT ML 浏览器~ 本 体 服 务 器 和 帮 助 向 导0 其中2 本 体 浏 览 器 负 责 解 析 本 体 创 建 实 例 和 关 系; HT ML 浏览器负责打开 HT ML 文档并创建标 注0 本 体 服 务 器负责本体的使用和存储0 帮助向导分步骤演示如何标注 HT ML 页面0
1 .3 Ont o Mat- Annoti Ser Ont o Mat- Annoti Ser [3 ] 由 德 国 Kar1Sr he 大 学 AI FB 研 究
院开发9是 CREA M[4 ] 标注环境框架下的一 个 参 考 实 现9最 新 版本为Z 00Z 年4 月6 日 发 布 的 V0 .4 9该 工 具 的 目 标 是 生 成 带标 注 的 Web 页 面9 其 内 容 可 供 语 义 Web AgentS 推 理0 Ont o Mat- Annoti Ser 是基于模块的本体 驱 动 的 Web 页 面 创 作 与标 注 工 具 9其 交 互 模 式 使 用 户 可 在 创 作 和 标 注 之 间 自 由 转 换0
注 并加入自己的标注~ Annot ea 采 取 了 客 户 服 务 器 模 式[6 ] 客 户 端 使 用 的 是
W3 C 测试台编辑/ 浏览器 Amaya 服务器作为本体服 务 器 在 Apache Ser ver 上运行 MYS@L 数据库和 Per1 脚本~ Annot ea 的标注由标注元数据和标注实体组成 存储在文档以外的
S MORE 的主要功能 分 为2(1 ) 普 通 的 文 档 创 作 与 标 注9 包含一个全特性 的 Text / HT ML 编 辑 器 和 三 元 组 示 范 窗 口9 用户可在 Web 页面上选定文档片断9将其放入 三 元 组 占 位 符 中; (Z ) 由 Mai1S MORE 模 块 实 现 的 E- mai1 创 作 与 标 注9用 户 创作 E- mai1 9Mai1S MORE 根 据 已 有 的 E- mai1 本 体 利 用 标 准 的 E- mai1 属性(S bj ect ~t o ~f r o m ~body 等) 创 建 三 元 组; (3 ) 由 Phot oS MORE 模块实现 的 图 片 创 作 与 标 注9 用 RDF 标 注 图 像区域0
与语言知识库直接相关的默认本体 将提取结果转换成相应
的用 DA ML + OI L 语 法 表 示 的 RDF 三 元 组 最 后 串 行 RDF 三元组生成 DA ML 标注~
Aer o DA ML 的缺省本体底层 基 于 Aer o Text 的 通 用 知 识 库 上层基于 Wor d Net no n SynSet hi er archy ~ 产生的标注由 与本体相关联的词汇< 或实体> 和关系组成 其中词汇作为类 的实例~ 关系作为属性的实例~
此外9S MORE 还提供 一 些 辅 助 功 能2(1 ) 本 体 管 理 支 持 本体的查询~ 使用~ 创 建~ 编 辑~ 修 改 和 扩 充; (Z ) 屏 幕 抓 取9对 于带 Labe1ed Fi e1dS ~ Li StS 和 Tab1eS 的 结 构 化 Web 页 面9 Scr een Scr aper 可将页面上 的 结 构 映 射 到 本 体 然 后 标 注 该 区 域; (3 ) 相 关 语 义 素 材 链 接9在 用 户 编 辑 Web 页 面 时9语 义 虚 拟门户可提供到具有类似标注~ 相关图像和数据网页的链接0
1 .Z Mn M Mn M[Z ] 由 K Mi ( Kno W1edge Medi a I nStit t e 9The Open
Uni verSit y ) 研究开发9最新版是Z 00Z 年7 月推出的 Mn M vZ 9 该工具的目标 是 利 用 已 有 本 体 导 出 的 标 记 标 注 文 档0 Mn M 采用了易于理解一般处理模式9集成了自适应的信息提取工 具 Ami1car e 9 支 持 知 识 学 习 和 信 息 提 取0 先 对 Text 或 HT ML 文档学习库进行标注9然后利用标 注 结 果 生 成 词 汇 规 则9该词汇规则可用于对其他未标注的文档集提取信息0
摘 要!本体相关的语义标注工具利用已有本 体 在 Web 页 面 及 其 他 文 档 中 插 入 标 注 或 通 过 标 注文档产生知识库 文中从功能模块和标注特性角度比较分析了已发布的标注工具 并分析了这些 工具的特点与不足
关键词!本体;语义网;标注工具;信息提取;自然语言处理;知识库;RDF ;DA ML ;O WL 中图分类号!TP311 .1 文献标识码!A
1 标注工具的功能比较
1 .1 S MORE S MORE [1 ] ( Se manti c Mar k p 9 Ont o1ogy 9 and RDF
Edit or ) 由 Mar y1and 大 学 MI ND ( Mar y1and I nf or mati on and Net Wor k Dyna mi cS Lab ) S WAP ( Se manti c Web Agent S Pr oj ect ) 研究小组开发9最 新 版 本 为 Z 003 年 4 月 5 日 发 布 的 S MORE V3 .0 9该工具的目 标 是 无 缝 集 成 内 容 发 布 和 语 义 标 注0 S MORE 为用户 在 创 建 Web 页 面 在 线 内 容 的 同 时 方 便 地进行无缝的语义标注提供了集成的开发环境9还扩充了其 他标注工具所不 具 备 的 许 多 特 性9 如 E- mai1 和 图 像 标 注~ 本 体管理~ 屏幕抓取等0
1 .6 COHSE COHSE [3 ] < Concept a1 Open Hyper medi a Ser vi ceS
Envi r on ment > 由 MancheSt er 大 学 I nf or mati on Manage ment Gr o p 和 So t ha mpt on 大 学 I nt e11i gent AgentS M 1ti medi a Gr o p 联合研究 开 发 最 新 版 为 Z 00Z 年 4 月 推 出 的 V1 .0 ~ 这套工具的目标是利 用 元 数 据 支 持 语 义 Web 中 连 接 创 建 与
6月
邹 亮 等 !基 于 本 体 的 语 义 标 注 工 具 比 较 与 分 析
3Z 9Leabharlann Baidu
1 .4 Aer o DA ML Aer o DA ML [3 ] 属 于 U ML BaSed Ont o1ogy Too1Set
< UBOT > 项目的一部分 采 用 自 然 语 言 信 息 提 取 方 法 从 Web 页面自动生成 DA ML 标记的知识标注工具 该工具把常 见 的 概念 和 关 系 与 DA ML 本 体 中 的 类 和 属 性 联 系 起 来~ Aer o DA ML 有 两 个 版 本= Web-enab1ed 版 支 持 常 见 类 型 及 关 系 的 默 认 通 用 本 体 标 注 用 户 只 需 输 入 一 个 URI 即 返 回 该 Web 页面的标注< 此 处 仅 讨 论 Web-enab1ed 版> ~ C1i ent Ser ver 版支持定制本体标注 用户输入一个文件名即产生文本文档