国外典型语义标注平台的比较研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
〔关键词〕语义 Web ; 语义标注 ; 本体 ; 标注平台 〔中图分类号〕G203 ; TP311 〔文献标识码〕A 〔文章编号〕1008 - 0821 (2009) 01 - 0215 - 03
Comparative Study on Foreign Representative Semantic Annotation Platforms
本地本体库 ;URL
WebOnto 服 务 器 (可能本地)
预定义本体
AeroDAML 预定义本体
Semantic Word 本地文件
本体语言 SHOE
DAML + OIL
RDF OCML
RDF(S)
Xi DAML + OIL
DAML + OIL
DAML
本体元素 Concepts Relations Claims
113 MnM
MnM[5]由 KMi ( Knowledge Media Institute) 研究开发 , 其 目标是利用已有本体导出的标记标注文档 。MnM 采用了易 于理解的一般处理模式 , 集成了自适应的信息抽取系统 ( Information Extraction Systems , IES) Amilcare , 支持知识学习 和信息抽取 。MnM 先对 Text 或 HTML 文档学习库进行标注 , 然后利用标注结果生成词汇规则 , 该词汇规则可用于对其 他未标注的文档集进行信息提取 。
116 SemanticWord
SemanticWord[8]是在 TeKnowledge 项目下开发的基于 MS Word 环境的集成化的 Word 文档标注平台 , 它提供定制工 具使得内容发布和语义标注同时进行 。当内容被重用时 , 标注模式允许标注被重用 。一个定制的模版库包含部分被 标注的文本 。它包含自动化的信息抽取系统和用以及精炼 、 增加它的输出内容的定制工具 。
2 国外典型语义标注平台的特点比较
本节从 11 个方面详细分析一下以上 6 个典型的语义标 注平台的特点 , 如表 1 所示 。
项目
SHOE Knowledge Annotator
本体来源 本地文件 ;URL
表 1 国外典型语义标注平台的特点比较 标 注 平 台
SMORE
MnM
Melita
Classes Instances Attributes Relations
Classes Instances Attributes
Concepts Relations
Classes Instances Relations
Classes Properties Instances
标注语言 SHOE 目标文档 本地文件
静态 HTML URL 文
档
Word
半自动、自动
自动化
半自动
自动化 Running
SHOE
分析类型 (wrappers)
Screen scraper
自动化学习 No
No
POS(Part of speech) tagging. Named Entity Recognition
String matching , POS tagging ,Named Entity Recognition
Jan , 2009 Vol129 No11
111 SHOE Knowledge Annotator
SHOE (Simple HTML Ontology Extension) Knowledge Anno2 tator[3]由 MaryLand 大学开发 , 可认为是第一个在真正意义 上实现语义标注的平台 , 通过选取和填表的方式轻松地向 Web 页面添加 SHOE 知识 。SHOE 是由类似 HTML 代码编写 的语言 , 用于定义本源自文库和标注语言 。它没有用于显示 Web 页面的浏览器 , 主要用于 SHOE 标注演示 。
— 216 —
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
2009 年 1 月 第 29 卷第 1 期
现代情报
Journal of Modern Information
112 SMORE
SMORE[4] ( Semantic Markup , Ontology , and RDF Editor) 是由 Maryland 大 学 MIND (Maryland Information and Network Dynamics Lab) SWAP (Semantic Web Agents Project) 研究小组 开发的为用户提供无缝集成 Web 内容发布和语义标注的开 发环境 , 还扩充了其他标注平台所不具备的许多特性 , 如 本体管理 、屏幕抓取等 。
AeroText
Supervised learning Supervised learning No
AeroDAM No
3 典型语义标注平台比较分析
311 典型语义标注平台的技术比较
(1) 语义标注平台的设计思想分为 : ①语义 Web 的方 法 , 即以产 生 语 义 标 注 为 主 、本 体 生 成 为 辅 , 如 SMORE 等 ; ②知识工程的方法 , 是以本体为指导的文档标注 , 既 产生知识库又生成文档标注 , 此类平台支持自然语言处理 (Natural language processing , NLP) , 如 MnM、AeroDAML 等 。 (2) 多数平台采取插件 (如 SMORE、MnM 等) 机制 , 便于
2009 年 1 月 第 29 卷第 1 期
·情报纵横·
现代情报
Journal of Modern Information
Jan , 2009 Vol129 No11
国外典型语义标注平台的比较研究
鞠彦辉 刘 闯
(渤海大学信息科学与工程学院 , 辽宁 锦州 121000)
〔摘 要〕本文简要介绍了国外典型的语义标注平台 , 详细比较了它们的特点 , 分析了这些平台的不足 , 展望了语义标注 的发展趋势 。
1 国外典型语义标注平台简介
按照语言学 (特别是计算语言学) 的理解 , 标注是对 文本特定部分所加的形式注释 , 从语义 Web 的角度来看 , 对传统 Web 资源添加语义信息是基于本体进行的 , 称之为 语义标注 。语义标注既是指一组元数据 (metadata) 也是指 这些元数据的生成过程 。[2]下面简要介绍一下国外典型的语 义标注平台 (Semantic Annotation Platform) 。
2009 年 1 月 第 29 卷第 1 期
国外典型语义标注平台的比较研究
Jan , 2009 Vol129 No11
115 AeroDAML
AeroDAML[7] ( The DARPA Agent Markup Language , DAML) 属于 UBOT (UML Based Ontology Toolset) 项目的一 部分 , 采用自然语言信息抽取技术从 Web 页面自动生成 DAML 知识标注平台 , 它把常见的概念和关系与 DAML 本 体中的类和属性联系起来 。
114 Melita
Melita[6]是在 AKT (Advanced Knowledge Technologies) 项 目下研究开发 , 同时集成自适应信息抽 取 系 统 Amilcare 。 Melita 是半自动的文本标注平台 , 它的功能为管理任务 、信 息提取和信息标记 , 这些功能是通过良好的界面操作和高 效的信息提取算法来实现的 。
〔Key words〕semantic Web ; semantic annotation ; ontology ; annotation platform
为了解决互联网上信息处理的自动化 、智能化程度很 低的问题 , Web 创始人 Tim Berners - Lee 于 2000 年提出语义 Web 的概念[1] , 而实现语义 Web 目标的一个重要前提是利 用本体 (ontology) 词汇标注 Web 资源 , 将 Web 上资源的状 态从机器可读提高到机器可理解的程度 , 这是整个语义 Web 实现的基础 。
J u Yanhui Liu Chuang (College of Information Science and Engineering , Bohai University , Jinzhou 121000 , China)
〔Abstract〕The article introduced simply foreign representative semantic annotation platforms , compared them characteristic in detail , analyzed deficiency of these platforms , prospected development trend of semantic annotation.
Web browser&editor Web browser
静态 HTML ,text , E2 静态 HTML text mail and images
半自动
半自动、自动
Control of intrusive2 Web service
ness of IE
Microsoft Word GUIs
HTML ,text
收稿日期 : 2008 - 10 - 14 作者简介 : 鞠彦辉 (1974 - ) , 男 , 讲师 , 研究方向 : 信息资源管理的教学与科研工作 , 发表论文数篇 。
— 215 —
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
功能扩充和系统集成[12] ; (3) 标注存放位置有标注服务 器 、嵌入被标注的文档 、单独的本地文件 。嵌入标注是指 页面的标注存储在被标注文档中 , 而标注嵌入在整个文档 的头部 (如 SMORE) , 或者依附于被标注的文本区域 (如 SemanticWord) ; MnM 等的标注以单独的文件存储 , 还允许 标注作为知识库单元存储在 WebOnto 中 ; (4) 标注过程和 标注生成有普通的标注生成和借助信息抽取的标注生成 。 普通的标注生成实现相对简单 , 所有标注半自动产生 。借 助信息抽取的标注生成一个集成的信息抽取系统 , 需要综 合自然语言处理和机器学习技术来解决自然语言的复杂问
DAML + OIL RDF(S)
本地文件
XML 本地文件
XML 本地文件
DAML + OIL Web 页
DAML Word 文档
标准格式 SHOE
RDF(S)
RDF ( S) , DAML + RDF ( S) DAML +
OWL
OIL OCML
OIL
DAML + OIL
用户中心设计 Prompting 文件格式 静态 HTML 自动化 手工
此外还有 : M - OntoMat - Annotizer[9] 是德国 Karlsruhe 大
学的应用情报学和规范描述方法研究所 ( Institute of Applied Informatics and Formal Description Methods , AIFB) 开发的多媒 体内容标注的集成化平台 , 那些缺乏多媒体经验的索引编 制者通过对低水平特性的自动抽取从内容上描述客体 , 从 而实现图像和视频数据的手动标注 ; Annotea[10] 由 W3C 组 织研究开发 , 是基于通用开放式 RDF ( Resource Description Framework , 资源描述框架) 构架下 We 共享的标注平台 ; COHSE[11] ( Conceptual Open Hypermedia Service Environment ) 由 Manchester 大学和 Southampton 大学联合研究开发 , 其目 标是利用元数据支持 Web 中 Link 创建与导航 。
Comparative Study on Foreign Representative Semantic Annotation Platforms
本地本体库 ;URL
WebOnto 服 务 器 (可能本地)
预定义本体
AeroDAML 预定义本体
Semantic Word 本地文件
本体语言 SHOE
DAML + OIL
RDF OCML
RDF(S)
Xi DAML + OIL
DAML + OIL
DAML
本体元素 Concepts Relations Claims
113 MnM
MnM[5]由 KMi ( Knowledge Media Institute) 研究开发 , 其 目标是利用已有本体导出的标记标注文档 。MnM 采用了易 于理解的一般处理模式 , 集成了自适应的信息抽取系统 ( Information Extraction Systems , IES) Amilcare , 支持知识学习 和信息抽取 。MnM 先对 Text 或 HTML 文档学习库进行标注 , 然后利用标注结果生成词汇规则 , 该词汇规则可用于对其 他未标注的文档集进行信息提取 。
116 SemanticWord
SemanticWord[8]是在 TeKnowledge 项目下开发的基于 MS Word 环境的集成化的 Word 文档标注平台 , 它提供定制工 具使得内容发布和语义标注同时进行 。当内容被重用时 , 标注模式允许标注被重用 。一个定制的模版库包含部分被 标注的文本 。它包含自动化的信息抽取系统和用以及精炼 、 增加它的输出内容的定制工具 。
2 国外典型语义标注平台的特点比较
本节从 11 个方面详细分析一下以上 6 个典型的语义标 注平台的特点 , 如表 1 所示 。
项目
SHOE Knowledge Annotator
本体来源 本地文件 ;URL
表 1 国外典型语义标注平台的特点比较 标 注 平 台
SMORE
MnM
Melita
Classes Instances Attributes Relations
Classes Instances Attributes
Concepts Relations
Classes Instances Relations
Classes Properties Instances
标注语言 SHOE 目标文档 本地文件
静态 HTML URL 文
档
Word
半自动、自动
自动化
半自动
自动化 Running
SHOE
分析类型 (wrappers)
Screen scraper
自动化学习 No
No
POS(Part of speech) tagging. Named Entity Recognition
String matching , POS tagging ,Named Entity Recognition
Jan , 2009 Vol129 No11
111 SHOE Knowledge Annotator
SHOE (Simple HTML Ontology Extension) Knowledge Anno2 tator[3]由 MaryLand 大学开发 , 可认为是第一个在真正意义 上实现语义标注的平台 , 通过选取和填表的方式轻松地向 Web 页面添加 SHOE 知识 。SHOE 是由类似 HTML 代码编写 的语言 , 用于定义本源自文库和标注语言 。它没有用于显示 Web 页面的浏览器 , 主要用于 SHOE 标注演示 。
— 216 —
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
2009 年 1 月 第 29 卷第 1 期
现代情报
Journal of Modern Information
112 SMORE
SMORE[4] ( Semantic Markup , Ontology , and RDF Editor) 是由 Maryland 大 学 MIND (Maryland Information and Network Dynamics Lab) SWAP (Semantic Web Agents Project) 研究小组 开发的为用户提供无缝集成 Web 内容发布和语义标注的开 发环境 , 还扩充了其他标注平台所不具备的许多特性 , 如 本体管理 、屏幕抓取等 。
AeroText
Supervised learning Supervised learning No
AeroDAM No
3 典型语义标注平台比较分析
311 典型语义标注平台的技术比较
(1) 语义标注平台的设计思想分为 : ①语义 Web 的方 法 , 即以产 生 语 义 标 注 为 主 、本 体 生 成 为 辅 , 如 SMORE 等 ; ②知识工程的方法 , 是以本体为指导的文档标注 , 既 产生知识库又生成文档标注 , 此类平台支持自然语言处理 (Natural language processing , NLP) , 如 MnM、AeroDAML 等 。 (2) 多数平台采取插件 (如 SMORE、MnM 等) 机制 , 便于
2009 年 1 月 第 29 卷第 1 期
·情报纵横·
现代情报
Journal of Modern Information
Jan , 2009 Vol129 No11
国外典型语义标注平台的比较研究
鞠彦辉 刘 闯
(渤海大学信息科学与工程学院 , 辽宁 锦州 121000)
〔摘 要〕本文简要介绍了国外典型的语义标注平台 , 详细比较了它们的特点 , 分析了这些平台的不足 , 展望了语义标注 的发展趋势 。
1 国外典型语义标注平台简介
按照语言学 (特别是计算语言学) 的理解 , 标注是对 文本特定部分所加的形式注释 , 从语义 Web 的角度来看 , 对传统 Web 资源添加语义信息是基于本体进行的 , 称之为 语义标注 。语义标注既是指一组元数据 (metadata) 也是指 这些元数据的生成过程 。[2]下面简要介绍一下国外典型的语 义标注平台 (Semantic Annotation Platform) 。
2009 年 1 月 第 29 卷第 1 期
国外典型语义标注平台的比较研究
Jan , 2009 Vol129 No11
115 AeroDAML
AeroDAML[7] ( The DARPA Agent Markup Language , DAML) 属于 UBOT (UML Based Ontology Toolset) 项目的一 部分 , 采用自然语言信息抽取技术从 Web 页面自动生成 DAML 知识标注平台 , 它把常见的概念和关系与 DAML 本 体中的类和属性联系起来 。
114 Melita
Melita[6]是在 AKT (Advanced Knowledge Technologies) 项 目下研究开发 , 同时集成自适应信息抽 取 系 统 Amilcare 。 Melita 是半自动的文本标注平台 , 它的功能为管理任务 、信 息提取和信息标记 , 这些功能是通过良好的界面操作和高 效的信息提取算法来实现的 。
〔Key words〕semantic Web ; semantic annotation ; ontology ; annotation platform
为了解决互联网上信息处理的自动化 、智能化程度很 低的问题 , Web 创始人 Tim Berners - Lee 于 2000 年提出语义 Web 的概念[1] , 而实现语义 Web 目标的一个重要前提是利 用本体 (ontology) 词汇标注 Web 资源 , 将 Web 上资源的状 态从机器可读提高到机器可理解的程度 , 这是整个语义 Web 实现的基础 。
J u Yanhui Liu Chuang (College of Information Science and Engineering , Bohai University , Jinzhou 121000 , China)
〔Abstract〕The article introduced simply foreign representative semantic annotation platforms , compared them characteristic in detail , analyzed deficiency of these platforms , prospected development trend of semantic annotation.
Web browser&editor Web browser
静态 HTML ,text , E2 静态 HTML text mail and images
半自动
半自动、自动
Control of intrusive2 Web service
ness of IE
Microsoft Word GUIs
HTML ,text
收稿日期 : 2008 - 10 - 14 作者简介 : 鞠彦辉 (1974 - ) , 男 , 讲师 , 研究方向 : 信息资源管理的教学与科研工作 , 发表论文数篇 。
— 215 —
© 1994-2011 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
功能扩充和系统集成[12] ; (3) 标注存放位置有标注服务 器 、嵌入被标注的文档 、单独的本地文件 。嵌入标注是指 页面的标注存储在被标注文档中 , 而标注嵌入在整个文档 的头部 (如 SMORE) , 或者依附于被标注的文本区域 (如 SemanticWord) ; MnM 等的标注以单独的文件存储 , 还允许 标注作为知识库单元存储在 WebOnto 中 ; (4) 标注过程和 标注生成有普通的标注生成和借助信息抽取的标注生成 。 普通的标注生成实现相对简单 , 所有标注半自动产生 。借 助信息抽取的标注生成一个集成的信息抽取系统 , 需要综 合自然语言处理和机器学习技术来解决自然语言的复杂问
DAML + OIL RDF(S)
本地文件
XML 本地文件
XML 本地文件
DAML + OIL Web 页
DAML Word 文档
标准格式 SHOE
RDF(S)
RDF ( S) , DAML + RDF ( S) DAML +
OWL
OIL OCML
OIL
DAML + OIL
用户中心设计 Prompting 文件格式 静态 HTML 自动化 手工
此外还有 : M - OntoMat - Annotizer[9] 是德国 Karlsruhe 大
学的应用情报学和规范描述方法研究所 ( Institute of Applied Informatics and Formal Description Methods , AIFB) 开发的多媒 体内容标注的集成化平台 , 那些缺乏多媒体经验的索引编 制者通过对低水平特性的自动抽取从内容上描述客体 , 从 而实现图像和视频数据的手动标注 ; Annotea[10] 由 W3C 组 织研究开发 , 是基于通用开放式 RDF ( Resource Description Framework , 资源描述框架) 构架下 We 共享的标注平台 ; COHSE[11] ( Conceptual Open Hypermedia Service Environment ) 由 Manchester 大学和 Southampton 大学联合研究开发 , 其目 标是利用元数据支持 Web 中 Link 创建与导航 。