语义标注元数据及其抽取技术_凌海云

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RDF( Resource Description Framework) 即 资 源 描 述 框 架, 是 W3C 制定 的一个推荐标准[3] 。它的目 的是利 用当前存 在着的 多种元数据标准 来描述各种 网络资源, 形 成人机 可读的、并可 以由计 算机自动处理的 文件。RDF 提供 了一个 供多种 元数据 标准共 存的框架, 在这个框 架中, 能够 充分利 用各种元 数据的 优势, 并能够进行基于 Web 的数据交换和再利用。
文献标识码: A
文章编号: 1001- 3695( 2004) 07- 0147- 03
Semantic Annotated Metadata and the Extraction Technology
LING Ha-i yun, ZUO Zh-i hong , CHEN Lan, DUAN En- ze, YUAN Jun- ying ( School . of Computer Science & Engineering , University of Electronic Sci ence & Technology , Chengdu Sichuan 610054, China)
例如在 Dublin Core 的 XML 实现中[6] , 用容器元素( Container Element) 将 DC 的 结构化 元数据 ( Structured Metadata) 包 装 起 来 , 这 些 元 素 包 括 < dc > , < dublinCore > , < resource > , < record> 。这种结构化元数据( 规范 中称为 Record) 就 是一种简 单的 XML 包, 但它仅限于将 DC 元数据 嵌入 XML 文件 中, 没有 普遍性, 互操作性差。后文将介绍另一种 Adobe 公 司的较通用 的 XML 包技术。
第7期
凌海云等: 语义标注元数据及其抽取技术
# 147 #
语义标注元数据及其抽取技术*
凌海云, 左志宏, 陈 兰, 段恩泽, 袁军英
( 电子科技大学 计算机科学与工程学院, 四川 成都 610054)
摘 要: 讨论了语义 Web 上用 XML 或 RDF/ XML 标注元数据的方法以及元数据标注在语义 Web 上的两种存在
例如, Dublin Core 元数据就 可以用 简单 XML 属性/ 值对来 表达某种语义信息。见下例:
< dc: title> 语义标注元数据及其抽取技术< / dc: title> < dc: creator> 凌海云< / dc: creator> < dc: date> 2003/ 06/ 20< / dc: date>
从各种 各样的网络资源中, 如正 文文本 ( 即页面 文件) 、图 像、音频、视频等, 自动抽取有用信息是一件困难的工作 。正文 文本通常用 自然语言书 写, 尽 管能够 使用特 定的 技术( 如 NLP 技术等) 进行抽取, 但 正确率 及应用 范围都 有限。而 对于像图 像、音频、视频这 样的资源, 要从 中自动抽取 信息, 或对它们进 行自动处理, 由于缺乏语义 支持, 在传 统的互 联网中 几乎不可 能。语义 Web 的目的之一正是要解 决这些困难。
211 用 XML 描述元数据
在元数据发展的早期, 元数据 的编码 语言多 种多样, 但随 着元数据格式的增加和互操作的要求, 需要一种通 用的定义描 述语言( Definition Description Language, DDL) 来描述元数据, 这就 是 XML[ 2] 。
语义 Web 上常 用的 元数 据通 常都 以 XML 作 为 编码 语言 ( 如 果 还 有 其 他 表 现 形 式 的 话) , 使 用 XML 的 属 性/ 值 对 ( Property/ Value Pairs) 的概念来表达语义信息。
Abstract: Discusses the methods of annotating metadata with XML or RDF/ XML on semantic Web. Introduces two forms of metadata presence on semantic Web: in unique file or in a XML packet embedded in other files. And introduces the methods extracting metadata from the unique file and XML packet including the XML parser SAX and DOM. Key words: Semantic Web; Semantic Annotation; Metadata; XML Packet; Resource Description Framework( RDF) ; SAX; Document Object Model( DOM)
图 2 带语义标注元数据抽取系统结构图 首先由网络资源文件抓取器从语义 Web( 也可以是现在的 Web) 上抓取 带 语义 标注 的 资源 文件, 并将 抓取 的 文 件分 类。 如果是 XML 类文件, 交 SAX 或 DOM 解析, 抽取其中的 元数据; 如果是 XML 包 的宿主 文件, 交 XML 包 扫描 器扫 描, 截取 其中 的 XML 包( 即 XML 文档片段) , 再由 SAX 或 DOM 解析, 抽取其 中元数据信息。SAX 和 DOM 的选 取, 应根 据具体 应用 作出决 定, 下文 将有分析。根 据具体应用 的需要, 抽取后 的元数据可 以纯文本、复杂文本( 如 RDF/ XML) 或数据库 等形式存在, 等待 进一步处理。 下面详细介绍其中的几个关键部分。
3 带语义标注的元数据抽取
图 2 是带语义标注元数据抽取系统的结 构图。
图 1 RDF 的有向图表示 用 RDF/ XML 表示为 < rdf: Description rdf: about = d ht tp: / / www. t hedoef amily. org/ home/ ja ned> < dc: creator> Jane Doe< / dc: creator> < / rdf : Descript ion>
1 语义Web 与语义标注
语义 Web 中的语 义是指 机器 可处 理, 而不 是自 然语 言语 义和人的推理。对于数据, 语义表达了机器能对这些数 据做些 什么。若给出一些数据到一台机器, 它用这些数据做出 了正确 的事情, 则认为它通过了语义测试。
语义 Web 是现今 Web 的扩展, 在 其中 数据的 意义 被明确 定义, 使计算机和人更好地协同工作[ 1] 。由于它描述了 事物间 的明显关系, 并包含语义信息, 语义 Web 更有 利于机 器自动处 理。
2 语义Web 上常用元数据的表示方法
元数据是关于数据的数据( Data about Data) , 是关于对象数 据的一种概括性、实质性的描述。
收稿日期: 2003- 06- 20; 修返日期: 2003- 07- 08 基金项目: 国家计算机网络与信息安全中心资助项目( 2002- 研 1- B- 003)
RDF 基 本 数 据 模 型 由 三 种 对 象 类 型 组 成: Resources, Properties 和 Statements。所有 Statements 可以 被表 示成 三元 组: { Subject, Predicate, Object} , 对 于简 单 名字/ 值 对, Predicate 就是 名字, Object 就是值, Subject 就 是名字/ 值对描 述的事 物。可以
212 RDF/ XML 与元数据描述
随着因特网wk.baidu.com发展和信息的丰富, 出现了多种 元数据标准 ( 格式) , 如 DC( Dublin Core) , PICS( Platform of Internet Content Selection) , WF( Warwick Framework) 。但是 各种 元数 据各 自发 展, 内容重复, 交流也有困难。鉴于此, W3C 制定了 RDF 来解决这 个问题。
RDF 是描述元数 据的通用框 架, 适用的 领域非 常广 泛, 但 每种元数 据都有 其特殊的 适用领 域, 所以在 元数据的 RDF 具 体实现中, 一般都对 RDF 作了一定 程度的简 化和进一步 约束。 例如应用于传统和电子出版业的元数据标准 PRISM [4] ( Publishing Requirements for Industry Standard Metadata) 和 Adobe 公司为网 络出 版 业 制 定 的 描 述 格 式 可 扩 展 元 数 据 平 台[5] ( Extensible Metadata Platform, XMP ) , 都 没 有采 用 完整 的 RDF, 而是 在 RDF 的基础上作了一 定的 简化, 如 不支 持 RDF 元素 rdf: aboutEachPrefix。
213 语义 Web 上元数据 描述的存在形式
无论是用简单 XML 还是 RDF/ XML 描述元数据, 这些描述 都是格式良好的 XML 文档或 文档片段, 在语 义 Web 上可以单 独文件的形式存在, 如一个 RDF 文件; 也可以 XML 包的形式嵌 入其他文件。
XML 包 ( Packet ) 是 嵌 入 其 他 文 件 中 的 一 段 格 式 良 好 的 XML 文档, 其最外层用 某个 特 殊元 素包 装 ( Wrap) 起 来。这个 包被看作是一个整体, 用于描述与宿主文件有 关的信息。它应 该用易于扫描的标记来界定, 这种标记 与 XML 语法兼 容, 不用 另外 的过 滤器, 就能 被 XML 解析 器解 析。理 论上, 这 种 XML 包可以嵌入几乎所有可扩展格式的文件中, 但 需要文件格式的 制定者承认并制定相应的规范, 规定如何在该 格式的文件中嵌 入 XML 包 。一旦确 定了嵌入 XML 包的规 范, 该格式 文件的生 成者就可以根据该规范在文件中嵌入元数据信息, 而文件的读 取者( 包括信息抽取器) 根据该规范计算出包在文件中的位置, 提取该 XML 包, 并提交给通用 的 XML 解析 器解析。 即使抽取 器不知道该 种文件的具体格 式, 不 能计算 出包的 位置, 也可通 过字节流顺序扫描, 筛选出 XML 包。
形式: 单一文件或 XML 包。在此基础上, 介绍了从这些单独文件或 XML 包宿主文件中抽取元数据的方法, 包括
XML 解析器 SAX 和 DOM 以及 XML 包扫描器的构造。
关键词: 语义 Web; 语义标注; 元数据; XML 包; 资源描述框架; SAX; 文档对象模型
中图法分类号: TP301
# 148 #
计算机应用研究
2004 年
用有向图来表达这 种陈述 Statements, Subject 和 Object 是 节点, Predicate 是 从 Subject 指向 Object 的有向弧。
例如下面这句陈述( Statement) : Jane Doe is the creator of t he resource http: / / www. thedoefamily. org/ home/ jane. 被分成三个部分: Subject ( Resource) : http: / / www . thedoefamily. org/ home/ jane; Predicate ( Property) : Creator; Object ( Literal) : Jane Doe。 RDF 的有向图表 示如图 1 所示。
语义标 注( Semantic Annotation) 就是对 原始数 据作标记 ( 文 字的或符号的) , 使其具有语 义信息, 不仅 人可以 理解, 而且使 机器也可以理解。语义 Web 上一般 以 XML 标 记语言为数据作 标注, 以 RDF/ XML 作为数 据描述的模型, 并结合 Ontology, 使 被标注的数据具有了明确的意义, 使机器可以 理解。
相关文档
最新文档