语义标注元数据及其抽取技术_凌海云

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

RDF( Resource Description Framework) 即资源描述框架, 是 W3C 制定的一个推荐标准[3] 。它的目的是利用当前存在着的多种元数据标准来描述各种网络资源, 形成人机可读的、并可以由计算机自动处理的文件。RDF 提供了一个供多种元数据标准共存的框架, 在这个框架中, 能够充分利用各种元数据的优势, 并能够进行基于 Web 的数据交换和再利用。
文献标识码: A
文章编号: 1001- 3695( 2004) 07- 0147- 03
Semantic Annotated Metadata and the Extraction Technology
LING Ha-i yun, ZUO Zh-i hong , CHEN Lan, DUAN En- ze, YUAN Jun- ying ( School . of Computer Science & Engineering , University of Electronic Sci ence & Technology , Chengdu Sichuan 610054, China)
例如在 Dublin Core 的 XML 实现中[6] , 用容器元素( Container Element) 将 DC 的结构化元数据 ( Structured Metadata) 包装起来 , 这些元素包括 < dc > , < dublinCore > , < resource > , < record> 。这种结构化元数据( 规范中称为 Record) 就是一种简单的 XML 包, 但它仅限于将 DC 元数据嵌入 XML 文件中, 没有普遍性, 互操作性差。后文将介绍另一种 Adobe 公司的较通用的 XML 包技术。
第7期
凌海云等: 语义标注元数据及其抽取技术
# 147 #
语义标注元数据及其抽取技术*
凌海云, 左志宏, 陈兰, 段恩泽, 袁军英
( 电子科技大学计算机科学与工程学院, 四川成都 610054)
摘要: 讨论了语义 Web 上用 XML 或 RDF/ XML 标注元数据的方法以及元数据标注在语义 Web 上的两种存在
例如, Dublin Core 元数据就可以用简单 XML 属性/ 值对来表达某种语义信息。见下例:
< dc: title> 语义标注元数据及其抽取技术< / dc: title> < dc: creator> 凌海云< / dc: creator> < dc: date> 2003/ 06/ 20< / dc: date>
从各种各样的网络资源中, 如正文文本 ( 即页面文件) 、图像、音频、视频等, 自动抽取有用信息是一件困难的工作。正文文本通常用自然语言书写, 尽管能够使用特定的技术( 如 NLP 技术等) 进行抽取, 但正确率及应用范围都有限。而对于像图像、音频、视频这样的资源, 要从中自动抽取信息, 或对它们进行自动处理, 由于缺乏语义支持, 在传统的互联网中几乎不可能。语义 Web 的目的之一正是要解决这些困难。
211 用 XML 描述元数据
在元数据发展的早期, 元数据的编码语言多种多样, 但随着元数据格式的增加和互操作的要求, 需要一种通用的定义描述语言( Definition Description Language, DDL) 来描述元数据, 这就是 XML[ 2] 。
语义 Web 上常用的元数据通常都以 XML 作为编码语言 ( 如果还有其他表现形式的话) , 使用 XML 的属性/ 值对 ( Property/ Value Pairs) 的概念来表达语义信息。
Abstract: Discusses the methods of annotating metadata with XML or RDF/ XML on semantic Web. Introduces two forms of metadata presence on semantic Web: in unique file or in a XML packet embedded in other files. And introduces the methods extracting metadata from the unique file and XML packet including the XML parser SAX and DOM. Key words: Semantic Web; Semantic Annotation; Metadata; XML Packet; Resource Description Framework( RDF) ; SAX; Document Object Model( DOM)
图 2 带语义标注元数据抽取系统结构图首先由网络资源文件抓取器从语义 Web( 也可以是现在的 Web) 上抓取带语义标注的资源文件, 并将抓取的文件分类。如果是 XML 类文件, 交 SAX 或 DOM 解析, 抽取其中的元数据; 如果是 XML 包的宿主文件, 交 XML 包扫描器扫描, 截取其中的 XML 包( 即 XML 文档片段) , 再由 SAX 或 DOM 解析, 抽取其中元数据信息。SAX 和 DOM 的选取, 应根据具体应用作出决定, 下文将有分析。根据具体应用的需要, 抽取后的元数据可以纯文本、复杂文本( 如 RDF/ XML) 或数据库等形式存在, 等待进一步处理。下面详细介绍其中的几个关键部分。
3 带语义标注的元数据抽取
图 2 是带语义标注元数据抽取系统的结构图。
图 1 RDF 的有向图表示用 RDF/ XML 表示为 < rdf: Description rdf: about = d ht tp: / / www. t hedoef amily. org/ home/ ja ned> < dc: creator> Jane Doe< / dc: creator> < / rdf : Descript ion>
1 语义Web 与语义标注
语义 Web 中的语义是指机器可处理, 而不是自然语言语义和人的推理。对于数据, 语义表达了机器能对这些数据做些什么。若给出一些数据到一台机器, 它用这些数据做出了正确的事情, 则认为它通过了语义测试。
语义 Web 是现今 Web 的扩展, 在其中数据的意义被明确定义, 使计算机和人更好地协同工作[ 1] 。由于它描述了事物间的明显关系, 并包含语义信息, 语义 Web 更有利于机器自动处理。
2 语义Web 上常用元数据的表示方法
元数据是关于数据的数据( Data about Data) , 是关于对象数据的一种概括性、实质性的描述。
收稿日期: 2003- 06- 20; 修返日期: 2003- 07- 08 基金项目: 国家计算机网络与信息安全中心资助项目( 2002- 研 1- B- 003)
RDF 基本数据模型由三种对象类型组成: Resources, Properties 和 Statements。所有 Statements 可以被表示成三元组: { Subject, Predicate, Object} , 对于简单名字/ 值对, Predicate 就是名字, Object 就是值, Subject 就是名字/ 值对描述的事物。可以
212 RDF/ XML 与元数据描述
随着因特网wk.baidu.com发展和信息的丰富, 出现了多种元数据标准 ( 格式) , 如 DC( Dublin Core) , PICS( Platform of Internet Content Selection) , WF( Warwick Framework) 。但是各种元数据各自发展, 内容重复, 交流也有困难。鉴于此, W3C 制定了 RDF 来解决这个问题。
RDF 是描述元数据的通用框架, 适用的领域非常广泛, 但每种元数据都有其特殊的适用领域, 所以在元数据的 RDF 具体实现中, 一般都对 RDF 作了一定程度的简化和进一步约束。例如应用于传统和电子出版业的元数据标准 PRISM [4] ( Publishing Requirements for Industry Standard Metadata) 和 Adobe 公司为网络出版业制定的描述格式可扩展元数据平台[5] ( Extensible Metadata Platform, XMP ) , 都没有采用完整的 RDF, 而是在 RDF 的基础上作了一定的简化, 如不支持 RDF 元素 rdf: aboutEachPrefix。
213 语义 Web 上元数据描述的存在形式
无论是用简单 XML 还是 RDF/ XML 描述元数据, 这些描述都是格式良好的 XML 文档或文档片段, 在语义 Web 上可以单独文件的形式存在, 如一个 RDF 文件; 也可以 XML 包的形式嵌入其他文件。
XML 包 ( Packet ) 是嵌入其他文件中的一段格式良好的 XML 文档, 其最外层用某个特殊元素包装 ( Wrap) 起来。这个包被看作是一个整体, 用于描述与宿主文件有关的信息。它应该用易于扫描的标记来界定, 这种标记与 XML 语法兼容, 不用另外的过滤器, 就能被 XML 解析器解析。理论上, 这种 XML 包可以嵌入几乎所有可扩展格式的文件中, 但需要文件格式的制定者承认并制定相应的规范, 规定如何在该格式的文件中嵌入 XML 包。一旦确定了嵌入 XML 包的规范, 该格式文件的生成者就可以根据该规范在文件中嵌入元数据信息, 而文件的读取者( 包括信息抽取器) 根据该规范计算出包在文件中的位置, 提取该 XML 包, 并提交给通用的 XML 解析器解析。即使抽取器不知道该种文件的具体格式, 不能计算出包的位置, 也可通过字节流顺序扫描, 筛选出 XML 包。
形式: 单一文件或 XML 包。在此基础上, 介绍了从这些单独文件或 XML 包宿主文件中抽取元数据的方法, 包括
XML 解析器 SAX 和 DOM 以及 XML 包扫描器的构造。
关键词: 语义 Web; 语义标注; 元数据; XML 包; 资源描述框架; SAX; 文档对象模型
中图法分类号: TP301
# 148 #
计算机应用研究
2004 年
用有向图来表达这种陈述 Statements, Subject 和 Object 是节点, Predicate 是从 Subject 指向 Object 的有向弧。
例如下面这句陈述( Statement) : Jane Doe is the creator of t he resource http: / / www. thedoefamily. org/ home/ jane. 被分成三个部分: Subject ( Resource) : http: / / www . thedoefamily. org/ home/ jane; Predicate ( Property) : Creator; Object ( Literal) : Jane Doe。 RDF 的有向图表示如图 1 所示。
语义标注( Semantic Annotation) 就是对原始数据作标记 ( 文字的或符号的) , 使其具有语义信息, 不仅人可以理解, 而且使机器也可以理解。语义 Web 上一般以 XML 标记语言为数据作标注, 以 RDF/ XML 作为数据描述的模型, 并结合 Ontology, 使被标注的数据具有了明确的意义, 使机器可以理解。