报告内容提纲.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Dataguide Evaluation
标识符
每个节点都有一个唯一的标识符
祖先后代关系搜索
图遍历
Keyword Search
路径扫描
更新
增量式的插入 删除复杂
Index Fabric索引(字符串索引)
Cooper B F, 2001 VLDB 基本思想是将半结构化数据之间的关系表示成路
wk.baidu.com序
元素在具体的 XML 文档中是有一定的次序限制的, 该次序称为 XML 文档的次序.
各元素在次序中出现的顺序取决于对 XML 树的先 序遍历.
当查询关系存储的 XML 分解数据时,由于关系模式 不存在次序的概念,为此,就必须在分解 XML 的过 程中考虑如何确保查询的结果仍然符合结果元素集 在原XML 数据中的次序关系,与这些元素在原 XML 文档先序遍历次序间有一一对应的关系,而且元素 间的结构关系也必须一致.
位置步:表达式中由反斜杠分开的每个部分被称为一个位置步。
轴:是与上下文节点相对的文档的一部分,它定义了一组与当前节点 有特定层次关系的节点。
轴心包括:self、child、parent、descendent、ancestor、attribute、 namespace、following、preceding
结构关系的获取
虽然传统的索引技术经过长期的积累已经相对成熟, 但是,这类索引技术针对的主要是根据值(而不是具 有某种关系的模式)定位数据记录的功能,不太关注 数据记录间的逻辑关系;
而 XML 数据查询的基本特征就是根据模式特征(正 则路径表达式形式描述的结构关系)的输入提取符 合该模式的数据,所以,XML 索引的主要内容就是设 计适用于模式匹配的技术.
XML已经成为事实上的数据表示和数据交换的标准。开始,它 的自描述和特定可扩展性等核心特性提供了不同应用程序之间 消息传输所需的灵活性。
面对XML数据量的指数级的增长,必然要求更有效的数据管理 能力和更快、更精确的查询。因此,如何从XML数据源中准确 有效地查询所需信息,也就变得越来越重要。
在实际应用中XML数据有不同的存在形式, 主要可以归纳为以下
访问有相同标签名称的节点.
访问有着祖先后代关系的节点.
基本文本的索引
XPath(XML 路径语言)
XPath是一种能在XML文档中查找定位信息 的语言,它能从XML文件中抽取单个项目或 一组项目。
XPath类似于平时我们在计算机系统中使用的 文件路径,就像我们熟知的C:\ WINNT 那样。 通过XPath路径表达式,可以在XML文档中 轻松地定位数据,确定节点。
XML索引
2009-12
报告内容提纲
XML相关知识 XML索引技术
基于路径的索引 基于节点的索引 XML索引对比
XML结构连接算法 PXRDB索引实现方案
XML
XML(Extensible Markup Language)即可扩展标记语言, 它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)。Xml是Internet环 境中跨平台的,依赖于内容的技术,是当前处理结构化文档信 息的有力工具。
基于路径的索引
DataGuide索引 DataGuide是最早的XML 路径索引,其基本思想是, 源数据库中的每个标记路径 都在DataGuide中出现一 次且只出现一次,而且 DataGuide中的每个标记 路径都是源数据库的中的标 记路径。 如果将源数据库视为自动机, 则在本质上,DataGuide 只是一个与源数据库等价的 确定自动机。DataGuide 索引最大的问题是不准确。
径,将路径编码成为字符串,然后在这些字符串 上建立一种索引结构,这种索引结构很适合复杂 字符串的快速搜索,且代价比较低。
Index Fabric索引优点是存储了XML数据的层次 结构信息,并且使对XML数据的查询和更新所需要 的时间与层次相关而不是与索引关键字的长度相关。
Dataguide
Goldman & Widom VLDB97
Dynamic schemas helps in query formulation
一个合法的路径:
Restaurant/Name
简洁和准确的XML文档摘要
每一个XML文档中的路径在 DatGuide有且只有一个相 对应的标签序列
XPath表达式 • 由位置步组成。它由一个轴、一个节点测试和可选择的一系列谓词 构成。通过使用反斜杠连接多个位置步形成位置路径,产生一组节点 作为结果。 • /Books/book/title:要求元素Books的子元素book的所有子元素 title。 • /Books/book[@Price<21.99]/title:返回Books根元素下book 子元素中,所有Price属性值小于21.99的book的所有title子元素
XML索引技术——索引分类
常用的索引可以分为以下几类
基于路径的索引 基于结点的索引
基于路径的索引
XML查询的要求
不拘 XML 索引是何种形式,其实际设计与实 现都必须考虑 XML 查询的基本特征——结 构关系的保存以及基于结构信息快速计算节 点间结构关系这两个因素.
这实际上就是要求相关的技术能够满足高效 处理 XML查询的请求.
Dataguide Principle
简洁性 在DataGuide中对每个 label路径只记录了一次
准确性 a DataGuide encodes no label path that does not appear in the source.
2,3
4
5,9 6,10,11 7
8
8
Targeted dataguide
树结构XML文档 图结构XML文档 XML数据流
XML的应用领域
XML在以下各个方面均有着广泛的应用
数据交换 Web服务 内容管理 知识管理 信息集成 软件配置
XML的查询需求
XML查询是通过一个与正则路径表达式来完 成的(如:XPath).
/Livre//Auteur[@specialite="informatique"])
相关文档
最新文档