XML索引

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

XML索引
概述

在传统的关系数据库中有很多成熟的索引技术，比如B+树索引和hash索引。但是在对XML文档进行索引时，不但要求索引能有效的加快查询，还需要注意以下两点：一、结构关系的获取：在关系数据库中，索引主要是根据值定位数据记录，不太关注数据记录间的逻辑关系。而在XML查询的基本特征就是根据模式特征（路径表达式描述的结构关系）的输入提取符合该模式的数据。
得到了每个节点以及属性的自然路径字符串
表示后，我们按字典序将它们用PT树做索引。（即PT树中的叶子节点为自然路径的字符串表示）。具体实例如下：
我们注意到PT树是不平衡的。于是在Fabric
索引中，我们对得到的PT树进行了平衡化处理。这种平衡化的处理并不是对PT树本身的纵向结构进行处理，而是通过附加一个水平的层次实现的。同时为了方便在计算机上储存。 Fabric索引将PT树分为若干个子树。每个子树的大小刚好为一个物理块。（每个子树将仍然保持关联）然后将每个子树的根节点作为新的索引项用PT树进行索引。如下图
Trie－树
trie
树是一种用于快速检索的多叉树结构； trie 树把要查找的关键词看作一个字符序列。并且从根到叶子的每条边表示一个字符。如下图 a c
t at r car a t cat
Patricia Trie树
Patricia
Trie树（简称PT树）是Trie树的一种变体，在Trie树中只有一个孩子节点的节点都和双亲节点合并。如下图：
ｍ叉B－树是一颗m叉搜索树，并且还满足以
下几个条件：１、根节点至少有两个孩子２、除了根节点以外，所有内部节点至少有 round(m/2)个孩子。３、所有叶子节点都在同一层上。下面是一个B－树的具体示例。
B－树的特点
B－树是一个平衡树。
在B－树中，所有的索引项都储存在叶子节点

对于上图，我们由树的前序遍历(从左到右)可以得到其前序遍历编码为PSNv1IMv2Nv3IMv4INv5Lv6BLv7Nv8
有了前序遍历编码后，我们就可以定义XML文档的结构化编码：一个文档的结构化编码为D＝(a1,p1) (a2,p2) … (an,pn)，其中ai为XML树中节点的编码，pi为根节点到ai节点的路径，并且ai按前序遍历编码顺序排列。例如上例的结构化编码为D=(P, ∝) , (S,P) ,(N,PS),(v1, PSN),(I,PS),(M,PSI),(v2, PSIM),(N,PSI),(v3, PSIN),(I,PSI),(M,PSII),(v4, PSIIM),(I,PS),(N,PSI),(v5, PSIN),(L,PS),(v6,PSL), (B,P),(L,BP) , (v7, PBL),(N,PB),(v8, PBN)
经过这样的处理后，好像在水平方向上也建
立了一个PT树，并且这个PT树的深度很小。要访问树中的节点，就从最高层（即水平方向PT树的根节点）开始依次进行查询。可以看到整过过程是平衡的。
精确路径(refiห้องสมุดไป่ตู้ed paths)

在XML查询中有一类很常见的查询如下：找到所有这样的invoice，在这个invoice中company X卖东西给company Y。要回答这样的查询，我们需要找到这样的invoice路径，它有一个值为X的seller孩子节点和一个值为Y的buyer孩子节点。为了表示这样的路径，我们指定“Z”作为其开始标示符。接着我们定义字符串Z X Y为company X卖东西给company Y 的表示。并将其插入到Fabric索引中。这样我们实现上面的查询就可以简化为找到有索引项Z X Y。

注意：在自然路径中，我们将节点的属性处
理为有标记的孩子节点。例如我们将<A B=“alpha”>…处理为<A>alpha…但为了区分属性和孩子节点，我们用不同的字母来分别表示它们（即使他们有相同的前缀），比如在上例中我们用C来表示节点 <count>用C’来表示属性count。

查询1
查询2
查询3
查询4
在实现查询2时，通常是将其分解为两个形如
一的查询，并分别求解，最后再对得到的结果做连接操作。
在VIST索引中，我们用结构化的编码来代替
节点或路径作为索引项。并且对需要进行的查询做同样的编码。然后定义了两种祖先／后裔关系：即D祖先／后裔关系（简称D关系）以及S祖先／后裔关系（简称S关系）。其中 D关系为节点间在XML树中的祖先／后裔关系，S关系为节点的结构化编码在后缀树中的祖先／后裔关系。这样，就可以有效的支持上述四种查询。具体的步骤如下：

Fabric索引的主要思想为尽量将XML文档的
结构信息编码为字符串。然后将其插入到PT 树中。然后利用PT树强大的字符串管理功能来维护这些字符串。
VIST索引
在XML查询中，主要有四类常用的查询。比如查询 1：找到所有供应计算器的厂家。查询2：找到所有这样的订单，在这个订单里供应商在波斯顿，而购买者在纽约。查询3：找到所有这样的订单，在这个订单中供应商和购买者之间至少有一个是在波斯顿。查询4：找到所有这样的订单，在这个订单中包括有因特尔的产品。这四个常见查询所对应的查询图形如下所示：

其中＊表示可以匹配任意一个符号标记，／／表示可以匹配任意一部分路径。有了两方面的编码后，我们可以得到在D中有下划线的编码序列刚好匹配查询Q2。我们可以看到有了结构化编码后，我们可以在索引中进行整个查询的匹配，而不需要将其分为几个小的部分，然后再对各个部分得到的结构做连接操作（在通常情况下，连接操作需要相当大的开销）。需要注意的是，查询路径的编码和XML文档遵循相同的前序遍历次序。比如在查询Q2和XML文档中都有Seller节点是 Buyer节点的左兄弟。
自然路径(raw paths)
我们定义，在XML文档中从根结点到叶子节点的路径为每个叶子节点的自然路径。比如在上例中的 <invoice><buyer> <name>ABC Corp</name></buyer></invoice>就是一条从根节点<invoice>到叶子节点ABC Corp的路径。又比如XML片段 <A>alphabeta<C>gamma</C></A>，包含了三条自然路径<A>alpha, <A>beta, <A><C>gamma这样我们就可以找到文档中所有这样的路径，然后我们按上面介绍的方法对路径进行字符串编码。下面列出了对文档的节点以及自然路径的编码。
更新
当我们插入新的节点到Fabric索引中，我们首先在最底层根据字典序将其插入到应插入的地方。如果其所在的子树的大小超过了物理块的大小。就将子树分裂，并依次更新更高层，直到最高层。（其操作类似于B树）。换句话说，现在最底层的PT树中插入新的节点，再更新在水平方向上的PT树。当我们删除索引中的节点时，我们首先找到要删除节点位置，将其删除。如果删除节点后，所在的子树为空，则类似于B树,更新水平方向上的PT树。
Fabric索引

Fabric索引中,我们首先将要索引的XML文档进行字符串编码。下图是一个XML文档的实例
我们可以对其中的元素进行编码：我们选择I
来代表<invoice>,B来代表<buyer>,N来代表 <name>；（即节点标记的前缀来表示节点）这样字符串“IBNABC Corp”能代表以下的 XML文档片段： <invoice> <buyer> <name>ABC Corp</name></buyer> </invoice>

我们就将得到的结构化编码作为索引项进行索引。有了结构化编码后，就可以依据前缀关系很容易的判断出两个节点是否为D关系。比如由(S,P),(v1, PSN)可以得到S是v1 的祖先（在D祖先／后裔关系中）因为(S,P),(v1, PSN) PS是PSN的前缀。基于同样的方法和思想，我们对要进行的查询进行编码。下面列出了查询1－4对应的编码。
二、保序元素在XML文档中是有一定的次序限制的，该次序称为XML文档的次序。各个元素在次序中出现的顺序取决于对XML树的先序遍历。因此要保证得到的结果元素集仍然有原XML文档中的次序关系。即与这些元素在原XML文档中的先序遍历有一一对应的关系，而且元素间的结构关系也必须一致。下面先介绍在索引中常用的树型结构，然后再详细介绍有关XML文档的索引技术。
0 a at r car c 2 t cat
换个角度看，PT树的每条边将字符串的差异
表示出来(其中节点上的数字表示它的孩子节点有多少位前缀相同)。因此它增长的很慢。索引项的长度对它的大小基本上没有什么影响。
Suffix树
Suffix树（后缀树）是以文本所有后缀为关键
词的 Patricia 树。后缀树的引入主要是针对字符串的高效查找 ①子串查找 ②最长重复子串 ③最长公共子串 ④回文子串
中，而且查询和更新的复杂度依赖于树的高度。 B－树的扇出一般都很高，所以B－树的高度很少超过５。
B-树的典型算法

查找插入选择叶子结点分裂结点（有多种算法）调整树必要时增加树的高度删除找到包含要删除记录的叶子结点删除压缩树必要时减小树的高度更新先删除老的记录索引，在插入新的记录索引

R-树的特点
R-tree是B-Tree对多维对象（点和区域）的
扩展 R-tree是一棵平衡树一个多维对象只能被分到一个子空间中去若用动态插入算法构建R-tree，在树的结点中会引起过多的空间重叠和死区（deadspace）,使算法性能降低 R－树的典型算法跟B－树的相同。
R－树
在介绍R－树模型前，我们先来看看数学中处理矩形的方法：１、将矩形转变成更高维区间上的点（一维空间上的两个数可以看作二维空间上的点）。２、用空间充填曲线（space filling curve）将k-d空间映射为 1-d空间。这种方法适用于分页环境。它用z变换将k-d对象转变为线段３、将原始空间划分为合适的子空间（重叠或分离的） ①划分为分离子空间用处理多维点的空间划分方法，只是若一个矩形被分到多个区域，可将该矩形分成几个部分，每一部分都加上标签，表示他们同属于一个矩形。 ②划分为有重叠子空间下面我们将看一个具体的例子。
基本树型结构介绍
在XML索引技术中，用到了很多关系数据库
中常用的树型索引技术。下面将逐一介绍。
B－树

我们首先定义m叉搜索树：如果一颗m叉搜索树非空。则它要满足以下一个条件：１、每个节点最大含有m个子女以及１之m－１个元素。２、每个含有p个元素的节点有p＋１个子女３、含有p个元素的节点，设ｋ１．．．Ｋｐ是这些元素的关键值，这些值顺序排序。即ｋ１＜ｋ２＜．．．＜ｋｐ；设Ｃ０．．．Ｃｐ是节点的ｐ＋１个子女，则以ｃｏ为根的子树的关键值小于ｋ１；以Ｃｐ为根的子树的关键值小于ｋｐ；以Ｃｉ为根的子树的关键值小于ｋｉ＋１，大于ｋｉ，其中１≦ｉ ≦ｐ
XML索引技术
现有的XML索引技术可以大致分为两类：一
是在结构上建立索引，二是在节点记录上建立索引。下面我们将按照上述的分类对现有的索引技术进行介绍。
节点记录类索引
结构索引的主要想法有两类：一是将所有的
路径表达式看成字符串并且将它们按照字典排序。然后将其作为索引项插入到相应的树型索引结构中。这样树的每个叶子节点都含有一个表示一个路径表达式的字符串，以及一个与该路径表达式结果相对应的id列表。二是通过某种遍历方法得到节点的序号，然后直接对其做索引。下面我们将介绍几种具体的实现方法。
结构化编码
我们用节点和属性标记的首字母作为节点和
属性的编码，比如在下例中：P代表 Purchase …然后构造一个hash函数H()将属性值映射到一个整数。比如在下例中：v1＝H (“dell”) v2=H(“ibm”)…这样我们可以用v1，v2来分别代表“dell”，“ibm”。下面是一个XML文档实例：