一种基于图模型Web数据库采样方法分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于图模型的Web数据库采样方法分析
摘要:随着我国科学技术水平的不断提高,促进了web的快速发展。
web逐渐成为一个很大的信息资源。
在web的数据库中,大量丰富的信息资源存在于特定查询能力的查询接口中,不能让人了解到web数据库自身的特点,比如分布、更新频率等。
给web数据集成带来了很大的挑战。
因此,为了解决此问题,提出了一种基于图模型的web数据库采样方法。
本文通过对该种方法进行分析。
关键词:图模型;web;数据库采样方法;分析
中图分类号:tp311.13
一种基于图模型的web数据库采样方法,能够通过运用查询接口的方式,在web数据库中以增量的形式得到最相似的样本,也就是通过查询得到一定数量的样本,然后对已经保存过的样本作为下一次查询的记录。
该种方法不受到查询接口中的属性表现形式所局限,是一种一般的web数据库采样方法,具有在小代价下获得高质量样本的优点。
1 一种web数据库图模型
web数据库图模型,通过运用以图游历的方式实现web数据库采样的目的,对web数据库模型的相关定义、性质以及定理等进行分析。
1.1 强查询的定义
针对两个查询q1和q2,如果满足a(q1) a(q2),且对于 ai ∈a(q2)能同时满足三个条件,就可以说q1是q2的强查询:
(1)ai如果是属于关键词属性,那么q1在ai上的值就是q2在ai中数值的超集;(2)ai如果是属于范围属性,那么q1在ai上的取值范围等同于q2在ai中的子范围;(3)ai如果是属于分类属性,那么q1在ai上的值相当于q2在ai上的值。
强查询的性质,具有包含性和传递性。
1.1.1 包含性
如果q1是q2的强查询,那么就能满足r(q1) r(q2)。
另外,在证明过程中,记录ri∈r(q1),针对属性aj∈a(ri) a(q2)的值vj,要考虑到以下几点:
(1)aj如果是属于关键词属性,那么受到vj属于q1在ai上数值的超集,那么就得到q1在ai上的值就是q2在ai中数值的超集,因此,vj和q2在ai中的数值交集不能为空;(2)aj如果是属于范围属性,那么vj一定在q1在ai上的取值范围中,由于q1在ai 上的取值范围等同于q2在ai中的子范围,因此,vj属于q2在ai 中的取值范围;(3)aj如果是属于分类属性,那么vj等同于q1在ai上的取值,由于q1在ai上的值相当于q2在ai上的值,因此,vj和q1在ai上的值相等。
由此可以了解到,ri一定满足q2,也就是r(q2) r(q1). 1.1.2 传递性
如果q1是q2的强查询,q2是q3的强查询,那么由此可以得出,q1是q3的强查询。
在证明的过程中,按照强查询的定义,得出a (q1) a(q2) a(q3),针对属性aj∈s(q1),要从以下几个方
面进行考虑:
(1)aj如果是属于关键词属性,那么q1在ai上的值属于q2在ai值的超集,由于q2在ai中的值属于q3在ai中值的子集,所以,q1在ai上的值等同于q3在ai中的超值集;(2)aj如果是属于范围属性,那么q1在ai上取值范围属于q2在ai中的子范围,由于q2在ai中取值范围相当于q3在ai中值的子集,由此可以得出,q1在ai上取值范围等同于q3在ai中值的子范围;(3)aj如果是属于分类属性,如果q1在ai上的值和q2在ai中的值相等,又由于q2在ai中的值相当于q3在ai中的值,那么可以得出q1在ai 上的值和q3在ai中的值相等。
从以上三个方面可以得出结论,q1是q3的强查询。
1.2 弱查询的定义
根据强查询的定义,q1是q2的强查询,那么弱查询就是,q2是q1的弱查询。
其性质和强查询的性质相同。
1.3 查询相关记录
查询相关记录,指的是给一个特定的记录集合,例如{r1,r2,r3,...rn},如果将一个强查询进行提交,使其同时出现在一个查询结果中,那么就称这两个集合是与查询q有关的;与此相反,那么就表明他们是与查询没有关系的。
1.4 web数据库图模型
web数据库图模型,简称wg。
给其一个特定的wdb,其图模型表示为wg(v,e),其中,v作为顶点的集合,每个顶点vi和wdb中
的记录ri互相对应,也就是│v│=│wdb│,其中,e属于无向边的集合。
若两个记录间的查询是相关的,其相对应的顶点之间有一条互相连接的边,针对每个顶点,都要进行最强查询;针对每条边,对所互相连接的两个顶点记录进行最强查询。
由于在该种图模型中,对每个顶点、每条边都进行了查询,所查询的方法在强查询的定义中已经给出。
因此,针对每个顶点,在记录集合r中,顶点互相对应的记录与其相等;针对每条边,对于记录集合r中,两条所连接的边与其所对应。
2 基于图模型的web数据库采样方法的相关工作
在数据库领域内,随机采样技术已经得到了非常深入的研究,以往的数据库采样技术是以降低从数据库获得的数据代价为目的,主要包括了直方图的估计方法和近似处理方法等。
近年来,对于web 数据库采样方法的研究依然没有过多的关注,伴随着web行业的迅速发展,web数据库数量的快速增长,web数据库采样方法的理论和应用,均称为目前web数据库集成领域中的最主要问题。
引起我们关注的与图模型web数据库采样方法相关的工作是针对搜索引擎或者文档数据库等方面的采样工作。
根据相关的文献了解到,存在一种通过利用搜索引擎返回top-k个结果实现在文档集合中运用随机漫步的思想,实现对每个不同的样本文档附加值进行修正,改善偏差,从而获得均匀分布的样本集合。
所提出的随机漫步思想与前面提到过的图游历思想大体相同,但也有一定的区别,在搜索引擎中的文档主要是由关键词构成的;在web数据库中文档的
记录是属于结构化的,具有非文本类型的性质属性。
其中,搜索引擎的采样方法主要是运用对公共接口提供关键词来对所需的样本
文档进行获取,以查询的方法或者手工产生的方式生成。
3 结束语
总而言之,随着我国经济水平和科技水平的快速提高,web数据库集成将成为计算机数据集成领域的热点话题。
根据web数据库自身的数据量大、且必须具有特定查询能力的查询接口进行访问特点,要求了通过对web数据库进行采样分析,进而来了解、把握web 数据库的内容特征,从而达到花费小代价得到高质量的最终目的。
参考文献:
[1]刘伟,孟小峰,凌妍妍.一种基于图模型的web数据库采样方法[j].软件学报.2008,02(15):30-45
[2]吴雨.基于图模型的web数据库取样方法的解析[j].科技创新与应用.2010,10(31):95-96
[3]赵琳.web数据库特征表示和抽取方法的研究[j].山东财经大学.2012,04(10):46-47
[4]陈玉哲,代术成,庄成三.基于xml数据模型的web数据库查询系统[j].计算机应用.2002,23(04):133-134
作者简介:王晓玲(1978.7-),女,籍贯:锦州市,研究方向:计算机应用,职称:实验师。
作者单位:辽宁石化职业技术学院计算机系,辽宁锦州 121001。