基于SDD-1算法的分布式数据库查询优化策略的研究

合集下载

分布式数据库查询优化策略研究

３．１ＩＮＧＲＥＳ算法［２］ＩＮＧＲＥＳ算法是动态的优化算法。这个算法主要分为两个步骤：３．１．１将含有多个变量的查询分解为一系列的只含有一个变量的单关系查询。３．１．２通过执行其每一个单关系查询：用启发式的方法选择一个初始化的执行计划，通过中间关系的大小来确定查询执行的顺序。首先来看分解的详细过程：用一系列的单关系查询ｑｉ取代ｎ个变量的查询ｑ，就比如：ｑ１－＞ｑ２－＞…－＞ｑｎ，其中ｑｉ使用ｑｉ－１的执行结果。它主要有两个基本的动作：分离与元组替换。分离：查询ｑ分解成ｑ’和ｑ’’，当ｑ’和ｑ’’有一个共同的变
在集中式数据库系统中，为减少空间的浪费和保证数据的一致性，要尽量减少数据的冗余，而分布式数据库系统却希望增加数据的冗余来提高系统的可靠性、可用性和改善系统性能。但是由于数据的分布和冗余，使得分布式数据库系统查询处理增加了许多新的内容和复杂性，因此分布式查询处理的优化ｑ’（ｔ１ｉ，Ｒ２， …，Ｒｎ），ｔ１ｉ∈Ｒ１｝３．２ＳｙｓｔｅｍＲ＊算法ＳｙｓｔｅｍＲ＊算法是源于美国ＣＡ州的ＩＢＮＳａｎＪｏｓｅＲｅｓｅａｒｃｈ
Ｌａｂｏｒａｔｏｒｙ开发ＳｙｓｔｅｍＲ＊系统，ＳｙｓｔｅｍＲ＊系统是采用直接连接作为查询处理策略的分布式数据库系统，其最重要的目标是提供地点自主权。当每个地点既能控制由另一个地点上对其数据的访问，也能在不受任何其它地点限制的条件下处理自己的数据时，也就实现了地点自主权。Ｒ＊系统完全实现了第一个目标。但它仅仅是部分地实现了第二个目标。

基于半连接的分布式数据库查询优化研究

站点１站点２
④把ｘ耶个字节送到Ｓ在的站点：费用为Ｃ＝所船
ＬＲ卜 —络ｌ［酬 — — Ｉ［—— — 、 — ｓＩ — ＿ — — 卜 —— —— —— —— — — 、网一ｌ
（）Ｉ（Ｓ）１ＹＢ（）输兀Ｒ（Ｓ）２传
询的相应时闻最短为标准
有半连接与连接的操作映射出具有与等连接相同结果
的过程
在分布式查询优化中经常同时使用这两个标准根据系统应用的不同．种作为主要标准种作为次一一
收稿日期：ｏ００ —２２１— ６３修稿日期：００７２２１－０ — ３
有用。此．参与连接的数据或无用的数据不必在网因不
络中来回传输
用半连接技术实现连接操作的程序。即用一组具
价＋通信代价．查询执行时使其通信代价最省是分布式数据库查询优化的目标之一．另一种目标是以每个查
（）Ｒ，：Ｒｏ３ｓｃ（）Ｒ５ｓ
作的过程以及执行代价，比较两种半连接操作的执行代价评估，绍ＳＤ－介Ｄ１算法。关键词：布式数据库：询优化；半连接操作分查
０引言
分布式数据库是把数据分布在不同的站点上．但这些数据片是建立在统一的逻辑框架上的．并有高级
节。影费用为Ｐ；投Ｂ
② 把ｘ个字节发送给Ｒ所在站点：费用为Ｃ＝

分布式数据库查询优化方法

ｑｕｅｙｒｐｒｏｃｅｓｓｉｎｇ．
【Ｋｅｙｗｏｒｄｓ］Ｄｉｓｔｉｒｂｕｔｅｄｄａｔｂａａｓｅ；Ｄｉｓｔｒｉｂｕｔｅｄｑｕｅｙ；ｒＱｕｅｙｒｏｐｔｉｍｉｚａｔｉｏｎ；Ｑｕｅｙｒｐｒｏｃｅｓｓｉｎｇｓｔｒａｔｅｙ；ｇＡｌｇｏｉｒｔｈｍ０引言
容和复杂性．对于一个给定的查询．通常会有多种可能的策略．查询优化就是从这许多策略中找出最有效查询计划的一种处理过程。并针对分布式数据库系统的查询优化。讨论了三个典型的算法：ＩＮＧＲＥＳ算法、ＳｙｓｔｅｍＲ算法、ＳＤＤ一１算法【关键词】分布式数据库；分布式查询；查询优化；查询处理策略；算法
近年来．随着计算机网络和数据库技术的发展．对分布式数据库的应用越来越广泛：随着应用不断扩大，数据的查询也越来越复杂，对查询的效率要求也越来越高，因此查询处理成为分布式数据库系统中的一个关键性的问题【１ｊ。在分布式数据库中．由于数据的分布与冗余．使得查询处理中一般需要站点问的数据传递及通信费用．成为查询优化的主要矛盾：另一方面．数据的分布与冗余也增加了查询的并发处理的可能性．从而可以缩短查询处理的响应时间，提高处理速度。总之．分布式查询的规模与优化的因素．都与集中式查询优化不同．因此许多数据库专家学者致力于研究分布式数据库查询优化技术这一重要课题．并且己经在这一领域作了大量的工作．也找到了规律．包括一些大家公认的经典算法：然而由于分布式数据库本身的灵活性，要想设计一个算法对于各种情况都是最优的几乎不太现实．只能说设计一个较优的优化算法．它可以解决某一类型的问题［２３分布式数据库中查询优化是一项复杂问题．已经被证明属于ＮＰ完全问题．至今都没有得到彻底地解决．里面尚有许多问题值得研究和探讨

分布式数据库查询策略的优化方法

分布式数据库查询策略的优化方法作者：王立峰来源：《电脑知识与技术》2014年第21期摘要：分布式数据库是数据库和计算机网络技术有机的结合，它可以将不同区域的资源进行共享，从而有效的提高工作效率。

从逻辑上讲分布式数据库是一个整体，具有冗余性和分布性，使得查询数据变得较为麻烦，因此如何优化分布式数据库的查询策略，提高其查询效率成为该文的一个研究重点。

关键词：分布式数据库；查询策略；优化方法中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2014）21-4967-021 绪论从物理上来讲，分布式数据库的数据分布在计算机的各个不同站点上，这些数据是一个逻辑的整体，同由分布式数据库进行全局的管理。

分布式数据库的作用主要是存储数据和方便、快捷的查询数据，因此查询策略的优化已经成为了分布式数据库的一个核心问题。

该文主要论述了分布式数据库的查询策略以及一些有效的优化方法和提高策略。

2 分布式数据库及查询优化分析分布式数据库系统从物理上来讲是分散的，而从逻辑上来讲是一个统一的系统，它是将分布在不同站点上的逻辑单位通过计算机网络连接起来。

按照数据模型的类型，分布式数据库系统可以分为同构同质型DDBS、同构异质型DDBS以及异构型DDBS三种[1]。

同构同质型DDBS中多种数据库类型采用了同样的型号，而且数据库内的数据模型属于一个类型；同构异质型DDBS数据库内的数据模型采用的也是同一型号，但是数据库类型却不相同；异构型DDBS中的数据库类型和数据模型均不一样。

按照分布式数据库的控制系统可以将分布式数据库系统分为集中式DDBS、分散性DDBS 以及可变型DDBS。

集中式DDBS在一个节点上保存全局的控制信息，所以容易实现整个分布式系统的数据一致性；但是这一种分布式系统存在一定的单点故障，一旦存放全局控制信息的节点出现问题，整个分布式系统将不能继续使用。

分散性DDBS在每个节点上都保存了全局控制信息的一个副本，虽然这样可以保证整个分布式系统的稳定性，但是却难以保证所有节点上数据的一致性。

分布式数据库查询优化算法研究与实现的开题报告

分布式数据库查询优化算法研究与实现的开题报告摘要：分布式数据库系统具有高效、可扩展、可靠等特点，在分布式系统领域得到了广泛应用。

然而，查询优化一直是分布式数据库系统的研究重点之一。

因为分布式环境下数据分布不均导致查询速度较慢，如何优化查询成为研究的目标。

本文将从分布式数据库查询优化算法入手，通过收集和研究相关领域已有的研究成果，实现一种基于分布式环境的查询优化算法，并验证其动态适应各种情况的能力。

本文将会讨论以下问题：（1）查询优化算法的相关研究；（2）已有的分布式数据库查询优化算法，包括并行、聚合和分片等方法；（3）分布式数据库查询优化算法的实现，主要包括分布式数据分片、数据分布、数据负载均衡和动态算法优化；（4）评估所提出的算法的性能以及对比现有算法。

关键词：分布式数据库；查询优化；分片；数据负载均衡Abstract:Distributed database system has been widely used in the field of distributed systems for its features of efficiency, scalability, and reliability. However, query optimization has always been one of the research focuses of distributed database systems. Because the uneven distribution of data in a distributed environment leadsto slow query speed, optimizing queries becomes the research goal. This paper will start with the query optimization algorithm for distributed databases, and implement a query optimization algorithm based on distributed environments by collecting and studying relevant research results in the field, and verifying its ability to dynamically adapt to various situations.This paper will discuss the following issues:(1) Research on query optimization algorithms;(2) Existing distributed database query optimization algorithms, including parallel, aggregation, and sharding methods;(3) Implementation of distributed database query optimization algorithms, mainly including distributed data sharding, data distribution, data load balancing, and dynamic algorithm optimization;(4) Evaluate the performance of the proposed algorithm and compare it with existing algorithms.Keywords: Distributed database; Query optimization; Sharding; Data load balancing。

分布式数据库系统的查询优化策略

Query optimization tactics in distributed database
system
作者：王书爱[1,2]
作者机构： [1]荆楚理工学院,湖北荆门448000;[2]武汉理工大学,武汉430070
出版物刊名：宁波职业技术学院学报
页码： 57-59页
主题词：分布式数据库;查询优化;查询处理策略
摘要：简要地介绍了分布式数据库系统的概念和特点,并在分析比较分布式数据库系统和集中式数据库系统查询优化目标不同特点的基础上,归纳出分布式数据库系统的查询优化目标和代价分析,进而提出查询优化的策略,并在举例中重点讨论了操作执行顺序的不同对查询性能的影响。

系统优化技术

SDD-1 算法原理上个世纪，美国计算机公司实现的SDD-1 是世界第一套分布式数据库系统，虽然在之后又出现了很多不同版本的分布式数据库系统，但大多数都是建立在此模型基础之上。

该系列的分布式数据库系统查询技术就是采用半连接操作技术，为了纪念该成果，后来人们将该系列分布式数据库中查询算法定义为分布式数据库SDD-1 查询算法，在详细介绍SDD-1 查询算法之前，先引入以下概念：定义1 设有关系R和S，半连接操作R∝S的选择因子有以下公式：其中card(πa(S))是以R和S的公共属性a对S做投影操作后的元组个数，其card(S)是关系S的元组个数。

定义2设有关系R和S，半连接操作R∝S的效益有以下公式：其中size(R)代表R的大小(以字节为单位)。

定义3 设有关系R和S，半连接操作R∝S的费用开销公式：结果为真那么称此半连接R∝S为有益半连接。

定义5 最有益半连接:在定义4 的多个有益半连接中，结果值最大的有益半连接称最有益半连接。

SDD-1 查询算法通过循环迭代获得最有益半连接，每次获得最有益半连接都减少了网络数据传输量，最后选择数据量最大的站点作为数据装备站点。

SDD-1查询算法在执行时主要分两部分：首先执行基本算法，然后执行后优化算法。

在基本算法中，首先统计各半连接的效率、收益、费用等信息，利用这些统计信息给出半连接缩减程序集，最后得出执行策略；在后优化算法中，修正基本算法得出的执行策略，使最后的执行策略更高效。

SDD-1 查询基本算法是[24,27,42]：首先根据查询语句及分布式数据库数据字典得出一个查询图G。

第一步: 对半连接静态特性表中的所有半连接进行收益值估算。

第二步：排序所有半连接的收益值，并选择该值最大的半连接执行第三步：根据第二步执行的结果更新半连接静态特性表，并重新估算收益值。

第四步：判断半连接静态特性表中所有半连接是否执行完，如执行完转第五步，如没有执行完转第二步循环执行。

分布式数据库试题及答案

数据库试题目录1. 九八年秋季试题 (5)1.1. 概念题 (5)1.1.1. 比较半连接方法和枚举法的优缺点。

(5)1.1.2. 2PL协议的基本思想。

(5)1.1.3. WAL协议的主要思想。

(5)1.1.4. SSPARC三级模式体系结构。

(6)1.1.5. 设计OID的数据结构时应考虑哪些问题。

(6)1.2. 某个大学中有若干系，且每个系有若干个班级和教研室，每个教研室有若干个教员，其中教授、副教授每个人带若干名研究生。

每个班有若干名学生，每个学生可选修若干门课程，每门课程可由若干学生选修。

完成下列各种要求： (7)1.3. 下面是某学院的一个学生档案数据库的全局模式： (9)1.3.1. 将全局模式进行分片，写出分片定义和分片条件。

(9)1.3.2. 指出各分片的类型，并画出分片树。

(9)1.3.3. 假设要求查询系号为1的所有学生的姓名和成绩，写出在全局模式上的SQL查询语句，并要求转换成相应的关系代数表示，画出全局查询树，请依次进行全局优化和分片优化，画出优化后的查询树。

要求给出优化变换过程。

(10)1.4. 设数据项x,y存放在S1场地，u,v存放在S2场地，有分布式事务T1和T2,T1在S1场地的操作为R1(x)W1(x)R1(y)W1(y),T2在S1场地的操作为R2(x)R2(y)W2(y);T1在S2场地上的操作作为R1(u)R1(v)W1(u),T2在S2场地上的操作作为W2(u)R2(v)W2(v)。

对下述2种情况，各举一种可能的局部历程（H1和H2），并说明理由。

(11)1.4.1. 局部分别是可串行化，而全局是不可串行化的 (11)1.4.2. 局部和全局都是可串行化的。

要求按照严格的2PL协议，加上适当的加锁和解锁命令，（注意，用rl(x)表示加读锁，wl(x)表示加对x加写锁，ul(x)表示解锁）121.5. 试述面向对象的数据库系统中页面服务器和对象服务器两种Client/Server体系结构的主要特点, (12)2. 九九年春季试题 (13)2.1. DBMS解决了信息处理技术中的哪些挑战？ (13)2.2. 在关系数据库应用设计中，为什么要对数据库模式进行规范化？ (13)2.3. 简述ACID特性。

一种基于多蚁群遗传算法的分布式数据库查询优化方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201811426336.9(22)申请日 2018.11.27(71)申请人常州市武进区半导体照明应用技术研究院地址 213164 江苏省常州市天安数码城9号楼101室(72)发明人马锐　王鑫　苏静　濮斌　(74)专利代理机构常州佰业腾飞专利代理事务所(普通合伙) 32231代理人刘松(51)Int.Cl.G06F 16/2453(2019.01)G06F 16/2458(2019.01)G06N 3/00(2006.01)G06N 3/12(2006.01)(54)发明名称一种基于多蚁群遗传算法的分布式数据库查询优化方法(57)摘要本发明公开了一种基于多蚁群遗传算法的分布式数据库查询优化方法，属于互联网数据库技术领域，包括建立分布式数据库构架，对分布式数据库查询代价进行分析后，将蚁群算法升级为多蚁群算法，利用了平滑机制及多蚁群间互相学习机制来避免陷入局部最优和早熟现象,从而提高了整个算法的全局搜索能力，解决了采用多蚁群算法提高分布式数据库查询效率技术问题，本发明引入多蚁群算法，并在算法中提出了“学习算子”，让子蚁群相互学习，防止陷入局部最优，提高算法性能，让算法能够获得更好的全局最优解。

权利要求书2页说明书5页附图1页CN 109669957 A 2019.04.23C N 109669957A1.一种基于多蚁群遗传算法的分布式数据库查询优化方法，其特征在于：包括如下步骤：步骤1:建立分布式数据库构架，设定在分布式数据库构架中的每一个数据库均为一个点，发起数据查询的点为初始点；步骤2：从初始点开始，随机向任意一个点A发起查询，点A向另外一个任意点B发起查询；步骤3：重复执行步骤2，最终产生染色体种群；步骤4：对染色体种群进行迭代：对染色体按概率进行变异和交叉操作，在产生数个新染色体；步骤5：解码所有新染色体，将所有新染色体转换成查询路径，计算查询路径的目标函数值，以此来标定新染色体的适应度值；步骤6：根据轮盘赌法和各个新染色体的适应度值进行选择操作，生产迭代后查询路径；步骤7：重复执行步骤4到步骤6，直到结束条件得到满足，将最后产生的迭代后查询路径作为最优查询路径输出；步骤8：用最优查询路径对信息素矩阵进行初始化处理，利用遗传算法来对初始信息素分布进行有效确定；步骤9：根据多蚁群算法进行查询路径优化，其包括如下步骤：步骤S1：设置开始的点,开始的点相当于发出查询请求的点；步骤S2：按照转移概率的公式进行点的转移,同时更新路径；步骤S3：判断蚂蚁是否已完成所有目的点的搜索：如果完成搜索，则执行步骤S4；否，则继续让蚂蚁进行搜索并执行步骤S3；步骤S4：判断是否蚁群内所有的蚂蚁都已经完成：若没有，则返回步骤S1；如果蚁群内所有蚂蚁都进行了搜索，则计算得到每条路径的具体目标函数值；步骤S5：判断当前迭代数是否大于蚁群开始信息素平滑机制的迭代数：若是，则按照信息素平滑机制操作；步骤S6：判断当前迭代数是否大于蚁群间开始学习信息素的迭代数：若是，则按照学习算子规则进行操作；步骤S7：判断当前迭代数是不是符合了结束条件：如果没有符合，返回步骤S1；符合，则输出结果。

分布式数据库的查询优化算法概论

在多表连接的查询特征基础上,将粒子树形编码的分布式数据查询方式。使用粒子群算法优化后的查询策略比原始的查询策略的执行代价低，有效地增加了系统的查询效率。为了进一步提升效率，又提出了多连接粒子群优化算法，该算法能够在更复杂多连接查询优化问题中得到应用。
3.5 遗传算法分布式数据查询时不仅要考虑数据的分布与冗余，而且要考虑站点间的通信代价以及计算机的并行执行能力、时间成本等。近年来，学者们把粒子群算法、人工免疫算法、人工鱼群算法等应用于分布式数据库查询中。这些启发式算法在一定程度上提高了分布式数据库查询优化效果。遗传算法是一种并行、高效、全局搜索算法，在数据库查询优化过程中能够获取与积累经验，并能够在查询过程中自适应地对搜索过程进行控制，获得最优解。查询时遗传算法个体在求解，不断根据问题域中的适应度值，进行选择、交叉、变异等遗传操作，找到最优查询方案。步骤如下：①随机初始化n个个体作为初始种群，设置w、μ、α等参数的值，对初始种群进行评价，记录最佳个体的适应度值。②设置初始样本群为空。③判断是否需要重新取样，若需要，转到步骤4，不需要，转到步骤6。④根据条件采样方法进行取样，评价样本中的所有种群，标记所有比当前种群好的种群组成种群集合J。⑤得出当前最优的变异率。 ⑥交叉、变异操作。⑦更新当前种群，并对其进行评价，记录最佳个体的适应度值。⑧判断是否满足结束条件，若满足，结束，不满足，则转步骤3。按照步骤3～8进行3次迭代，在进化结束后，当前种群中的最佳个体即为要找的最优查询执行计划，按照该查询执行计划查询，整个查询过程得到优化。
参考文献 [1] 邵佩英.分布式数据库系统及其应用[M].2版.北京:科学出版
社,2005:27. [2] 魏士伟,黄文明,康业娜,等.分布式数据库中基于半连接的查询优

分布式数据库管理系统优化研究

分布式数据库管理系统优化研究引言：现代企业面临的数据量不断增长的挑战，传统的集中式数据库管理系统已经无法满足高效、可扩展和容错的需求。

分布式数据库管理系统（Distributed Database Management System，简称DDBMS）应运而生，它将数据库分布在多个节点上，实现数据的存储和访问的分布式处理。

然而，DDBMS在设计和优化方面面临着诸多挑战。

本文将从分布式数据库设计、数据复制、查询优化和容错性等方面探讨DDBMS的优化研究。

一、分布式数据库设计1. 数据分片：在DDBMS中，数据被分成多个片段存储在不同的节点上。

合理的数据分片策略可以提高数据的访问效率和负载均衡。

一种常见的分片策略是基于哈希函数的分片，通过对数据的关键属性进行哈希运算，使得相同哈希值的数据分配到同一个节点上。

2. 数据复制：数据复制是提高系统的可用性和容错性的重要手段。

通过将数据复制到多个节点上，当某个节点发生故障时，可以快速切换到备用节点上继续提供服务。

但是，数据复制也带来了数据一致性和更新延迟的问题。

因此，需要合理的数据复制策略来平衡数据一致性和性能。

二、数据复制1. 一致性模型：在DDBMS中，维护数据的一致性是一项挑战。

一致性模型定义了数据复制的行为，可以分为强一致性模型和弱一致性模型。

强一致性模型要求所有副本上的数据保持一致，但会带来更高的延迟和更低的可用性。

而弱一致性模型放宽了数据一致性的要求，可以提高系统的可用性和性能。

根据应用的需求，选择适合的一致性模型是数据复制的关键。

2. 数据冲突解决：当多个节点同时修改同一份数据副本时，可能会产生数据冲突。

解决数据冲突的常用方法是使用冲突检测和解决机制，如版本控制和冲突检测算法。

这些机制可以帮助系统自动解决数据冲突，保证数据的一致性和完整性。

三、查询优化1. 查询分发：在DDBMS中，查询被分发到不同的节点上进行并行处理。

选择合适的查询分发策略可以提高查询性能和吞吐量。

SDD-1算法的研究与改进

SDD-1算法的研究与改进
李川
【期刊名称】《西安航空技术高等专科学校学报》
【年(卷),期】2012(030)005
【摘要】SDD-1算法是分布式数据库查询优化的一种算法，研究SDD-1算法的过程，分析SDD-1算法的优缺点，并针对该算法的不考虑最后一点传输代价的缺点提出了改进的SDD-1算法。

【总页数】3页(P68-70)
【作者】李川
【作者单位】西安电子科技大学研究生院,陕西西安710071 西安航空学院计算机工程系,陕西西安710077
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.分布式查询优化算法及对SDD-1算法的改进 [J], 刘放美;王猛
2.基于SDD-1算法的分布式数据库查询优化策略的研究 [J], 李二涛
3.SDD-1改进算法在Hive中应用 [J], 王宝进;吴淑跃;薛娟
4.基于改进Gamma和改进BP算法的人脸识别研究 [J], 李国芳;王力
5.基于改进型梯度法的客车侧翻一步碰撞算法精度改进研究 [J], 王童;陈轶嵩因版权原因，仅展示原文概要，查看原文内容请购买。

分布式数据库试题及答案

4.4.1. 找出发生故障时系统中的活动事务，确定出反做和重做事务集。 ........ 36 4.4.2. 用C或其他语言定义出数据库记录（D记录）和检查点记录（K记录）的数据结构。 36 4.5. 设数据项x,y存放在S1场地，u,v存放在S2场地，有分布式事务T1和T2,T1在S1场地的操作为 R1(x)W1(x)R1(y)W1(y),T2 在 S1 场地的操作为 R2(x)R2(y)W2(y);T1 在 S2 场地上的操作作为R1(u)R1(v)W1(u),T2在S2场地上的操作作为W2(u)R2(v)W2(v)。对下述2种情况，各举一种可能的局部历程（H1和H2），并说明理由 ......................... 36 4.5.1. 局部分别是可串行化，而全局是不可串行化的 ........................ 37 4.5.2. 局部和全局都是可串行化的。 ...................................... 37 4.5.3. 要求按照严格的2PL协议，加上适当的加锁和解锁命令，（注意，用rl(x)表示加读锁，wl(x)表示加对x加写锁，ul(x)表示解锁） .......................... 37 5. 二零年秋试题 .............................................................. 38 5.1. 概念题 ............................................................. 38 5.1.1. 解释对象数据库系统中面向对象的相关概念 .......................... 38 5.1.2. 从概念上比较对象数据库模型与对象关系模型 ........................ 38 5.1.3. 利用左深树、右深树、浓密树来进行查询优化的各自特点 .............. 38 5.1.4. 试解释影响并行数据库系统中并行算法性能的三个因数 ................ 39 5.1.5. 简述用爬山算法进行查询优化的基本思想 ............................ 39 5.2. 下面是某个公司一个人事关系数据库的全局模式： EMP={ENO*,ENAME,POSITION,PHONE} PAY={POSITION*,SALARY} ENO 为职员号， POSITION为岗位。SALARY表示岗位对应的工资，*对应的属性表示主关键字。该公司分布在两个场地上，其中，在场地1经常处理所有职员数据，而场地2只处理工资低于1000的职员数据，为了节省磁盘空间和增大处理局部性： .............................. 40 5.2.1. 将以上全局关系进行分片设计，写出分片定义和分片条件。 ............ 40 5.2.2. 指出分片的类型，并画出分片树。 .................................. 40 5.2.3. 给出分配设计。 .................................................. 40 5.3. 对题二所确定的分片模式，要求查询岗位为“salesman”的所有职员的姓名和工资，写出的在全局模式上的SQL查询语句，并要求转换成相应的关系代数表示，画出全局查询树。假设“salesman”的工资为800元。要求给出中间转换过程。 ............. 41 5.3.1. 进行全局优化，画出优化后的全局查询树。 .......................... 41 5.3.2. 进行分片优化，画出优化后的分片查询树。 .......................... 42 5.4. 按如下给出的条件，求出半连接优化计划和执行场地，并作后优化处理 ..... 42 5.5. 下面是当一个数据库系统出现故障时，日志文件中的信息 ................. 48 5.5.1. 画出对应的事务并发执行图。 ...................................... 49 5.5.2. 找出发生故障时系统中的活动事务，确定出反做和重做事务集。 ........ 49 5.5.3. 指出需要undo的和redo的数据记录。 ................................ 49 5.6. 设数据项x,y存放在S1场地，u,v存放在S2场地，有分布式事务T1和T2。T1在S1场地的操作为R1(x)W1(x)R1(y)W1(y)，T2在S1场地的操作为R2(x)R2(y)W2(y)；T1在S2场地上的操作作为R1(u)R1(v)W1(u)，T2在S2场地上的操作作为W2(u)R2(v)W2(v)。对下述2种情况，各举一种可能的局部历程（H1和H2），如果是可串行化的，指出事务的执行次序。对第3种情况，给出符合基本2PL协议的调度。（T1 加锁命令用L1(X)表示，开锁命令U1(X) 表示。对任何数据的加锁可在事务开始后立即进行）。 ........................... 49 5.6.1. 局部是不可串行化的。 ............................................ 50 5.6.2. 局部是可串行化的，而全局是不可串行化的。 ........................ 50 5.6.3. 局部是可串行化的，全局也是可串行化的。 .......................... 51 5.7. 设计一种满足下列要求的索引结构。 ...............................象的数据库是如何产生的，其基本原理是什么？有哪些创新特性？ ... 18 r i ∝ r j 一定等于r j ∝ r i 吗？在什么条件下r i ∝ r j = r j ∝ r i 成立? ......... 18

sdd-1算法的改进及其应用研究

西安电子科技大学硕士学位论文SDD-1算法的改进及其应用研究姓名：***申请学位级别：硕士专业：计算机应用技术指导教师：***20100101摘要作为一种分布式数据库的查询优化方法，由于其本身的局限性，SDD-1算法所生成的查询计划的通信费用并非最小，而且当连接查询涉及到的站点数目较多时，会因其生成查询计划的时间过长而导致查询效率下降。

本文针对SDD-1算法的这两个缺陷，设计了一种基于遗传算法的I-SDD-1算法。

用遗传算法求解I-SDD-1算法的查询计划；设计了适用于该问题的群体初始化方法、群体规模、适应度函数、结束条件和相关遗传算子；通过仿真程序比较了I-SDD-1算法和SDD-1算法生成查询计划的时间复杂度；在此基础上结合绿色清洗数据库系统的需求特性，设计了符合该系统特点的查询优化方法并设计了模拟实验。

实验证明，尽管查询连接的站点数目较少时，I-SDD-1算法生成查询计划的时间较长。

但是由于其生成的查询计划通信费用较小，所以在涉及到数据的远程传输时，I-SDD-1算法的整体查询效率高于SDD-1算法。

当查询连接的站点数目较多时，I-SDD-1算法在生成查询计划时间和通信费用两方面都优于SDD-1算法。

由于遗传算子设计得不够理想，I-SDD-1算法的执行结果并不是每次都是最优的。

完善遗传算子的设计以及提高I-SDD-1算法收敛于最优解的概率将是以后的研究方向。

关键词：I-SDD-1算法查询优化算法分布式数据库遗传算法 SDD-1算法AbstractAs a method of query optimization for distributed database, SDD-1 has its own defects. The two major defects are the communication cost of query plan generated by SDD-1 algorithm is not the least, and it will cost too much time to produce a query plan when there are many query stations. Both of them will reduce the query efficiency.For these two major defects, an I-SDD-1 algorithm based on genetic algorithm is introduced in this paper. I-SDD-1 algorithm uses Genetic Algorithm rather than Hill-climbing algorithm for solving query plan. The population initialization method, population size, fitness function, end condition and other associated genetic operators which are applied to this problem are designed in this paper, and an experiment is also designed to compare SDD-1 algorithm and I-SDD-1 algorithm in efficiency of producing query plan. Then the analysis of the green cleaning database system’s characteristics, based on which I-SDD-1 algorithm is chosen as the query optimization method of green cleaning database system, is present. Finally, a simulation experiment is designed to prove that I-SDD-1 algorithm is better than SDD-1 algorithm in this system.It is proved by the experiments designed in this paper that the communication cost generated by I-SDD-1 algorithm is less than that generated by SDD-1 algorithm in most case. Although when the relatively number of semi-joins is smaller, I-SDD-1 algorithm takes longer time for generating query plan than SDD-1 algorithm, the saving communication cost makes the query efficiency of I-SDD-1 algorithm still higher than SDD-1 algorithm. Moreover, when the relatively number of semi-joins is great, I-SDD-1 algorithm is superior to SDD-1 algorithm in both communication cost and time spent on generating query plan.However, the generic operations have not been designed good enough that the communication cost generated by I-SDD-1 algorithm is always less than SDD-1 algorithm. So it is the future direction of research how to improve the genetic operations of I-SDD-1 algorithm.Keywords: I-SDD-1 Algorithm Query Optimization Algorithm Distributed Database System Genetic Algorithm SDD-1 Algorithm创新性声明本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得的研究成果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＬｉｔｏａＥｒ
（ｃｎｍｉ＆ｎｇｍｎｏｌｅｏｎｕ，ｅｅ２０５，ｈｎ）Ｅ０ｏｃＭａａｅｅｔｌｇｆｈｉｆｉ３０９ＣｉａｓＣｅＡＨ
ＡｂｓｒｔＤｉｔｉｕｔｄｄｔｂａｅｓｓｅｓｄｅｌｔｎｎｃｅｓｏｔｏｗｏｔｎｎｏｔａｃ：ｓｒｂｅａａｓｙｔｍｈａａｔｗｉｈａｄｉｒａｅａｌｆｎｅｃｎｅｔａｄｃｍｐｌｘｔｅａｅｏｆｄｓｒｂｔｏｅｉｙｂｃｕｓｉｔｉｕｉｎａｒｄｕｄｎｃｆｒａａｉｔｉｔｄＯｎｑｉｅＳｎｄｅｎａｙｏｄｔｄｓｒｂｕｅｔｉｕｒ，Ｏｔｑｒｓａｅｙｅｍｓｈｅｕｅｙｔｔｇｓｅｐａｔｃｌｒｙｍｐｏｔｎ．ｉｔｘｉｔｏｃｔｒｒｉｕａｌｉｒａｔＴｈｓｅｔｎｒｄｕｅｄｈｅｃａａｔｒｓｉｓｏｕｅｙｓｒｔｇｙｗｈｉｈｂａｅｎｔｅＳＤＤ— ｌｏｉｈａｄｄｓｕｓｅｄｅｅｔｎｍｐｒｖｎｅｈｓｈｒｃｅｉｔｃｆｑｒｔａｅｃｓｄｏｈＩａｇｒｔｍｎｉｃｓｔｆａｄｉｈａｏｉｇｍｔｏｄ．
ｃｓ）１ｏｔ
Ｂ＋Ｂ — Ｊ｛ｅｏｅＳｒｍＢ｝Ｓ一ＳＳｒｍｖＪｆｏＳＥ＋Ｅ＋Ｊ｛ｐｅｄＳｏｅｅｕＪｎｓｒｔｇ）Ｓ一ＳＳａｐｎＪｔｃｔｏｔａｅｙ
中图分类号：Ｔ３１Ｐ１
文献标识码：Ａ
文章编号：１０— ５９（００６０３ — １０７９９２１）１— ０４０
ＴｅＤｉｒｂｔｄＤａａａｅＱｕｒｔｚｔｎｈｓｉｕｅｔｂｓｅｙＯｐｉａｉｔｍｉｏ
ｅｒｈｏＤＤ－ｇｒｔｍ１Ａｌｏｉｈ
摘要：分布式数据库系统由于数据的分布和冗余使得分布式查询处理增加了许多新的内容和复杂性，因此分布式查询处理的策略显得尤为重要。本文介绍了基于ＳＤ一Ｄ１算法的查询策略的特点，并提出存在的问题及改进方法。关键词：分布式数据库；查询策略；ＳＤ～算法Ｄ１
、
Ｓ￣ｍｓ — ｅｅｉｉｌ（Ｓ）Ｓ：ｅｉｉｎｗｉｈｍｘ（ｅｅｉＪｏｔｂｎｆｃａＢ｛Ｊｓｍｊｏｔａｂｎｆｔ
— —
资源尽量地少，从而降低整个系统开销。针对查询响应时间优化策略的目是尽量减少查询的响应时间，而不计较系统资源的耗费。标查询优化有两种基本方法：第一是查询转化，即以不同的顺序执行关系操作，如连接和投影操作；第二是查询映射，即使用一系列高效的算法来存取各种设备和实现关系操作。即查询映射是针对
Ｋｅｗｏｄ：ｓｉｕｅａａａｅｅｙｓｒｔｇ；ＤＤ— ｌｏｉｍｙｒｓＤｉｔｂｔｄｄｔｂｓ；ｒｔａｅｙＳｒＱｕｌａｇｒｈｔ
分布式数据库系统是数据库系统与计算机网络系统结合的产物，具有数据独立性、集中与自制相结合的控制机制、存在适当的数据冗余度、事务管理的分布性等特点。在分布式数据库系统中，数据独立性除了数据的逻辑独立性与物理独立性外，还有数据分布透明性。数据分布透明性指用户不必关心数据是如何被逻辑分片的（数据分片透明性），不必关心数据及其片段是否被复制及复制副本的个数（数据复制透明性），也不必关心数据及其片段的物理位置分布的细节（据位置透明性），同时也不必关心局部场地上数数据库支持哪种数据模型。有了分布透明性，用户的查询程序书写起来就如同数据没有分布一样，使系统使用起来更简单、有效。分布式查询策略的基本特点在分布式查询处理技术中，查询策略的基本类型通常包括两类：针对查询执行代价的策略和针对查询响应时间的策略。针对查询执行时间代价进行优化策略的目标是使查询执行所使用的系统
一．．．— —
３．４．— ． —
ｐｃｓｉｒｏｅｓｎｇＢｓ一＜
ＦｒａｈｓｍｊｏＪｎＯｏｏｅｃｅｉｉｎＳｉＧｄｉｏｔ（Ｊ＜ｅｅｉ（Ｊｔｅｆｃｓｓ）ｂｎｆｔＳ）ｈｎ
Ｂ（ＢＪＳ一ＳｕＳ
ｅ —ｉｎｄｆｅ —ｆｎｄｏｒｗ１Ｂｈｉｅｓ≠ ｂｉｅｇｎｄｏ
但是，Ｄ一算法存在一个严重问题，就是它的算法的复杂８Ｄ１那性。当元组数目很大时，进行查询搜索的代价迅速增加，使系统
关系的存取方法和操作的执行算法进行决策，查询转化则是针对无法承受。为此，我们在此基础上对它进行改进，降低它的时间而操作执行的顺序及不同站点之间数据流动的顺序进行决策。复杂度。我们提出的改进算法描述如下：假设已经建立执行策略二、ＳＤ１Ｄ一算法Ｅ，有益半连接存储表Ｂ表。ｓｓＳＤ１Ｄ一算法由两部分组成：基本算法和后优化。本算法是根基（）置Ｅ为空，读取并行参数值Ｐ一ｓ；（）计算所有的有益半连接并加入Ｂ表中；二ｓ据评估所缩减程序的费用，效率，收益估算等几个因素，给出全部的半连接缩减程序集，决定一个最有益的执行策略。主要包括（）择最有益半连接Ｘ比ｘ＇范围内的有益半连接，三选和ｄＰ若三个基本步骤：（）始化：已准备好从查询数转换的优化模型，这些有益半连接涉及到的关系有重复者，则去掉其中较小的有益１初且所有关系已完成局部缩减。（）优化：根据初始条件，构造可半连接，将最终得到的有益半连接从Ｂ表中删除并加入Ｅ中；２ｓｓ能的半连接缩减程序：按半连接缩减程序的静态特性表，分别计（）判断Ｅ是否包含所有有益半连接，是则输出此执行策四ｓ算其代价和产生的益处，其中选取一个半连接程序，设为ｓ从；以略，否则执行下一步；ｓ成缩减以后，又用重新产生的一组新的静态特性表再进行计完（）调整统计数据；五算，再从其中选取一个合适的半连接程序，但每一个都只做一次；（）转到第（）步。六二循环下去，直到没有半连接缩减程序为止。（）结束：以最后一３三、结束语次缩减关系的静态特性表为基础，进行费用计算，选择场地。后经过实验验证，用改进的ＳＤ１采Ｄ一算法对多关系查询进行优化后，优化是将基本算法得到的解进行修正，已得到更合理的执行策略。不但减少了通信代价，而且提高了查询执行的并行能力。以当查询所包括两种修正，一种是如果最后一次半连接程序缩减关系的所在涉及到的连接个数较多时，应用改进的ＳＤ１Ｄ一算法，通过在优化过程场地恰好是被选中的执行场地，则最后一次半连接可以取消。另中添加并行参数，能很好的提高了ＳＤｌＤ—算法的并行执行能力。种修正是在基本算法的流程图进行修正，因为某一个半连接缩参考文献：减程序的代价可能很高，就必须修正半连接的操作序。［解飞，丽，宁．于数据立方体的关联规则挖掘方法研１】唐培魏基算法：ＳＤ卜ＱＡＤ一Ｏ究【．Ｊ气象水文海洋仪器，０８１】２０，ｉｐｔＧｑｅｙｇａｈｗｉｈｎｒｌｔｏｓｓａｉｔｃｏｎｕ：Ｑ：ｕｒｒｐｔｅａｉｎ；ｔｔｓｉｓｆｒ［于红，秀坤．于值的分布式查询优化算法［．２】王基Ｊ大连理工大】ｅｃｈｒａｏａｅｌｔｉｎ学学报，０，２５０３
一
ｏｐｕｔｕｔ：ＥＳ：ｅｃｔｉｎｔａｔｇｘｅｕＯｓｒｅｙｂｅｎｇｉ
Ｅ一１ｅｌｏｅａｉＩ（Ｇｓｏａ — ｐｒｔＯｌＱ）Ｓ
ｍｏｄｉｙｓｔｒｉｔＣＳｔｒｌｔｔｅｅｆｔｏｌｏａｆａｓｉｏｅｆｅｃｈｆｅｃｆｃｌ
计算机光盘软件与应用
工程技术
ＣｍｕｅＤＳｆｗｒｎｐｌｃｔｏｓｏｐｔｒＣｏｔａｅａｄＡｐｉａｉｎ
２１００年第１６期
基于ＳＤ１Ｄ一算法的分布式数据库查询优化策略的研究