查询优化

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关系系统及其查询优化（续）
本章目的：
RDBMS的查询处理步骤查询优化的概念基本方法和技术
查询优化分类：
代数优化物理优化
关系数据库系统的查询处理
查询处理步骤实现查询操作的算法示例
查询处理的过程
1．查询处理的过程
RDBMS处理用户查询请求的过程：接到用高级查询语言书写的查询请求后，首先进行词法分析和语法分析，并确认语义正确后，产生查询的内部表示（通常为查询树或查询图），然后由RDBMS选定一个执行策略（包括操作的执行顺序，如何访问外部文件，存储中间结果），接着由查询执行引擎(query execution engine)负责产生执行查询的代码，交给运行时数据库处理器执行，最终产生查询结果或报告出错信息。
［例1-C3］以C3为例，Sage>20，并且Sage 上有B+树索引
使用B+树索引找到Sage＝20的索引项，以此为入口点在B+ 树的顺序集上得到Sage>20的所有元组指针通过这些元组指针到student表中检索到所有年龄大于20的学生。
选择操作的实现（续）
［例1-C4］以C4为例，Sdept＝‘CS’ AND Sage>20，
排序－合并连接方法的步骤（续）：
当扫描到Sno不相同的第一个SC元组时，返回Student表
扫描它的下一个元组，再扫描SC表中具有相同Sno的元
组，把它们连接起来重复上述步骤直到Student 表扫描完
连接操作的实现（续）
Student表和SC表都只要扫描一遍
如果2个表原来无序，执行时间要加上对两个表的排序时间对于2个大表，先排序后使用sort-merge join方法执行连接，总的时间一般仍会大大减少
连接操作的实现（续）
200215121 200215122 200215123 200215124 . . .
200215121 1 92 200215121 2 85 200215121 3 88
200215122 2 90
200215122 3 80
. . .
排序-合并连接方法示意图
连接操作的实现（续）
集中式数据库
执行开销主要包括：
– 磁盘存取块数(I/O代价) – 处理机时间(CPU代价)
– 查询的内存开销
I/O代价是最主要的
分布式数据库
总代价=I/O代价+CPU代价+内存代价＋通信代价
查询优化概述（续）
查询优化的总目标：
选择有效的策略求得给定关系表达式的值使得查询代价最小(实际上是较小)
●
负责产生执行查询的代码
查询处理的过程
（4）运行时数据库处理器
功能：执行查询代码，产生查询结果或报告出错信息
实现查询操作的算法示例
一、选择操作的实现
二、连接操作的实现
一、选择操作的实现
［例1］Select * from student where <条件表达式> ；
查询处理的过程
(1)
词法分析、语法分析、语义确认
从查询语句中识别出语言符号根据数据字典对合法的查询语句进行语义检查根据数据字典中的用户权限和完整性约束定义对用户的存取权限进行检查检查通过后把SQL查询语句转换成等价的关系代数表达式 RDBMS一般都用查询树(语法分析树)来表示扩展的关系代数表达式
查询处理的过程
（2）查询优化器（ query optimizer）
功能：负责产生最有效的查询执行计划（QEP）逻辑转换部分：对于一个语法树，根据关系代数等价变换规则，得到所有的等价的关系代数表达式；
●
物理转换部分：对于每一个关系代数表达式，根据查询引擎提供的物理操作，找出所有可能的查询执行计划
一个实例
[例3] 求选修了2号课程的学生姓名。用SQL表达： SELECT Sname FROM S，SC WHERE S.Sno=SC.Sno AND SC.Cno=‘2’；
S(sno,sname,sage,ssex,sdept)
Sc(sno,cno,grade)
一个实例（续）
系统可以用多种等价的关系代数表达式来完成这一查询
二、连接操作的实现
连接操作是查询处理中最耗时的操作之一
本节只讨论等值连接(或自然连接)最常用的实现算法
［例2］ SELECT * FROM Student，SC WHERE Student.Sno=SC.Sno；
连接操作的实现（续）
1. 嵌套循环方法(nested loop)
●
比较和查找：根据代价估计函数，估计每一个查询执行计划的代价，并从中找出代价最小的查询执行计划。
●
查询处理的过程
查询优化器（ query optimizer）
等价变换规则集查询请求物理操作集代价估计函数代价最小 QEP
逻辑转换
等价的语法树集合
join R2 join R3 join树 R1
李勇
刘晨
05001
2
3 2
85
88 90
×
连接后的元组装满一块后就写到中间文件上
读取S和SC表的策略 S表
第一个五块第二个五块
第1－10个元组第11－20个元组
内存缓冲区
10个S元组 100个SC元组
SC表
第1－100个元组第101－200个元组
第一块第二块
…
共一万个选课记录
…
共一千个学生记录
如果Sdept和Sage上都有索引：
算法一：分别找到Sdept＝‘CS’的一组元组指针和 Sage>20的另一组元组指针
求这2组指针的交集到student表中检索得到计算机系年龄大于20的学生
算法二：找到Sdept＝‘CS’的一组元组指针，
通过这些元组指针到student表中检索对得到的元组检查另一些选择条件(如Sage>20)是否满足把满足条件的元组作为结果输出。
如果要求查询的SQL语法本身就要求GROUP BY、ORDER BY等运行，则查询语法整体本来就要做排序，因此可以重用排序结果，此时可以选择Merge。
连接操作的实现（续）
3. 索引连接(index join)方法步骤：
① 在SC表上建立属性Sno的索引
② 对Student中每一个元组，由Sno值通过SC的索引查找
相应的SC元组 ③ 把这些SC元组和Student元组连接起来循环执行②③，直到Student表中的元组处理完为止
连接操作的实现（续）
4. Hash Join方法把连接属性作为hash码，用同一个hash函数把R和S中的元组散列到同一个hash文件中。
关系系统及其查询优化
关系数据库系统的查询处理关系数据库系统的查询优化
2. 排序-合并方法(sort-merge join 或merge join) 3. 索引连接(index join)方法 4. Hash Join方法
连接操作的实现（续）
1. 嵌套循环方法(nested loop)
对外层循环(Student)的每一个元组(s)，检索内层循环 (SC)中的每一个元组(sc) 检查这两个元组在连接属性(sno)上是否相等如果满足连接条件，则串接后作为结果输出，直到外
代数优化
查询优化的优点
用户不必考虑How To Do
系统可以比用户做得更好(更“优化”) 1)优化器可以从数据字典中获取许多统计信息，而用户程序则难以获得这些信息 2)如果数据库的物理统计信息改变了，系统可以自动对查询重新优化以选择相适应的执行计划。在非关系系统中必须重写程序，而重写程序在实际应用中往往是不太可能的。
ຫໍສະໝຸດ Baidu
2. 索引(或散列)扫描方法
选择条件中的属性上有索引(例如B+树索引或Hash索引)
通过索引先找到满足条件的元组主码或元组指针，再通过元组指针直接在查询的基本表中找到元组
选择操作的实现（续）
［例1-C2］以C2为例，Sno＝‘200215121’，并且Sno 上有索引
使用索引得到Sno为‘200215121’ 元组的指针通过元组指针在student表中检索到该学生
Q1=πSname(σS.Sno=SC.Sno∧Sc.Cno='2' (S×SC)) Q2=πSname(σSc.Cno='2' (S Q3=πSname(S SC))
σSc.Cno='2'(SC))
系统假设:
元组数：student 1000个, SC 10000个，其中有关2号课程的50个内存数：5个内存块用于装student, 1个内存块用于装SC 块大小：一个内存块可装10个student元组(或10个 student与SC笛卡尔积元组)，或100个SC元组读写速度: 20块/秒 (读写速度一样) 连接方法：基于数据块的嵌套循环法
考虑<条件表达式>的几种情况： C1：无条件； C2：Sno＝'200215121'； C3：Sage>20； C4：Sdept＝'CS' AND Sage>20；
选择操作的实现（续）
选择操作典型实现方法：
1. 简单的全表扫描方法
对查询的基本表顺序扫描，逐一检查每个元组是否满足选择条件，把满足条件的元组作为结果输出适合小表，不适合大表
3)优化器可以考虑数百种不同的执行计划，程序员一般只能考虑有限的几种可能性。 4)优化器中包括了很多复杂的优化技术，这些优化技术往往只有最好的程序员才能掌握。系统的自动优化相当于使得所有人都拥有这些优化技术
查询优化概述（续）
RDBMS通过某种代价模型计算出各种查询执行策略的执行代价，然后选取代价最小的执行方案
10个连接后的元组
…
…
中间文件
第n块
Q1: Sname(S.sno=SC.sno ∧ SC.Cno =‘2’ (S×SC))
S(1000行)
学号 Sno 姓名 Sname
SC(10000行)
学号 Sno 05001 课程号 Cno 1 成绩 Grade 92
(10000000行)
05001
05002
连接操作的实现（续）
2. 排序-合并方法(sort-merge join 或merge join)
适合连接的诸表已经排好序的情况
排序－合并连接方法的步骤：
如果连接的表没有排好序，先对Student表和SC表按连接属性Sno排序取Student表中第一个Sno，依次扫描SC表中具有相同 Sno的元组
层循环表中的元组处理完为止
适用于一个集合大而另一个集合小的情况(将小集合做为外循环)， I/O性能不错。 Nested Loop一般在两个集合都很大的情况下效率变差，而 Sort-Merge在这种情况下就比它要高效，尤其是当两个集合的 JOIN字段上都有聚集索引(clustered index)存在时，SortMerge性能将达到最好。
关系查询处理和查询优化
关系系统及其查询优化
关系数据库系统的查询处理
关系数据库系统的查询优化代数优化
思
考
几
个
问
题
1. 为什么数据库管理系统产品强调：一个查询中涉及的基本表的个数不要超过 7个，最多不要超过10个？ 2. 一旦发现某个查询的效率很低，如何分析低效的原因？如何改进效率？
物理转换
查找
等价的QEP
Sort-merge R2 Nested-loop
R3
操作树
R1
查询处理的过程
（3）查询执行引擎(query execution engine)
功能： ● 查询执行引擎为每一个关系操作的实现提供多种物理实现方法，如选择操作有二种可能的物理操作：顺序扫描和索引扫描；如连接操作有三种可能的物理操作：嵌套循环连接、合并连接和散列连接。当然查询执行引擎还可以提供更多的物理实现方法。每一种物理实现方法利用不同的存取路径（如索引、数据的存储分布、元组的排序等）
查询处理的过程
高级语言查询语句词法分析、语法分析、语义确认查询的内部表示查询优化器
查询的表示形式
执行策略查询执行引擎执行查询的代码运行时数据库处理器查询结果
功能模块
图 1 处理高级查询语句的过程
查询处理的过程
2．处理过程中的功能模块
●
●
● ●
词法分析、语法分析、语义确认查询优化器查询执行引擎运行时数据库处理器