数据库原理及应用-第9章关系查询处理和查询优化
第09章 关系查询处理和查询优化
连接操作的实现
student sc
200215121 200215122 200215123
200215121 1 92 200215121 2 85 200215121 3 88 200215122 2 90
200215124 . . .
200215122 3 80
. . .
排序-合并连接方法示意图
=
5秒
• Q3: 10秒
• Q4: <10秒
二、优化的一般策略
1、选择、投影运算应尽可能先做 好处:减少下一步运算的数据量 2、把选择和投影运算同时进行 好处:减少扫描关系的次数 SN SD=‘CS’ )) ( (S 表S S# S1 S2 S3 S4 SN SD SA A CS 20 B CS 21 C MA 19 D CI 22
对这一查询,可以考虑下面几种实现方式: 1、先求S和SC的笛卡尔积,然后从中选出两学号字段值相等、
课程号为C2的元组: Q1 = SN ( S.S#=SC.S# SC.C#=‘C2’ (SSC))
2、先做S和SC的自然连接,然后从中选出课程号为C2的元组: Q2 = ( (S SN SC.C#=‘C2’ SC))
3、先从SC中选出课程号为C2的元组,然后将该结果与S 连接: Q3 = (S SN (SC)) SC.C#=‘C2’
系统假设:
– 元组数:student 1000个, SC 10000个,其中有关2号
课程的50个 – 内存数:5个内存块用于装student, 1个内存块用于装 SC – 块大小:一个内存块可装10个student元组(或10个 student与SC笛卡尔积元组),或100个SC元组 – 读写速度: 20块/秒 (读写速度一样) – 连接方法:基于数据块的嵌套循环法 – 连接后的元组装满一块后就写到中间文件上
第9章 关系查询处理和查询优化
200215121 200215122 200215123 200215124 . . .
200215121 1 92 200215121 2 85 200215121 3 88 200215122 2 90 200215122 3 80
. . .
排序-合并连接方法示意图 排序 合并连接方法示意图
2. 排序 合并方法 排序-合并方法 合并方法(sort-merge join 或merge join) 适合连接的各表已经排好序的情况 排序-合并连接方法的步骤:
如果连接的表没有排好序,先对Student表和SC表按 连接属性Sno排序 取Student表中第一个Sno,依次扫描SC表中具有相 同Sno的元组
3. Q3= ПSname(Student бo=' 2' (SC)) ①б 读SC表总块数= 10000/100=100块 读数据时间=100/20=5秒 读数据时间 中间结果大小=50条 不必写入外存 ② 读Student表总块数= 1000/10=100块 读数据时间=100/20=5秒 读数据时间 ③П 总时间=5+5秒=10秒 总时间
某些选择运算+在其前面执行的笛卡尔积 ===> 连接运算
例:бStudent.Sno=SC.Sno (Student×SC) Student
提取公共子表达式
SC
物理优化
代数优化改变查询语句中操作的次序和组合, 代数优化改变查询语句中操作的次序和组合,不涉及底层 的存取路径 对于一个查询语句有许多存取方案,它们的执行效率不同, 对于一个查询语句有许多存取方案,它们的执行效率不同, 仅仅进行代数优化是不够的 代数优化比较粗糙,而存储路径优化效果明显 代数优化比较粗糙 而存储路径优化效果明显 物理优化就是要选择高效合理的操作算法或存取路径, 物理优化就是要选择高效合理的操作算法或存取路径,求 得优化的查询计划
09 关系查询处理和查询优化
《数据库系统概论》 第九章 关系查询处理和查询优化
12
排序-合并方法(sort-merge join 或merge join)
适合连接的诸表已经排好序的情况 0715121 1 92 0715121 排序-合并连接方法的步骤: 0715121 2 85 如果连接的表没有排好序,先对Student表和SC表按连接属性 0715122 0715121 3 88 Sno排序 0715123 0715122 2 90 取Student表中第一个Sno,依次扫描SC表中具有相同Sno的元 组 0715122 3 80 0715124 . . . 当扫描到Sno不相同的第一个SC元组时,返回Student表扫描 . . . 它的下一个元组,再扫描SC表中具有相同Sno的元组,把它们 连接起来 排序-合并连接方法示意图 重复上述步骤直到Student 表扫描完 说明 Student表和SC表都只要扫描一遍 如果2个表原来无序,执行时间要加上对两个表的排序时间 对于2个大表,先排序后使用sort-merge join方法执行连接,总 的时间一般仍会大大减少
试探阶段(probing phase):也称为连接阶段(join phase)
对另一个表(S)进行一遍处理 把S的元组散列到适当的hash桶中 把元组与桶中所有来自R并与之相匹配的元组连接起来
Hash Join算法前提:假设两个表中较小的表在第一阶段 后可以完全放入内存的hash桶中 以上的算法思想可以推广到更加一般的多个表的连接算法 上
1查询处理和查询优化
二、一个实例
例3 求选修了2号课程的学生姓名。
用SQL表达: SELECT Student.Sname FROM Student, SC WHERE Student.Sno=SC.Sno AND o='2'; 假定学生-课程数据库中有1000个学生记录,10000个选课记录 其中选修2号课程的选课记录为50个
第9章 关系查询处理和查询优化
查询分析 查询检查 查询优化 查询执行
9.1.1查询处理步骤: 查询语句
查询 分析 词法分析 语法分析 语义分析 符号名转换 安全性检查 完整性检查 查询树 查询 优化 代数优化 物理优化等 执行策略描述 查询 执行 代码生成 查询计划的执行代码 数据库 数据字典
数据库原理
Database Principles
第九章 关系查询处理和查询优化
第九章 关系查询处理及其查询优化
9.1 关系数据库系统的查询处理 9.2 关系数据库系统的查询优化 9.3 代数优化 9.4 物理优化
---关系代数表达式的优化 ---存取路径和底层操作算法的选择
9.1关系数据库系统的查询处理
执行策略4
Q2= ПSname(Student бo='2' (SC)) 假设SC表在Cno上有索引,Student表在Sno上有索引 ①б 读SC表索引 读SC表总块数 = 50/100<1块 读数据时间 中间结果大小=50条 不必写入外存 ② 读Student表索引= 读Student表总块数= 50/10=5块 读数据时间 ③П 总时间<10秒
例题
例:求选修了课程C2的学生姓名 SELECT Student.Sname FROM Student, SC WHERE Student.Sno=SC.Sno AND o='2';
执行策略3
Q2= ПSname(Student
бo=' 2' (SC))
①б 读SC表总块数= 10000/100=100块 读数据时间=100/20=5秒 中间结果大小=50条 不必写入外存 ② 读Student表总块数= 1000/10=100块 读数据时间=100/20=5秒 ③П 总时间=5+5秒=10秒
第九章关系查询处理和查询优化
sc student 查询树
cno ' 2 '
sc
基于启发式规则的查询物理优化
1、选择操作的启发式规则 • 对于小关系使用全表顺序扫描,即使有索引; • 对于选择条件为主码的等值查询,选择主码索引检索; • 对于选择条件为非主码的值比较查询,并且选择列上有索引,则要估算结 果的元组数目,若数目较少,则在索引上检索,否则在全表上检索; • 对于用and连接的查询条件,若有涉及属性的组合索引,则优先采用组合索 引检索;若只是某些属性上有索引,可采用选择操作的三种实现方法之一 进行,否则采用全表检索; • 对于用or连接的查询条件,一般使用全表顺序扫描。 2、连接操作的启发式规则 • 若两个表都已按连接属性排序,则选用排序合并法; • 若一个表在连接属性上有索引,则可选用索引连接法; • 若上面2条都不适用,其中一个表较小,则可选用散列法; • 最后可选用嵌套循环法,并选择较小的表作为外层。
索引统计信息
作用:SQL Server允许创建有关列中值分布情况统计信息。查询优化器使用这 些统计信息并通过估计使用索引评估查询的开销来确定最佳查询计划。 知识要点: • CREATE STATISTICS语句可用于手工创建统计信息; • 创建统计信息后,数据库引擎对列值进行排序; • 根据这些列值(最多200个,按间隔分隔开)创建一个“直方图”; • 直方图指定有多少行精确匹配每个间隔值,有多少行在间隔范围内,以及 间隔中值的密度大小或重复值的发生率; • 对字符类型的列创建“字符串摘要”信息,使LIKE条件可以更准确地估计 结果集大小,并不断优化查询计划; • 如果列样本摘要的大小超过了数据库引擎可以维护的范围,则不对字符串 摘要信息进行维护; • 创建索引时,查询优化器自动存储有关索引列的统计信息。另外,当数据 库AUTO_CREATE_STATISTICS选项设臵为ON(默认值)时,数据库引 擎自动为没有索引的列创建统计信息。
第九章 关系的查询及优化
9.1关系数据库系统的查询处理
1、查询分析
首先,对查询语句进行扫描、词法分析和语法
分析。从查询语句中识别出语言符号,如SQL 关键字、属性名和关系名等,进行语法检查和 语法分析,即判断查询语句01… 95002… 95003… 95004… ┇ ┇ 95001 1 95001 2 95001 3 95002 2 95002 3 ┇ ┇ 92 85 88 90 80
图9.2 排序-合并连接方法示意图
9.1关系数据库系统的查询处理
重复上述步骤直到Student表扫描完。
9.2 关系数据库系统的查询优化
9.2.1 关系及其查询优化 关系查询优化是影响RDBMS性能的关键因素。 关系系统的查询优化既是RDBMS实现的关键技 术又是关系系统的优点所在。它减轻了用户选
择存取路径的负担。用户只要提出‘干什么’,
不必指出‘怎么干’。 查询优化的优点不仅在于用户不必考虑如何最 好地表达查询以获得较好的效率,而且在于系 统可以比用户程序的‚优化‛做得更好。
和底层操作算法的选择,所以本章讲解了实现查询操 作的主要算法。
本章的目的是便读者初步了解RDBMS查询处理的基 本步骤,查询优化的概念、基本方法和技术,为数据 库应用开发中利用查询优化技术提高查询效率和系统 性能打下基础。
9.1关系数据库系统的查询处理
查询处理的任务是把用户提交给RDBMS的查
询语句转换为高效的执行计划。
组合,使查询执行更高效;
9.1关系数据库系统的查询处理
物理优化则是指存取路径和底层操作算法的选
择。
选择的依据可以是基于规则(rule based)的,也 可以是基于代价(cost based)的,还可以是基于 语义(semantic based)的。 实际RDBMS中的查询优化器都综合运用了这
关系查询处理及其查询优化
(1)将查询转换成某种内部表示,通常是语法树
(2)根据一定的等价变换规则把语法树转换成标准(优化)形式
(3)选择低层的操作算法
9.3代数优化
πA1,A2,…,An(E1)∪πA1,A2,…,An(E2)
在计算代价时主要考虑磁盘读写的I/O数,内存CPU处理时间在粗略计算时可不考虑。
归
纳
总
结
思
考
练
习
作
业
课
后
分
析
下一单元预习内容及要求
3.索引连接方法
4.Hash连接方法
(1)优化器可以从数据字典中获取许多统计信息,而用户程序则难以获得这些信息
(2)如果数据库的物理统计信息改变了,系统可以自动对查询重新优化以选择相适应的执行计划。在非关系系统中必须重写程序,而重写程序在实际应用中往往是不太可能的。
(3)优化器可以考虑数百种不同的执行计划,而程序员一般只能考虑有限的几种可能性。
第九章关系查询处理及其查询优化
章
节
9.1关系数据库系统的查询处理
9.2关系数据库系统的查询优化
9.3代数优化
9.4物理优化
课型
新授课
2级1、2班
教
学
目
标
重点掌握关系系统的查询优化。
教
学
重
点
难
点
1.重点掌握关系系统的查询优化。
2.画出查询的语法树和优化后的语法树。
3.优化算法,包括代数优化算法和物理优化算法。
教学
关键
理解查询处理的过程
了解查询优化的方法
教学
方法
讲解和课件演示
教
具
数据库原理A第9章_关系查询处理和查询优化
查询优化的必要性(续)
3. Q2= ПSname(Student бo=' 2' (SC)) ①б 读SC表总块数= 10000/100=100块 读数据时间=100/20=5秒 中间结果大小=50条 不必写入外存 ② 读Student表总块数= 1000/10=100块 读数据时间=100/20=5秒 ③П 总时间=5+5秒=10秒
关系代数等价变换规则(续)
5. 选择与投影的交换律
(1)假设: 选择条件F只涉及属性A1,…,An
бF (πA1,A2, ,An(E))≡ πA1,A2, ,An(бF(E))
(2)假设: F中有不属于A1, …,An的属性B1,…,Bm
π A1,A2, ,An ( бF (E))≡ πA1,A2, ,An(бF (πA1,A2, ,An,B1,B2, ,Bm(E)))
代价模型
• 集中式数据库
• 单用户系统
总代价 = I/O代价 + CPU代价
• 多用户系统
总代价 = I/O代价 + CPU代价 + 内存代价
• 分布式数据库
总代价 = I/O代价 + CPU代价[+ 内存代价] + 通信代价
二、一个实例
例:求选修了课程C2的学生姓名
SELECT Student.Sname FROM Student, SC WHERE Student.Sno=SC.Sno AND o='2';
8. 选择与差运算的交换
假设:E1与E2有相同的属性名 бF(E1-E2)≡ бF(E1) - бF(E2)
关系代数等价变换规则(续)
9. 投影与笛卡尔积的交换
假设:E1和E2是两个关系表达式,
王珊《数据库系统概论》章节题库(关系查询处理和查询优化)【圣才出品】
第9章关系查询处理和查询优化一、选择题1.关系代数表达式的优化策略中,首先要做的是()。
A.对文件进行预处理B.尽早执行选择运算C.执行笛卡尔积运算D.投影运算【答案】B2.在关系代数运算中,最费时间和空间的是()。
A.选择和投影运算B.除法运算C.笛卡尔积和连接运算D.差运算【答案】C【解析】在关系代数运算中,最费时间和空间的是笛卡尔积和连接运算,所以尽可能放在后面做。
3.根据系统所提供的存取路径,选择合理的存取策略,这种优化方式称为()。
A.物理优化B.代数优化C.规则优化D.代价估算优化【答案】A【解析】物理优化是根据数据字典中的存取路径、数据的存储分布以及聚簇情况等信息来选择低层的存取路径。
4.在关系代数表达式的等价优化中,不正确的叙述是()。
A.尽可能早地执行连接B.尽可能早地执行选择C.尽可能早地执行投影D.把笛卡尔积和随后的选择合并成连接运算【答案】A【解析】在关系代数表达式中,连接运算的结果常常是一个较大的关系。
如果尽可能早地执行连接,则运算得到的中间结果就会很大。
5.设E是关系代数表达式,F是选取条件表达式,并且只涉及A1,…,A n属性,则有()。
A.бF(πA1,…,An(E))≡πA1,…,An(бF(E))B.бF(πA1,…,An(E))≡πA1,…,An(E)C.бF(πA1,…,An(E))≡πA1(бF(E))D.πA1,…,An(бF(E))≡πA1,…,An(бF(πA1,…,An,B1,…,Bm(E)))【答案】A6.如果一个系统定义为关系系统,则它必须()。
A.支持关系数据库B.支持选择、投影和连接运算C.A和B均成立D.A、B都不需要【答案】C7.如果一个系统为关系完备系统,那么它支持()。
A.关系数据结构B.A与选择、投影和连接C.A与所有的关系代数操作D.C与实体完整性、参照完整性【答案】C二、填空题1.关系系统的查询优化既是关系数据库管理系统实现的关键技术,又是关系系统的优点。
关系查询处理和查询优化
第9 章关系查询处理和查询优化1 .试述查询优化在关系数据库系统中的重要性和可能性。
答:重要性:关系系统的查询优化既是RDBMS 实现的关键技术又是关系系统的优点所在。
它减轻了用户选择存取路径的负担。
用户只要提出“干什么”,不必指出“怎么干”。
查询优化的优点不仅在于用户不必考虑如何最好地表达查询以获得较好的效率,而且在于系统可以比用户程序的“优化’夕做得更好。
可能性:这是因为:( l )优化器可以从数据字典中获取许多统计信息,例如关系中的元组数、关系中每个属性值的分布情况、这些属性上是否有索引、是什么索引(B +树索引还是HASH 索引或惟一索引或组合索引)等。
优化器可以根据这些信息选择有效的执行计划,而用户程序则难以获得这些信息。
( 2 )如果数据库的物理统计信息改变了,系统可以自动对查询进行重新优化以选择相适应的执行计划。
在非关系系统中必须重写程序,而重写程序在实际应用中往往是不太可能的。
( 3 )优化器可以考虑数十甚至数百种不同的执行计划,从中选出较优的一个,而程序员一般只能考虑有限的几种可能性。
( 4 )优化器中包括了很多复杂的优化技术,这些优化技术往往只有最好的程序员才能掌握。
系统的自动优化相当于使得所有人都拥有这些优化技术。
2 .对学生一课程数据库有如下的查询:SEI 王CT Cn 即ne FROM Student , Cou 拐e ,SC WHERE Student . Sno = SC . Sno AND SC . Cllo = Coll 拐e . Cllo AND Stu 击nt .Sdept = ! 15 ! ; 此查询要求信息系学生选修了的所有课程名称。
试画出用关系代数表示的语法树,并用关系代数表达式优化算法对原始的语法树进行优化处理,画出优化后的标准语法树。
答:3 .试述查询优化的一般准则。
答:下面的优化策略一般能提高查询效率:( l )选择运算应尽可能先做;( 2 )把投影运算和选择运算同时进行;( 3 )把投影同其前或其后的双目运算结合起来执行;( 4 )把某些选择同在它前面要执行的笛卡儿积结合起来成为一个连接运算;( 5 )找出公共子表达式;( 6 )选取合适的连接算法。
关系查询处理和查询优化
第九章关系查询处理和查询优化内容概述通过实例讲解关系数据库查询优化的重要性和可能性。
讲解RDBMS的查询处理步骤,即查询分析、查询检查、查询优化和查询执行;查询优化的基本概念,查询优化包括代数优化和物理优化;代数优化是指关系代数表达式的优化;物理优化则是指存取路径和底层操作算法的选择,所以先讲解实现查询操作的主要算法,主要是选择操作和连接操作的主要算法思想,然后讲解关系代数表达式等价变换规则,关系代数表达式的优化,物理优化方法(基于启发式规则的存取路径选择优化,操作算法的执行代价估算方法,基于代价的优化方法)。
本章目标本章并不要求学生掌握RDBMS查询处理和查询优化的内部实现技术,因此没有详细讲解技术细节。
本章的目的是希望学生了解RDBMS查询处理的基本步骤,查询优化的概念、基本方法和技术,为数据库应用开发中利用查询优化技术提高查询效率和系统性能打下基础。
重点和难点重点:了解关系数据库查询优化的重要性。
掌握查询处理各个步骤的主要功能。
能够把SQL语句转换成查询树,对查询树进行代数优化,转换成优化的查询树。
掌握物理优化的基本方法。
难点:能运用本章学习的查询优化知识,对于比较复杂的查询,尤其是涉及连接和嵌套的查询,写出适合RDBMS自动优化的SQL语句。
对于RDBMS不能优化的查询需要重写查询语句,进行手工调整以优化性能。
不要把优化的任务全部放在RDBMS上。
实验内容实验9 查询优化通过本章实验,了解你安装使用的RDBMS的查询优化方法和查询计划表示,能够利用它分析查询语句的实际执行方案和查询代价,进而通过建立索引或者修改SQL语句来降低查询代价,达到优化系统性能的目标。
具体实验内容:1. 对单表查询例如以下的查询(可以自己给出查询语句)select * from student where age>20;2. 连接查询,普通的两表连接查询或多表连接查询3. 嵌套查询,自己写几个带有子查询的例子,主要考虑带有IN和EXISTS谓词的子查询,包括相关子查询和不相关子查询。
9数据库系统原理 第九章 关系查询处理和查询优化
9.1.2实现查询操作的算法示例
• 一、选择操作的实现
–简单的全表扫描方法 •对查询的基本表顺序扫描,逐一检查每个 元组是否满足选择条件。 •简单,但对大表进行扫描时效率偏低。 –索引扫描方法 •通过索引先找到满足条件的元组主码或元 组指针。 •通过元组指针直接在查询的基本表中找到 元组。
一、选择操作的实现-索引扫描方法
9.3.1关系代数表达式等价变换规则
• 6.选择与笛卡儿集的交换律(*)
–假设:F中涉及的属性都是E1中的属性 σF( E1×E2)≡ σF ( E1 ) ×E2 –假设:F=F1∧F2,并且F1只涉及E1中的属性, F2只涉及E2中的属性 则由上面的等价变换规则1,4,6可推出: σF( E1×E2)≡ σF 1( E1 ) × σF 2 (E2 ) –假设: F=F1∧F2 ,并且F1只涉及E1中的属性, F2涉及E1和E2两者的属性 σF( E1×E2)≡ σF
二、连接操作的实现
•
例2: SELECT * FROM student S,SC WHERE S.sno=SC.sno –嵌套循环方法 • 对外层循环的每一个元组,检索内层循环中的每一个元组, 并检查这两个元组在连接属性上是否相等。若满足,则串接 后输出,直到外层循环表中的元组处理完毕。 –排序-合并方法 • 如果连接的表没有排序,首先对两个表按连接属性排序; • 取S表中第一个sno,一次扫描SC表中具有相同sno的元组, 把它们连接起来; • 当扫描到sno不相同的第一个SC元组时,返回S表扫描它的下 一个元组,再扫描SC表中具有相同sno的元组,把它们连接 起来; • 重复上述2个步骤,直到S表扫描完毕。
二、连接操作的实现
例2: SELECT * FROM student S, SC WHERE S.sno=SC.sno –索引连接方法 •在SC表上建立属性sno的索引; •对Student表中每一个元组,由sno值通过SC的索引 查找相应的SC元组; •把这些SC元组和Student表中的元组处理完为止; •重复上述2个步骤,直到Student表扫描完毕。
9数据库第九章关系查询处理和查询优化
2011-1-5
数据库系统原理
6
• RDBMS通过某种代价模型计算出各种查询执行 通过某种代价模型计算出各种查询执行 策略的执行代价, 策略的执行代价,然后选取代价最小的执行方案 – 集中式数据库
执行开销主要包括: 执行开销主要包括:
– 磁盘存取块数 磁盘存取块数(I/O代价 代价) 代价 – 处理机时间 处理机时间(CPU代价 代价) 代价 – 查询的内存开销
18
πA1, A2, ⋯, An (σF (πA1, A2,
2011-1-5
数据库系统原理
9.3.1 关系代数等价变换规则
6、选择与笛卡尔积的交换律 (1) 假设:F中涉及的属性都是E1中的属性 假设: 中涉及的属性都是E
σF (E1×E2)≡ σF (E1)×E2
(2) 假设:F=F1∧F2,并且F1只涉及E1中的属性, 假设: 并且F 只涉及E 中的属性, F2只涉及E2中的属性 只涉及E 则σF (E1×E2) ≡ σ F1(E1)× σF2 (E2) (3) 假设: F=F1∧F2,F1只涉及E1中的属性, 假设: 只涉及E 中的属性, F2涉及E1和E2两者的属性 涉及E
2011-1-5
数据库系统原理
12
二、一个实例
Q3=ПSname(Student (1) σ 读SC表总块数= 10000/100=100块 SC表总块数 10000/100=100块 表总块数= 读数据时间=100/20= 读数据时间=100/20=5秒 中间结果大小=50条 中间结果大小=50条 不必写入外存 (2) 读Student表总块数= 1000/10=100块 Student表总块数 1000/10=100块 表总块数= 读数据时间=100/20= 读数据时间=100/20=5秒 (3) П 总时间= 总时间=5+5秒=10秒 10秒 σ o=' 2' (SC)) SC.
数据库系统第9章 关系查询处理和查询优化
通过这些元组指针到Student表中检索 并对得到的元组检查另一些选择条件(如Sage>20)是否满足
把满足条件的元组作为结果输出。
2.连接操作的实现
• 连接操作是查询处理中最耗时的操作之一 • 本节只讨论等值连接(或自然连接)最常用的实现算法 • [例9.2] SELECT *
4. 查询执行
• 依据优化器得到的执行策略生成查询执行计划 • 代码生成器(code generator)生成执行查询计划的代码 • 两种执行方法
• 自顶向下 • 自底向上
9.1 关系数据库系统的查询处理
9.1.1 查询处理步骤 9.1.2 实现查询操作的算法示例
9.1.2 实现查询操作的算法示例
• 全表扫描算法
• 假设可以使用的内存为M块,全表扫描算法思想:
① 按照物理次序读Student的M块到内存 ② 检查内存的每个元组t,如果满足选择条件,则输出t ③ 如果student还有其他块未被处理,重复①和②
选择操作的实现(续)
• 索引扫描算法 • [例9.1-C2] SELECT *
FROM Student
3. 查询优化
• 查询优化:选择一个高效执行的查询处理策略
• 查询优化分类
• 代数优化/逻辑优化:指关系代数表达式的优化 • 物理优化:指存取路径和底层操作算法的选择
• 查询优化的选择依据
• 基于规则(rule based) • 基于代价(cost based) • 基于语义(semantic based)
• 假设Sage 上有B+树索引 • 算法:
使用B+树索引找到Sage=20的索引项,以此为入口点在B+树的顺序集上得到Sage>20的 所有元组指针
关系查询处理和查询优化课件
03
查询优化技术
查询优化概述
查询优化概述
查询优化是关系数据库管理系统中的 一项关键技术,旨在通过改进查询计 划的生成和执行,提高查询的效率和 响应时间。
查询优化目标
查询优化重要性
查询优化在关系数据库中非常重要, 因为关系数据库通常存储大量的数据, 而用户查询的需求也日益复杂和多样 化。
查询优化的目标是找到一个高效、可 靠的查询执行计划,以最小化系统资 源消耗和满足用户对查询性能的需求。
详细描述
连接索引可以提高连接操作的效率,嵌套 循环连接在某些情况下比嵌套结果集更高效。
总结词
避免使用笛卡尔积连接
详细描述
笛卡尔积连接会导致结果集急剧增大,通 过合理设计连接条件和限制结果集数量, 避免笛卡尔积连接。
子查询优化
总结词
减少子查询的复杂度和执行次数、提 高子查询效率
详细描述
通过将子查询结果缓存、减少子查询 的复杂度和执行次数等手段,提高子 查询效率。
感谢观 看
THANKS
关系查询处理的分类
简单查询
只包含单一的SELECT语句, 不涉及复杂的连接、子查 询或聚合函数等操作。
复杂查询
包含多个表之间的连接、 子查询、聚合函数等操作, 需要更复杂的处理过程。
分布式查询
在分布式数据库系统中, 查询涉及多个节点和数据 副本,需要进行分布式处 理和协调。
02
关系查询处理算法
嵌套循环连接算法
排序-合并连接算法是一种基于排序的连接算法,其基本思想是将两个关系分别按照连接条件中的某个属性进行排序,然后逐 个比较两个关系中的元素,将满足连接条件的元组组合起来形成结果关系。该算法适用于大数据量的情况,但需要额外的排 序操作,时间复杂度较高。
第9章 关系查询优化
• 二、 连接操作的实现
2019/3/31
13
一、 选择操作的实现
• [例1]Select * from student where <条件表达 式> ; 考虑<条件表达式>的几种情况:
C1:无条件; C2:Sno='200215121'; C3:Sage>20; C4:Sdept='CS' AND Sage>20;
1000 10000 100 10 5
+
=100+20×100=2100块
• 其中,读Student表100块。读SC表20遍,每遍 100块。若每秒读写20块,则总计要花105s
9.2 关系数据库系统的查询优化
• 9.2.1 查询优化概述
• 9.2.2 一个实例
2019/3/31
30
9.2.1 查询优化概述
• 关系系统的查询优化
• 非关系系统
2019/3/31
31
查询优化概述(续)
• 查询优化的优点不仅在于用户不必考虑如何最好
地表达查询以获得较好的效率,而且在于系统可
① 在SC表上建立属性Sno的索引(如果原来没有
该索引)
② 对Student中每一个元组,由Sno值通过SC的
索引查找相应的SC元组
③ 把这些SC元组和Student元组连接起来
2019/3/31
循环执行②③,直到Student表中的元组处理完
25
连接操作的实现(续)
4. Hash Join方法
– 把连接属性作为hash码,用同一个hash函数把R和S 中的元组散列到同一个hash文件中
以比用户程序的“优化”做得更好
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
执行开销主要包括: – 磁盘存取块数(I/O代价) – 处理机时间(CPU代价) – 查询的内存开销(内存代价)
I/O代价是最主要的
分布式数据库
总代价=I/O代价+CPU代价+内存代价+通信代价
查询优化概述(续)
查询优化的总目标:
选择有效的策略 求得给定关系表达式的值
Q3=πSname(Student
σo='2'(SC))
一个实例(续)
一、第一种情况
Q1=πSname(σStudent.Sno=SC.Sno∧o='2' (Student×SC))
1. 计算广义笛卡尔积
Student和SC的每个元组连接 (基于数据块的嵌套循环法 ): 在内存中尽可能多地装入某个表 (如 Student表 )的若干 块,留出一块存放另一个表(如SC表)的元组。 把 SC 中的每个元组和 Student 中每个元组连接,连接 后的元组装满一块后就写到中间文件上 从 SC 中再读入一块和内存中的 Student 元组连接,直 到SC表处理完。 再读入若干块Student元组,重新读入一块SC元组 重复上述处理过程,直到把Student表处理完
• 划分阶段(partitioning phase):
– 对包含较少元组的表(比如R)进行一遍处理 – 把它的元组按hash函数分散到hash表的桶中
• 试探阶段(probing phase):连接阶段(join phase)
– 对另一个表(S)进行一遍处理 – 把S的元组散列到适当的hash桶中 – 把元组与桶中所有来自R并与之相匹配的元组连接起来
使用 B+ 树索引找到 Sage= 20的索引项,以此为入口点在 B+树的顺序集上得到Sage>20的所有元组指针 通过这些元组指针到 student 表中检索到所有年龄大于 20 的学生。
B- 树从根结点开始查 找: 若查找成功,则返 回指向被查关键字所 在结点的指针和关键 字在结点中的位置; 若查找不成功,则返 回插入位置。
连接操作的实现(续)
1.嵌套循环方法(nested loop)
对外层循环(Student)的每一个元组(s),检索内 层循环(SC)中的每一个元组(sc) 检查这两个元组在连接属性(sno)上是否相等 如果满足连接条件,则串接后作为结果输出,
直到外层循环表中的元组处理完为止
连接操作的实现(续)
一、 选择操作的实现
例1: Select * from student where <条件表达式> ; 考虑<条件表达式>的几种情况:
C1:无条件;
C2:Sno='200215121'; C3:Sage>20; C4:Sdept='CS' AND Sage>20;
选择操作的实现(续)
选择操作典型实现方法:
假定学生-课程数据库中有1000个学生记录,10000个 选课记录 其中选修2号课程的选课记录为50个
一个实例(续)
系统可以用多种等价的关系代数表达式来 完成这一查询
Q1=πSname(σStudent.Sno=SC.Sno∧o='2' (Student×SC))
Q2=πSname(σo='2' (Student SC))
例2: SELECT * FROM Student,SC
WHERE Student.Sno=SC.Sno;
连接操作的实现(续)
1. 嵌套循环方法(nested loop) 2. 排序-合并方法(sort-merge join 或merge join) 3. 索引连接(index join)方法 4. Hash Join方法
求这2组指针的交集 到student表中检索 得到计算机系年龄大于20的学生
算法二:找到Sdept=‘CS’的一组元组指针, 通过这些元组指针到student表中检索 对得到的元组检查另一些选择条件(如Sage>20)是否满足
把满足条件的元组作为结果输出。
二、 连接操作的实现
连接操作是查询处理中最耗时的操作之一 本节只讨论等值连接(或自然连接)最常用的实现 算法
3. 查询优化
查询优化:选择一个高效执行的查询处理策略 查询优化分类 :
代数优化:指关系代数表达式的优化 物理优化:指存取路径和底层操作算法的选择
查询优化方法选择的依据:
基于规则(rule based)
基于代价(cost based) 基于语义(semantic based)
2. 排序-合并方法(sort-merge join 或merge join)
适合连接的诸表已经排好序的情况
排序-合并连接方法的步骤:
如果连接的表没有排好序,先对Student表和SC表按连 接属性Sno排序 取Student表中第一个Sno,依次扫描SC表中具有相同 Sno的元组,把它们连接起来 当 扫 描 到 SC 表 中 Sno 不 相 同 的 第 一 个 元 组 时 , 返 回 Student 表扫描它的下一个元组,再扫描 SC 表中具有相 同Sno的元组,把它们连接起来
了解RDBMS的查询处理步骤 掌握查询优化的概念
掌握基本方法和技术
查询优化分类 :
代数优化 物理优化
9.1 关系数据库系统的查询处理
9.1.1 查询处理步骤 9.1.2 实现查询操作的算法示例
9.1.1 查询处理步骤
RDBMS查询处理阶段 :
1. 查询分析
2. 查询检查
3. 查询优化
查询优化概述(续)
(3)优化器可以考虑数百种不同的执行计划, 程序员一般只能考虑有限的几种可能性;
(4)优化器中包括了很多复杂的优化技术,这
些优化技术往往只有最好的程序员才能掌握。 系统的自动优化相当于使得所有人都拥有这 些优化技术。
查询优化概述(续)
代价模型:
RDBMS 通过某种代价模型计算出各种查询执行 策略的执行代价,然后选取代价最小的执行方案
使得查询代价最小(实际上是较小)
9.2 关系数据库系统的查询优化
9.2.1 查询优化概述 9.2.2 一个实例
9.2.2 一个实例
例3: 求选修了2号课程的学生姓名。用SQL表达:
SELECT Student.Sname FROM Student,SC WHERE Student.Sno=SC.Sno AND o=‘2’;
步骤:
① 在SC表上建立属性Sno的索引,如果原来没有该索引 ② 对Student中每一个元组,由Sno值通过SC的索引查 找相应的SC元组 ③ 把这些SC元组和Student元组连接起来
循环执行②③,直到Student表中的元组处理完为止
连接操作的实现(续)
4. Hash Join方法 把连接属性作为hash码,用同一个hash函数把R 和S中的元组散列到同一个hash文件中 步骤:
B+树从根结点开始 查找: 在B+树中,不管查 找成功与否,每次查 找都是走了一条从根 到叶子结点的路径。
选择操作的实现(续)
例1-C4: 以C4为例,Sdept=‘CS’ AND Sage>20,如果 Sdept和Sage上都有索引:
算法一:分别用上面两种方法分别找到 Sdept =‘CS’的一组 元组指针和Sage>20的另一组元组指针
9.2 关系数据库系统的查询优化
9.2.1 查询优化概述 9.2.2 一个实例
9.2.1 查询优化概述
相对于非关系系统,关系系统的查询优化的优点:
不仅在于用户不必考虑如何最好地表达查询以获得 较好的效率,而且在于系统可以比用户程序的“优化” 做得更好 。 (1) 优化器可以从数据字典中获取许多统计信 息,而用户程序则难以获得这些信息; (2) 如果数据库的物理统计信息改变了,系统 可以自动对查询重新优化以选择相适应的执行 计划。在非关系系统中必须重写程序,而重写 程序在实际应用中往往是不太可能的;
一个实例(续)
设一个块能装10个Student元组或100个SC元组,在内存
中存放5块Student元组和1块SC元组,则读取总块数为
1000 1000 10000 + =100+20×100=2100块 10 100 10 5
其中,读Student表100块。读SC表20遍,每遍100块。 若每秒读写20块,则总计要花2100/20=105s 连接后的元组数为103×104=107。设每块能装10个元组,
则写出这些块到中间文件要用107/10/20=5×104s
2. 作选择操作
一个实例(续)
依次读入连接后的元组,按照选择条件选取满足要求 的记录
从查询语句中识别出语言符号
如SQL关键字、属性名和关系名
2. 查询检查
根据数据字典对合法的查询语句进行语义检查 根据数据字典中的用户权限和完整性约束定义对 用户的存取权限进行检查 检查通过后把SQL查询语句转换成等价的关系代 数表达式 RDBMS一般都用查询树(语法分析树)来表示扩展 的关系代数表达式 把数据库对象的外部名称转换为内部表示
重复上述步骤直到Student 表扫描完
连接操作的实现(续)
200215121 200215122 200215123 200215124 . . .
200215121 1 92 200215121 2 85
200215121 3 88
200215122 2 90 200215122 3 80
. . .
排序-合并连接方法示意图
连接操作的实现(续)
排序-合并连接方法特点:
Student表和SC表都只要扫描一遍; 如果2个表原来无序,执行时间要加上对两个 表的排序时间; 对于2个大表,先排序后使用排序-合并连接 方法执行连接,总的时间一般仍会大大减少 。