Lecture 11 第九章 关系查询处理和查询优化_fy

合集下载

第九章 关系查询处理和查询优化

第九章 关系查询处理和查询优化

精品课件!
精品课件!
关系系统的查询优化:
优化:
Sname Sname
Sname Sname
c

c’

c’’

Sname
c

p
SP P S

p
...
索引连接(在SC 的连接列Sno上 建立索引):
95004… 95002... 95003... 95001… ...
...
关系系统的查询优化:
把投影运算和选择运算同时进行 sno (cno=‘2’(SC)) 把投影和其前或后的双目运算结合起来 Cname(Course SC)

把某些选择同在它前面要执行的笛卡尔积 结合起来成为一个连接运算 Students.Sno=SC.Sno and Cno=‘2’(StudentsSC) 找出公共子表达式
Students 95004… 95002... 95003... 95001… ...
...
95003 1 … 95003 2 … 95004 2 ... 95004 3 ... 95001 1 … ...
关系系统的查询优化:
排序合并连接(连 接的关系分别排 序): Students 95001… 95002... 95003... 95004… ... Students SC 95001 1 … 95003 1 … 95003 2 … 95004 2 ... 95004 3 ... ... SC索引 95001 95003 95003 95004 95004 ... SC 95003 1 … 95003 2 … 95004 2 ... 95004 3 ... 95001 1 … ...
23页
关系系统的查询优化:

第九章关系查询处理和查询优化

第九章关系查询处理和查询优化
• 代数优化 • 物理优化
4 查询执行
– 根据优化器得到的执行策略生成查询计划 – 由代码生成器生成执行这个查询计划的代码
9.1 关系数据库系统的查询处理
9.1.1 查询处理步骤 9.1.2 实现查询操作的算法示例
9.1.2 查询操作算法示例
一、选择操作的实现 【例1】Select * from student where <条件表达式>
1 查询分析
– 语句扫描、词法分析、语法检查和分析 – 符合SQL语法规则?
2 查询检查
– 根据数据字典对合法的查询语句进行语义检查。 – 属性、关系名存在否? – 权限和完整性约束? – SQL→关系代数表达式 – 用查询树、语法分析树表达关系代数表达式 – 数据库外部名称转换为内部表示
3 查询优化 – 选择一个高效的查询处理策略 – 查询优化分类
05002 2
90
= 50行
Q4: Sname (S o =‘2’ (SC))
S(1000行)
…(SC) (50行)
学号 姓名 Sno Sname
学号 课程号 成绩 Sno Cno Grade
05001 李勇
05001 1
92
05002 刘晨
05001 2 05002 2
85 90
=
05001 3
则难以获得这些信息 2)如果数据库的物理统计信息改变了,系统可以自动对查询
重新优化以选择相适应的执行计划。
3)优化器可以考虑数百种不同的执行计划,程序员一般只能 考虑有限的几种可能性。
4)优化器中包括了很多复杂的优化技术,这些优化技术往往 只有最好的程序员才能掌握。系统的自动优化相当于使得 所有人都拥有这些优化技术

关系查询处理和查询优化

关系查询处理和查询优化

选择运算尽可能先做, 降低中间结果大小
在连接前,对关系适当的进行预处理: 对关
系排序(排序合并连接方法)或在连接属性上
建索引(索引连接方法)
循环嵌套连接(不 Students
做任何预处理):
95004…
95002...
95003... ...
95001…
...
SC
95003 1 … 95003 2 … 95004 2 ... 95004 3 ... 95001 1 … ...
Optimizer Execution plan
D
B
M S
data
Statistics about data
关系系统的查询优化:
为什么需要查询优化
关系系统的查询优化由系统完成, 而不是 由用户完成
优化器可以数据字典获取许多统计信息 如果数据库的物理统计信息改变了,优化器
可以对查询进行重新优化以选择适应的执行 计划 优化器可以考虑数百种不同的执行计划 优化器包括了许多复杂的技术
假定: Students有1000个元组,SC有10000 个元组, 其中选2号课程的有50个元组
数据只有读到内存才能进行连接
Q1= sname(Students.Sno=SC.Sno and Cno=‘2’(StudentsSC))
通过读取块数计算I/O代价 读取块数计算方法: Students 1000个元组 5块 SC 10000个元组
读取总块数:
Students 10
SC 100
1000 1000 10000 100 20100 2100 10 10 5 100
若每秒读写20块, 则花费:
2100 105s 20
Q1= sname(Students.Sno=SC.Sno and Cno=‘2’(StudentsSC))

09 关系查询处理和查询优化

09 关系查询处理和查询优化

《数据库系统概论》 第九章 关系查询处理和查询优化
12
排序-合并方法(sort-merge join 或merge join)
适合连接的诸表已经排好序的情况 0715121 1 92 0715121 排序-合并连接方法的步骤: 0715121 2 85 如果连接的表没有排好序,先对Student表和SC表按连接属性 0715122 0715121 3 88 Sno排序 0715123 0715122 2 90 取Student表中第一个Sno,依次扫描SC表中具有相同Sno的元 组 0715122 3 80 0715124 . . . 当扫描到Sno不相同的第一个SC元组时,返回Student表扫描 . . . 它的下一个元组,再扫描SC表中具有相同Sno的元组,把它们 连接起来 排序-合并连接方法示意图 重复上述步骤直到Student 表扫描完 说明 Student表和SC表都只要扫描一遍 如果2个表原来无序,执行时间要加上对两个表的排序时间 对于2个大表,先排序后使用sort-merge join方法执行连接,总 的时间一般仍会大大减少
试探阶段(probing phase):也称为连接阶段(join phase)
对另一个表(S)进行一遍处理 把S的元组散列到适当的hash桶中 把元组与桶中所有来自R并与之相匹配的元组连接起来
Hash Join算法前提:假设两个表中较小的表在第一阶段 后可以完全放入内存的hash桶中 以上的算法思想可以推广到更加一般的多个表的连接算法 上
1查询处理和查询优化
二、一个实例
例3 求选修了2号课程的学生姓名。
用SQL表达: SELECT Student.Sname FROM Student, SC WHERE Student.Sno=SC.Sno AND o='2'; 假定学生-课程数据库中有1000个学生记录,10000个选课记录 其中选修2号课程的选课记录为50个

第九章关系查询处理和查询优化

第九章关系查询处理和查询优化
×
sc student 查询树
cno ' 2 '
sc
基于启发式规则的查询物理优化
1、选择操作的启发式规则 • 对于小关系使用全表顺序扫描,即使有索引; • 对于选择条件为主码的等值查询,选择主码索引检索; • 对于选择条件为非主码的值比较查询,并且选择列上有索引,则要估算结 果的元组数目,若数目较少,则在索引上检索,否则在全表上检索; • 对于用and连接的查询条件,若有涉及属性的组合索引,则优先采用组合索 引检索;若只是某些属性上有索引,可采用选择操作的三种实现方法之一 进行,否则采用全表检索; • 对于用or连接的查询条件,一般使用全表顺序扫描。 2、连接操作的启发式规则 • 若两个表都已按连接属性排序,则选用排序合并法; • 若一个表在连接属性上有索引,则可选用索引连接法; • 若上面2条都不适用,其中一个表较小,则可选用散列法; • 最后可选用嵌套循环法,并选择较小的表作为外层。
索引统计信息
作用:SQL Server允许创建有关列中值分布情况统计信息。查询优化器使用这 些统计信息并通过估计使用索引评估查询的开销来确定最佳查询计划。 知识要点: • CREATE STATISTICS语句可用于手工创建统计信息; • 创建统计信息后,数据库引擎对列值进行排序; • 根据这些列值(最多200个,按间隔分隔开)创建一个“直方图”; • 直方图指定有多少行精确匹配每个间隔值,有多少行在间隔范围内,以及 间隔中值的密度大小或重复值的发生率; • 对字符类型的列创建“字符串摘要”信息,使LIKE条件可以更准确地估计 结果集大小,并不断优化查询计划; • 如果列样本摘要的大小超过了数据库引擎可以维护的范围,则不对字符串 摘要信息进行维护; • 创建索引时,查询优化器自动存储有关索引列的统计信息。另外,当数据 库AUTO_CREATE_STATISTICS选项设臵为ON(默认值)时,数据库引 擎自动为没有索引的列创建统计信息。

关系查询处理和查询优化

关系查询处理和查询优化

第九章关系查询处理和查询优化内容概述通过实例讲解关系数据库查询优化的重要性和可能性。

讲解RDBMS的查询处理步骤,即查询分析、查询检查、查询优化和查询执行;查询优化的基本概念,查询优化包括代数优化和物理优化;代数优化是指关系代数表达式的优化;物理优化则是指存取路径和底层操作算法的选择,所以先讲解实现查询操作的主要算法,主要是选择操作和连接操作的主要算法思想,然后讲解关系代数表达式等价变换规则,关系代数表达式的优化,物理优化方法(基于启发式规则的存取路径选择优化,操作算法的执行代价估算方法,基于代价的优化方法)。

本章目标本章并不要求学生掌握RDBMS查询处理和查询优化的内部实现技术,因此没有详细讲解技术细节。

本章的目的是希望学生了解RDBMS查询处理的基本步骤,查询优化的概念、基本方法和技术,为数据库应用开发中利用查询优化技术提高查询效率和系统性能打下基础。

重点和难点重点:了解关系数据库查询优化的重要性。

掌握查询处理各个步骤的主要功能。

能够把SQL语句转换成查询树,对查询树进行代数优化,转换成优化的查询树。

掌握物理优化的基本方法。

难点:能运用本章学习的查询优化知识,对于比较复杂的查询,尤其是涉及连接和嵌套的查询,写出适合RDBMS自动优化的SQL语句。

对于RDBMS不能优化的查询需要重写查询语句,进行手工调整以优化性能。

不要把优化的任务全部放在RDBMS上。

实验内容实验9 查询优化通过本章实验,了解你安装使用的RDBMS的查询优化方法和查询计划表示,能够利用它分析查询语句的实际执行方案和查询代价,进而通过建立索引或者修改SQL语句来降低查询代价,达到优化系统性能的目标。

具体实验内容:1. 对单表查询例如以下的查询(可以自己给出查询语句)select * from student where age>20;2. 连接查询,普通的两表连接查询或多表连接查询3. 嵌套查询,自己写几个带有子查询的例子,主要考虑带有IN和EXISTS谓词的子查询,包括相关子查询和不相关子查询。

9数据库系统原理 第九章 关系查询处理和查询优化

9数据库系统原理 第九章 关系查询处理和查询优化

9.1.2实现查询操作的算法示例
• 一、选择操作的实现
–简单的全表扫描方法 •对查询的基本表顺序扫描,逐一检查每个 元组是否满足选择条件。 •简单,但对大表进行扫描时效率偏低。 –索引扫描方法 •通过索引先找到满足条件的元组主码或元 组指针。 •通过元组指针直接在查询的基本表中找到 元组。
一、选择操作的实现-索引扫描方法
9.3.1关系代数表达式等价变换规则
• 6.选择与笛卡儿集的交换律(*)
–假设:F中涉及的属性都是E1中的属性 σF( E1×E2)≡ σF ( E1 ) ×E2 –假设:F=F1∧F2,并且F1只涉及E1中的属性, F2只涉及E2中的属性 则由上面的等价变换规则1,4,6可推出: σF( E1×E2)≡ σF 1( E1 ) × σF 2 (E2 ) –假设: F=F1∧F2 ,并且F1只涉及E1中的属性, F2涉及E1和E2两者的属性 σF( E1×E2)≡ σF
二、连接操作的实现

例2: SELECT * FROM student S,SC WHERE S.sno=SC.sno –嵌套循环方法 • 对外层循环的每一个元组,检索内层循环中的每一个元组, 并检查这两个元组在连接属性上是否相等。若满足,则串接 后输出,直到外层循环表中的元组处理完毕。 –排序-合并方法 • 如果连接的表没有排序,首先对两个表按连接属性排序; • 取S表中第一个sno,一次扫描SC表中具有相同sno的元组, 把它们连接起来; • 当扫描到sno不相同的第一个SC元组时,返回S表扫描它的下 一个元组,再扫描SC表中具有相同sno的元组,把它们连接 起来; • 重复上述2个步骤,直到S表扫描完毕。
二、连接操作的实现
例2: SELECT * FROM student S, SC WHERE S.sno=SC.sno –索引连接方法 •在SC表上建立属性sno的索引; •对Student表中每一个元组,由sno值通过SC的索引 查找相应的SC元组; •把这些SC元组和Student表中的元组处理完为止; •重复上述2个步骤,直到Student表扫描完毕。

关系查询处理和查询优化

关系查询处理和查询优化
排序-合并连接方法的步骤(续):
➢ 当扫描到Sno不相同的第一个SC元组时,返回 Student表扫描它的下一个元组,再扫描SC表 中具有相同Sno的元组,把它们连接起来
➢ 重复上述步骤直到Student 表扫描完
3) 索引连接(index join)方法
步骤: ① 在SC表上建立属性Sno的索引,如果原来 没有该索引。 ② 对Student中每一个元组,由Sno值通过 SC的索引查找相应的SC元组。 ③ 把这些SC元组和Student元组连接起来 循环执行②③,直到Student表中的元组处理 完为止。
关系查询处理和查询优化
内容要求
掌握关系系统查询优化的相关概念 了解查询优化的一般准则及步骤 能够运用关系代数表达式的优化算法画
出查询语法树以及优化后的语法树
本讲内容
一、关系数据库系统的查询处理 二、关系数据库系统的查询优化 三、代数优化 四、物理优化
一、 关系数据库系统的查询处理
什么是查询处理? 从数据库中检索数据的活动。 查询处理的任务 把用户提交给RDBMS的查询语句转换为高效的
σ Q2=πSname( o='2' (Student SC)) Q3=πSname(Student σo='2'(SC))
查询优化的必要性(续)
(1)第一种情况
Q1=πSname(σStudent.Sno=SC.Sno∧o=‘2’ (Student×SC))
1) 计算广义笛卡尔积 把Student和SC的每个元组连接起来的做法:
(3) 查询优化
查询优化:选择一个高效执行的查询处理策略 查询优化分类 :
代数优化:指关系代数表达式的优化 物理优化:指存取路径和底层操作算法的选择 查询优化方法选择的依据: 基于规则(rule based) 基于代价(cost based) 基于语义(semantic based)

第9章 关系系统及其查询优化

第9章 关系系统及其查询优化
28
数据库技术及应用
关系代数等价变换规则(续)
l0. 投影与并的交换
假设:E1和E2 有相同的属性名
π
π
A1,A2,
…,An(E1∪E2)≡
A1,A2,
A1,A2,
…,An(E1)∪ π
…,An(E2)
29
数据库技术及应用
小结
1-2: 连接、笛卡尔积的交换律、结合律
3: 合并或分解投影运算
4:
合并或分解选择运算
33


数据库技术及应用
关系代数表达式的优化算法 (续)
(5)对内结点分组

把上述得到的语法树的内节点分组。 每一双目运算(×, ,∪,-)和它所有的直 接祖先为一组(这些直接祖先是б,π运算)。 如果其后代直到叶子全是单目运算,则也将 它们并入该组,但当双目运算是笛卡尔积 (×),而且其后的选择不能与它结合为等值 连接时除外。把这些单目运算单独分为一组。

分布式数据库
总代价 = I/O代价 + CPU代价[+ 内存代价] + 通信代价
8
数据库技术及应用
9.2 查询优化的必要性
例:求选修了2号课程的学生姓名
SELECT Student.Sname FROM Student, SC WHERE Student.Sno=SC.Sno AND o='2';
而用户程序则难以获得这些信息
4
数据库技术及应用
由DBMS进行查询优化的好处
(2)如果数据库的物理统计信息改变了,系统可以自动对查 询重新优化以选择相适应的执行计划。 在非关系系统中必须重写程序,而重写程序在实际应用中 往往是不太可能的。 (3)优化器可以考虑数百种不同的执行计划,而程序员一般 只能考虑有限的几种可能性。

数据库系统第9章 关系查询处理和查询优化

数据库系统第9章 关系查询处理和查询优化
• 算法二:找到Sdept=’CS’的一组元组指针,
通过这些元组指针到Student表中检索 并对得到的元组检查另一些选择条件(如Sage>20)是否满足
把满足条件的元组作为结果输出。
2.连接操作的实现
• 连接操作是查询处理中最耗时的操作之一 • 本节只讨论等值连接(或自然连接)最常用的实现算法 • [例9.2] SELECT *
4. 查询执行
• 依据优化器得到的执行策略生成查询执行计划 • 代码生成器(code generator)生成执行查询计划的代码 • 两种执行方法
• 自顶向下 • 自底向上
9.1 关系数据库系统的查询处理
9.1.1 查询处理步骤 9.1.2 实现查询操作的算法示例
9.1.2 实现查询操作的算法示例
• 全表扫描算法
• 假设可以使用的内存为M块,全表扫描算法思想:
① 按照物理次序读Student的M块到内存 ② 检查内存的每个元组t,如果满足选择条件,则输出t ③ 如果student还有其他块未被处理,重复①和②
选择操作的实现(续)
• 索引扫描算法 • [例9.1-C2] SELECT *
FROM Student
3. 查询优化
• 查询优化:选择一个高效执行的查询处理策略
• 查询优化分类
• 代数优化/逻辑优化:指关系代数表达式的优化 • 物理优化:指存取路径和底层操作算法的选择
• 查询优化的选择依据
• 基于规则(rule based) • 基于代价(cost based) • 基于语义(semantic based)
• 假设Sage 上有B+树索引 • 算法:
使用B+树索引找到Sage=20的索引项,以此为入口点在B+树的顺序集上得到Sage>20的 所有元组指针

关系查询处理和查询优化

关系查询处理和查询优化



连接操作的实现

连接操作是查询处理中最耗时的操作之一
本章只讨论等值连接(或自然连接)最常用的实现算法
[例2] SELECT * FROM Student,SC

WHERE Student.Sno=SC.Sno

1.嵌套循环方法(nested loop) 2.排序-合并方法(sort-merge join或merge join)
9.1.1 查询处理步骤(续)

表达式计算代价评估的统计信息 DBMS的数据字典中存储并维护了关于数据库关系的如下统计信息 nr:关系r的元组数 br:包含关系r的块数 lr:关系r的元组长度(字节数) V(r, A):关系r在属性A上的不同值数目 在查询中经常同时出现的属性集上,也有类似的统计量 fr:关系r的块因子,即一块能够容纳关系r的元组数 当r存储在一个物理文件中时,br = nr/fr 关系r的哪些属性(集)上建立了索引,哪种索引(B+树索引、 Hash索引、聚集索引 B+树索引包括 属性A上B+树高度h(r, A) B+树叶节点数l(r, A)等信息
9.1.1 查询处理步骤(续)

查询检查 根据数据字典对合法的查询语句进行语义检查 根据数据字典中的用户权限和完整性约束定义对用户的存取权限进 行检查 检查通过后把SQL查询语句转换成等价的关系代数 RDBMS一般都用查询树,也称语法分析树,来表示扩展的关系代 数表达式 把数据库对象的外部名称转换成内部表示

内存代价 用查询处理所需的内存量度量 最坏的情况:内存缓冲区只能容纳数目不多的数据块——大约每个 关系一块或几块
9.1.1 查询处理步骤(续)

关系查询处理和查询优化.ppt.Convertor

关系查询处理和查询优化.ppt.Convertor

咸阳师范学院信息工程学院第九章关系查询处理和查询优化本章主要教学内容:9.1关系数据库系统的查询处理9.2关系数据库系统的查询优化9.3代数优化9.4物理优化重点及难点:了解查询处理步骤;了解查询处理的四个阶段;掌握优化的方法;关系查询处理和查询优化查询优化一般可分为代数优化和物理优化。

代数优化是指关系代数表达式的优化。

物理优化是指存取路径和底层操作算法的选择。

9.1 关系数据库系统的查询处理9.1.1 查询处理步骤9.1.2 实现查询操作的算法示例9.1.1 查询处理步骤查询处理的任务是把用户提交给RDBMS的查询语句转换为高效的执行计划。

RDBMS查询处理可以分为4个阶段:查询分析、查询检查、查询优化和查询执行。

查询分析对查询语句进行扫描、词法分析和语法分析。

从查询语句中识别出语言符号,如SQL关键字、属性名和关系名等,进行语法检查和语法分析,即判断查询语句是否符合SQL语法规则。

查询检查根据数据字典对合法的查询语句进行语义检查,即检查语句中的数据库对象,如属性名、关系名、是否存在和是否有效。

根据数据字典中的用户权限和完整性约束定义对用户的存取权限进行检查。

检查通过后便把SQL查询语句转换成等价的关系代数表达式。

查询检查RDBMS一般都用查询树(query tree),也称为语法分析法(syntax tree),来表示扩展的关系代数表达式。

这个过程中要把数据库对象的外部名称转换为内部表示。

查询优化每个查询都会有许多可供选择的执行策略和操作算法,查询优化就是选择一个高效执行的查询处理策略。

查询优化有多种方法,按照优化的层次一般可分为代数优化和物理优化。

查询优化选择的规则:基于规则的基于代价的查询执行依据优化器得到执行策略生成查询计划,由代码生成器(code generator)生成执行这个查询计划的代码。

9.1.2 实现查询操作的算法示例选择操作连接操作选择操作的实现例1 Select * from student where <条件表达式>考虑<条件表达式>的几种情况:C1:无条件C2:Sno=‘1’C3: Sage>20C4: Sdept=‘CS’ AND Sage>201.简单的全表扫描方法2.索引(或散列)扫描方法连接操作的实现连接操作是查询处理中最耗时的操作之一。

关系查询处理和查询优化课件

关系查询处理和查询优化课件

03
查询优化技术
查询优化概述
查询优化概述
查询优化是关系数据库管理系统中的 一项关键技术,旨在通过改进查询计 划的生成和执行,提高查询的效率和 响应时间。
查询优化目标
查询优化重要性
查询优化在关系数据库中非常重要, 因为关系数据库通常存储大量的数据, 而用户查询的需求也日益复杂和多样 化。
查询优化的目标是找到一个高效、可 靠的查询执行计划,以最小化系统资 源消耗和满足用户对查询性能的需求。
详细描述
连接索引可以提高连接操作的效率,嵌套 循环连接在某些情况下比嵌套结果集更高效。
总结词
避免使用笛卡尔积连接
详细描述
笛卡尔积连接会导致结果集急剧增大,通 过合理设计连接条件和限制结果集数量, 避免笛卡尔积连接。
子查询优化
总结词
减少子查询的复杂度和执行次数、提 高子查询效率
详细描述
通过将子查询结果缓存、减少子查询 的复杂度和执行次数等手段,提高子 查询效率。
感谢观 看
THANKS
关系查询处理的分类
简单查询
只包含单一的SELECT语句, 不涉及复杂的连接、子查 询或聚合函数等操作。
复杂查询
包含多个表之间的连接、 子查询、聚合函数等操作, 需要更复杂的处理过程。
分布式查询
在分布式数据库系统中, 查询涉及多个节点和数据 副本,需要进行分布式处 理和协调。
02
关系查询处理算法
嵌套循环连接算法
排序-合并连接算法是一种基于排序的连接算法,其基本思想是将两个关系分别按照连接条件中的某个属性进行排序,然后逐 个比较两个关系中的元素,将满足连接条件的元组组合起来形成结果关系。该算法适用于大数据量的情况,但需要额外的排 序操作,时间复杂度较高。

关系查询处理及其查询优化

关系查询处理及其查询优化
(4)优化器中包括了很多复杂的优化技术
(1)将查询转换成某种内部表示,通常是语法树
(2)根据一定的等价变换规则把语法树转换成标准(优化)形式
(3)选择低层的操作算法
9.3代数优化
πA1,A2,…,An(E1)∪πA1,A2,…,An(E2)
在计算代价时主要考虑磁盘读写的I/O数,内存CPU处理时间在粗略计算时可不考虑。














下一单元预习内容及要求
3.索引连接方法
4.Hash连接方法
(1)优化器可以从数据字典中获取许多统计信息,而用户程序则难以获得这些信息
(2)如果数据库的物理统计信息改变了,系统可以自动对查询重新优化以选择相适应的执行计划。在非关系系统中必须重写程序,而重写程序在实际应用中往往是不太可能的。
(3)优化器可以考虑数百种不同的执行计划,而程序员一般只能考虑有限的几种可能性。
第九章关系查询处理及其查询优化


9.1关系数据库系统的查询处理
9.2关系数据库系统的查询优化
9.3代数优化
9.4物理优化
课型
新授课
2级1、2班




重点掌握关系系统的查询优化。






1.重点掌握关系系统的查询优化。
2.画出查询的语法树和优化后的语法树。
3.优化算法,包括代数优化算法和物理优化算法。
教学
关键
理解查询处理的过程
了解查询优化的方法
教学
方法
讲解和课件演示

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

23
Principle of Database – Lecture 11
连接操作的实现(续) 连接操作的实现(
3. 索引连接 索引连接(index join)方法 方法 步骤: ① 在SC表上建立属性Sno的索引,如果原来没有该索引 ② 对Student中每一个元组,由Sno值通过SC的索引查找 相应的SC元组 ③ 把这些SC元组和Student元组连接起来 循环执行②③,直到Student表中的元组处理完为止
24
Principle of Database – Lecture 11
连接操作的实现(续) 连接操作的实现(
4. Hash Join方法 方法
把连接属性作为hash码,用同一个hash函数把R和S 中的元组散列到同一个hash文件中
步骤: 步骤:
• 划分阶段(partitioning phase):
20
Principle of Database – Lecture 11
连接操作的实现(续) 连接操作的实现(
200215121 200215122 200215123 200215124 . . .
200215121 1 92 200215121 2 85 200215121 3 88 200215122 2 90 200215122 3 80
求这2组指针的交集 到student表中检索 得到计算机系年龄大于20的学生
算法二:找到Sdept=‘CS’的一组元组指针, 通过这些元组指针到student表中检索 对得到的元组检查另一些选择条件(如Sage>20)是否满足 把满足条件的元组作为结果输出。
16
Principle of Database – Lecture 11
查询优化概述(续) 查询优化概述(
RDBMS通过某种代价模型计算出各种查询执行策略的执 行代价,然后选取代价最小的执行方案 集中式数据库
执行开销主要包括: – 磁盘存取块数(I/O代价) – 处理机时间(CPU代价) – 查询的内存开销 I/O代价是最主要的
分布式数据库
总代价=I/O代价+CPU代价+内存代价+通信代价
3. 查询优化
查询优化:选择一个高效执行的查询处理策略 查询优化分类 :
代数优化:指关系代数表达式的优化 物理优化:指存取路径和底层操作算法的选择
查询优化方法选择的依据:
基于规则(rule based) 基于代价(cost based) 基于语义(semantic based)
9
Principle of Database – Lecture 11
查询优化概述(续) 查询优化概述(
(3)优化器可以考虑数百种不同的执行计划,程序员一般只 能考虑有限的几种可能性。 (4)优化器中包括了很多复杂的优化技术,这些优化技术往 往只有最好的程序员才能掌握。系统的自动优化相当于使得 所有人都拥有这些优化技术
31
Principle of Database – Lecture 11
28
Principle of Database – Lecture 11
9.2 关系数据库系统的查询优化
9.2.1 查询优化概述 9.2.2 一个实例
29
Principle of Database – Lecture 11
查询优化概述
查询优化的优点不仅在于用户不必考虑如何最好地表达查 询以获得较好的效率,而且在于系统可以比用户程序的 “优化”做得更好
适合选择条件中的属性上有索引(例如B+树索引或Hash 索引) 通过索引先找到满足条件的元组主码或元组指针,再通 过元组指针直接在查询的基本表中找到元组
14
Principle of Database – Lecture 11
选择操作的实现(续) 选择操作的实现(
[例1-C2] 以C2为例,Sno=‘200215121’,并且Sno 上有索引(或Sno是散列码)
(1) 优化器可以从数据字典中获取许多统计信息,而用户程 序则难以获得这些信息 (2)如果数据库的物理统计信息改变了,系统可以自动对查 询重新优化以选择相适应的执行计划。在非关系系统中必须 重写程序,而重写程序在实际应用中往往是不太可能的。
30
Principle of Database – Lecture 11
. . .
排序-合并连接方法示意图
21
Principle of Database – Lecture 11
连接操作的实现(续) 连接操作的实现(
排序-合并连接方法的步骤(续):
当扫描到Sno不相同的第一个SC元组时,返回Student表 扫描它的下一个元组,再扫描SC表中具有相同Sno的元 组,把它们连接起来 重复上述步骤直到Student 表扫描完
15
Principle of Database – Lecture 11
选择操作的实现(续) 选择操作的实现(
[例1-C4] 以C4为例,Sdept=‘CS’ AND Sag别用上面两种方法分别找到Sdept=‘CS’的一 组元组指针和Sage>20的另一组元组指针
9.1 关系数据库系统的查询处理
9.1.1 查询处理步骤 9.1.2 实现查询操作的算法示例
4
Principle of Database – Lecture 11
9.1.1 查询处理步骤
RDBMS查询处理阶段 : 查询处理阶段 1. 查询分析 2. 查询检查 3. 查询优化 4. 查询执行
5
Principle of Database – Lecture 11
数据库原理
Principle of Database Lecture 11
第九章 关系查询处理和查询优化
1
Principle of Database – Lecture 11
第九章 关系系统及其查询优化
9.1 关系数据库系统的查询处理 9.2 关系数据库系统的查询优化 9.3 代数优化 9.4 物理优化 9.5 小 结
2
Principle of Database – Lecture 11
关系系统及其查询优化( 关系系统及其查询优化(续)
本章目的: 本章目的:
RDBMS的查询处理步骤 查询优化的概念 基本方法和技术
查询优化分类 :
代数优化 物理优化
3
Principle of Database – Lecture 11
1. 嵌套循环方法 嵌套循环方法(nested loop) 对外层循环(Student)的每一个元组(s),检索内层循环 (SC)中的每一个元组(sc) 检查这两个元组在连接属性(sno)上是否相等 如果满足连接条件,则串接后作为结果输出,直到外 层循环表中的元组处理完为止
19
Principle of Database – Lecture 11
4. 查询执行
依据优化器得到的执行策略生成查询计划 代码生成器(code generator)生成执行查询计划的 代码
10
Principle of Database – Lecture 11
9.1 关系数据库系统的查询处理
9.1.1 查询处理步骤 9.1.2 实现查询操作的算法示例
11
Principle of Database – Lecture 11
22
Principle of Database – Lecture 11
连接操作的实现(续) 连接操作的实现(
Student表和SC表都只要扫描一遍 如果2个表原来无序,执行时间要加上对两个表的排序时 间 对于2个大表,先排序后使用sort-merge join方法执行连接, 总的时间一般仍会大大减少
25
Principle of Database – Lecture 11
连接操作的实现(续) 连接操作的实现(
上面hash join算法前提:假设两个表中较小的表 在第一阶段后可以完全放入内存的hash桶中 以上的算法思想可以推广到更加一般的多个表的 连接算法上
26
Principle of Database – Lecture 11
二、 连接操作的实现
连接操作是查询处理中最耗时的操作之一 本节只讨论等值连接(或自然连接)最常用的实现 算法
[例2] SELECT * FROM Student,SC WHERE Student.Sno=SC.Sno;
17
Principle of Database – Lecture 11
连接操作的实现(续) 连接操作的实现(
9.1.2 实现查询操作的算法示例
一、 选择操作的实现 二、 连接操作的实现
12
Principle of Database – Lecture 11
一、 选择操作的实现
[例1]Select * from student where <条件表达 式> ; 考虑<条件表达式>的几种情况:
C1:无条件; C2:Sno='200215121'; C3:Sage>20; C4:Sdept='CS' AND Sage>20;
13
Principle of Database – Lecture 11
选择操作的实现(续) 选择操作的实现(
选择操作典型实现方法: 选择操作典型实现方法:
1. 简单的全表扫描方法
对查询的基本表顺序扫描,逐一检查每个元组是否满足 选择条件,把满足条件的元组作为结果输出 适合小表,不适合大表
2. 索引 或散列 扫描方法 索引(或散列 或散列)扫描方法
根据数据字典对合法的查询语句进行语义检查 根据数据字典中的用户权限和完整性约束定义对用户的存 取权限进行检查 检查通过后把SQL查询语句转换成等价的关系代数表达式 RDBMS一般都用查询树(语法分析树)来表示扩展的关系 代数表达式 把数据库对象的外部名称转换为内部表示
相关文档
最新文档