第七章 关系系统及其优化

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Q2= sname(Cno=‘2’(Students SC)) Q3= sname( Students Cno=‘2’(SC)) 读取自然连接结果, 执行选择运算, 需50s, 选择结 果均可放在内存 投影运算: 总花费为: 105+50+50=205s Q3代价计算(仅考虑I/O代价) 计算对SC做选择运算的代价 需读SC到内存进行选择运算 读SC块数为: 10000/100=100 花费为: 100/20=5s 选择结果为50个SC元组, 均可放在内存

1 2 2
关系系统的查询优化:
规则3: 投影的串接定律 A1,A2,...,An( B1,B2,...,Bn (E)) A1,A2,...,An(E) 规则4: 选择的串接定律 20 F1(F2(E)) F1F2(E) 规则5: 选择和投影的交换律 F(A1,A2,...,An(E)) A1,A2,...,An(F(E)) 特殊情况

Q1= sname(Students.Sno=SC.Sno and Cno=‘2’(StudentsSC)) 通过读取块数计算I/O代价 读取块数计算方法: Students 1000个元组 5块 SC 10000个元组 读取总块数:
Students 10
SC 100
1000 1000 10000 100 20 100 2100 10 10 5 100 若每秒读写20块, 则花费: 2100 105s 20
24页
关系系统的查询优化:
优化:
Sname Sname
Sname Sname
c

c’

c’’

Sname
c

p
SP P S

p
sp P s sp
ቤተ መጻሕፍቲ ባይዱ
Students 95004… 95002... 95003... 95001… ...
...
SC 95003 1 … 95003 2 … 95004 2 ... 95004 3 ... 95001 1 … ...
关系系统的查询优化:
排序合并连接(连 接的关系分别排 序): Students 95001… 95002... 95003... 95004… ... Students SC 95001 1 … 95003 1 … 95003 2 … 95004 2 ... 95004 3 ... ... SC索引 95001 95003 95003 95004 95004 ... SC 95003 1 … 95003 2 … 95004 2 ... 95004 3 ... 95001 1 … ...
21页
关系系统的查询优化:

S

SP
P
不能结 合成等 值连接
S.Sno=SC.Sno

S
SC
能结合 成等值 连接
22页
关系系统的查询优化:
优化的一般步骤: 因DBMS不同 把查询转换成某种内部表示(例如关系代数语法树) 把语法树转化成标准(优化)形式 选择底层的存取路径 生成查询计划, 选择代价最小的 例子: 设有供应商S, 零件P和供应关系SP三个关系, 其关系模式: S(Snum, Sname, City) P(Pnum, Pname, Weight, Size) SP(Snum, Pnum, Dept, Quan)

关系系统的查询优化:
查询优化的一般步骤 将查询转化成内部表示--语法树 根据等价变化规则, 将语法树转化成优化形 式 选择低层操作算法 生成查询计划 查询执行开销主要包括: 总代价=I/O代价+CPU代价 多用户数据库执行开销: 总代价=I/O代价+CPU代价+内存代价

关系系统的查询优化:
Evaluation engine
Execution plan
data
Statistics about data
关系系统的查询优化:
为什么需要查询优化 关系系统的查询优化由系统完成, 而不是由用 户完成 优化器可以数据字典获取许多统计信息 如果数据库的物理统计信息改变了,优化器 可以对查询进行重新优化以选择适应的执行 计划 优化器可以考虑数百种不同的执行计划 优化器包括了许多复杂的技术 优化目标: 寻求最优的执行计划, 使查询执行开 销尽量小

S I
M a
S I
M b
S
I
M c
S I
M d
表式系统(a) 最小关系系统(b) 关系完备的系统(c) 全关系系统(d)
关系系统的查询处理:

查询处理的步骤:
Parser & translator
query
Relational algebra expression
Optimizer
Query output D B M S

21
A1,A2,...,An(F(E)) A1,A2,...,An(F(A1,A2,...,An, B1,B2,...,Bm (E)))

规则6: 选择与笛卡尔积的交换律 F(E1 E2) F(E1) E2 F仅和E1有关 F(E1 E2) F1(E1) F2( E2 ) F= F1F2 F(E1 E2) F2(F1(E1)E2 ) F1--E1 F2--E1E2
Q1= sname(Students.Sno=SC.Sno and Cno=‘2’(StudentsSC))
代价计算 Q1代价计算(仅考虑I/O代价) 计算广义笛卡尔积代价 假定: 在内存中, 存放5块Students元组和一 块SC元组, 一块可以装10个Students元组或 100个SC元组. 假定: Students有1000个元组,SC有10000 个元组, 其中选2号课程的有50个元组 数据只有读到内存才能进行连接
关系系统的查询优化:
规则7: 选择与并的交换 F(E1 E2) F(E1) F(E2) 规则8: 选择与差的交换 F(E1- E2) F(E1)- F(E2) 规则9: 投影与笛卡尔积的交换

A1,A2,...,An, B1,B2,...,Bm(E1 E2) A1,A2,...,An(E1) B1,B2,...,Bm(E2)
SC 50
关系系统的查询优化:
查询优化的一般准则: 下面的优化策略一般能提 高查询效率, 但不一定是最优的 选择运算尽可能先做, 降低中间结果大小 在连接前,对关系适当的进行预处理: 对关系排序 (排序合并连接方法)或在连接属性上建索引(索引 连接方法)

循环嵌套连接(不 做任何预处理):
...
索引连接(在SC 的连接列Sno上 建立索引):
95004… 95002... 95003... 95001… ...
...
关系系统的查询优化:
把投影运算和选择运算同时进行 sno (cno=‘2’(SC)) 把投影和其前或后的双目运算结合起来 Cname(Course SC)

把某些选择同在它前面要执行的笛卡尔积结合起 来成为一个连接运算 Students.Sno=SC.Sno and Cno=‘2’(StudentsSC) 找出公共子表达式
Q2= sname(Cno=‘2’(Students

SC))
Q2代价计算(仅考虑I/O代价) 计算自然连接代价 也要把数据读到内存进行连接, 但连接结果比笛 卡尔积要小得多 读取块数依然为: 1000 1000 10000 100 20 100 2100 10 10 5 100 花费为2100/20105s 连接结果大小为104个元组, 写到外存需: (104 /10)/20=50s

关系系统的查询优化:
关系代数等价变换规则: 给定 sname(Students.Sno=SC.Sno and Cno=‘2’(StudentsSC)) 如何将上述提到的运算先做, 即得到: sname( Students Cno=‘2’(SC)) 规则1: 连接、笛卡尔积的交换律 E1 E2 E2 E1 E1 F E2= E2 F E1 E1 E2= E2 E1 E: 关系代数表达式 F: 连接条件 规则2: 连接、笛卡尔积的结合律 (E1 E2) E3 = E1 (E2 E3) (E1 E2) E3 E1 (E2 E3) (E1 F E2) F E3 E1 F1 (E2 F E3)
Q1= sname(Students.Sno=SC.Sno and Cno=‘2’(StudentsSC))
连接后的元组个数为: 103 104=107 连接后的中间结果内存放不下, 需暂时写到外存 若每块可装10个元组, 则写出这些元组需: (107 /10)/20=5 104s 选择操作: 读回需5 104s, 选择后剩50个元组, 假定 均可放在内存 投影操作: 查询共花费: 105+2 5 104 105 s

23页
关系系统的查询优化:
select Sname from S, SP, P where S.Snum=SP.Snum and SP.Snum=P.Snum and S.City=‘NANJING’ and P.Pname=‘Bolt’ and SP.Quan>1000; 原始语法树: select--投影 from--笛卡尔积 where--选择

20页
关系系统的查询优化:
4 利用规则3~5把选择和投影的串接合并成单 个选择, 单个投影, 或一个选择后跟一个投影 5 把处理后的语法树内节点分组: 每一双目运算(,, ,)和它的所有直接祖 先(,)为一组,后代直到叶子全是单目运算 也并入该组; 若双目运算为,且其后的选择不能与它结合 为等值连接时,这些单目运算单独为一组. 6 生成一个程序, 每组节点的计算是程序中 的一步 输出: 计算关系代数表达式的程序
Q3= sname( Students
Cno=‘2’(SC))
计算和Students自然连接的 代价 Students 10 需读Students到内存进行连 接运算 5块 读Students块数为: 1000/10=100 花费为: 100/20=5s 连接结果为50个元组, 均可放在内存 投影运算: 总花费: 5+5=10s

规则10: 投影与并的交换 A1,A2,...,An (E1 E2) A1,A2,...,An(E1) A1,A2,...,An(E2)
20
关系系统的查询优化:
关系代数表达式的优化算法: 应用关系代数等价变 换规则来优化关系代数表达式, 使优化后的表达式 能遵循查询优化的一般准则, 在语法树上进行优化 关系代数表达式的优化算法 输入: 语法树 1 利用规则4把形如F1F2…Fn(E) 变换成 F1(F2(… (Fn(E))...)) 2 对每一个选择, 利用规则4~8尽可能移到树的叶端 3 对于每个投影, 利用规则3, 9, 10, 5尽可能移到树 的叶端
关系系统的定义
关系系统: 支持关系数据模型的数据库管理系 统(粗略) 关系系统(确切定义): 一个系统可以定义为一 个关系系统, 当且仅当它: 支持关系数据库 支持选择、投影和连接运算(自然连接), 对 这些运算不要求定义任何物理存取路径

关系系统的分类:
许多关系系统的产品 按E.F.Codd的思想将关系系统分为:

一个查询实例: 求选修2号课程的学生姓名 SQL表示: select Sname from Students, SC where Students.Sno=SC.Sno and Cno=‘2’; 关系代数表示: Q1= sname(Students.Sno=SC.Sno and Cno=‘2’(StudentsSC)) Q2= sname(Cno=‘2’(Students SC)) Q3= sname( Students Cno=‘2’(SC))
相关文档
最新文档