《分布式数据库系统及应用》知识总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章分布式数据库系统概述
1、理解分布式数据库系统的特点:
(1)物理分布性:数据不是存放在一个站点上
(2)逻辑整体性:是与分散式数据库系统的区别
(3)站点自治性:是与多处理机系统的区别
(4)数据分布透明性
(5)集中与自治相结合
(6)存在适当的数据冗余度
(7)事务管理的分布性
2、能够按照不同标准描述分布式数据库系统的分类:
(1)按局部DBMS的数据模型分类
○1同构型DDBS
a)同构同质型(同一个公司的同一种模式)
b)同构异质型(不同公司不同模式)
○2异构型DDBS
(2)按DDBS的全局控制类型分类
○1全局控制集中型DDBS:全局控制机制和全局数据词典位于中心站点
○2全局控制分散型DDBS:全局控制机制和全局数据词典分散在网络的各个站点上。
○3全局控制可变型DDBS:也称主从型DDBS。分成两组站点,一组包含全局控制机制和全局控制词典,另外一组不包含。
3、理解分布式数据库中数据的独立性和分布透明性:
逻辑独立性
物理独立性(表示用户程序与数据的全局逻辑结构和数据的物理结构无关)
分布独立性(用户不必关心全局数据的分布情况,包括逻辑分片、物理位置分配情况以及各站点数据库的数据模型等)
分三个层次:
▪分片透明性(完全分布透明性):位于全局概念模式与分片模式之间,用户编写应用程序只对全局关系进行操作,不必考虑数据的逻辑分片
▪位置透明性(中级分布透明性):位于分片模式和分配模式之间。包括两情形-----各片段被复制情况和片段及其各副本的站点位置分配情况。
▪局部数据模型透明性(低级分布透明性):需要知道数据的分片情况和站点分配情况
第二章分布式数据库系统设计
1、理解分布式数据库的设计目标:
(1)本地性或近地性
○1尽量减少通信次数和通信量,90/10准则
○2分片和分布方案(本地和远程访问次数)择优
(2)控制数据适当冗余
○1冗余增加了可靠性、可用性,提高了效率
○2维护数据一致性开销增加
(3)工作负荷分布
○1各站点可以分担整个工作任
○2本地性降低
(4)存储能力和费用
2、理解水平分片的定义、分类和应用:
定义:水平分片是对全局关系执行“选择”操作,把具有相同性质的元祖进行分组,构成若干个不相交
的子集。
可以分为两类:初级分片、导出分片(应用看课件_分布式数据库系统设计1,15页开始)。
3、理解垂直分片的定义和应用
定义:垂直分片通过“投影”操作把一个全局关系的属性分成若干组,基本目标是将使用频繁的属性聚集在一起。(应用看课件_分布式数据库系统设计2,9页开始)
4、能够描述分片的基本原则:
原则:完整性、不相交性、可重构性
5、掌握数据片段分配的分类和常用方法:
分类:水平、垂直
分配方法:
(1)非冗余分配设计方法
○1最佳适应法
○2分片和分布方案(本地和远程访问次数)择优
(2)冗余分配的设计方法
○1所有得益站点法
○2附加复制法
6、掌握最佳适应法和所有得益站点法的基本特点:
(1)最佳适应法特点:对每一种分配都进行估算,然后选择最佳站点。
(2)所有得益站点法特点:确定非复制问题的解确定一组站点分配副本。
7、能够描述DATAID-D方法设计分布式数据库的各个阶段:
(1)分片设计
(2)非冗余分配
(3)冗余分配
(4)局部模式的重新构造
8、能够根据给出的条件对关系进行具体分片,给出正确的限定关系(见课后题67页2.9,2.10)
第三章分布式数据库系统中的查询处理和优化(连接与等值连接见课件3.1)
1、掌握分布式数据库查询的分类
局部查询:只涉及本地单个站点的数据, 优化同集中式。
远程查询:也只涉及单个站点的数据, 但要远程通讯, 选择站点。
全局查询:涉及多个站点数据, 优化复杂。
2、理解关系代数运算的交换率(书上83页)
3、掌握直接连接优化算法的分类
利用站点依赖信息的算法
分片与复制算法
站点依赖和数据复制结合算法
Hash划分算法
4、掌握半连接运算(课件3.2)
5、掌握半连接和直接连接查询优化算法的区别
1)取决于数据传输和局部处理的相对费用
2)如果传输费用是主要的,采用半连接,SDD-1
3)如果本地费用是主要的,采用直接连接,System R*
6、理解Hash划分算法的特点
1)数据传送量是R
2)索引方面,比片段复制算法更低
3)每个站点的连接数据量同站点依赖算法
7、能够描述基于半连接算法查询优化的基本原理和步骤
1)通常有两次传输
2)但是传输的数据量和传输整个关系相比,要远远少
3)一般有:T半< 4)半连接的得益:当card(R)>>card(R’),可减少站点间的数据传输量 5)半连接的损失:传输 B (S) =C0+C1* size (B)* val( B[S]) 6)基本原理是在传到另一个站点做连接前,消除与连接无关的数据,减少做连接操作的数 据量,从而减小传输代价 采用半连接优化算法的步骤 1)计算每种半连接方案的代价,并从中选择一种最佳方案 2)选择传输代价最小的站点,计算采用全连接的方案的代价 3)比较两种方案,确定最优方案 8、能够描述基于关系代数等价变换的查询优化算法原理、算法实现步骤 基本原理 1)查询问题——〉关系代数表达式(——〉是转变的意思) 2)分析得到查询树 3)进行全局到片段的变换得到基于片段的查询树 4)利用关系代数等价变换规则的优化算法,尽可能先执行选择和投影操作 实现步骤和方法 1)转换一:查询问题——〉关系代数表达式(——〉是转换的意思) 2)转换二:关系代数表达式——〉查询树 3)转换三:全局查询树分拆成片段查询树 4)优化:利用关系代数等价变换规则的优化算法,优化查询树,进而优化查询 9、能够根据提供的条件完成分片和复制算法应用,通过计算判断哪个关系保持分片最优(课件3.3习题,书本88页) 第四章分布式数据库中的事务管理和恢复 1、掌握事务的四大特性 特性:原子性、一致性、持久性、隔离性。 2、能够描述两阶段提交协议的工作流程 表决阶段 ▪目的是形成一个共同的决定 ▪首先,协调者给所有参与者发送“准备”消息,进入等待状态 ▪其次,参与者收到“准备”消息后,检查是否能够提交本地事务 •如能,给协调者发送“建议提交”消息,进入就绪状态 •如不能,给协调者发送“建议撤销”消息,可以单方面撤销 ▪第三,协调者收到所有参与者的消息后,他就做出是否提交事务的决定, •只要有一个参与者投了反对票,就决定撤销整个事务,发送“全局撤销”消息 给所有参与者,进入撤销状态 •否则,就决定提交整个事务,发送“全局提交”消息给所有参与者,进入提交 状态 执行阶段 ▪实现表决阶段的决定,提交或者撤销 3、掌握事务故障的分类 站点故障 1)介质故障: 2)事务故障