分布式数据库系统
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
传送时间T= (3500 +4000 )/104=0.75s
1
3Hale Waihona Puke Baidu
2
分布式查询处理
3)如果在场地2提出上述两个查询Q1和Q2,可以有两 种方法:
4、把关系EMPLOYEE传送到场地2,在场地2作 联接,此时Q1和Q2的传输量都是1000000, 时间都是100秒。
Q1
1
2
Q2
分布式查询处理
5.把关系DEPARTMENT传送到场地1,在场地1 作联接,再把结果从场地1传到场地2,此时 Q1的传输量为:3500+400000=403500,时 间是40秒。Q2的传输量都是 3500+4000=7500,时间是0.75秒。
9.1.2 分布式数据库系统的定义
背景 数据库系统+计算机网络
T1
T2 计算机2
T3 DB1
DB1 T1
计算机1 T2 T3
通讯网络
T1 计算机3 T2
T3
DB1
9.1.2 分布式数据库系统的定义
一个分布式系统由通信网络联接起来的 结点的集合。每个结点都是拥有集中式 数据库的计算机系统。
分布式数据库的特点:数据库中的数据 不是存储在同一场地,而是分布存储在 多个场地。
9.1.4 分布式数据库系统的优缺点
缺点: 系统开销大,主要花在通信部分。 复杂的存取结构在集中式系统中是有效
存取数据的重要基数,但在分布式系统 中不一定有效。 数据的安全和行保密性较难处理。
9.1.5 分布式数据库系统的分类
同构同质数据库
每个场地都用同一类型的数据模型,并运行同一型 号的DBMS
位置透明性(分片视图和分配视图之间)
用户或应用程序不必了解片段的存储位置。
局部数据模型透明性(分配视图和局部概念视图之 间)
用户或应用程序不必了解局部场地上使用的是哪种数据
模型。
例子9.4 R1
R2 R
R3
R4
R11 S1
R21
R12 S2
R22
R23
R33
S3
R43
9.2.4 分布式数据库管理系统的功能及组成
同构异质数据库
每个场地都用同一类型的数据模型,但运行不同型 号的DBMS
异构数据库
场地上的数据库系统不尽相同
DBMS不同 数据模型不同
1、数据分布性,逻辑整体性
练习: 2、全局应用 3、位置透明性 ,复制透明性 4、同构异质型DDBS.
1、与集中式DB相比,分布式DB具有()特点,与 分散式DB相比,又具有()特点。
select ENAME,ADDRESS,DNAME
from EMPLOYEE,DEPARTMENT
where DNO=DNUMBER
分布式查询处理
传送时间T=总传输延迟+总数据量/传输速度
⒈把关系EMPLOYEE和DEPARTMENT分布从场地1和 场地2传到场地3,然后在场地3站进行查询 传送时间T=(104 100 +100 35 )/104=100s
分布式数据库系统的特点:数据的分布性;统 一性;透明性。统一性(两个方面:数据在逻 辑上的统一性和数据在管理上的统一性)
分布式数据库与集中式数据库相比的优点:坚 固性好;可扩充性好;可改善性能;自治性好。
9.1 分布式数据库系统概述
与集中式数据库相比,分布式DB具有: 数据分布式的特点。
与分散式数据库相比,分布式DB具有: 逻辑整体性的特点。
1
3
2
分布式查询处理
⒉把关系EMPLOYEE传送到场地2,在场地2作联 接,再把操作结构从场地2传到场地3:
传送时间T= (104 100 +400000 )/104=140s
1
3
2
分布式查询处理
3. 把 关 系 DEPARTMENT 传 送 到 场 地 1 , 在 场 地 1 作联接,再把操作结构从场地1传到场地3: 传送时间T= (3500 +400000 )/104=40s
分布式数据存储
分布式数据存储
1)水平分片 将关系r按行分为若干子集r1,r2,…,rn,每个 子集ri称为一个水平片段。 一个水平片段可以看成是关系上的一个选择。 ri =P(i)(r) 如M_S=sex=‘M’(S) 关系的重构可以通过并运算来实现。 r= r1 ∪r2∪…∪rn
分布式数据存储
1
3
2
分布式查询处理
2)在场地3有一个查询“检索每个部门的 名字和其经理的姓名、地址”。
select DNAME, ENAME,ADDRESS from EMPLOYEE,DEPARTMENT
where MGRENO=ENO
分布式查询处理
传送时间T=总传输延迟+总数据量/传输速度
⒈把关系EMPLOYEE和DEPARTMENT分布从场地1和 场地2传到场地3,然后在场地3站进行查询 传送时间T=(104 100 +3500 )/104=100s
2、区别系统是分散式还是分布式就是判定系统是否 支持().
3、在分布式DB中,用户看到的系统如同一个集中式 DBS,这是因为分布式系统具有()和()特点。
4、如果各个场地都采用同类型数据模型,但DBMS 不同型号,这种系统属于()型DBMS.
9.2 分布式数据库系统的体系结构
9.2.1分布式数据存储 (1)数据分配 数据分配是指数据在计算机网络各场地上的分配策略。 集中式:所有数据均安排在同一个场地上。 分割式:所有数据只有一份,分布被安置在若干个场地。 全复制式:数据在每个场地重复存储。 混合式:数据库分成若干可相交的子集,每一子集安置
在一个或多个场地上,但是每一场地未必保存全部数 据。
分布式数据存储
(2)数据分片:分布式数据库中的数据可以被分割和 复制在物理场地的各个物理数据库中。 优点 将关系分片,有利于按用户需求组织数据的分布。 如产品→(内销产品,出口产品)。 分片方式 水平分片 垂直分片 导出分片 混合分片
分布式数据库是由一组数据库组成,这 些数据库分布在计算机网络的不同站点 上,逻辑上是属于同一个系统的。
9.1.2 分布式数据库系统的定义
分布式数据库包含两个重要组成部分:
分布式数据库和分布式数据库管理系统。
分布式数据库是计算机网络环境中各场地 上数据库的逻辑集合。
分布式数据库管理系统是分布式数据库系 统中的一组软件,它复杂管理分布环境下 逻辑集成数据的存取、一致性、有效性和 完备性。
9.3 分布式查询处理
分布式数据库系统中由于数据分布在各 个场地,因此,查询的处理比集中式数 据库复杂。
9.3.1 查询处理的传输代价
Site-1
EMPLOYEE 104个记录 每个记录100
字节
网络
传输速度 104字节/秒
Site-2
DEPARTMENT 100个记录每个 记录100字节
检索每个职工的姓名、地址及工作部门名
1
2
9.3.2基于半联接的查询优化策略
数据在网络中传输,如果都以整个关系传输,显然是一种冗 余。不参与联接的值或无用的值不必在网络中来回传输。
(1)、基于半联接的查询实例: 如果在场地2提出上述两个查询Q1和Q2,可以有两种方法:
把关系DEPARTMENT传送到场地1,在场地1作联接,再把 结果从场地1传到场地2。可以改进:
1
3
2
分布式查询处理
⒉把关系EMPLOYEE传送到场地2,在场地2作联 接,再把操作结构从场地2传到场地3:
传送时间T= (104 100 +4000 )/104=100s
1
3
2
分布式查询处理
3. 把 关 系 DEPARTMENT 传 送 到 场 地 1 , 在 场 地 1 作联接,再把操作结构从场地1传到场地3:
9.1.2 分布式数据库系统的定义
分布性:数据存储在不同场地上。与集 中式数据库不同。
逻辑整体性:数据逻辑上是相互联系的 一个整体。与分散在计算机网络不同站 点上的一组没有相互联系的本地数据库 区别开来。
9.1.2 分布式数据库系统的定义
物理上是分布的,逻辑上是统一的 一组数据库的集合 要素
第九章
分布式数据库系统
本章内容
分布式数据库系统概述 分布式数据库系统的体系结构 分布式查询处理 客户/服务器结构的分布式系统
9.1 分布式数据库系统概述
9.1.1 集中式系统和分布式系统
集中式数据库管理系统的缺点:通信开销大; 系统的坚固性差;性能差;可扩充性差;设计、 管理困难。
分散式系统:将数据库分成多个,建立在多台 计算机上,数据库的管理、应用程序的研制都 是分开并相互独立的,之间不存在数据通行联 系。
1、DDBMS的主要功能: 接收用户请求; 访问网络数据字典; 如果目标数据存储于系统的多个计算机上,就必须
进行分布式处理; 通信接口功能; 在一个异构型分布式处理环境中,还需要提供数据
和进程移植的支持。 2、DDBMS的组成: 查询处理子系统、完整性子系统、调度子系统和可
靠性子系统。
9.2.5 分布式数据库系统中存在的问题
1、不同场地的通信速度,与局部DBS的 存储部件的存取速度相比,是非常慢的。
2、通信系统有较高的存取延迟时间。 3、在CPU上处理通信的代价很高。 4、不同通信系统有不同意义的字符,数
据转换速度也不一样,可以相差1000倍, 存取延迟时间可能相差106倍。
分配(分布)模式
定义片段的存放地点。
分布式 集中式
用户视图
用户视图
全局视图
分片视图
分片视图
分片视图
分配视图
分配视图
分配视图
局部概念视图 局部概念视图 局部内视图 局部内视图
局部概念视图 局部内视图
局部DB
局部DB
局部DB
举例:
逻辑片段
R1
物理映像
R11 S1
R21
R2
R R3
R12 S2
R22
R23
R4
R33
S3
R43
一个全局关系的片段所对应的存储片段组成两个物理映像可以相同。
9.2.3 分布透明性
分布(网络)透明性
分片透明性(全局视图和分片视图之间)
用户或应用程序只对全局关系进行操作而不必考虑关系 的分片。如果分片模式改变了,通过调整全局模式与分
片模式之间的映象关系来保持全局模式不变。
计算机网络 数据库系统
银行系统
访问本地银行数据:局部应用 通兑业务、转账业务:全局应用
计算机1
重庆 DB1
DB1 北京
计算机1
通讯网络
计算机1
上海 DB1
9.1.2 分布式数据库系统的定义
全局应用:指涉及到两个或两个以上场 地中数据库的应用。
网络的每个站点具有独立处理能力,可 以执行局部应用,同时也能通过网络执 行全局应用。
(2)垂直分片 将关系r按列分为若干属性子集r1,r2,…,rn,每个 子集ri称为一个垂直片段。 一个垂直片段可以看成是关系上的一个投影。 ri =∏Ri(r) 其中Ri是r的一个属性子集。 如P_S = ∏SNO,SNAME(S) 关系的重构可以通过连接运算来实现。 r= r1 r2 … rn 要求所有垂直分片的片段都包括关系的键。
9.1.4 分布式数据库系统的优缺点
具有灵活的体系结构
数据库的使用单位组织上、地理上是分布的
适应分布式管理和控制机构。 经济性能优越 经济上和组织上的理由 系统的可靠性高,可用性好。 局部应用的响应速度快。 可扩展性好,易于集成现有系统。
既有数据库互连,历史继承;数据资源共享
系统规模逐步扩展增加结点,不影响现有系统运行
9.1.3 分布式数据库系统的透明性
位置透明性 用户或应用程序不必了解它所使用的数据的存储位置。
举例:银行的借贷业务:要判断的情况有5种。 复制透明性
有些数据并不存在一个场地,可能重复存放在不同的场 地。本地数据库中也包含了外地数据库中的数据。 一个分布式系统有了这两种透明性后,用户看到的系统就 如同一个集中式系统。
3)不相交条件:要求一个全局关系被划分后 得到的各个数据片段互相不重叠。目的是为了 在数据分片时容易控制数据的复制。
9.2.2 分布式数据库系统的体系结构
全局外模式
全局应用的用户视图。
全局概念模式
定义D-DBS中数据的整体逻辑结构,数据如同没有分 布一样。
分片模式
每一个关系可以分为若干互不相交的部分,每一部分 称为一个片段。
分布式数据存储
(3)混合分片 关系按某种方式分片后,得到的片段再按另 一种方式继续分片。 如SC(S#,C#,G,DNO)按学生系别分 片,再对每个片段按成绩(及格,不及格) 分片。
分布式数据存储
定义各种分片时必须遵守下面三个条件: 1)完备性条件:必须把全局关系的所有数据
映射到各个片段中,绝不允许发生属于全局关 系的某个数据不属于任何一个片段。 2)重构条件:划分所采用的方法必须确保能 够由各个分段重建全局关系。
1
3Hale Waihona Puke Baidu
2
分布式查询处理
3)如果在场地2提出上述两个查询Q1和Q2,可以有两 种方法:
4、把关系EMPLOYEE传送到场地2,在场地2作 联接,此时Q1和Q2的传输量都是1000000, 时间都是100秒。
Q1
1
2
Q2
分布式查询处理
5.把关系DEPARTMENT传送到场地1,在场地1 作联接,再把结果从场地1传到场地2,此时 Q1的传输量为:3500+400000=403500,时 间是40秒。Q2的传输量都是 3500+4000=7500,时间是0.75秒。
9.1.2 分布式数据库系统的定义
背景 数据库系统+计算机网络
T1
T2 计算机2
T3 DB1
DB1 T1
计算机1 T2 T3
通讯网络
T1 计算机3 T2
T3
DB1
9.1.2 分布式数据库系统的定义
一个分布式系统由通信网络联接起来的 结点的集合。每个结点都是拥有集中式 数据库的计算机系统。
分布式数据库的特点:数据库中的数据 不是存储在同一场地,而是分布存储在 多个场地。
9.1.4 分布式数据库系统的优缺点
缺点: 系统开销大,主要花在通信部分。 复杂的存取结构在集中式系统中是有效
存取数据的重要基数,但在分布式系统 中不一定有效。 数据的安全和行保密性较难处理。
9.1.5 分布式数据库系统的分类
同构同质数据库
每个场地都用同一类型的数据模型,并运行同一型 号的DBMS
位置透明性(分片视图和分配视图之间)
用户或应用程序不必了解片段的存储位置。
局部数据模型透明性(分配视图和局部概念视图之 间)
用户或应用程序不必了解局部场地上使用的是哪种数据
模型。
例子9.4 R1
R2 R
R3
R4
R11 S1
R21
R12 S2
R22
R23
R33
S3
R43
9.2.4 分布式数据库管理系统的功能及组成
同构异质数据库
每个场地都用同一类型的数据模型,但运行不同型 号的DBMS
异构数据库
场地上的数据库系统不尽相同
DBMS不同 数据模型不同
1、数据分布性,逻辑整体性
练习: 2、全局应用 3、位置透明性 ,复制透明性 4、同构异质型DDBS.
1、与集中式DB相比,分布式DB具有()特点,与 分散式DB相比,又具有()特点。
select ENAME,ADDRESS,DNAME
from EMPLOYEE,DEPARTMENT
where DNO=DNUMBER
分布式查询处理
传送时间T=总传输延迟+总数据量/传输速度
⒈把关系EMPLOYEE和DEPARTMENT分布从场地1和 场地2传到场地3,然后在场地3站进行查询 传送时间T=(104 100 +100 35 )/104=100s
分布式数据库系统的特点:数据的分布性;统 一性;透明性。统一性(两个方面:数据在逻 辑上的统一性和数据在管理上的统一性)
分布式数据库与集中式数据库相比的优点:坚 固性好;可扩充性好;可改善性能;自治性好。
9.1 分布式数据库系统概述
与集中式数据库相比,分布式DB具有: 数据分布式的特点。
与分散式数据库相比,分布式DB具有: 逻辑整体性的特点。
1
3
2
分布式查询处理
⒉把关系EMPLOYEE传送到场地2,在场地2作联 接,再把操作结构从场地2传到场地3:
传送时间T= (104 100 +400000 )/104=140s
1
3
2
分布式查询处理
3. 把 关 系 DEPARTMENT 传 送 到 场 地 1 , 在 场 地 1 作联接,再把操作结构从场地1传到场地3: 传送时间T= (3500 +400000 )/104=40s
分布式数据存储
分布式数据存储
1)水平分片 将关系r按行分为若干子集r1,r2,…,rn,每个 子集ri称为一个水平片段。 一个水平片段可以看成是关系上的一个选择。 ri =P(i)(r) 如M_S=sex=‘M’(S) 关系的重构可以通过并运算来实现。 r= r1 ∪r2∪…∪rn
分布式数据存储
1
3
2
分布式查询处理
2)在场地3有一个查询“检索每个部门的 名字和其经理的姓名、地址”。
select DNAME, ENAME,ADDRESS from EMPLOYEE,DEPARTMENT
where MGRENO=ENO
分布式查询处理
传送时间T=总传输延迟+总数据量/传输速度
⒈把关系EMPLOYEE和DEPARTMENT分布从场地1和 场地2传到场地3,然后在场地3站进行查询 传送时间T=(104 100 +3500 )/104=100s
2、区别系统是分散式还是分布式就是判定系统是否 支持().
3、在分布式DB中,用户看到的系统如同一个集中式 DBS,这是因为分布式系统具有()和()特点。
4、如果各个场地都采用同类型数据模型,但DBMS 不同型号,这种系统属于()型DBMS.
9.2 分布式数据库系统的体系结构
9.2.1分布式数据存储 (1)数据分配 数据分配是指数据在计算机网络各场地上的分配策略。 集中式:所有数据均安排在同一个场地上。 分割式:所有数据只有一份,分布被安置在若干个场地。 全复制式:数据在每个场地重复存储。 混合式:数据库分成若干可相交的子集,每一子集安置
在一个或多个场地上,但是每一场地未必保存全部数 据。
分布式数据存储
(2)数据分片:分布式数据库中的数据可以被分割和 复制在物理场地的各个物理数据库中。 优点 将关系分片,有利于按用户需求组织数据的分布。 如产品→(内销产品,出口产品)。 分片方式 水平分片 垂直分片 导出分片 混合分片
分布式数据库是由一组数据库组成,这 些数据库分布在计算机网络的不同站点 上,逻辑上是属于同一个系统的。
9.1.2 分布式数据库系统的定义
分布式数据库包含两个重要组成部分:
分布式数据库和分布式数据库管理系统。
分布式数据库是计算机网络环境中各场地 上数据库的逻辑集合。
分布式数据库管理系统是分布式数据库系 统中的一组软件,它复杂管理分布环境下 逻辑集成数据的存取、一致性、有效性和 完备性。
9.3 分布式查询处理
分布式数据库系统中由于数据分布在各 个场地,因此,查询的处理比集中式数 据库复杂。
9.3.1 查询处理的传输代价
Site-1
EMPLOYEE 104个记录 每个记录100
字节
网络
传输速度 104字节/秒
Site-2
DEPARTMENT 100个记录每个 记录100字节
检索每个职工的姓名、地址及工作部门名
1
2
9.3.2基于半联接的查询优化策略
数据在网络中传输,如果都以整个关系传输,显然是一种冗 余。不参与联接的值或无用的值不必在网络中来回传输。
(1)、基于半联接的查询实例: 如果在场地2提出上述两个查询Q1和Q2,可以有两种方法:
把关系DEPARTMENT传送到场地1,在场地1作联接,再把 结果从场地1传到场地2。可以改进:
1
3
2
分布式查询处理
⒉把关系EMPLOYEE传送到场地2,在场地2作联 接,再把操作结构从场地2传到场地3:
传送时间T= (104 100 +4000 )/104=100s
1
3
2
分布式查询处理
3. 把 关 系 DEPARTMENT 传 送 到 场 地 1 , 在 场 地 1 作联接,再把操作结构从场地1传到场地3:
9.1.2 分布式数据库系统的定义
分布性:数据存储在不同场地上。与集 中式数据库不同。
逻辑整体性:数据逻辑上是相互联系的 一个整体。与分散在计算机网络不同站 点上的一组没有相互联系的本地数据库 区别开来。
9.1.2 分布式数据库系统的定义
物理上是分布的,逻辑上是统一的 一组数据库的集合 要素
第九章
分布式数据库系统
本章内容
分布式数据库系统概述 分布式数据库系统的体系结构 分布式查询处理 客户/服务器结构的分布式系统
9.1 分布式数据库系统概述
9.1.1 集中式系统和分布式系统
集中式数据库管理系统的缺点:通信开销大; 系统的坚固性差;性能差;可扩充性差;设计、 管理困难。
分散式系统:将数据库分成多个,建立在多台 计算机上,数据库的管理、应用程序的研制都 是分开并相互独立的,之间不存在数据通行联 系。
1、DDBMS的主要功能: 接收用户请求; 访问网络数据字典; 如果目标数据存储于系统的多个计算机上,就必须
进行分布式处理; 通信接口功能; 在一个异构型分布式处理环境中,还需要提供数据
和进程移植的支持。 2、DDBMS的组成: 查询处理子系统、完整性子系统、调度子系统和可
靠性子系统。
9.2.5 分布式数据库系统中存在的问题
1、不同场地的通信速度,与局部DBS的 存储部件的存取速度相比,是非常慢的。
2、通信系统有较高的存取延迟时间。 3、在CPU上处理通信的代价很高。 4、不同通信系统有不同意义的字符,数
据转换速度也不一样,可以相差1000倍, 存取延迟时间可能相差106倍。
分配(分布)模式
定义片段的存放地点。
分布式 集中式
用户视图
用户视图
全局视图
分片视图
分片视图
分片视图
分配视图
分配视图
分配视图
局部概念视图 局部概念视图 局部内视图 局部内视图
局部概念视图 局部内视图
局部DB
局部DB
局部DB
举例:
逻辑片段
R1
物理映像
R11 S1
R21
R2
R R3
R12 S2
R22
R23
R4
R33
S3
R43
一个全局关系的片段所对应的存储片段组成两个物理映像可以相同。
9.2.3 分布透明性
分布(网络)透明性
分片透明性(全局视图和分片视图之间)
用户或应用程序只对全局关系进行操作而不必考虑关系 的分片。如果分片模式改变了,通过调整全局模式与分
片模式之间的映象关系来保持全局模式不变。
计算机网络 数据库系统
银行系统
访问本地银行数据:局部应用 通兑业务、转账业务:全局应用
计算机1
重庆 DB1
DB1 北京
计算机1
通讯网络
计算机1
上海 DB1
9.1.2 分布式数据库系统的定义
全局应用:指涉及到两个或两个以上场 地中数据库的应用。
网络的每个站点具有独立处理能力,可 以执行局部应用,同时也能通过网络执 行全局应用。
(2)垂直分片 将关系r按列分为若干属性子集r1,r2,…,rn,每个 子集ri称为一个垂直片段。 一个垂直片段可以看成是关系上的一个投影。 ri =∏Ri(r) 其中Ri是r的一个属性子集。 如P_S = ∏SNO,SNAME(S) 关系的重构可以通过连接运算来实现。 r= r1 r2 … rn 要求所有垂直分片的片段都包括关系的键。
9.1.4 分布式数据库系统的优缺点
具有灵活的体系结构
数据库的使用单位组织上、地理上是分布的
适应分布式管理和控制机构。 经济性能优越 经济上和组织上的理由 系统的可靠性高,可用性好。 局部应用的响应速度快。 可扩展性好,易于集成现有系统。
既有数据库互连,历史继承;数据资源共享
系统规模逐步扩展增加结点,不影响现有系统运行
9.1.3 分布式数据库系统的透明性
位置透明性 用户或应用程序不必了解它所使用的数据的存储位置。
举例:银行的借贷业务:要判断的情况有5种。 复制透明性
有些数据并不存在一个场地,可能重复存放在不同的场 地。本地数据库中也包含了外地数据库中的数据。 一个分布式系统有了这两种透明性后,用户看到的系统就 如同一个集中式系统。
3)不相交条件:要求一个全局关系被划分后 得到的各个数据片段互相不重叠。目的是为了 在数据分片时容易控制数据的复制。
9.2.2 分布式数据库系统的体系结构
全局外模式
全局应用的用户视图。
全局概念模式
定义D-DBS中数据的整体逻辑结构,数据如同没有分 布一样。
分片模式
每一个关系可以分为若干互不相交的部分,每一部分 称为一个片段。
分布式数据存储
(3)混合分片 关系按某种方式分片后,得到的片段再按另 一种方式继续分片。 如SC(S#,C#,G,DNO)按学生系别分 片,再对每个片段按成绩(及格,不及格) 分片。
分布式数据存储
定义各种分片时必须遵守下面三个条件: 1)完备性条件:必须把全局关系的所有数据
映射到各个片段中,绝不允许发生属于全局关 系的某个数据不属于任何一个片段。 2)重构条件:划分所采用的方法必须确保能 够由各个分段重建全局关系。