分布式并行数据库研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
并行数据操作算法的设计、分析与实现
并行数据库查询的优化处理
分布式并行数据库研究
分布式并行数据库研究
分布式数据库系统的并发控制
时间戳算法规则
(1) 每个事务在激活时得到系统赋予的时间戳。 (2) 事务执行的每一个读写操作均具有该事务的时间戳。 (3) 对于每个数据项x,记录了最大的时间戳的读操作和 最大的时间戳的写操作。称之为x的读操作的时间戳 RTM(x)和X的写时间戳WTM(x)。 (4) 令TS为对x的写操作的时间戳。如果TS<WTM(x),则 拒绝该读操作,并重启动该事务,否则执行读操作,且 把X的读时间戳改为TS。 (5) 令TS为对x的写操作的时间戳。如果TS<RTM(X)或 TS<WTM(X),则拒绝该操作并重新启动该事务,否则执行 写操作并把WTM(x)改为TS。
命令
临时数据
局部事务 管理器
数据库
数据库
分布式并行数据库研究
分布式数据库中的事务管理
层次控制模型 接收到的事务优化成另一个分布式事务,并将其分布 到相关的其他局部事务管理器上去
分布式事务管理器
命令 回答 局部事务管理器 回答
命令
数据库
命令
局部事务管理器
数据库
命令 回答
回答 局部事务 管理器
分布式并行数据库研究
分布式数据库系统的并发控制
分布式数据库系统中的死锁处理
解决死锁的主要方法有两类:
• 使用预防死锁协议,避免系统进入死锁状态; • 允许系统进入死锁状态,在系统进入死锁状态以后使用 死锁检测和恢复机制使系统摆脱死锁。
事务T0持有 对x的锁 T1等待T0完成 释放对x的锁 事务T1持有 对x的锁 事务T0持有 对y的锁 T0等待T1完成 释放对y的锁 事务T1持有 对y的锁
分布式并行数据库研究
总结
分布式并行数据库高性能、高可用性,广泛应用 一致性机制保证分布式并行数据库系统能正常提 供数据库服务的基础 并发控制可有效的预防分布式事务中的死锁现象 不一致性检测使系统及时地恢复到最佳运行状态, 提高了分布式并行数据库系统的可用性。
分布式并行数据库研究
展望
并行数据库的物理组织
• 高性能:速度提升&范围提升 • 高可用性
分布式并行数据库研究
wk.baidu.com
联想深腾1800高性能服务器
64个节点(8*8) CPU:E5620(2.4G 四核)*2 MEM:24G(4G DDRIII 1333*6根) DISK:500G 3.5寸 SATA硬盘 *1块
分布式并行数据库研究
命令
命令 回答
回答 局部事务 管理器
局部事务 管理器
局部事务 管理器
数据库
分布式并行数据库研究
数据库
数据库
数据库
分布式数据库系统的并发控制
并发控制的概念
并发控制就是合理控制对数据库的并发访问及维护数 据库的正确性 以集中式数据库的并发控制为基础,主要保证多个分 布式事务队数据并发执行的正确性。 悲观并发控制法VS乐观并发控制法 封锁算法和时间戳算法
• 查询处理算法是有效的 • 该算法可以在跨越多个异构数据库的查询中,提供高品质的查 询结果,而无需人为的调节。
分布式并行数据库研究
移动数据库
P. PETRANET: a Power Efficient Transaction Management Technique for Real-Time Mobile Ad-hoc, Network Databases [5]中,Gruenwald, L.提出了一个PETRANET系统原型, 并在军事数据库应用程序开发中实现,有效解决了Ad hoc网络动态、能量有限、交易限制等问题。 论文贡献:实现了低功耗事务管理技术,实时移动Adhoc网络数据库。
主从控制模型
分布式事务管理器 回答
命令 回答 局部事务 管理器
命令
回答
命令
局部事务 管理器
局部事务 管理器
数据库
数据库
数据库
分布式并行数据库研究
分布式数据库中的事务管理
三角控制模型 避免了在分布式事务管理器与局部事务管理器之间不 必要的数据传输
分布式事务管理器 回答
命令 回答 局部事务 管理器
分布式并行数据库研究
分布式数据库中的事务管理
概念 全局事务
即一个分布式事务
主事务
事务的开始、提 交和异常终止
子事务
完成对相应节点 上数据库的访问 操作
分布式并行数据库研究
分布式数据库中的事务管理
分布式事务执行的控制模型
主从控制 模型
三角控制 模型
层次控制 模型
分布式并行数据库研究
分布式数据库中的事务管理
发展趋势与研究现状 分布式数据库事务管理
分布式数据库并发控制
分布式数据库可靠性度量
分布式并行数据库研究
发展趋势
物理组织 操作算法的 设计、分析 与实现 …… 查询 优化处理
分布式并行数据库研究
国内外研究现状
A B
异构分布式数据库技术 网络数据库技术
构造某种透明性的 分布式数据库,支 持对物理上分布的 多个数据库全局访 所有连入网络并提 问和数据库之间的 供信息服务的自治 互操作性 数据库的集合
发展历程
20世纪70年代: 关系代数操作 的并行化和实 现关系操作的 专用硬件设计
80年代后期: 并行数据库的 物理组织、操 作算法、优化 和调度策络
从90年代至今: 数据操作的时 间并行性和空 间并行性上
分布式并行数据库研究
Advanced
先进技术与研究方向
Advanced Content
1 2 3 4
分布式并行数据库研究
分布式数据库系统的并发控制
并发控制的两阶段封锁技术
保证该调度是 可串行化
1
并发更新存在问题: 读到错误数据、得 到不可再生的结果、 数据库混乱、丢失 更新、数据的交错 更新等问题
2
基本思想:所有事 务在对任何数据库 元素读写之前要获 得对该数据库元素 的封锁,而且在释 放了一个封锁之后, 事务不能再获得任 何其他封锁。
移动数据库 分布式并行数据库系统
C
移动计算机可以在 不同的地方连通网 络。
D
物理分布性 逻辑整体性 节点自治性
分布式并行数据库研究
异构分布式数据库
Efficient Keyword Search Across Heterogeneous Relational Databases [2]中介绍提出的Kite算法是在异构的关系型数据库的关键字 搜索问题的一种解决方案。 结合模式匹配和结构发现技术,通过外键找到异构数据库之 间的连接。然后利用连接自动发现,跨越多个数据库,实现 快速和有效的分布式数据查询。 这样跨越多个数据库和关系的查询结果的连接具有重要意义。 论文贡献(实验表明):
分布式并行数据库研究
分布并行数据库系统
Research on constructing distributed large database based on J2EE 随着信息的不断扩大和网络的普及,单一的数据库访问方 式,不能满足用户的需求。访问分布式数据库的要求增加。 [6] 基于Alchemi算法,实现分布式数据库查询的网格计算体 系结构。用计算网格技术构建分布式数据库,通过实验验 证了算法的查询效率和准确性。 论文贡献:高效率,高准确性
分布式并行数据库
Basic
分布式并行数据库
Advanced
先进技术与研究方向
Basic
分布式并行数据库
研究背景及意义
分布式并行数据库:
传统数据库局限:数据量的增大,对处理数据速度要 求提升 一个由若干独立自治的数据库系统组成的集合,其中 每个成员数据库都提供一组功能,用于实现与其它成 员交换数据和服务。 分布式计算、并行处理以及网络技术相结合的产物。 目标:
3
两阶段: 增长阶段,事务获 得封锁, 收缩阶段,事务释 放封锁。
分布式并行数据库研究
分布式数据库系统的并发控制
基于时间戳的并发控制技术
基于时间戳的并发控制算法与基于封锁的算法不同, 它并不试图通过互斥来支持串行性,而是选择一个事 先的串行次序依次执行事务。 事务管理器将给每个事务Ti分配一个在整个系统唯一的 时间戳Ts(Ti) 时间戳是用来唯一地识别每个事务并允许排序地标识 符。
分布式并行数据库研究
分布式数据库中的可靠性
数据库在一个给定的时间间隔内不产生任何失败 的概率。 正确性 可靠性度量
平均故障间隔时间(MTBF) MTBF= R (t )dt 0 平均修复时间(MTTR)。
A MTBF MTBF MTTR
可靠性函数R(t)
不一致性监测
检查点检测方式,心跳检测方式
并行数据库查询的优化处理
分布式并行数据库研究
分布式并行数据库研究
分布式数据库系统的并发控制
时间戳算法规则
(1) 每个事务在激活时得到系统赋予的时间戳。 (2) 事务执行的每一个读写操作均具有该事务的时间戳。 (3) 对于每个数据项x,记录了最大的时间戳的读操作和 最大的时间戳的写操作。称之为x的读操作的时间戳 RTM(x)和X的写时间戳WTM(x)。 (4) 令TS为对x的写操作的时间戳。如果TS<WTM(x),则 拒绝该读操作,并重启动该事务,否则执行读操作,且 把X的读时间戳改为TS。 (5) 令TS为对x的写操作的时间戳。如果TS<RTM(X)或 TS<WTM(X),则拒绝该操作并重新启动该事务,否则执行 写操作并把WTM(x)改为TS。
命令
临时数据
局部事务 管理器
数据库
数据库
分布式并行数据库研究
分布式数据库中的事务管理
层次控制模型 接收到的事务优化成另一个分布式事务,并将其分布 到相关的其他局部事务管理器上去
分布式事务管理器
命令 回答 局部事务管理器 回答
命令
数据库
命令
局部事务管理器
数据库
命令 回答
回答 局部事务 管理器
分布式并行数据库研究
分布式数据库系统的并发控制
分布式数据库系统中的死锁处理
解决死锁的主要方法有两类:
• 使用预防死锁协议,避免系统进入死锁状态; • 允许系统进入死锁状态,在系统进入死锁状态以后使用 死锁检测和恢复机制使系统摆脱死锁。
事务T0持有 对x的锁 T1等待T0完成 释放对x的锁 事务T1持有 对x的锁 事务T0持有 对y的锁 T0等待T1完成 释放对y的锁 事务T1持有 对y的锁
分布式并行数据库研究
总结
分布式并行数据库高性能、高可用性,广泛应用 一致性机制保证分布式并行数据库系统能正常提 供数据库服务的基础 并发控制可有效的预防分布式事务中的死锁现象 不一致性检测使系统及时地恢复到最佳运行状态, 提高了分布式并行数据库系统的可用性。
分布式并行数据库研究
展望
并行数据库的物理组织
• 高性能:速度提升&范围提升 • 高可用性
分布式并行数据库研究
wk.baidu.com
联想深腾1800高性能服务器
64个节点(8*8) CPU:E5620(2.4G 四核)*2 MEM:24G(4G DDRIII 1333*6根) DISK:500G 3.5寸 SATA硬盘 *1块
分布式并行数据库研究
命令
命令 回答
回答 局部事务 管理器
局部事务 管理器
局部事务 管理器
数据库
分布式并行数据库研究
数据库
数据库
数据库
分布式数据库系统的并发控制
并发控制的概念
并发控制就是合理控制对数据库的并发访问及维护数 据库的正确性 以集中式数据库的并发控制为基础,主要保证多个分 布式事务队数据并发执行的正确性。 悲观并发控制法VS乐观并发控制法 封锁算法和时间戳算法
• 查询处理算法是有效的 • 该算法可以在跨越多个异构数据库的查询中,提供高品质的查 询结果,而无需人为的调节。
分布式并行数据库研究
移动数据库
P. PETRANET: a Power Efficient Transaction Management Technique for Real-Time Mobile Ad-hoc, Network Databases [5]中,Gruenwald, L.提出了一个PETRANET系统原型, 并在军事数据库应用程序开发中实现,有效解决了Ad hoc网络动态、能量有限、交易限制等问题。 论文贡献:实现了低功耗事务管理技术,实时移动Adhoc网络数据库。
主从控制模型
分布式事务管理器 回答
命令 回答 局部事务 管理器
命令
回答
命令
局部事务 管理器
局部事务 管理器
数据库
数据库
数据库
分布式并行数据库研究
分布式数据库中的事务管理
三角控制模型 避免了在分布式事务管理器与局部事务管理器之间不 必要的数据传输
分布式事务管理器 回答
命令 回答 局部事务 管理器
分布式并行数据库研究
分布式数据库中的事务管理
概念 全局事务
即一个分布式事务
主事务
事务的开始、提 交和异常终止
子事务
完成对相应节点 上数据库的访问 操作
分布式并行数据库研究
分布式数据库中的事务管理
分布式事务执行的控制模型
主从控制 模型
三角控制 模型
层次控制 模型
分布式并行数据库研究
分布式数据库中的事务管理
发展趋势与研究现状 分布式数据库事务管理
分布式数据库并发控制
分布式数据库可靠性度量
分布式并行数据库研究
发展趋势
物理组织 操作算法的 设计、分析 与实现 …… 查询 优化处理
分布式并行数据库研究
国内外研究现状
A B
异构分布式数据库技术 网络数据库技术
构造某种透明性的 分布式数据库,支 持对物理上分布的 多个数据库全局访 所有连入网络并提 问和数据库之间的 供信息服务的自治 互操作性 数据库的集合
发展历程
20世纪70年代: 关系代数操作 的并行化和实 现关系操作的 专用硬件设计
80年代后期: 并行数据库的 物理组织、操 作算法、优化 和调度策络
从90年代至今: 数据操作的时 间并行性和空 间并行性上
分布式并行数据库研究
Advanced
先进技术与研究方向
Advanced Content
1 2 3 4
分布式并行数据库研究
分布式数据库系统的并发控制
并发控制的两阶段封锁技术
保证该调度是 可串行化
1
并发更新存在问题: 读到错误数据、得 到不可再生的结果、 数据库混乱、丢失 更新、数据的交错 更新等问题
2
基本思想:所有事 务在对任何数据库 元素读写之前要获 得对该数据库元素 的封锁,而且在释 放了一个封锁之后, 事务不能再获得任 何其他封锁。
移动数据库 分布式并行数据库系统
C
移动计算机可以在 不同的地方连通网 络。
D
物理分布性 逻辑整体性 节点自治性
分布式并行数据库研究
异构分布式数据库
Efficient Keyword Search Across Heterogeneous Relational Databases [2]中介绍提出的Kite算法是在异构的关系型数据库的关键字 搜索问题的一种解决方案。 结合模式匹配和结构发现技术,通过外键找到异构数据库之 间的连接。然后利用连接自动发现,跨越多个数据库,实现 快速和有效的分布式数据查询。 这样跨越多个数据库和关系的查询结果的连接具有重要意义。 论文贡献(实验表明):
分布式并行数据库研究
分布并行数据库系统
Research on constructing distributed large database based on J2EE 随着信息的不断扩大和网络的普及,单一的数据库访问方 式,不能满足用户的需求。访问分布式数据库的要求增加。 [6] 基于Alchemi算法,实现分布式数据库查询的网格计算体 系结构。用计算网格技术构建分布式数据库,通过实验验 证了算法的查询效率和准确性。 论文贡献:高效率,高准确性
分布式并行数据库
Basic
分布式并行数据库
Advanced
先进技术与研究方向
Basic
分布式并行数据库
研究背景及意义
分布式并行数据库:
传统数据库局限:数据量的增大,对处理数据速度要 求提升 一个由若干独立自治的数据库系统组成的集合,其中 每个成员数据库都提供一组功能,用于实现与其它成 员交换数据和服务。 分布式计算、并行处理以及网络技术相结合的产物。 目标:
3
两阶段: 增长阶段,事务获 得封锁, 收缩阶段,事务释 放封锁。
分布式并行数据库研究
分布式数据库系统的并发控制
基于时间戳的并发控制技术
基于时间戳的并发控制算法与基于封锁的算法不同, 它并不试图通过互斥来支持串行性,而是选择一个事 先的串行次序依次执行事务。 事务管理器将给每个事务Ti分配一个在整个系统唯一的 时间戳Ts(Ti) 时间戳是用来唯一地识别每个事务并允许排序地标识 符。
分布式并行数据库研究
分布式数据库中的可靠性
数据库在一个给定的时间间隔内不产生任何失败 的概率。 正确性 可靠性度量
平均故障间隔时间(MTBF) MTBF= R (t )dt 0 平均修复时间(MTTR)。
A MTBF MTBF MTTR
可靠性函数R(t)
不一致性监测
检查点检测方式,心跳检测方式