分布式环境灾备实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分布式数据库研究现状及发展趋势

摘要随着大数据、云时代的到来,数据库应用需求的拓展和计算机硬件环境的变化,使分布式数据库系统应运而生。为了符合当今信息系统的应用需求和企业组织的管理思想和管理模式。分布式数据库提供了解决整个信息资产被分裂所成的信息孤岛,为孤岛联系在一起提供桥梁。本文主要介绍数据库数据存储特点,以及分布式数据库灾备的实现方法。

关键词分布式数据库;发展趋势;现状及问题

1.引言

当今社会已进入了信息时代,人们将越来越多的信息存储在网络中的计算机上。如何更有效地存储、管理、共享和提取信息,越来越引起人们的关注。随着大数据、云时代的到来,数据库应用需求的拓展和计算机硬件环境的变化,集中式数据库已经不能满足人们的需求,因此分布式数据库系统应运而生,并且得到迅速发展。

分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。近年来,随着数据量的高速增长,分布式数据库技术也得到了快速的发展,传统的关系型数据库开始从集中式模型向分布式架构发展,基于关系型的分布式数据库在保留了传统数据库的数据模型和基本特征下,从集中式存储走向分布式存储,从集中式计算走向分布式计算。

分布式数据库系统是由分布于多个计算机结点上的若干个数据库组成,,每个子数据库系统都是一个独立的数据库系统,它们都拥有各自的数据库、中央处理机、终端,以及各自的局部数据库管理系统,分布式数据库在使用上可视为一个完整的数据库 ,而实际上它是分布在地理分散的各个结点上,它的数据存储方式与集中式数据库系统不同,数据被分片并分散存储于网络中不同的存储节点之上,并且每一个分片都有2到3个副本,以保证数据可靠性,但每一个存储节点上都只有部分数据,没有一个存储节点存有这样将为分布式数据库灾备的实现带来挑战,传统的基于卷、基于集中存储、基于传统数据库的两地三中心解决方案将不再适用于分布式环境灾备的实现,本文将主要介绍分布式数据库数据存储特点,以及分布式数据库灾备的实现方法。

2.分布式数据库数据存储特点

分布式数据库是分布式数据库系统中各站点上数据库的逻辑集合。它对集中式操作系统进行了扩充。与集中式数据库一样,分布式数据库也是由两部分组成:一部分是关于应用所需要的数据的集合,称为应用数据库,它是分布式数据库的主体。另一部分是关于数据库中数据结构的定义,以及全局数据的分片、分布的描述、称为描述数据库,也称数据字典、数据目录或元数据。

从分布式数据库的定义中,我们知道,所谓的分布式简单的说,就是把一个整体分成多个独立的个体,所以对于分布式数据库系统来讲,就是把一个大片数据分成多个独立的小数据存放在网络中的各个主机上,我们把这个过程就称为数据分片。在分布式数据库系统中,对数据的分片有以下几种方法:

(1)水平分片

所谓水平分片就是按一定的条件把全局关系的所有元组划分成若干不相交的子集,每个子集为关系的一个片段,简单地说,就是按关键字的特征来划分全局数据库。

(2)垂直分片

所谓垂直分片就是把一个全局关系的属性集分成若干子集,并在这些子集上作投影运算,每个投影称为垂直分片。在对数据库分片时,最好应避免出现过多的重复字段,但这种重复又是必要的,因为它们能够表达记特征,使局部数据库之间的记录能一一对应,这样的字段要求其值相对固,不要随意改动。

(3)混合分片

在分布式数据库应用中,仅仅进行单一的水平分片或垂直分片往往是不够的,在数据库设计的时候,一般都同时用到这两种方法,这就是混合分片的方法。所谓混合分片,简单地说就是以上两种方法的混合。可以先水平分片再垂直分片,或先垂直分片再水平分片,或其他形式,但他们的结果可能是不相同的。

在对数据分片的过程中,并不是简单的水平,垂直分成多份就可以了,在分数据时必须有符合一定的要求和规则。比如:

(1)完整性要求

必须把全局关系的所有数据映射到片段中,决不允许有属于全局关系的数据却不属于它的任何一个片段。

(2)可重构要求

必须保证能够由同一个全局关系的各个片段来重建该全局关系。对于水平分片可用并操作重构全局关系;对于垂直分片可用联接操作重构全局关系。即“化整为零”的数据,还要能够再“化零为整”。

(3)不重复要求

要求一个全局关系被分割后所得的各个数据片段互不重叠(对垂直分片的主键除外)。

数据分布是分布式数据库的又一特征,是指分布式数据库中的数据不是存储在一个站点的存储设备上,而是根据需要将数据划分成逻辑片段,按某种策略将这些片段分散在各个站点上。数据分布的策略主要有以下几种方法:

(1)集中式:所有数据片段都安排在同一个场地上。

(2)分割式:所有数据只有一份,它被分割成若干逻辑片段,每个逻辑片段被指派在一个特定的场地上。

(3)全复制式:数据在每个场地重复存储。也就是每个场地上都有一个完整的数据副本。(4)混合式:这是一种介乎于分割式和全复制式之间的分配方式。

3.分布式数据库灾备实现

分布式数据库系统由分布于多个计算机结点上的若干个数据库系统组成,它提供有效的存取手段来操纵这些结点上的子数据库。从分布式数据库数据存储方式可以看出,分布式在使用上可视为一个完整的数据库,而实际上它是分布在地理分散的各个结点上。当然,分布在各个结点上的子数据库在逻辑上是相关的。

由于分布式数据是分散存储的,整个数据库的数据被分散存储在不同的数据节点上,一份数据一般有三个副本,但对每一个存储节点来说,其数据并不完整,很难用传统的基于存储复制或CDP等技术来完成数据的实时复制,由于分布式数据库是近些年才发展起来的新技术,并没有通用软件可以完成不同分布式数据库数据复制的统一解决方案,需根据不同的分布式数据库采用相应的数据库复制软件来完成数据复制,但其原理基本相同,下面以达梦分布式数据库为例介绍分布式数据库实现两地三中心灾备的方法。

3.1.两地三中心灾备架构

针对两地三中心灾备建设的需求,达梦公司利用MPP集群架构系统和数据库同步软件(dmhs)软件同步数据,设计了典型的建设方案,能为海量数据核心业务生产系统,提供高可用解决方案,其两地三中心组网如下图所示。

相关文档
最新文档