项目服务投标文件方案(分布式存储平台建设方案)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分布式存储平台建设方案

1.分布式存储平台简介

Hadoop的目的是基于一种新的方法来存储和处理复杂的数据。通过把数据均衡分布

到集群上,通过复制副本以确保数据的可靠性和容错。存储和计算都分布到多个机器,

充分体现数据的本地性,现在的很多数据库也都支持数据分片技术,

Hadoop可以运行在低配置的Pc Server服务器上面的分布式集群技术,通过把海量数据分布式存储后,通过分布式计算模型来进行海量数据分析。

优势明显:

- 效率提高

- 弹性扩容

- 弹性计算

2.分布式存储的趋势

•Data Scalability: 单台机器的容量不足以(经济的) 承载所有资料,所以需要分散。如:NoSQL

•Computing Scalability: 单台机器的运算能力不足以(经济的) 及时完成运算所以需要分散。

3.分布式存储平台搭建

分布式数据处理框架为用户提供容易使用的并行编程模式、处理海量数据的处理框架,用于对大规模数据集的并行处理。处理能力可以通过增加或减少机器达到动态调整。分布式数据处理框架采用先进的容错技术,确保处理任务的可靠性,即使在异常情况下,如机器宕机、断网的情况下,确保处理任务的实时性和准确性。

分布式数据处理框架是建立在分布式存储和分布式数据库的基础之上。

分布式数据处理框架具有如下特点:

●在高效率并行分布式软件的支撑下,可以实时完成数据处理和分析工作,

如数据处理、数据查询、和统计分析等。数据处理不会出现数据堆积现

象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。

●响应速度快速:采用分布式处理的方式,性能与节点数成正比,通过增

加节点的方式,可将性能提升,以达到满足需求的处理要求。

●高可靠性:任何一个节点出现故障,系统将自动屏蔽,而且不会出现丢

失数据的现象。

●可伸缩性:在不停机的情况下,增加节点,平台的处理能力自动增加;

减少节点,平台的处理能力自动缩减。这样,可以做到与资源池的无缝

对接,根据处理和存储任务动态地申请或释放资源,最大限度地提高资

源利用率。

●高性价比:采用X86架构廉价处理机构建云处理平台,用软件容错替代

硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小

型机加商用数据库方案节省10倍左右的成本。

4.分布式存储平台同步

大数据基础平台的数据库服务包括传统的关系型数据库服务和分布式数据库。

分布式数据库系统使用计算机网络将物理位置分散而管理和控制又需要不同程度集中的多个逻辑单位(通常是集中式数据库系统)连接起来,共同组成一个统一的数据库系统,因此,分布式数据库系统可以看成是计算机网络与数据库系统的有机结合。

分布式数据库具有如下特点:

1、物理分布性:分布式数据库系统中的数据不是存储在一个站点上,而是分散存储在由计算机网络联结起来的多个站点上。

2、逻辑整体性:分布式数据库系统中的数据物理上是分散在各个站点中的,

但这些分散的数据逻辑上却是一个整体,它们被分布式数据库系统的所有用户(全局用户)共享,并由一个分布式数据库管理系统统一管理。

3、站点自治性:站点自治性也称场地自治性,各站点上的数据由本地DBMS(databaseManagementSystem:数据库管理系统)管理,具有自治处理能力,完成本站点的应用(局部应用)。

4、数据独立性:分布式数据库系统中,数据独立性不但指数据的逻辑独立性与物理独立性,还包括数据分布独立性亦称分布透明性。分布透明性使用户不必关心数据的逻辑分片,不必关心数据是否被复制及复制副本的个数(冗余数据),也不必关心数据物理及其片段位置的分布细节,同时也不关心局部场地上数据库支持哪种数据模型。

5、集中与自治相结合的控制机制:在分布式数据库系统中,数据的共享有两个层次:一是局部共享,即同一站点上的用户可共享本站点上局部数据库中的数据,以完成局部应用;二是全局共享,即分布式数据库系统上的用户都可共享在分布式数据库系统的各个站点上存储的数据,以完成全局应用。因而,分布式数据库系统常常采用集中和自治相结合的控制机制。各局部的DBMS可以分散地管理局部数据库,具有自治的功能。同时,系统又设有集中控制机制,协调各局部DBMS的工作,执行全局管理功能。

6、适当增加数据冗余性:在集中式数据库系统中,尽量减少冗余是系统的目标之一。其原因是,冗余数据不仅浪费存储空间,而且容易造成各数据副本之间的不一致性,为了保证数据的一致性,系统要付出一定的维护代价。而在分布式数据库系统中却通过冗余数据提高系统的可靠性、可用性和改善系统性能,因为当某一个站点出现故障时,系统可以对另一站点上的相同副本进行操作,不会因某一处故障而造成整个系统的瘫痪。另外,系统可以选择用户最近的数据副本进行操作,减少通信代价,改善整个系统的性能。

7、事务管理的分布性:数据的分布性必然造成事务执行和管理的分布性。

结合大数据系统的特点,分布式数据库服务主要可分为2种服务:

第一种主要面向的是采用结构化数据的关系型数据库系统。

第二种主要面向的是采用非结构化或半结构化数据的非关系型数据库系统,这类数据主要集中在舆情、交通、环保等系统中。构建面向大数据时代的新一代

分布式数据库系统。新一代的分布式数据库系统采用关系型与非关系型数据库相结合的模式,由统一的数据库管理平台进行管理和控制。大数据应用系统可在其中存储及查询非结构化的数据,如图片、文档、视频等信息。

目前常用的分布式关系型数据库为 MySQL,NoSQL数据库为HBASE。

相关文档
最新文档