两地三中心容灾方案上课讲义
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Xx项目存储方案介绍
目录
1. 现状综述 (4)
2. 总体建设方案 (4)
2.1. 建设原则和策略 (4)
2.1.1. 建设原则 (4)
2.1.2. 建设策略 (5)
2.2. 建设目标 (7)
2.2.1. 总体目标 (7)
2.2.2. 分期目标 (7)
2.3. 建设内容 (7)
2.4. 总体设计方案 (8)
3. 容灾的核心技术及选择 (9)
3.1. 容灾系统衡量指标 (9)
3.2. 容灾级别 (10)
3.3. 常见容灾建设模式 (11)
3.3.1. 同城容灾 (11)
3.3.2. 异地容灾 (11)
3.3.3. 两地三中心 (11)
3.3.4. 双活数据中心 (11)
3.4. 常用的数据复制技术 (12)
3.4.1. 基于存储层的容灾复制方案 (13)
3.4.2. 基于主机数据复制技术的灾备方案 (18)
3.4.3. 基于数据库的数据复制技术构建灾备方案 (20)
3.5. 如何选择最优的容灾方案 (28)
3.5.1. 数据容灾技术选择原理 (28)
3.5.2. 数据容灾技术选择度量标准 (29)
3.6. 本项目容灾模式及技术的选择 (29)
3.6.1. 容灾模式选择 (29)
3.6.2. 容灾中心选址 (30)
3.6.3. 数据复制技术的选择 (32)
4. 推荐方案概述 (33)
4.1. 技术路线选择 (33)
4.2. 总体方案架构 (33)
4.3. 数据库容灾系统设计 (35)
4.3.1. Golden Gate技术原理 (36)
4.3.2. 各委办局和同城容灾中心之间的数据库复制 (37)
4.3.3. 同城容灾中心和异地容灾中心之间的数据库复制 (40)
4.4. 非结构化数据容灾系统设计 (40)
4.4.1. 同城容灾中心和生产中心之间的数据容灾 (41)
4.4.2. 同城容灾中心和远程容灾中心的数据容灾 (43)
4.4.3. 应用级容灾几种实现方式 (44)
4.5. 一体化集中备份系统 (45)
4.6. 容灾网络建设方案设计 (46)
4.6.1. 整体容灾网络架构设计 (46)
4.6.2. 前端服务网络容灾方案 (47)
4.6.3. 服务器数据网络容灾方案 (49)
4.6.4. 存储网络容灾方案 (50)
4.6.5. 本项目建议容灾网络方案 (51)
5. 本项目灾备系统建设的几点建议 (52)
5.1. 需要按照灾备要求梳理系统 (52)
5.2. 解决好数据库系统数据复制 (52)
5.3. “现实”的切换策略 (53)
6. 软硬件设计 (54)
6.1. 软硬件总体选型原则 (54)
6.2. 同城容灾中心软硬件设计 (55)
6.2.1. 一体化备份系统 (55)
6.2.2. 数据库容灾系统 (56)
6.2.3. 云计算平台容灾系统 (57)
6.2.4. 同城数据存储容灾系统 (58)
6.2.5. 机房改造系统 (58)
6.2.6. 网络系统 (60)
6.2.7. 安全系统 (60)
6.2.8. 详细软硬件配置清单 (60)
6.3. 远程容灾中心软硬件设计 (63)
6.3.1. 远程数据备份系统 (63)
6.3.2. 远程数据库容灾系统 (64)
6.3.3. 远程云计算平台容灾系统 (65)
6.3.4. 远程数据存储容灾系统 (66)
6.3.5. 网络系统 (66)
6.3.6. 安全系统 (66)
6.3.7. 详细软硬件配置清单 (66)
7. 项目组织机构和人员培训 (68)
7.1. 领导和管理机构 (68)
7.2. 项目实施机构 (69)
7.3. 运行维护机构 (69)
7.4. 技术力量和人员配置 (70)
7.5. 人员培训方案 (70)
8. 项目实施进度 (71)
8.1. 项目建设期 (71)
8.2. 实施进度计划 (71)
8.2.1. 同城容灾中心建设计划 (71)
8.2.2. 异地容灾中心建设计划 (73)
9. 投资估算 (74)
9.1. 投资估算的说明 (74)
9.2. 投资估算 (74)
9.3. 估算编制依据 (75)
9.4. 资金来源与落实 (76)
9.5. 投资估算明细表 (1)
1.现状综述
XX市政府网站管理中心自成立之日起,就按照集中建设的原则完成了“XX市电子政务外网统一平台示范工程项目”的建设工作,完成了XX市124家党政部门的接入工作,完成了在全市范围内只铺设一套网络基础设施的工作,实现了市及电子政务外网与省、国家政务外网之间的互联互通,目前共有服务器500多台,存储40多套,部署的虚拟服务器300多台。
涵盖了XX市各委办局的大部分数据,包括公安局、财政局、民政局、卫生局、发展改革委、外办/侨办等,并为他们提供了各种电子政务应用系统和业务数据,随着业务应用水平的不断提高,各局对网络办公和数据的依赖程度逐年增加,为保障各委办局业务数据的连续安全运行,迫切需要对他们的数据进行备份,但是采用传统的备份方式需要针对每一个应用配置不同的备份方法、策略及容灾设备,将导致投资浪费和管理成本增加,为解决数据备份问题我们计划引人两地三中心云灾备技术。
具体分析,XX市电子政务的业务类型众多、业务系统建设和运行的历史比较长,从系统结构和数据结构两方面来说,都是比较复杂的。
从系统结构来说,既有单机运行的网站,也有WEB、应用服务、数据库三层架构的大型业务平台。
从数据结构来说,既有结构化数据集中存储的资源库平台,所有关键数据统一存储在数据库集群中,也有非结构化数据如文件、图片等应用系统管理维护的资料数据。
另外,XX市电子政务各业务系统需要保护的数据类型复杂多样,既有各种数据库如oracle,sqlserver 多种版本,mysql等)数据,也有各种应用程序(网站类,OA类,业务系统类等)各种文档(word,execle,txt等)各种非结构化数据(关键视频,档案等),当然也需要对虚拟机镜像提供保护(VMWare和Cloudview等)。
以上现状表明很难用一种灾备技术满足上述多种数据类型的容灾需求,结合应用和数据的关键级别、现有业务系统状况分类进行设计,我们计划采用数据备份、存储层数据复制以及数据库层数据复制几种容灾技术构建两地三中心灾备方案。
2.总体建设方案
2.1.建设原则和策略
2.1.1.建设原则
XX市政务信息化容灾备份及安全系统建设是信息中心信息安全保障体系的重要组
成部分,信息中心适应信息化发展趋势作出的一项重大战略部署,XX政务容灾系统建设需要遵循以下建设原则:
统筹规划原则。
容灾备份系统建设,涉及技术面广,复杂程度高,投资巨大,因此我们必须牢固树立“一盘棋”思想,坚持统筹规划,抓紧资源整合,协调各方力量,着眼实际、着眼全局、着眼长远,切实以统筹的理念推进信息化容灾备份系统建设。
循序渐进原则。
信息化容灾备份系统建设是一项系统工程,实施周期长,要本着循序渐进的原则,分步建设和实施。
在建设之前应做好详细的规划设计,并按照规划的内容,分清主次,依次实施。
全部建设完成后,还有定期组织演练,确保灾备系统能够正常工作。
平战结合原则。
灾难备份资源是为小概率事件准备的,平时处于备份、测试或者演练状态,设备闲置,因此我们可以在不影响灾难备份与恢复功能的前提下,本着平战结合的原则,充分利用数据灾备中心的各类资源,开展信息系统培训、开发等业务,真正让数据灾难备份中心的各类资源得到充分的利用和发挥作用。
2.1.2.建设策略
本项目建设策略上从过去注重单一部门、单一系统容灾问题的解决,向支撑全市电子政务系统安全高效运行的转变;二是在建设方式上,从部门独立建设、自成体系,向跨部门跨区域的协同互动和资源共享转变;三是在系统模式上,从粗放离散的模式,向集约整合的模式转变,确保电子政务项目的可持续发展,符合电子政务项目建设“集约化、专业化、规模化”策略。
2.1.2.1.集约化策略
在《关于加快推进国家电子政务外网建设工作的通知》(发改高技[2009]988号)文件之前,国家各部委应用系统采取垂直管理,各自独立的方式建设。
一套灾备系统牵涉到的有基础设施建设、灾备设备资源以及经验丰富的运维人员,往往需要大量的资金投资。
我市信息各委办局都有建设灾备系统需求如果都单独建设,将会是一笔巨大的投资,并且各个委办局都需要培养大量相关的专业运维管理人员。
如何更为集约化的建设灾备系统,如何更为简单的管理和维护复杂的灾备系统,是我们必须面对和解决的难题。
目前,已有地税局、人社局、国土局、财政局、建委等部门提出了灾备建设需求。
从这些部门的灾备建设方案来看,普遍包括:服务器、存储设备、网络设备、安全设备、链路等内容,平均需要1000万左右的投资才能实现关键业务应用级容灾的目标。
此外,
异地容灾还需要租用机房、聘用运维人员、支付链路费用等。
经初步估算,已经提出或具有潜在容灾备份需求的部门,若单独建设容灾系统,则最少需要9000万建设投资,灾备系统的运维费至少达到每年1800万。
本项目建议为各委办局的多个业务系统建立集中数据灾备中心,相比分别为各个业务系统建立独立的容灾系统,既节约IT设备资源,提高容灾资源利用率,又能大大减少后期的管理和运营成本。
系统建设充分调研了XX市电子政务信息系统建设情况设计开放性、可扩展性的容灾策略,支持已有投资系统功能性能,有效的保障了系统的可持续发展。
2.1.2.2.专业化策略
XX市电子政务的业务类型众多、业务系统建设和运行的历史比较长,从系统结构和数据结构两方面来说,都是比较复杂的。
从系统结构来说,既有单机运行的网站,也有WEB、应用服务、数据库三层架构的大型业务平台。
从数据结构来说,既有结构化数据集中存储的资源库平台,所有关键数据统一存储在数据库集群中,也有非结构化数据如文件、图片等应用系统管理维护的资料数据。
全市电子政务各业务系统需要保护的数据类型复杂多样,既有各种数据库如Oracle、SQL Server 多种版本、MySQL等)数据,也有各种应用程序(网站类,OA类,业务系统类等)各种文档(Word、Execle、TXT等)各种非结构化数据(关键视频,档案等),当然也需要对虚拟机镜像提供保护(VMWare和Cloudview等)。
本项目立足于XX市电子政务系统的容灾备份及安全建设,充分的调研了全市电子政务信息系统的建设和应用情况,从网络接入、系统业务功能及数据量、系统涉密情况、容灾策略需求、性能指标等多方面综合分析。
力争满足针对不同的性质的系统提出了数据级、应用级容灾策略,同时分析了不同策略的在线模式与离线模式、远程数据复制、同步与异步容灾、同城与异地等多种容灾方案,专业化的解决未来XX市电子政务信息系统的容灾备份需求。
2.1.2.
3.规模化策略
本项目集约化建设的基础上实现规模化,项目建成之后将承载XX市95%以上电子政务信息系统的容灾工作,解决我市政府各部门内部业务系统、跨区域纵向业务应用、部门重点应该的容灾备份需求。
容灾备份中心依托电子政务外网建设二期工程将完成全市行政区划内共有15个区
市县(包括先导区),下辖172个街道(乡、镇)(这里包括个别区市县所管辖的乡镇级别的经济开发区)、1512个社区(村)的全域覆盖。
在数据规模方面,容灾备份中心将解决包括国家重点民生工程在内的1000余个业务系统的容灾备份工作。
2.2.建设目标
2.2.1.总体目标
XX市政务信息化容灾备份及安全系统建设计划分成两个阶段,即同城灾备中心建设和异地灾备中心建设,最终建设成为两地三中心模式。
其中以新建的XX市云计算中心作为各委办局业务系统的主数据中心,XX市网站管理中心作为同城灾备中心,可以选用城市A或是城市B作为异地灾备中心。
云计算中心作为主生产中心,负责日常的各委办局所有业务系统的运行。
在灾难发生时,在同城容灾中心恢复各委办局关键业务的应用运行。
在城市A异地灾备中心完成各委办局关键数据的保护,在发生地区级(XX)的灾难时,保证各个业务系统的核心数据不丢失。
2.2.2.分期目标
一期目标:
实现xx个委办局关键数据在同城容灾中心的集中备份,以及xx个关键业务在同城容灾中心的应用级容灾。
二期目标:
实现xx个委办局关键数据在远程容灾中心的集中备份,以及xx个核心业务在同城容灾中心的应用级容灾。
2.3.建设内容
一期建设内容:
➢完成云计算中心、同城灾备中心、异地灾备中心两地三中心容灾总体设计
➢完成关键技术方案验证、实施方案编制、实施路径设计。
➢完成容灾中心运行管理模式设计。
➢建设同城应用级容灾中心
二期建设内容:
➢优化调整新建云计算中心
➢建设城市A或城市B异地数据级容灾中心
2.4.总体设计方案
根据各委办局的技术架构现状与策略制定,结合容灾技术的关键技术分析与最佳实践,制定如下总体容灾架构:
➢容灾模式为两地三中心灾备模式
➢容灾级别为数据库系统实现应用级别容灾,其他应用系统基于同城容灾中心实现应用级容灾,关键业务基于远程容灾中心实现应用级容灾
➢结构化数据复制采用支持异构平台的基于数据库层的数据复制技术,虚拟机镜像等这类关键非结构化数据复制采用基于存储层的数据复制技术➢虚拟机之间的系统切换技术以自动切换方式为主,物理机之间以及物理机和虚拟机之间的系统切换以手工切换方式为主,并配合切换脚本减少系统切换时间➢容灾网络,建议同城数据中心之间采用大二层的存储网络架构,数据网络和存储网络的物理连接采用DWDM裸光纤高速网络连接,本地和异地数据中心之间采用IP网络连接,网络带宽要保证系统切换的顺畅和数据复制的带宽需求➢前端(客户端)网络切换技术有手工切换、DNS重定向和负载均衡器的健康路由注入几种,本方案建议根据实际情况选择以上切换技术的一种或几种➢容灾系统和生产系统之间的配对关系为降级配对,就是容灾中心和生产中心之间的软、硬件配置不遵循1:1比例,容灾中心硬件配置的性能低于生产中心,容灾应用服务器以虚拟机平台为主,从而进一步提升灾备系统的投入产出比建成后的两地三中心结构拓扑图如下:
3.容灾的核心技术及选择
容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。
容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。
3.1.容灾系统衡量指标
衡量容灾系统的主要指标有RPO(灾难发生时允许丢失的数据量)、RTO(系统恢复的时间)、容灾半径(生产系统和容灾系统之间的距离)以及ROI(容灾系统的投入产出比)。
RPO是指业务系统所允许的灾难过程中的最大数据丢失量(以时间来度量),这是一个灾备系统所选用的数据复制技术有密切关系的指标,用以衡量灾备方案的数据冗余备份能力。
RTO是指“将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态”所需时间,其中包括备
份数据恢复到可用状态所需时间、应用系统切换时间、以及备用网络切换时间等,该指标用以衡量容灾方案的业务恢复能力。
容灾半径是指生产中心和灾备中心之间的直线距离,用以衡量容灾方案所能防御的灾难影响范围。
容灾方案的ROI(Return of Investment,投入产出比)也是用户需要重点关注的,它用以衡量用户投入到容灾系统的资金与从中所获得的收益的比率。
显然,具有零RTO、零RPO和大容灾半径的灾难恢复方案是用户最期望的,但受系统性能要求、适用技术及成本等方面的约束,这种方案实际上是不大可行的。
所以,用户在选择容灾方案时应该综合考虑灾难的发生概率、灾难对数据的破坏力、数据所支撑业务的重要性、适用的技术措施及自身所能承受的成本等多种因素,理性地作出选择。
3.2.容灾级别
按照容灾系统对应用系统的保护程度可以分为数据级容灾、应用级容灾和业务级容灾。
数据级容灾仅将生产中心的数据复制到容灾中心,在生产中心出现故障时,仅能实现存储系统的接管或是数据的恢复。
容灾中心的数据可以是本地生产数据的完全复制(一般在同城实现),也可以比生产数据略微落后,但必定是可用的(一般在异地实现),而差异的数据通常可以通过一些工具(如操作记录、日志等)可以手工补回。
基于数据容灾实现业务恢复的速度较慢,通常情况下RTO超过24小时,但是这种级别的容灾系统运行维护成本较低。
应用级容灾是在数据级容灾的基础上,进一步实现应用可用性,确保业务的快速恢复。
这就要求容灾系统的应用不能改变原有业务处理逻辑,是对生产中心系统的基本复制。
因此,容灾中心需要建立起一套和本地生产相当的备份环境,包括主机、网络、应用、IP等资源均有配套,当生产系统发生灾难时,异地系统可以提供完全可用的生产环境。
应用级容灾的RTO通常在12个小时以内,技术复杂度较高,运行维护的成本也比较高。
业务级容灾是生产中心与容灾中心对业务请求同时进行处理的容灾方式,能够确保业务持续可用。
这种方式业务恢复过程的自动化程度高,RTO可以做到30分钟以内。
但是这种容灾级别的项目实施难度大,需要从应用层对系统进行改造,比较适合流程固定的简单业务系统。
这种容灾系统的运行维护成本最高。
3.3.常见容灾建设模式
当前,市场上常见的容灾模式可分为同城容灾、异地容灾、双活数据中心、两地三中心几种。
3.3.1.同城容灾
同城容灾是在同城或相近区域内(≤200KM)建立两个数据中心:一个为数据中心,负责日常生产运行;另一个为灾难备份中心,负责在灾难发生后的应用系统运行。
同城灾难备份的数据中心与灾难备份中心的距离比较近,通信线路质量较好,比较容易实现数据的同步复制,保证高度的数据完整性和数据零丢失。
同城灾难备份一般用于防范火灾、建筑物破坏、供电故障、计算机系统及人为破坏引起的灾难。
3.3.2.异地容灾
异地容灾主备中心之间的距离较远(>200KM)因此一般采用异步镜像,会有少量的数据丢失。
异地灾难备份不仅可以防范火灾、建筑物破坏等可能遇到的风险隐患,还能够防范战争、地震、水灾等风险。
由于同城灾难备份和异地灾难备份各有所长,为达到最理想的防灾效果,数据中心应考虑采用同城和异地各建立一个灾难备份中心的方式解决。
3.3.3.两地三中心
结合近年国内出现的大范围自然灾害,以同城双中心加异地灾备中心的“两地三中心”的灾备模式也随之出现,这一方案兼具高可用性和灾难备份的能力。
同城双中心是指在同城或邻近城市建立两个可独立承担关键系统运行的数据中心,双中心具备基本等同的业务处理能力并通过高速链路实时同步数据,日常情况下可同时分担业务及管理系统的运行,并可切换运行;灾难情况下可在基本不丢失数据的情况下进行灾备应急切换,保持业务连续运行。
异地灾备中心是指在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。
3.3.
4.双活数据中心
所谓“双活”或“多活”数据中心,区别于传统数据中心和灾备中心的模式,前者多个或两个数据中心都处于运行当中,运行相同的应用,具备同样的数据,能够提供跨中心
业务负载均衡运行能力,实现持续的应用可用性和灾难备份能力,所以称为“双活”和“多活”;后者是生产数据中心投入运行,灾备数据中心处在不工作状态,只有当灾难发生时,生产数据中心瘫痪,灾备中心才启动。
“双活”数据中心最大的特点是:一、充分利用资源,避免了一个数据中心常年处于闲置状态而造成浪费,通过资源整合,“双活”数据中心的服务能力是翻倍的;二、“双活”数据中心如果断了一个数据中心,其业务可以迅速切换到另外一个正在运行的数据中心,切换过程对用户来说是不可感知的。
在“双活”的模式中,两地数据中心同时接纳交易,技术难度很大,需要更改众多底层程序,因而在现实中,国内还没有真正“双活”数据中心的成功应用案例。
3.4.常用的数据复制技术
在构建容灾系统所涉及的诸多要素中,数据复制技术是基础,只有保证了数据的安全可用,应用或是业务的恢复才有可能。
正常情况下系统的各种应用在数据中心运行,数据存放在数据中心和灾难备份中心两地保存。
当灾难发生时,使用备份数据对工作系统进行恢复或将应用切换到备份中心。
数据复制技术的选择决定灾备系统的RPO指标,灾难备份系统中数据备份技术的选择应符合数据恢复时间或系统切换时间满足业务连续性的要求。
数据复制(Replication)是指利用复制软件把数据从一个磁盘复制到另一个磁盘,生成一个数据副本。
这个数据副本是数据处理系统直接可以访问的,不需要进行任何的数据恢复操作,这一点是复制与D2D备份的最大区别。
根据不同容灾方案所采用数据复制技术位于企业IT架构不同层面,数据复制可分为基于存储层的复制、基于主机层复制和基于应用的复制。
具体到一个I/O从磁盘到应用的流程上,可能经由磁盘阵列、存储网络、卷管理软件、文件系统、数据库系统和应用系统全部流程或是其中的几个流程,那么数据复制就可以在这些流程的任一层次上实现,如下图所示:
基于存储层的复制可以是由存储设备的控制器执行,也可以是由网络层的虚拟化存储管理平台来执行,基于存储层的复制基于主机和应用的无关性,兼容性要求最低,实施难度最小,但是由于是卷级别的数据拷贝,对网络带宽要求最高;基于主机的复制可以由安装在主机上的卷管理软件或是文件系统来实现,在实际的应用场景中,以基于卷管理软件的数据复制技术居多,这种方式通常要求主机平台相关,实施难度升高,但是带宽要求降低;基于数据层的复制通过数据库的容灾功能模块来实现,对网络带宽要求最低,但是只能实现数据库数据的容灾;基于应用层的数据复制需要对应用程序进行定制开发,现实场景中很难见到。
下面就重点介绍一下几种常见的数据复制技术。
3.4.1. 基于存储层的容灾复制方案
3.4.1.1.基于存储设备的数据复制
基于存储设备的数据复制技术的核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术实现对生产数据的远程拷贝,从而实现生产数据的灾难保护。
在主数据中心发生灾难时,可以直接利用灾备中心的数据建立运营支撑环境,为业务继续运营提供IT 支持。
同时,也可以利用灾备中心的数据恢复主数据中心的业务系统,从而能够让企业的业务运营快速回复到灾难发生前的正常运营状态。
基于存储设备的数据复制技术示意图如下:。