容灾系统设计原则
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
容灾设计的物理需求
在远程建立能随时启动的、冗余的主机、存储及 网络结构 选择远程灾备中心时,它与生产中心的距离要合 理
– 考虑如地震,电力短缺等不同情况
软件在容灾中的责任
自动容灾中软件的四个主 要责任:
– 应用系统管理:启动,关 闭,监控,故障切换 – 故障通知: 确定应用的停止 及如何响应 – 数据迁移: 在灾备中心随时 提供最新的有效数据,而无 需从磁带上恢复 – 子网故障切换: 能够将客户 端从生产中心重定向到灾备 中心
应用系统管理
高可用的集群软件是应用 系统管理的基石 集群软件将应用系统及其 资源虚拟化,用agent来管 理那些资源和它们的依属 关系 VCS 不仅支持邻近节点间 应用的故障切换,而且支 持远距离节点间应用的故 障切换
故障通知
软件应能监测生产中心与 灾备中心的运行状态,并 准确报告故障的发生 在双重专用二层心跳条件 下,VCS 支持节点间距离 的延长 另外,也可以建立二个集 群,并由GCO进行统一管 理;集群间使用虚拟IP连 接
基于应用的复制
应用将数据送到待命的实 例上并执行;如:Oracle 将归档的redo log发送到远 端待命的数据库上 优点: 只发送redo log,而 不是数据文件 弱点: 切换后很难将主、备 两边同步
效用计算与数据迁移
不管采用那种数据迁移解决方案,容灾软件的行为都是类 似的 由于数据迁移的目标是在灾备中心随时提供实时的、一致 的数据,所以容灾故障切换软件应该能够在灾难发生时仍 能对存储进行写操作
JASON BLOOMSTEIN
Staff Software Engineer VERITAS Software Corporation
容灾系统设计原则
Jason Bloomstein
Cluster Engineering VERITAS
容灾方法学
软件容灾:指对灾难发生(即:生产系统出乎预 料地失效)时的实时、自动地响应,能在冗余设 备上快速将应用系统重新启动而只损失极少的数 据。 软件容灾是建立在高可用的基础上的,即如同在 本地的硬件或软件失败时的响应一样。
容灾设计的业务需求
容灾软件必须作为DR计划的一部分,能自动执行 必要的步骤
– 谁来宣布灾难的发生?谁来决定实施故障切换?哪些 应用系统需要容灾?
必须预先定义目标恢复时间(RTO)和目标恢复 点(RPO)
– 确认哪个应用系统需要采用容灾架构;多少数据的丢 失是可接受的 – 容灾应该是“ 必须具备” 的
子网的故障切换
本地的高可用可以建立在 虚拟IP的概念上,即IP地 址在局域网的主机间浮动 但若某地址在不同子网上 故障,路由器不知道要进 行传输的重定向 只有DNS 的更新是最有效 的,可以在灾备中心给一 个主机名赋予另外的(虚 拟)IP
测试容灾架构
容灾解决方案最重要的特点是在建设过程中能够 进行容灾的测试 理想的测试应该包含以下条件:
基于应用的复制
镜像
创建卷时,对容灾所需要 的数据则也放在异地存储 的一个plex中 优点: 无需额外的软件 弱点: 大多数LVM都不包含 有关Plex的位置的概念
基于主机的复制
基于硬件的复制
硬件阵列是直接相连接 的;对一个阵列的写操作 会被发送到连接的另一阵 列上 优点: 在存储上进行处理 弱点: 在灾备中心需要配置 完全相同的磁盘阵列;而 且只有高端阵列提供此项 能力
数据迁移的四种类型
逻辑卷管理镜像 生产中心与灾备中心的 每个卷都有一个镜像 主机写数据到本地存 储,并通过网络将写操 作发送到远程主机 阵列写数据到本地磁盘 并将数据写到远程磁盘 应用系统将数据发送给 远程的应用 e.g. VxVM, LVM
基于主机的复制
e.g. VVR
基于硬件的复制
e.g. EMC SRDF, Hitachi TrueCopy e.g. Oracle Dataguard
容灾设计的软件需求
容灾软件能自动预知错误,具体的操作往往需要广泛的专 业知识 – 软件能弹出“ 按钮” 以决定是否进行切换,进而自动地进 行数据访问、应用在线以及网络的重定向 – 否则,在灾难发生时,工作人员谁能了解所有的应用 系统、存储及网络? 容灾软件应该能对容灾架构经常进行低成本的、而且是非 破坏性的测试 – 容灾环境刚建立时也许一切都好,当经过持续地改变 后,会如何? – 一年一次的测试很难给人信心面对真正的灾难 容灾软件应能充分利用现有IT架构 – 很难判断现有的冗余设备的好坏,最好是在正常情况 下也能充分利用现有设备
使用复制数据进行测试
ห้องสมุดไป่ตู้
VCS 的容灾演习(Fire Drill)
VCS 可以自动建立容灾演习的过程,将集群应用管理、快 照复制及日志管理结合在一起,提供一个日常可用的、有 效的、成本合理的测试 容灾演习包括能够对VVR复制的数据进行连续地快照; VVR 支持空间优化的快照,从而最小化物理磁盘的占用 容灾演习也可建立VCS的service group,并mount快照来 的数据运行应用 VCS的 logs 可记录VCS在线应用的成功与出错 可以用UNIX的cron、 Windows的Scheduler 等定时进行 应用service group的启动/关闭,并将结果email给管理员
故障通知
不是所有“ 灾难” 都由自然事 件造成 即使场地完好,但配有应 用系统的集群中所有节点 都失效,也是一种灾难 即使其他应用运行都正 常,容灾软件也能对某个 应用的故障智能地进行通 报
数据迁移
从磁带中恢复数据可能不 能满足RPO或RTO的要求 需要实时数据迁移解决方 案,即自动将所有相关数 据拷贝到灾备中心 近距离时,可使用同步解 决方案,不会造成数据丢 失;但距离较远时,异步 解决方案易被采用,但会 有少量数据丢失
– 测试时生产系统无需停机,并且对现有容灾架构没有 或只有很少的影响 – 测试可以自动进行,并提供有意义的测试结果 – 是经济实用的,在整个过程中不需要额外的硬件和软 件的不断改进
导致灾备中心出现故障的原因
生产中心新增加了数据卷,但没有在灾备中心增 加相应的数据卷,导致应用在灾备中心无法恢复 灾备中心使用了临时的licenses ,而且已在灾难 发生前失效 灾备中心的硬件没有及时升级,因而无法处理生 产中心不断增加的服务器资源利用 灾备中心的空调不足,无法应付实际的需要,等 等…