容灾系统设计原则

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

容灾设计的物理需求
在远程建立能随时启动的、冗余的主机、存储及网络结构选择远程灾备中心时，它与生产中心的距离要合理
– 考虑如地震，电力短缺等不同情况
软件在容灾中的责任
自动容灾中软件的四个主要责任:
– 应用系统管理：启动，关闭，监控，故障切换 – 故障通知: 确定应用的停止及如何响应 – 数据迁移: 在灾备中心随时提供最新的有效数据，而无需从磁带上恢复 – 子网故障切换: 能够将客户端从生产中心重定向到灾备中心
应用系统管理
高可用的集群软件是应用系统管理的基石集群软件将应用系统及其资源虚拟化，用agent来管理那些资源和它们的依属关系 VCS 不仅支持邻近节点间应用的故障切换，而且支持远距离节点间应用的故障切换
故障通知
软件应能监测生产中心与灾备中心的运行状态，并准确报告故障的发生在双重专用二层心跳条件下，VCS 支持节点间距离的延长另外，也可以建立二个集群，并由GCO进行统一管理；集群间使用虚拟IP连接
基于应用的复制
应用将数据送到待命的实例上并执行；如：Oracle 将归档的redo log发送到远端待命的数据库上优点: 只发送redo log，而不是数据文件弱点: 切换后很难将主、备两边同步
效用计算与数据迁移
不管采用那种数据迁移解决方案，容灾软件的行为都是类似的由于数据迁移的目标是在灾备中心随时提供实时的、一致的数据，所以容灾故障切换软件应该能够在灾难发生时仍能对存储进行写操作
JASON BLOOMSTEIN
Staff Software Engineer VERITAS Software Corporation
容灾系统设计原则
Jason Bloomstein
Cluster Engineering VERITAS
容灾方法学
软件容灾：指对灾难发生（即：生产系统出乎预料地失效）时的实时、自动地响应，能在冗余设备上快速将应用系统重新启动而只损失极少的数据。软件容灾是建立在高可用的基础上的，即如同在本地的硬件或软件失败时的响应一样。
容灾设计的业务需求
容灾软件必须作为DR计划的一部分，能自动执行必要的步骤
– 谁来宣布灾难的发生？谁来决定实施故障切换？哪些应用系统需要容灾？
必须预先定义目标恢复时间（RTO）和目标恢复点（RPO）
– 确认哪个应用系统需要采用容灾架构；多少数据的丢失是可接受的 – 容灾应该是“ 必须具备” 的
子网的故障切换
本地的高可用可以建立在虚拟IP的概念上，即IP地址在局域网的主机间浮动但若某地址在不同子网上故障，路由器不知道要进行传输的重定向只有DNS 的更新是最有效的，可以在灾备中心给一个主机名赋予另外的（虚拟）IP
测试容灾架构
容灾解决方案最重要的特点是在建设过程中能够进行容灾的测试理想的测试应该包含以下条件：
基于应用的复制
镜像
创建卷时，对容灾所需要的数据则也放在异地存储的一个plex中优点: 无需额外的软件弱点: 大多数LVM都不包含有关Plex的位置的概念
基于主机的复制
基于硬件的复制
硬件阵列是直接相连接的；对一个阵列的写操作会被发送到连接的另一阵列上优点: 在存储上进行处理弱点: 在灾备中心需要配置完全相同的磁盘阵列；而且只有高端阵列提供此项能力
数据迁移的四种类型
逻辑卷管理镜像生产中心与灾备中心的每个卷都有一个镜像主机写数据到本地存储，并通过网络将写操作发送到远程主机阵列写数据到本地磁盘并将数据写到远程磁盘应用系统将数据发送给远程的应用 e.g. VxVM, LVM
基于主机的复制
e.g. VVR
基于硬件的复制
e.g. EMC SRDF, Hitachi TrueCopy e.g. Oracle Dataguard
容灾设计的软件需求
容灾软件能自动预知错误，具体的操作往往需要广泛的专业知识 – 软件能弹出“ 按钮” 以决定是否进行切换，进而自动地进行数据访问、应用在线以及网络的重定向 – 否则，在灾难发生时，工作人员谁能了解所有的应用系统、存储及网络？容灾软件应该能对容灾架构经常进行低成本的、而且是非破坏性的测试 – 容灾环境刚建立时也许一切都好，当经过持续地改变后，会如何？ – 一年一次的测试很难给人信心面对真正的灾难容灾软件应能充分利用现有IT架构 – 很难判断现有的冗余设备的好坏，最好是在正常情况下也能充分利用现有设备
使用复制数据进行测试
ห้องสมุดไป่ตู้
VCS 的容灾演习(Fire Drill)
VCS 可以自动建立容灾演习的过程，将集群应用管理、快照复制及日志管理结合在一起，提供一个日常可用的、有效的、成本合理的测试容灾演习包括能够对VVR复制的数据进行连续地快照； VVR 支持空间优化的快照，从而最小化物理磁盘的占用容灾演习也可建立VCS的service group，并mount快照来的数据运行应用 VCS的 logs 可记录VCS在线应用的成功与出错可以用UNIX的cron、 Windows的Scheduler 等定时进行应用service group的启动/关闭，并将结果email给管理员
故障通知
不是所有“ 灾难” 都由自然事件造成即使场地完好，但配有应用系统的集群中所有节点都失效，也是一种灾难即使其他应用运行都正常，容灾软件也能对某个应用的故障智能地进行通报
数据迁移
从磁带中恢复数据可能不能满足RPO或RTO的要求需要实时数据迁移解决方案，即自动将所有相关数据拷贝到灾备中心近距离时，可使用同步解决方案，不会造成数据丢失；但距离较远时，异步解决方案易被采用，但会有少量数据丢失
– 测试时生产系统无需停机，并且对现有容灾架构没有或只有很少的影响 – 测试可以自动进行，并提供有意义的测试结果 – 是经济实用的，在整个过程中不需要额外的硬件和软件的不断改进
导致灾备中心出现故障的原因
生产中心新增加了数据卷，但没有在灾备中心增加相应的数据卷，导致应用在灾备中心无法恢复灾备中心使用了临时的licenses ，而且已在灾难发生前失效灾备中心的硬件没有及时升级，因而无法处理生产中心不断增加的服务器资源利用灾备中心的空调不足，无法应付实际的需要，等等…