光大银行打造“两地三中心、大同城小异地”灾备模式

相关主题

共享式灾备中心

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

光大银行打造“两地三中心、大同城小异地”灾备模式

作者：史晨阳

来源：《中国金融电脑》 2016年第1期

光大银行始终高度重视信息科技应急工作，以业务优先恢复为应急首要原则，自2002 年在金融业率先实现“同城双活网络”开始，光大银行已逐步建成有光大特色、符合监管要求与国际通用准则的“两地三中心”灾备体系。本文从灾备体系总体规划、运维管理经验、特点与问题以及下一步建设与管理构想等四个方面介绍光大银行灾备建设经验。

一、“两地三中心”灾备体系总体规划架构

光大银行根据自身特点采用了“大同城，小异地”策略来建立“两地三中心”灾备体系。“大同城”指以双活模式构建两个同城数据中心，通过部署必要的软硬件设备，使所有系统在两个中心都拥有相同处理能力，通过EMC SRDF 存储同步技术，实现生产数据在两个中心之间的实时同步。两中心共同担负日常生产任务，一个中心可独立承载全部业务，既可防范机房等建筑物级别的风险，又增强同城中心日常生产容量弹性。“小异地”指当发生地域性灾难时，以保障银行关键业务在重要渠道持续开展、对全行生产数据进行保护为目的而建立的异地灾备数据中心。

生产中心位于北京上地，同城酒仙桥灾备中心距离生产中心约21 公里。同城灾备中心一般用于防范火灾、建筑物破坏、供电故障、计算机系统及人为破坏引起的灾难。异地灾备中心位于武汉，距北京生产中心约1150千米，用于防范战争、地震、水灾等区域性灾难。上地生产中心为自有机房，酒仙桥和武汉灾备中心采用场地外包、自主运维模式（光大银行两地三中心灾备体系整体架构如图1 所示）。

在灾备网络建设上，光大银行现有网络中采用的是双星型结构。以同城主、备两个数据中心为两个核心节点，两个核心节点间由高速链路（DWDM）连接。灾备中心与原有的2 个数据中心形成两地三中心的网络结构，通过灾备中心的建立形成三个数据中心的结构。各分行通过三条链路分别上连至上地数据中心、酒仙桥数据中心和武汉灾备中心。确保即使一个地区由于自然灾难等因素产生业务瘫痪，还可以通过异地灾备中心保障关键业务正常运转。在数据容灾机制上，光大银行采用SRDF/STAR 三点容灾方案，三台VMAX 分别放置于上地、酒仙桥机房和武汉数据中心。通过DWDM 链路和FCIP 链路在三台VMAX 阵列之间连通形成数据保护环路，实现对应用系统的三点容灾保护。同城两个数据中心之间采用EMC SRDF 同步数据复制技术确保数据实时复制，RPO 等于零；异地灾备中心利用EMC SRDF异步数据复制技术实现RPO 小于等于10 分钟。

目前，光大银行两个同城数据中心部署了全部业务的应用灾备环境。为满足业务持续运行

需求，合理利用系统资源，光大银行定期对生产系统或新上线系统进行灾备等级评定工作，根

据应用系统的灾备等级决定系统的容灾部署架构，服务器以负载均衡或不同的热备模式对称部

署在两个同城数据中心，整体保障了永续运行能力与高可用性要求。所有生产系统在同城两个

中心都具有相同处理能力的运行环境，互为备份，系统切换时间小于30 分钟。

武汉灾备中心实现了重要系统的应用级灾备，部署了核心业务、中间业务、支付业务、柜

面网银渠道等关键系统的应用灾备环境，灾难情况下可在8 小时内切换到异地灾备中心，接管

全行柜面、支付结算、网银等主要银行业务的运行，能够在出现区域性灾难风险的时候，有效

保障银行关键业务的正常运转，其中网银系统还承担了南方客户的生产接入。光大银行通过建

设备份云实现生产系统的系统环境、应用程序、生产数据三地的数据保护，实现全部系统的数

据级灾备，为灾难恢复提供最后保障。

二、灾备体系运维管理经验

在灾备技术架构建设的同时，光大银行更注重三中心“一体化”IT 管理标准的建设，实现技术和管理能力的统一配置，避免某个地点或中心管理偏弱的风险。

在灾备工具方面，光大银行在灾备体系建设的同时完成了灾备管理和数据备份系统的建设。灾备管理平台负责整体灾备资源管理和调度，实现生产系统快速、准确、平稳地切换到灾备环境，具备一键切换能力；数据备份系统保障了三中心的数据同步，同时集中分行生产数据异地

备份，总分行所有应用系统的数据都在异地灾备中心建立一套备份数据，确保灾难恢复时数据

的可用性。在灾备运行监控上，同城灾备中心和异地灾备中心已全面纳入生产统一监控平台进

行监控，相关处置流程与生产中心保持一致。

在人员方面，光大银行采用同一运维组织架构，同城双中心运维工作由同一组技术人员负

责日常运行管理和维护，异地灾备中心的专职管理人员隶属于光大银行信息科技部运维中心，

现场配备人员包括机房及网络管理员、系统管理员、应用管理员和机房基础设施运维等人员，

运维中心相关的应用管理员、系统管理员、存储管理员、监控人员和运行人员进行远程管理与

技术支持，以确保技术标准执行的统一化，生产和灾备环境的一致性。

在管理方面，光大银行在生产运行、应急和灾备等方面的管理已形成体系。光大银行自2009 年引进基于ITIL 的运维管理体系以来，已建立服务请求、事件管理、问题管理、变更管理、灾备管理、容量管理、配置管理、知识管理等流程，将三中心的生产运行完全纳入该运维

管理体系进行统一管控，并于2013 年成功通过ISO20000贯标。在应急与灾备方面，由专人负

责灾备管理工作，包括三级预案体系建设、业务应急演练、常规技术演练、专项应急演练和应

急测试等内容。三中心采用统一的管理标准、流程和技术规范，通过每年至少一次全行级别的

业务应急演练、每年至少两次同城和一次异地整体集中切换，各专业领域每月至少各进行一次

专项应急演练，并根据变更需要不定期进行单一系统的同城切换，极大地检验了三中心生产接

管能力。同时，通过加强变更管理，利用技术手段和实施控制，确保三中心的一致性。通过多

年灾备建设与管理，光大银行灾备体系已初步实现了“随时启用、随时可用、随时能用”的灾

备管理目标。

三、灾备体系的特点及面临的主要问题

1. 光大银行灾备体系的特点

（1）通过同城双中心的使用，将防范建筑物级灾