光大银行打造“两地三中心、大同城小异地”灾备模式
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
光大银行打造“两地三中心、大同城小异地”灾备模式
作者:史晨阳
来源:《中国金融电脑》 2016年第1期
光大银行始终高度重视信息科技应急工作,以业务优先恢复为应急首要原则,自2002 年在金融业率先实现“同城双活网络”开始,光大银行已逐步建成有光大特色、符合监管要求与国际通用准则的“两地三中心”灾备体系。
本文从灾备体系总体规划、运维管理经验、特点与问题以及下一步建设与管理构想等四个方面介绍光大银行灾备建设经验。
一、“两地三中心”灾备体系总体规划架构
光大银行根据自身特点采用了“大同城,小异地”策略来建立“两地三中心”灾备体系。
“大同城”指以双活模式构建两个同城数据中心,通过部署必要的软硬件设备,使所有系统在两个中心都拥有相同处理能力,通过EMC SRDF 存储同步技术,实现生产数据在两个中心之间的实时同步。
两中心共同担负日常生产任务,一个中心可独立承载全部业务,既可防范机房等建筑物级别的风险,又增强同城中心日常生产容量弹性。
“小异地”指当发生地域性灾难时,以保障银行关键业务在重要渠道持续开展、对全行生产数据进行保护为目的而建立的异地灾备数据中心。
生产中心位于北京上地,同城酒仙桥灾备中心距离生产中心约21 公里。
同城灾备中心一般用于防范火灾、建筑物破坏、供电故障、计算机系统及人为破坏引起的灾难。
异地灾备中心位于武汉,距北京生产中心约1150千米,用于防范战争、地震、水灾等区域性灾难。
上地生产中心为自有机房,酒仙桥和武汉灾备中心采用场地外包、自主运维模式(光大银行两地三中心灾备体系整体架构如图1 所示)。
在灾备网络建设上,光大银行现有网络中采用的是双星型结构。
以同城主、备两个数据中心为两个核心节点,两个核心节点间由高速链路(DWDM)连接。
灾备中心与原有的2 个数据中心形成两地三中心的网络结构,通过灾备中心的建立形成三个数据中心的结构。
各分行通过三条链路分别上连至上地数据中心、酒仙桥数据中心和武汉灾备中心。
确保即使一个地区由于自然灾难等因素产生业务瘫痪,还可以通过异地灾备中心保障关键业务正常运转。
在数据容灾机制上,光大银行采用SRDF/STAR 三点容灾方案,三台VMAX 分别放置于上地、酒仙桥机房和武汉数据中心。
通过DWDM 链路和FCIP 链路在三台VMAX 阵列之间连通形成数据保护环路,实现对应用系统的三点容灾保护。
同城两个数据中心之间采用EMC SRDF 同步数据复制技术确保数据实时复制,RPO 等于零;异地灾备中心利用EMC SRDF异步数据复制技术实现RPO 小于等于10 分钟。
目前,光大银行两个同城数据中心部署了全部业务的应用灾备环境。
为满足业务持续运行
需求,合理利用系统资源,光大银行定期对生产系统或新上线系统进行灾备等级评定工作,根
据应用系统的灾备等级决定系统的容灾部署架构,服务器以负载均衡或不同的热备模式对称部
署在两个同城数据中心,整体保障了永续运行能力与高可用性要求。
所有生产系统在同城两个
中心都具有相同处理能力的运行环境,互为备份,系统切换时间小于30 分钟。
武汉灾备中心实现了重要系统的应用级灾备,部署了核心业务、中间业务、支付业务、柜
面网银渠道等关键系统的应用灾备环境,灾难情况下可在8 小时内切换到异地灾备中心,接管
全行柜面、支付结算、网银等主要银行业务的运行,能够在出现区域性灾难风险的时候,有效
保障银行关键业务的正常运转,其中网银系统还承担了南方客户的生产接入。
光大银行通过建
设备份云实现生产系统的系统环境、应用程序、生产数据三地的数据保护,实现全部系统的数
据级灾备,为灾难恢复提供最后保障。
二、灾备体系运维管理经验
在灾备技术架构建设的同时,光大银行更注重三中心“一体化”IT 管理标准的建设,实现技术和管理能力的统一配置,避免某个地点或中心管理偏弱的风险。
在灾备工具方面,光大银行在灾备体系建设的同时完成了灾备管理和数据备份系统的建设。
灾备管理平台负责整体灾备资源管理和调度,实现生产系统快速、准确、平稳地切换到灾备环境,具备一键切换能力;数据备份系统保障了三中心的数据同步,同时集中分行生产数据异地
备份,总分行所有应用系统的数据都在异地灾备中心建立一套备份数据,确保灾难恢复时数据
的可用性。
在灾备运行监控上,同城灾备中心和异地灾备中心已全面纳入生产统一监控平台进
行监控,相关处置流程与生产中心保持一致。
在人员方面,光大银行采用同一运维组织架构,同城双中心运维工作由同一组技术人员负
责日常运行管理和维护,异地灾备中心的专职管理人员隶属于光大银行信息科技部运维中心,
现场配备人员包括机房及网络管理员、系统管理员、应用管理员和机房基础设施运维等人员,
运维中心相关的应用管理员、系统管理员、存储管理员、监控人员和运行人员进行远程管理与
技术支持,以确保技术标准执行的统一化,生产和灾备环境的一致性。
在管理方面,光大银行在生产运行、应急和灾备等方面的管理已形成体系。
光大银行自2009 年引进基于ITIL 的运维管理体系以来,已建立服务请求、事件管理、问题管理、变更管理、灾备管理、容量管理、配置管理、知识管理等流程,将三中心的生产运行完全纳入该运维
管理体系进行统一管控,并于2013 年成功通过ISO20000贯标。
在应急与灾备方面,由专人负
责灾备管理工作,包括三级预案体系建设、业务应急演练、常规技术演练、专项应急演练和应
急测试等内容。
三中心采用统一的管理标准、流程和技术规范,通过每年至少一次全行级别的
业务应急演练、每年至少两次同城和一次异地整体集中切换,各专业领域每月至少各进行一次
专项应急演练,并根据变更需要不定期进行单一系统的同城切换,极大地检验了三中心生产接
管能力。
同时,通过加强变更管理,利用技术手段和实施控制,确保三中心的一致性。
通过多
年灾备建设与管理,光大银行灾备体系已初步实现了“随时启用、随时可用、随时能用”的灾
备管理目标。
三、灾备体系的特点及面临的主要问题
1. 光大银行灾备体系的特点
(1)通过同城双中心的使用,将防范建筑物级灾
难风险与防范数据中心内部运行风险合二为一,既能保障系统高可用性,又能有效化解各
类风险,还能确保同城灾备随时可用、能用,具备非常高的灵活性与伸缩性,最大化降低变更
对业务的影响。
(2)充分利用自动化工具提高灾备能力与效率,
实现灾备管理规范化、自动化、流程化和集中化。
通过建立灾备管理平台,实现同城全部
系统一键自由切换;通过建立总分行数据级容灾备份平台,实现全行应用系统数据级异地备份,达到一点备份、多点可恢复的数据级容灾与云备份能力。
(3)每年开展大量的、全方位应急演练与测试工
作检验各环节的可靠性。
通过异地灾备切换演练,检验异地灾备中心通信、网络、存储、
系统、应用整体环境的可用性,获得了实际的异地灾备恢复指标,验证流程和操作步骤正确性,发现不足之处,为日后改进提出合理化建议,提升异地灾备中心实际接管生产系统的能力。
通过开展全行业务应急专项演练,检验重要业务的应急机制及手工处理的可行性,加强对
应急流程的熟练掌握程度,把业务优先恢复意识渗透到全行员工,整体提高业务应急能力,从
客户利益视角考虑把业务应急做到实处。
通过开展系统单一切换演练与集中切换演练,检验同城灾备架构合理性、主备环境一致性,确保信息系统在特定灾难场景或计划内维护的情况下能高效完成切换,积累大规模系统切换经
验和组织经验,提高双中心运营的设备使用效率,充分体现双中心运行价值。
通过开展网络切换演练,验证了网络设计、设备、通讯链路冗余备份机制的有效性,有利
于及时发现设备隐患,提高设备运行稳定性。
通过开展故障场景专项演练,检验各种故障场景
下预案的完整性与操作的可行性,提高各级人员在预案执行上的熟练程度。
同时,光大银行每
个月还对科技人员进行电话通讯测试,保障在应急期间相关人员的通讯畅通。
2. 灾备建设与管理过程的问题与挑战
(1)随着应用系统数量和业务量的发展以及虚拟化等新技术的运用,同城双活数据中心对网络的接入能力、可靠性和性能都提出了更高的要求。
光大银行在2013 年对同城双中心新一
代网络架构进行升级改造解决了此问题,采用二层多路径技术大大提升了同城双活数据中心的
扩展性、稳定性和性能,消除“生成树”协议扩展性差、故障恢复时间长的缺陷,网络设备互
联的可用带宽提高了4 倍,网络故障恢复时间由原来的秒级(最长几十秒)缩短到毫秒级(最
长几百毫秒),大大提升了IT 系统整体的稳定性;采用高万兆端口密度设备有效的支撑了云
技术和大数据等新技术的应用;采用高性能、低延时设备提高了业务处理效率;采用松耦合的DWDM 架构以及多家运营商线路保障了同城双活数据中心互联的稳定运行;采用交换机板卡延伸及时降低网络综合布线的复杂度、成本以及能耗。
(2)同城双活数据中心最大风险点在于双中心互联的多条裸光纤线路。
如果裸光纤同时中断很可能导致所有业务中断,影响极大。
为避免该风险,光大银行采用了多套完全独立、相互
没有关联的DWDM 设备,每套DWDM 发生故障时不会影响其他设备的正常运行。
此外,为避免单一运营商出现大面积故障的风险,光大银行租用了三家以上运营商的裸光纤,最大程度消除了
同城互联链路和设备故障的风险。
(3)生产及灾备数据中心在建设时受外部公共资源供给和服务能力制约,如双路市电难以申请,水电容量受到严重制约,建筑物内通信管井受单一运营商垄断无法实现冗余,裸光纤资
源不足难以满足高带宽通信需求,运营商线路稳定性不足,分支机构通信保障存在潜在风险,
无法提供全面的网络攻击防护服务,运营商设备老化稳定性差等问题。
建议国家和地方政府协同公安、通信等部门对银行业生产、灾备数据中心建设提供政策倾斜,为银行科技安全提供保障。
四、灾备体系下一步建设与管理构想
随着近年来数据中心规模的快速增长,光大银行积极探索灾备体系下一步建设方向与管理思路。
一是逐步落实分行灾备体系。
随着应用系统进一步上收及私有云建设,光大银行分行科技保障主要集中在网络及机房层面,在未来三年将建成所有分行网络级同城灾备。
二是基于服务器虚拟化、网络虚拟化、存储虚拟化技术、同城数据中心网络双活架构等新技术的运用,积极探索多活数据中心。
依托云技术对基础设施、网络、存储和服务器等资源性设施等方面进行布局。
三是随着云计算在银行应用领域不断拓展,如何在云环境以及云与传统计算模式并存的环境下做好灾备建设与管理,也是光大银行下一步在灾备技术与管理方面的研究重点。
四是在目前存储级数据灾备体系的基础上,增加数据库级灾备数据保护,防范数据库逻辑错误带来的运行风险,保护账务、客户、交易等重要业务数据。
五是深化灾备演练,将系统破坏性场景作为推动预案的重点,对重要系统制定最低运行恢复场景的测试及演练;加强数据恢复测试管理工作,防范因备份环境出现故障导致无法切换的风险,确保科技最后一道风险防线的有效性。
光大银行灾备体系的建设在风险可控的前提下,积极探索新技术在灾备领域的应用。
“两地三中心、大同城小异地”的灾备模式,符合光大银行现阶段的发展要求,达到了“同城保发展、异地保生存”的建设目标。