工商银行上海数据中心灾备系统运维实践

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

工商银行上海数据中心灾备系统运维实践

、“两地三中心”建设历程

工商银行于1999年开启了数据中心集约化建设的先河,在北京、上海分别建设两大数据中心后,于2002年1月在国内同业率先启动了主机灾难备份工程。经过多年的建设和持续投入,已经实现了高等级的核心系统灾备体系建设,完成了全行应用分等级灾备体系建设。为进一步提升信息系统灾难恢复能力,工商银行启动了“两地三中心”工程建设。根据规划,2014年将在上海嘉定建立同城数据中心,与上海外高桥数据中心构成同城双中心,同城双中心整体与北京异地灾备中心组成异地灾备模式(如图1所示)。

“两地三中心”模式可以满足不同灾难场景下的恢复要求,实现更灵活的风险应对。在架构布局上,上海同城双中心具备基本相同的业务处理能力并通过高速链路进行实时数据同步,两个中心之间距离约55千米,日常情况下可按主/ 备或双活模式运行。在发生区域级灾难某个中心失效时,可在基本不丢失数据的情况下进行双中心间的应急切换,保持业务连续运行。北京异地灾备中心用于同城双中心的灾难恢复,当出现因大范围自然灾害等原因导致同城双中心同时失效时,异地灾备中心可以用灾备系统接管全行核心业务。

二、“两地三中心”技术手段和实施策略

工商银行通过技术攻关,完成了“两地三中心”模式下的信息系统业务连续性架构设计和方案研究,提出了可以提供多层级业务连续性保障水平的解决方案。信息系统可以给银行业务应用提供A/A、A/Q和A/S等多种部署模式,最终以业务影响分析结果作为应用部署模式选型的决策依据。

在具体实施中,工商银行坚持“全面覆盖基本保障能力、重点针对关键核心应用部署高等级灾备保障技术''原则,做好资源分等级和差异化配置。如ATM、POS、柜面业务、资本市场等核心业务系统是银行的关键应用,与其相关的应用系统就具有较高的业务连续性等级。自2010年工程启动以来,项目进展情况良好,完成方案规划设计和验证评审,在数据库复制技术全面推广、智能网管改造、55千米磁盘同步镜像等关键技术领域取得了突破;完成了核心主机并行系统投产,即双园区模拟同城双活的试运行,目前主机并行系统主要运行可分离查询交易,分流了部分核心生产系统的负载压力;完成13个开放平台应用服务器双活改造,预计今年将完成近50个开放平台应用的双活改造。同时,工商银行积极探索“两地三中心”运行模式,按照“一体化管理”原则,初步制定了“两地三中心"生产运行管理方案,并对组织架构和主要职能进行了规划。嘉定同城数据中心园区基建工程按计划推进,于2011年底奠基,2012年4月开工,2012年底8万平方米基建工程结构封顶,计划今年底机房楼交付使用,2014年嘉定同城数据中心园区建成启用,实现“两地三中心”的数据中心布局。

三、“两地三中心”安全措施

1.建立全面、系统、可持续发展的信息安全管理体系

①以安全、稳定、高效、追求卓越为安全方针建立具有工商银行特色的

ISO27001信息安全管理体系。数据中心(上海)于2011年通过了

ISO27001:2005 信息安全管理体系认证,实现在信息安全组织、资产管理、人员

安全、物理和环境安全、通信及操作管理、访问控制等11个方面130余个控制

点的全方位的信息安全管理体系。同时,建立起具有工商银行特色的支撑跨地

域统一管理的

ISO27001信息安全管理体系,主要包括信息安全制度管理、安全生产与运维管理、安全与防控技术管理、用户与人员管理、综合管理等五大方面共107项精细化管理制度。

②建设信息安全组织体系确保信息安全管理有效开展。数据中心成立了信息安全领导小组,作为信息安全管理最高管理机构,确定信息安全方针、目标和控制策略,明确信息安全的管理职责。信息安全领导小组定期或不定期召开联席会议,分析信息安全形势,研究中心信息安全管理薄弱环节及应对措施,贯彻落实监管部门、上级机构信息安全管理要求等。中心建立了纵、横向联系报告机制,及时掌握并报告本区域重大信息安全事件、案件线索或案件,提示风险,有效防控风险。

③信息安全管理体系随着工商银行和中心自身的发展、内外部安全形势的不断变化,与时俱进持续改进。主要措施包括:定期对人员、硬件、软件、数据与文档等各类重要资产所面临的风险进行评估,结合现有技术能力和管理成本,制定相关的补偿控制措施;利用有效的技术平台,通过完整、系统、及时的问题整改跟踪管理,将内外部审计检查发现的问题进行分析汇总,在督促及时完成整改的同时,不断挖掘制度漏洞和流程缺陷,及时完善管理体系;主动对生产故障事件、外部信息安全重大事件等进行分析研究,深入剖析问题发生和防控失效的深层次原因,进一步细化制度执行要求、强化技术硬控制、优化生产运维流程;积极与外部审计监管单位、各行业先进企业进行沟通,主动学习借鉴国际先进标准和业界领先经验,不断完善优化中心的信息安全管理体系。

2.生产运维安全措施多管齐下,确保生产稳定运行

①努力降低变更引发的安全生产问题。变更前通过变更评审会和变更协调会对高风险度变更和跨多个部门的变更进行评估和协调;变更中严格按照双人复核提交方式进行变更操作;变更后及时开展技术和业务验证。根据应用等级和对外服务时间严格控制变更窗口,严格控制紧急变更。将环境搭建和版本升级准备等相关变更活动限制在与生产环境隔离的区域,进一步降低变更操作风险。

②持续完善应急管理。制定完备的应急和灾备演练计划,开展层次丰富的各类演练,及时总结演练过程发现的问题并加以改进,定期开展南北两地互相远程接管演练等。

③建立了涵盖主机、网络、平台、UPS、应用、安全等各领域的集中监控报警平台,统一了监控报警事件的处理流程,使得各类报警能得以快速处理。

④定期对生产事件进行总结分析,找到问题根源和解决方案,避免事件的再次发生和深层次安全隐患。建立完善的事件沟通机制,通过每日、每周及不定期专项会议将相关事件发生原因、处理过程、改进措施等进行分析总结,举一反三防微杜渐。

⑤高度重视性能容量管理,建立了覆盖操作系统、数据库、中间件、网络、存储、动力、应用等领域的较为全面的性能容量指标和监控系统及指标阈值和报警规则,并结合实际生产情况、版本变化定期进行全面的指标梳理。定期开展性能容量统计分析,根据分析结果进行相应扩容、改造或资源回收。

⑥进一步完善运行操作管理,提高批量操作自动化水平,减少人为干预。通过专业系统对操作步骤制定、修改、发布、执行过程记录等进行信息化、流程化、自动化管理。实现了管理严谨、操作有序的安全生产目标。

⑦以“知其所需、最小授权、唯一鉴别、有效控制”为原则,进行各类用户权限的划分和按需发放,通过细致的访问控制,降低操作类安全事件发生的可能性。

⑧进行严格的网络区域划分,实现生产与外部网、生产与办公网的隔离。在接入网和互联网区域网络边界部署入侵检测防护设备,实现对攻击事件、DOS/DDOS事件的检测和防护。

⑨通过技术手段严格落实数据访问、数据变形、数据传输、数据恢复、数据清理、数据销毁等数据管理各环节的安全管理要求。同时建立完善的客户端安全技术防护体系,包括防病毒管理、系统补丁管理、软硬件管理、外发邮件管理、

相关文档
最新文档