大型商业银行数据中心一体化运维管理实践
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大型商业银行数据中心一体化运维管理实践
作者:张家文
来源:《中国金融电脑》 2015年第3期
随着信息技术与银行业务的深度融合,信息系统安全稳定运行牵动着每个人的神经。
金融
需求越旺盛、银行业务发展越快,数据中心运行异常的损失和后果就越严重。
近年来,各银行
对数据中心投入巨大,从人力、资源和技术储备上向科技倾斜,然而,数据中心的稳定性始终
难以令人放心,业内重大安全事故屡次发生。
在当前金融需求极度旺盛,云计算、大数据等新
兴技术不断涌现的新形势下,保障数据中心安全生产运行,已不只是科技部门内部的技术问题,而应该从全行战略层面审视,建立从战略到战术,再到执行层面上的一体化管理体系,夯实运
维基础,实现安全生产长治久安。
一、面临的问题和挑战
国内大型商业银行的信息系统每天承载的交易量超2 亿笔,峰值近2.7 亿笔,电子银行交易占比近80%,并高速攀升,系统稳定运行的压力巨大,数据中心生产运行面临多重典型问题
和挑战。
1. 典型问题
一是架构复杂。
当前国内大型商业银行基本上都实现了全国数据大集中,在信息系统架构
上实现了“全国一网、一网打尽”。
信息系统的软硬件环境涉及的技术平台复杂,厂商众多,
系统的I/O 瓶颈难以消除,扩展性差。
由于缺少跨越多平台的集成解决方案,数据中心安全生
产运行在技术层面受到制约。
二是整体性能难以保障。
除了核心系统部署在主机平台外,还有几百个外围系统部署在开
放平台环境,基础软件平台和数据库系统的多样性客观存在。
异构的数据库、Java 层、消息层和Web 层很难整体调优。
特别是近年来虚拟化技术的广泛应用,在虚拟环境下,整体性能不高
且不可预测。
三是整体可用性难以保障。
就像神话中的“阿喀琉斯之踵”,虽然生产系统在设计之初即
考虑了各个环节的架构冗余,但是由于异构环境存在,单点风险依然不能根除。
基础环境、系统、网络、应用等任何一个环节的不稳定,最终都可能对整体可用性造成影响。
四是运维管理复杂。
数据中心安全生产水平,依赖于开发、测试、运行以及业务、风险管理、支持保障等多个部门的整体表现。
在实际运维工作中,运维职能难以清晰界定,信息系统
问题的诊断、解决过程复杂,不同厂商产品升级与补丁流程不同,客观上增加了运维管理的难度。
2. 面临的挑战
IT 运行的基本目标是稳定和安全,核心目的是为业务服务。
在银行业务蓬勃发展的新时代,银行的数据中心迎来多重挑战。
一是自身运维保障水平的挑战。
系统异构现状下,业务连续性和高可用性建设是数据中心
的运维保障重点。
潜在运行问题分析和规避能力、问题快速定位和解决能力等,都是对数据中
心运维保障水平的极大考验。
二是来自业务的挑战。
银行业务竞争日益激烈,客户对银行服务中断和性能问题容忍度较低。
业务需求已由单纯的“IT 实现和支撑”,转变为“灵活支持业务发展”,“平稳应对业务量持续及爆发式增长”,“用户体验透明、可掌控”等全方位需求。
新形势下,如何实现业务
需求与IT 管理量化对接,是对数据中心的严峻挑战。
三是IT 基础架构和基础设施的调整。
数据中心建设耗费巨大,且设施空间难以扩展。
数
据中心基础架构复杂度不断增长,服务器数量急剧增加,机房能耗快速攀升,对数据中心机房
空间优化和基础设施容量扩展能力,带来了巨大挑战。
四是IT 变革和创新的挑战。
近年来,IT 变更和创新持续推进,虚拟化、云计算、大数据
等新技术不断涌现,集中化、标准化、绿色环保、智能数据中心概念相继提出,既是数据中心
前进的方向,也是严峻挑战。
二、基于一体化运行的运维管理实践策略建议
商业银行业务目标是提供愉悦的客户体验,包含服务、产品、流程和IT 自身。
农业银行
数据中心在全行“科技先行”发展战略的指引下,始终坚持以服务业务发展为宗旨,以安全生
产为第一要务,按照一体化生产运行的思路,全面推行运行精细化管理,提升安全生产水平。
基于农业银行多年实践经验,参照业界经验,建议如下。
1. 机构设置
商业银行信息科技工作包含科技规划、开发、测试、运行等环节,各环节环环相扣,相互
促进又相互制约。
目前,业界通行的做法是“一部两中心”的管理架构和“两地三中心”的灾
备架构。
农业银行做法和业界通行做法类似。
(1)“ 一部两中心” 的管理架构
IT 条线内按照统筹规划、软件开发、生产运行职能设立相互独立的专业部门,形成分工合理、职责明确、相互制衡、报告关系清晰的组织结构。
统筹规划部门主要负责中长期科技发展
战略规划;制订科技项目建设计划和资源配置计划;构建信息科技制度体系;统筹协调科技条
线内各部门工作;指挥重大项目投产和突发事件处置;承担安全管理与质量管控。
软件开发部
门主要负责全行信息系统应用软件的研发,同时承担应用系统运维的二线支持工作。
生产运行
部门主要承担全行信息系统安全生产运行职能,实施日常信息系统运行维护和管理,对全行日
常生产、应急和灾备实施一体化管理。
(2)“ 两地三中心” 的灾备架构
为满足“重要业务恢复时间目标(RTO)不得大于4 小时,重要业务恢复点目标(RPO)不
得大于半小时”的监管要求,总行确立“两地三中心”的灾备模式,即数据中心、同城灾备中
心和异地灾备中心(如图 1 所示)。
对于数据中心园区级的灾难事件,采用同城灾备解决方案,实现60 分钟内灾备恢复。
目前,农业银行同城灾备中心正在建设中,预计2016 年投入使用。
针对发生概率低、故障影响范围大的区域性灾难事件,采用异地灾备解决方案,实现2 小时内
灾备恢复。
2. 制度规范建设
生产运行工作具有繁琐、重复、技术性强的典型特征,牵涉面广,风险度高。
对技术工作
和技术人员的管控仅靠“行政式管理”往往事倍功半,顾此失彼。
正所谓“三分技术、七分管
理”。
只有建立起一套权责清晰、分工明确、规制适度、流程顺畅的制度规范,才能把管理者
从繁琐的运维事项中解放出来,也使各级技术人员明确工作定位和行动方向,有章可循,有据
可依。
根据管理的层级和颗粒度的不同,运行管理规范分为制度、流程和操作规范三部分(如
图2 所示)。
(1)制度体系
在建立运行制度体系时,宜遵从整体规划、急用先行的原则,首先建立统一的安全生产管
理办法,作为纲领性制度,明确安全生产相关各方的职责分工。
以此为基础,逐步构建全行生
产运行制度框架体系,全面覆盖日常运行、应急管理和灾备管理,优先制定日常值班、事件、
问题、变更、应急、供应商等管理制度,还应建立基础环境、生产网络、系统维护、运行操作、数据安全、生产调度等各专业领域实施细则,形成比较完善的生产运行规章制度体系。
(2)流程标准
业界成熟的经验是参照ITIL 的思路,引进ISO20000 等IT 服务管理国际标准,实现了
人员、流程和技术的统一管理。
多家银行借鉴ISO20000 标准体系方法,构建运维管理流程,
从单纯技术运维,向注重为业务经营管理高效服务转变,从而建立起主动的、以预防为主的生
产运行管理体系,全面提升风险防控水平。
值得注意的是,银行在引进ISO20000 等国际标准时,切忌简单地“拿来”套用,必须结合本行实际,因地制宜,避免“水土不服”。
分行条件不成熟时,也可先引进核心流程。
通过标准流程建设,实现日常每项工作有流程、留痕迹、可
审计,生产运行工作真正由经验型逐步向制度化、规范化、标准化转变。
(3)操作规范
针对日常运维的各项操作,应研究其科学、高效、安全合理的操作步骤和方法,并固化成册。
农业银行的运维操作规范分两个层面构建,总行层面的操作规范覆盖主机、开放、网络、
应用、环境、作业专业,包含所有日常运维例行操作项。
分行层面的操作规范由总行统一编制,各行运维操作标准统一、规范一致。
操作规范的建立,能够有效防控运维操作风险,减少操作
失误,也为员工培训积累了第一手宝贵技术资料。
3. 应急管理
随着近年来银行数据集中和系统整合,运行风险高度集中,信息系统运行异常极易造成区
域性或全国性的影响。
为有效应对信息系统突发事件,应贯彻“优先恢复系统对外服务”的理念,构建以“快速响应、快速定位、快速处置”为核心的“三快”应急体系。
(1)快速响应
当发生问题后,所有技术支持人员,包括第三方技术人员必须在第一时间快速响应,在最
短的时间内,以最快的速度到达规定岗位,不得延误。
保障快速响应的关键是建立反应灵敏、
执行力强的应急组织,主要机制包括:监测预警机制、突发事件分级分类标准、应急响应规范、突发事件处置与报告流程等。
(2)快速定位
对发生的异常应在最短时间内分析判断出问题的具体位置、引发原因、影响范围、危害程
度等。
减少误判,避免在情况不明、原因分析不透的情况下,草率定位,引发更为严重的人为
失误。
保障快速定位的关键是提高技术人员的技能水平,主要机制有:标准流程体系建设,知
识储备机制(案例库、知识库建设),重大事件分析会机制,配置库建设,技术平台体系建设等。
(3)快速处置
按照“优先恢复业务服务”的理念,运维人员在最短时间内协同各方,综合方案,果断处置,将风险和影响降至最低程度。
保障快速处置的关键是决策及时、清晰,处置操作高效、准确,主要机制有:专家决策机制、应急场景库和应急预案建设、定期应急演练机制等。
“三快”应急体系的建立需要管理、技术和资源三者高效融合,从组织体系、制度规范、
知识管理、支持保障和技术平台多方面发力,预防为主,平战结合,提升安全生产应急管理水平。
“三快”应急体系框架示意如图3 所示。
4. 日常维护
信息系统的日常维护工作点多、面广、重复度高,任何一个细小的维护和操作事项,都潜
藏着巨大风险。
围绕7×24 小时不间断运行的保障目标,做好日常维护工作,既要统筹安排,
加强计划,合理控制维护的节奏和频率;又要突出重点,谨慎操作,严控变更和操作风险。
一是加强计划统筹。
总行制定全行统一的例行维护时间窗口和投产变更窗口,所有例行维
护和重要变更都纳入窗口内实施。
每年年初制订维护计划,各专业严格按计划实施维护。
维护
期间,增加技术保障力量,重点保障。
二是严控投产、变更风险。
抓住新产品投产和生产变更这个最易引发运行事件的风险因素,建立一套业务、开发、测试、运行多部门参与、覆盖变更全生命周期的管理机制,实行变更分
级分类管理和应急保障,规范变更操作管理,避免随意操作、越权操作等不合规操作行为,防
范操作风险。
三是突出保障重点。
节假日、重要活动、重大维护、交易高峰等特殊时期,都是重要运维
保障期。
运行部门应安排专人分析估算各系统运行趋势,提前安排骨干值班、健康检查、监控
巡检等工作,确保重点时段、重要业务得到重点保障。
四是大力推行运维自动化。
商业银行IT 系统复杂,体量巨大,仅靠有限的人力手工操作,无法满足运维需要。
必须引入监控诊断系统及时发现、处置故障隐患;操作维护系统实现自动
化的软件发布、作业调度和系统巡检;指挥调度系统记录跟踪事件处理流程和执行结果,提高
处置效率。
5. 一体化建设
数据上收总行以后,分行的信息科技工作极易被弱化,分行对总中心的工作可能产生依赖
思想。
实际上,在银行数据大集中的背景下,一旦关键节点出现故障或受到攻击,极可能引发
连锁反应,波及全行,造成区域性或全行性异常。
因此,数据上收后不能一收了之。
不仅要确
保总中心的生产安全,更重要的是要保障各分中心、各个节点的安全运行。
全行执行统一的运
维标准和要求,横向到边,纵向到底,一体化管理。
在一体化建设中,既要理顺IT 规划、开发、测试和运行部门的工作关系,又要保障总分行贯串一体,集中管理、分级负责。
一是一体化的流程规范。
要建立全行统一的运维管理流程和操作规范,明确具体工作的操
作流程、方法、步骤和要求,减少歧义,从根本上消除分行运行工作各行其是、各自为政的局面。
二是一体化的调度机制。
要建立“运维指令单”机制,统一全行生产运行调度,布置运维保障任务,提示生产运行风险。
指令一旦下发,必须强制执行,令行禁止,实现“准军事化”管理。
三是一体化的应急体系。
分支机构突发事件第一时间报告总行,总行从全局出发,发挥统筹优势,统一调配人、财、物资源,集全行之力共同处置。
四是一体化的交流平台。
要建立全行运维工作交流平台,按期通报生产运行情况,研究解决突出问题,总结全行生产运行管理、工程建设和应急处置经验,供全行参考学习。
五是一体化的质量管控。
总行统一组织生产运行质量考核,制订科学的考核标准,准确把握生产运行工作的薄弱环节,督促提高全行生产运行质量。
6. 供应商管理
我国金融机构在系统开发、机房建设和运维支持等方面大量采用外包服务,特别是操作系统、生产网络、机房设备等基础环境运维,部分商业银行受人力限制,交由第三方机构负责,供应商管理能力的强弱一定程度上决定了该行信息科技服务水平。
供应商管理应做到以下几方面。
一是要慎重选择供应商,对供应商的产品和服务质量、突发事件处置能力进行全面评估,审查供应商服务人员的资质、经验和能力,保持服务人员的相对稳定,建立供应商退出机制。
二是要加强供应商日常管理,不能当甩手掌柜,一包了之,要明确供应商服务的流程、要求,监督、记录服务实施情况,定期核查供应商备品、备件库存状况是否满足生产运行需要。
三是要强化供应商考核,组织供应商回顾、分析产品运行、服务情况,跟踪、督促供应商落实整改,造成业务服务异常或经济损失的事件,必须严厉追究有关供应商责任。
四是要注重引进和培养本行专业人才,供应商由于不了解商业银行应用软件的技术细节,在解决复杂问题时往往会无从入手,本行技术人员应有效发挥沟通和监管作用。
三、几个待探讨的问题
“冰冻三尺非一日之寒。
”安全生产并非一蹴而就,必须从细节入手,长期坚持。
目前,国内银行数据中心普遍存在成本快速增加、资源管理日益复杂、信息安全、能源危机等问题,打造“高效率、低能耗,高整合、低占空,高可用、低风险” 的绿色数据中心,成为业界讨论的热门话题。
在实践中,仍然有以下几个关键问题,需要大力研究与破解。
一是“日常”与“应急”。
日常运维强调遵规守章,按流程办事,以避免操作风险。
应急管理针对突发情况,强调“ 三快”,必须打破常规,以追求最快恢复。
如何实现二者的辩证统一,需要继续摸索。
二是“稳”与“变”。
稳定是运维保障的目标。
为保障稳定运行,日常运维中又需要大量变更,每一次变更都给生产系统带来一次运行风险。
合理平衡“稳”和“变”的关系,严控变更运行风险,是需要大力研究的课题。
三是“IT 国产化”问题。
目前业界信息系统对国外IT 垄断巨头依赖过高,国内技术发展水平又难以满足当前需求,“IT 国产化”的目标一时还难以实现。
在此背景下,如何从战略和宏观层面,保障国家信息安全,有待研究讨论。