工商银行上海数据中心灾备系统运维实践
银行数据中心IT运维服务-体系建设最佳实践
银行数据中心IT运维服务体系建设最佳实践银行省级数据中心IT 运维服务体系建设,应包含运维服务制度、流程、组织、队伍、技术和对象等方面的内容。
同时结合银行的业务特色,整合运维服务资源,规范运维行为,确保服务质效,形成统一管理、集约高效的一体化运维体系,从而保障银行数据集中条件下网络和应用系统安全、稳定、高效、持续运行。
一、运维服务体系建设原则运维服务体系建设的原则有以下几个方面。
一是以完善的运维服务制度、流程为基础。
为保障运行维护工作的质量和效率,应制定相对完善、切实可行的运行维护管理制度和规范,确定各项运维活动的标准流程和相关岗位设置等,使运维人员在制度和流程的规范和约束下协同操作。
二是以先进、成熟的运维管理平台为手段。
通过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运维事件的全面采集、及时处理与合理分析,实现运行维护工作的智能化和高效率。
三是以高素质的运维服务队伍为保障。
运维服务的顺利实施离不开高素质的运维服务人员,因此必须不断提高运维服务队伍的专业化水平,才能有效利用技术手段和工具,做好各项运维工作。
二、运维服务体系的总体架构运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以及运行维护对象六部分组成,涉及制度、人、技术、对象四类因素,其总体架构如图1 所示。
制度是规范运维管理工作的基本保障,也是流程建立的基础。
运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。
1. 运维服务制度和流程为确保运维服务工作正常、有序、高效、协调地进行,需要根据管理内容和要求制定一系列管理制度,覆盖各类运维对象,包括从投产管理、日常运维管理到下线管理以及应急处理的各个方面。
此外,为实现运维服务工作流程的规范化和标准化,还需要制定流程规范,确定各流程中的岗位设置、职责分工以及流执行过程中的相关约束。
中国工商银行数据中心(上海)是中国工商银行总行为进一步
中国工商银行数据中心(上海)社会招聘岗位 岗位名称 岗位职责工作地点 相关要求 开放平台 数据库管理 负责对Oracle/MSSQL/Teradata 等开放开放平台数据库的生产运行维护,协助进行开放平台版本投产工作,对大型数据中心必备的数据库系统进行维护和改进。
上海/北京 1、全日制高校本科以上学历,计算机或软件工程相关专业;2、3年以上大数据运维工作经验,精通熟悉Hadoop相关技术,具有MySQL 开发维护经验;3、具有Oracle 数据库OCP 、OCM 认证者优先。
开放平台存储管理负责对开放平台集中存储备份系统进行生产运行维护,深入研究存储虚拟化、大批量备份及灾备相关技术,并对存储备份生产运维方式进行改进。
上海/ 北京 1、全日制高校本科以上学历,计算机或相关专业;2、3年以上开放平台系统维护经验,熟悉主流操作系统运行维护操作与管理;3、3年以上集中存储管理经验,熟悉主流存储产品技术及虚拟化技术,有为虚拟化平台进行存储架构设计经验者优先;4、熟悉数据备份技术和数据容灾技术,有独立设计或参与设计开放平台数据容灾方案经验者优先。
开放平台操作系统管理 负责AIX/SUSE/WINOWS 等开放平台操作系统的生产监控及运行维护,参与开放平台应用投产及项目实施,对大型数据中心必备的操作系统进行维护和改进。
上海/ 北京 1、全日制高校本科以上学历,计算机或相关专业; 2、3年及以上Linux 操作系统或Vmware 平台运维经验,有存储、数据库(oracle )、中间件(was )运维经验者优先;3、2年及以上开放平台主流硬件或网络运维经验,有为大型数据中心进行虚拟化基础架构设计经验者优先。
电力系统 负责110KV 、35KV 变电站供上海 1、全日制高校本科及以上学历,强电相关专业;。
工商银行机房运维工作内容
工商银行机房运维工作内容
工商银行的机房运维工作内容包括以下方面:
1. 机房设备维护:负责对机房中的服务器、存储设备、网络设备等硬件设备进行定期维护,保证其正常运行,如系统巡检、硬件巡检、设备清洁等。
2. 数据库管理:负责数据库的安装、配置、备份、恢复和性能调优等工作,避免数据库出现故障或数据丢失。
3. 网络管理:负责网络设备的配置、监控和维护,确保网络的稳定和安全运行,处理网络故障和网络优化等问题。
4. 服务器管理:负责服务器的安装、配置、监控和维护,保证服务器的正常运行,处理服务器故障和服务器性能优化等问题。
5. 安全管理:负责机房安全管理、防火墙配置和维护,定期进行安全漏洞扫描和修复,确保机房的信息安全。
6. 系统更新与升级:负责对机房中的操作系统和软件进行定期更新和升级,保持系统的安全性和稳定性。
7. 故障处理:负责及时处理机房中的设备故障和系统故障,快速恢复系统正常运行,同时做好故障记录和故障报告。
8. 值班监控:负责对机房的监控系统进行日常巡查,及时发现和处理异常情况,确保机房安全和稳定运行。
9. 数据备份与恢复:负责对机房中的重要数据进行定时备份,并做好数据恢复测试,保证数据的完整性和可用性。
10. 文档管理:负责编写和更新机房维护文档、操作手册和技
术文档,确保工作的规范性和持续性。
以上是工商银行机房运维工作的常见内容,具体工作内容可能会根据不同的银行和机房情况而有所差异。
数据中心机房基础设施智能化运维实践
数据中心机房基础设施智能化运维实践本文结合工商银行数据中心在机房基础设施智能化运维的相关实践,研究了机房智能巡检机器人、设备资产定位等技术在应用时的关注点,重点强调了系统对接与数据交互的重要性,并对技术领域内基于AI 降低能耗的技术应用、数据中心基础设施管理平台建设等进行了展望。
近年来,秉承工商银行“科技引领、价值创造”的工作思路,工商银行基础技术实验室自成立之初即将“绿色”和“智能”作为创新主题,在机房基础设施领域始终坚持“节能”与“智能”双效并重。
然而,机房基础设施智能化运维作为专业知识、运维场景知识、人工智能等新技术知识三者交叉的综合性领域,对智能化成果的研发与应用均提出了极高要求。
实践中,工商银行基础技术实验室以实际场景为切入点,从重复性较高、人力投入较大的工作入手,将物联网、人工智能等新技术与运维场景匹配,先后完成了机房智能巡检机器人、设备资产定位等技术的试点研究,并拟将新技术逐步推广至其他智能化运维场景。
一、机房智能巡检机器人应用难点及经验总结工商银行基础技术实验室从2017 年开始研究机房智能巡检机器人,并于2019 年年底成功将一台根据数据中心需求定制的机房巡检机器人部署于工商银行数据中心嘉定园区,如今该巡检机器人已正式投产运行,同时逐步在工商银行多家一级分行的机房中推广使用。
总体而言,机房智能巡检机器人可替代人工进行重复性的现场巡检工作,借助高清工业相机,透过机柜网孔门对机柜内的服务器设备、网络设备的状态灯进行识别。
此外,机房智能巡检机器人也可看作是多种传感器的移动综合体,可用于采集机房温湿度、洁净度以及机柜红外热成像、机房噪声等环境参数,并将上述机房环境参数进行大数据分析。
结合实践经验来看,尽管机房智能巡检机器人是业界关注的热点应用,但后续应用仍面临以下难点。
一是机房智能巡检机器人的应用场景较少。
随着远程监控手段的不断完善,数据中心对服务器设备进行现场巡检的必要性越来越低,未来人工巡检可能更多被作为远程监控的有效补充。
工商银行上海数据中心备份方案解析
一、中国工商银行上海数据中心数据备份和恢复的需求中国工商银行上海数据中心(以下简称上海数据中心),每天需要对VSE/ESA生产主机和OS/390生产系统上的生产和系统数据进行备份,包括批处理前和批处理后的数据备份。
上海数据中心每天需要从8个VSE/ESA系统和8个OS/390系统上的数百个3390-3型磁盘卷上备份大量VSAM文件(业务数据) 和备份磁盘卷的整卷数据。
现在,每个VSE/ESA生产系统的每天的数据备份量达200盘3490E 磁带,其中有60盘左右为对磁盘卷的备份。
为了不间断业务运行,缩短批处理时间,不影响生产运行。
上海数据中心对数据备份操作的要求是:∙确保数据安全性和完整性。
∙缩短备份时间,减少由于备份对业务的中断。
∙如果需要进行数据恢复时,恢复操作要准确、迅速,时间短。
∙备份和恢复操作要简捷,便于操作员的日常使用。
为了将数据备份时间缩短到最小,上海数据中心希望利用磁盘快速复制技术,或者虚拟磁带系统来快速完成备份操作。
上海数据中心最终备份的的数据是VSAM文件。
单个文件的数据量不大,但是文件数量众多。
对这种类型数据的备份和恢复,虚拟磁带系统(VTS)技术将是最好的解决方案。
上海数据中心最终利用StorageTek公司的、运行在OS/390操作系统上的HSC和VTCS软件,配合以运行在VSE/ESA操作系统上的、MT Consultant公司的LMS/VSE软件来完成这些备份任务的。
、方案介绍由于上海数据中心需要备份的数据量庞大,将来的备份磁带数量一定很多。
因此,上海数据中心应该采用自动磁带库来管理备份磁带。
并采用物理磁带及和虚拟磁带机相结合的数据备份和恢复技术,来提高数据备份的效率和存储空间的利用率。
9490磁带机与3490E磁带机完全兼容,采用IDRC压缩和3490E E-cart,单盘磁带的容量为2.4GB。
由于上海数据中心的磁盘卷大多数为3390-3 型,容量为2.89GB,将占用2盘3490E E-cart磁带。
工商银行建立两地三中心双活数据中心
光大银行打造互联网金后 ,6 月2 6 日由该行推荐 的首款
“ 百赚 1 8 直以来都本
着 “ 开 放 、合作 、共赢 ”的宗 旨 ,积 极与互联 网企业开 展
由于海外业务增长迅速工商银行已在亚洲欧洲美洲大洋洲40个国家和地区设立机构工商银行希望在夜问也不中断服务gdps活解决方案将能够在几分钟内实现生产中心切换从而帮助工商银行实现无论在白天还是夜间能够为全球客户提供几乎不问断的服务
赞 l
工商银行建立两地三中心双活数据 中心
本刊讯 日 前 ,工 商银行两地三 中心双活数据 中心成功建成 ,该两地三 中心采用G D P S / 双活解决方案 ,可实现实施核 心 业务双 中心切 换运行 ,具有全球银行 业 内最领先 的业 务连续性和灾难恢复能 力 。双活数据 中心的成功投产极大 减少了工商 银行 计划内和计划外停机 的时间和 次数 。例如 ,由于硬 件 、中间件或应 用升 级 ,银行不得不 在夜间暂停服 务数 小时 ,进行 系统升级 ,这种计 划内停机 占银行停机时间 的9 5 %。由于海外业务增长迅速 ,工商银行 已在亚洲 、欧洲 、美洲 、大洋 洲4 0 个 国家和地 区设立机 构,工商银行希望在夜问也不 中 断服务 ,G D P S  ̄ 活解决方案将能够在几分钟 内实现生产 中心切换 , 从而帮 助工商银行实现无论在 白天还是夜间能够为全球客户提供几乎不问断的服务 。
资源 调度 、金 融数 据安 全加 密 、有 线/ 无线 链路冗 余 等测
新型 交易方式 ,推进 建立小额 、便捷 、灵活 、多元 的投 融
资机 制 。
试工 作 。验 证工 作 非常 顺 利 ,为 建行 全行 推 广提 供 了可
靠 的数 据支 持 。
据 介绍 ,全 国 中小企 业股 份转 让 系统 是 经 国务 院批
工商银行灾备及生产运维体系建设
工商银行灾备及生产运维体系建设作者:钱斌来源:《中国金融电脑》 2016年第1期工商银行在数据中心建设运营过程中始终坚持“安全生产运行第一”和“第一时间恢复生产”的指导思想。
近年来,工商银行信息系统处理的业务量逐年攀升、屡创新高,手机银行等电子银行渠道已成为工商银行交易量的主要增长点,互联网和移动终端业务以及第三方支付业务快速发展,小额高频交易增长明显。
同时,随着互联网金融的蓬勃发展和客户需求的日益多元化,工商银行正在加快构建电商平台(融E 购)、直销银行平台(融E 行)和即时通讯平台(融E 联)三大互联网金融服务产品体系。
在此背景下,工商银行信息系统总体保持了安全稳定运行态势,核心信息系统主要业务时段可用率保持在99.99% 的较高水平。
本文重点介绍工商银行数据中心信息系统灾备管理的相关情况。
一、完成“两地三中心”灾备体系部署一直以来,工商银行高度重视并积极推动数据中心灾备体系和系统高可用性建设。
早在2004 年,工商银行就在国内同业中率先建立起“两地两中心”的数据中心异地灾备架构,并于2009 年启动“两地三中心”数据中心新架构研究。
2014 年6 月上海嘉定同城数据中心正式投产启用,在业界率先成功实现数据中心同城双中心全业务切换运行,标志着“两地三中心”工程初见成效。
工商银行信息系统灾备体系已达到了国际灾备标准SHARE-92 定义的七级水平和国务院信息化办公室《重要信息系统灾难恢复指南》六级的高灾备等级标准要求。
在此基础上,2014 年11 月工商银行首次采用临时通知的方式,成功实施同城核心系统切换运行,实施过程采用“一键式”切换工具,主机核心系统切换时间控制在分钟级;2015 年11 月,工商银行又成功实施了核心系统第三次切换运行,并在嘉定同城园区连续运行一周,验证同城环境的可用性,达到预期效果。
异地灾备方面,工商银行连续7 年采取临时通知方式组织实施全行业务级灾备应急切换和恢复演练,验证异地灾备部署的效果。
持续完善灾备体系建设,为业务拓展和服务创新保驾护航
根据权威机构统计 ,美国近l 年因遭遇灾难事件导 行家 》 “ 0 最佳业务连续性管理奖”等多项荣誉 。
1 FAcL oP E0 l 6 lNl Mu R F HA N Ac T cN
I I I 圈
3 .数据 中心灾备建设
( ) 机核 心 系统 灾 备架 构 1 主
_ I m
为遵| 步提君信息系统 灾难恢 复能办 I商银行积极研究 利用先进教本 启动 了
…
地三中 1 王程建设。裉 据规划L 辱 巴 . . 年拇在上海嘉 定建 直同城数据 中
两 与 上海铃高轿 数
据中 构成同城 双中心 ,圈城 双中心 整俸董托京异地灾备 中!缰 残舞地灾备模式 .
01 灾备切换 ,灾难恢复 系统可 以在2Jt 内接管全行核心 年启动了集 中式营运中心场地灾备建设工作 ,至2 1年 tl ' ̄ , 业务 ,最大数据丢失时间在2 分钟以内。 ( )开放平台系统灾备架构 2 底已完成包括牡丹卡 中心、资产托管部 、金融市场部 、 参数管理 中心 、电子银行 中心在 内的5 家在京总行业 务
工商银行各一级分行 中心机房部署 了通用 网关 、新 终端平台 、综合前置 、跨行支付 、中间业务平 台等业务
工商银行主机系统灾备架构 由生产 中心双园区数据 系统 ,目前 ,一级 分 行各 应 用 系统 均按 照 应用 系 统 灾备 热备系统和千公里级异地灾备系统组成。 等级标准要求建设 ,具备低灾备等级保 障能力。一级分
1 小时 内将所有主机业 务切换到备份园区运行 ,并确保 将 无 法开 展 。
数据零丢失。2 1年l 月 ,工商银行在国内大型商业银 01 2
为积极推动 完善工商银行全局性信息系统灾备技术
行 中首次 实现 了核心业 务系统在不 同园区间不停机切 体系建设 ,确保一级分行关键业务的连续性运行 ,工商 换运 行并接管业 务服 务 ,整个切换过程 对业务操作 完 银行于2 1 年启动一级分行 中心机房灾备设计项 目,针 00
《重要信息系统灾难恢复规划指南》解释
《重要信息系统灾难恢复规划指南》解释灾难备份与灾难恢复,对于中国金融业,并非一个崭新的命题。
然而,当金融业越来越依赖于信息系统开展业务及落实管理时,面对随时都有可能发生的自然或人为的灾难,做好数据备份、系统恢复及业务连续性管理,也变得越来越紧迫和重要。
于是,灾难恢复已经不只是信息技术部门关心的事,而是上升到金融企业掌门人需要给予高度关注的事。
那么,究竟应当怎样对系统的灾难性故障进行迅速的响应和处置?如何制定适合自身实际的灾难恢复规划?5月26日,在广东南海召开的“首届中国灾难恢复行业高层论坛”,为上述问题给出了答案,被业界称为中国灾难恢复行业里程碑式的重要会议。
这一论坛由中国信息产业商会信息安全产业分会主办、国务院信息化办公室支持、广东省地税局和GDS公司协办,集合了来自政府、行业、厂商、专家等各方人士,他们就在中国开展灾难恢复业务将面临的主要挑战和实战方法,展开了深入而切实的讨论。
同时,对于灾备建设中最重要的标准化问题,国务院信息化办公室借本次论坛对近日出台的指导文件《重要信息系统灾难恢复规划指南》,进行了宣讲和解释。
《指南》的来龙去脉“为加强对信息系统安全的管理,规范对信息系统灾难性故障的响应和处置,需要制定相应的对灾难恢复具有指导意义的规范性文档。
信息系统灾难恢复规划作为一项周密的系统,需要按照科学的流程开展规划和实施。
”国务院信息化办公室网络安全组王渝次司长在会上介绍了《指南》出台的来龙去脉,“考虑到灾备工作在我国刚开始起步,一些重要信息系统主管部门和运行单位感到缺乏经验,无从下手,迫切希望国家出台相应的工作指南。
2004年10月开始,国务院信息办组织中国人民银行等8个国家重要信息系统主管部门以及中办、信息产业部、北京市信息办、上海市信息委、广东省信息办、GDS公司等有关单位成立了《指南》起草组。
起草组既参考了有关国际标准,又结合了我国信息安全保障的实际情况,经过几个月紧锣密鼓的调研,终于于4月份出台了《指南》”。
数据中心智能运维体系研究报告及实践案例
数据中心智能运维体系研究报告及实践案例近年来,随着银行业信息化建设的快速发展,业务对信息系统的依赖程度越来越高,信息系统规模也随之越来越大。
与此同时,IT系统运维作为银行业务连续性的重要保障,也逐渐由最初完全依靠技术人员的个人能力,开始向流程化、标准化、自动化转变,而智能化运维更是成为未来发展的主流趋势。
简单来说,智能化即是指通过构建集“自我修复、自我维护”为一体的自动化故障处理系统,来实现“监控发现-问题定位-问题处理-问题解决”的处置闭环,进而在满足国家和监管机构合规性要求的基础上,保障各项业务的正常有序开展。
在此背景下,为适应全新的发展需求,辖内商业银行从当前的已知问题及监管要求入手,基于传统“监、管、控”三位一体的运维平台架构,以提高监控的智能化程度为抓手,试点开展了典型告警场景的自动化处置实践。
一、IT系统运维发展历程及现状研究从IT运维的发展历程来看,早期的运维工作大部分是由运维人员手工完成,但随着信息系统的快速扩张和人力成本高企,这种基于人工的运维方式逐渐难以为继,从而出现了自动化运维,即利用可被自动触发的、预定义规则的脚本来执行重复性运维工作,以减少人力成本、提高运维效率。
然而,伴随整个互联网业务的急剧膨胀以及服务类型的多样化发展,“基于人为指定规则”的专家系统也开始变得力不从心。
在此背景下,智能化运维(AIOps)的出现为商业银行提供了一种全新的解决方案,即通过将人工智能技术应用于运维领域,为自动化运维增加了一个基于机器学习的大脑,可指挥监测系统自动采集决策所需的数据并进行分析,进而使用自动化脚本去执行大脑决策。
综上所述,智能化运维即是一个将人工总结运维规则变为主动学习的过程,同时借助长期积累的运维和监控能力,对其规则配置部分进行自学习的“去规则化”改造,进而利用大数据、机器学习和其他分析技术,直接或间接地增强IT业务的预测分析能力,最终以更高的质量和更合理的成本,实现对所维护产品或服务的有效支撑。
数据中心运维操作标准及流程
数据中心运维操作标准及流程一、引言随着信息化时代的快速发展,数据中心在各行各业中起到了举足轻重的作用。
为了保障数据中心的安全和稳定运行,制定并执行科学合理的运维操作标准及流程显得尤为重要。
本文将深入探讨数据中心运维操作标准及流程的相关要点。
二、数据中心运维操作标准1. 机房环境管理数据中心机房是重要的基础设施,必须保持适宜的温度、湿度和通风条件。
运维人员应定期检查机房设备的运行状况,确保设备正常工作。
此外,机房内部的防火、防水等措施也需要符合安全标准。
2. 电力供应管理电力供应是数据中心正常运行的基础,为了保障数据中心的稳定运行,必须做好电力供应的管理工作。
操作标准包括电力设备的维护和检修、备用电源的应急准备以及电力消耗的监控等方面。
3. 网络与通信管理数据中心依赖于高效的网络和通信设备,因此,网络与通信管理是数据中心运维的重要环节。
运维人员需要保持网络设备的正常运行,监控网络性能并及时解决故障。
同时,加强网络安全管理,保护数据中心的信息资源。
4. 数据备份与恢复管理数据备份与恢复是保障数据中心业务连续运行的关键措施。
运维人员应根据数据的重要性,制定合理的备份周期,并确保备份数据的安全存储。
在数据丢失或硬件故障时,能够及时恢复数据是非常关键的。
5. 安全管理数据中心安全是运维工作的首要任务。
运维人员应定期进行安全漏洞扫描和风险评估,并采取相应的措施进行修复和防范。
此外,访问控制、监控录像等安全措施也需要得到有效执行。
三、数据中心运维流程1. 故障提报与记录当数据中心出现故障时,用户应及时向运维人员提报,并详细描述故障的症状和影响。
运维人员将按照事先制定的流程,记录故障相关信息,并进行初步的诊断与处理。
2. 故障分类与优先级确定运维人员将根据故障的严重程度和对业务的影响程度,将故障进行分类,并确定相应的优先级。
优先处理重要业务相关的故障,保证业务的连续运行。
3. 故障处理与修复运维人员根据故障分类和优先级,进行相应的故障处理与修复工作。
数据中心灾备服务
数据中心灾备服务一、简介在现代社会中,数据中心的安全性和可靠性至关重要。
尽管我们已经采取了各种安全措施,但无法完全排除灾难发生的可能性。
因此,为了确保业务的连续性和数据的安全,我们提供数据中心灾备服务。
本文档将详细介绍我们的灾备服务方案。
二、灾备策略⒈灾备目标●确保业务高可用性:保证业务在主数据中心无法使用时,能够快速切换到备份数据中心,并保持业务连续运行。
●数据安全和完整性:保证数据在灾难事件中不会丢失或损坏。
⒉主数据中心●位置:主数据中心位于(地点)。
●设备和设施:详细描述主数据中心的硬件设备,网络设备以及后备电源系统等。
●数据备份:详细描述主数据中心的数据备份策略,包括备份频率、备份存储介质等。
⒊备份数据中心●位置:备份数据中心位于(地点)。
●设备和设施:详细描述备份数据中心的硬件设备,网络设备以及后备电源系统等。
●数据同步:详细描述主数据中心和备份数据中心之间的数据同步方式和频率。
⒋灾难恢复流程●灾难检测:描述如何检测灾难事件的发生,并触发灾备流程。
●灾难切换:详细描述在灾难事件发生后,如何快速切换到备份数据中心,并将业务恢复正常运行。
●灾后恢复:描述灾后业务恢复的流程和步骤,包括数据一致性的验证和恢复。
三、服务协议⒈服务提供范围:详细描述我们提供的灾备服务的范围和内容。
⒉服务级别协议(SLA):定义我们的服务水平承诺,包括业务恢复时间目标(RTO)和数据恢复点目标(RPO)等。
⒊费用和付款条款:详细说明灾备服务的费用结构和付款方式。
四、风险管理和演练⒈风险评估:描述我们进行的风险评估方法和过程,包括灾难事件的可能性和影响程度评估。
⒉演练计划:详细描述我们进行灾备演练的计划和时间表,以验证我们的灾备策略和流程的有效性。
五、附件本文档涉及的附件包括但不限于:●主数据中心网络拓扑图●备份数据中心网络拓扑图●数据中心硬件设备清单●数据备份策略文档●灾难恢复流程图六、法律名词及注释⒈灾难恢复:在灾难事件发生后,采取措施使业务尽快恢复正常运行的过程。
全力以赴迎世博 责无旁贷保安全——数据中心(上海)切实做好世博会期间全行信息系统安全稳定运行工作
及应急 支持等生 产措施规 定都有 明确的
要求 。
加强 与上海市 分行 的沟 通协作 。世
博 前 夕 ,中 心 专 门 赴 上 海 分 行 电子 银 行
中心 进行 现场 交流 ,努力建立对 电子银
行等渠道服务类业务部门反映情况的快速
响应机制。世博期 间 ,中心将 梳理制 定
用 ,分析 并预测 了世博会期 间业务量 变化情 况 ,提前 做
全 力以赴迎世博
… … ~
责无旁贷保安全
数据 中心 ( 上海)切实做好世博会期 间全行信 息系统安 全稳 定运行工作
口 数据 中心 ( 上海 )/ 供稿
为 了确保 工商 银行在 世博会期 间提 供 “ 高效 、周 到 、优 质”的金 融服务 , 数据 中心 ( 海 )以高 度的责任 感和使 上 命感 ,加强组 织领导 、完善工 作机制 、
切实加 强人 员进 出生产楼 的管理 。编制 了 突发 事件人 员疏散 撤离和应 急防护
预案》 ,完善 了反恐防暴预 警机制。
1 21第 期 ( 第 8期 g7 创 00 5 总 25 )1 年 刊 4 8
侧 )、电话 银行 、金卡前置 等 重 要 对 外 服 务 的 应 用 系 统 。与此 同时 ,中心还认真 开 展重要 系统应急预 案梳理 和 应急演练 工作 ,仅 3 f 、4 l 份就 组织完 成6 轮 次的应 急 0 演练
经上海市政府安排 4 日武警部队战士进驻数据 中心 ( 月l 5 上海 j园区上岗执勤
数据 中心 ( 海 )成 立 了由总 经理 上 担任组 长的世博信 息 系统 安全保障 领导
CI T HA投产 以及境 内外金卡 加密机密
钥 同步等 工作 ,并 配合银联为 我行金卡 交 易建 立 了4 独立 的通 讯进 程 ,提 升 个 了系统的高可 靠性 。中心还组 织 了涉 及 机 房设施 、网络设 备 、主机 系统 、重要 开放 平台 系统 及主要 外联 系统 的踺康检 查 及容量评估 。对于 金卡 、外 卡 、网上 银行 、电话银 行 、通 用网关等 渠道类应
创新信息系统灾备体系建设 提升分行对外持续服务能力——工商银行成功投产一级分行中心机房灾备系统
统发生局 部故障 ,造 成生产机房 内
商银行 的信息 系统整体灾备体 系 ,
资源共享和整 合角度 ,充分利用各 部 分 柜 面业 务服 务器 设 备掉 电 ,该
提高分行 的灾 备应对 能力 ,工商银 分行的业务处理 中心等现有场地环 分行生产机房 的相关应用 自动 切换 行按照 国家标 准化管 理委员会 《 信 境 ,极大地节 约了资金投 入成本 。
助服务渠道 等关 键业务 的连续性运 机房例行演练 的长效机 制 ,通过 加
行 。 当一 级 分 行 现 有 生 产 机 房 发 生 强 管 理 与 技 术 改 造 ,进 一步 强 化 突 发 事 件 应 急 响 应 和 处 理 能 力 ,保 障 分 行 灾 备 系 统 在 关 键 时 刻 能 够 有 效
I l I 圈
创新信 息系统灾备体 系建设 提升分行对外持续服务能力
工商银行 成功投产一级分行中心机房灾备 系统
中国工商银行股份有限公 司信 息科技部
关 系 到 银 行 对 广 大 客 户的 服 务 能 力
和资金安全 。因此 ,我国监管部 门
高 度关 注 商 业 银行 的 信 息 系统 安
式 ,实 现 了 系 统 不 停 机 的双 园 区 业 务切换 。
“ 双活 ”改造 等多项复杂 内容 ,涉 了切实 增强。2 1 年底 ,工商银行 01
及 业 务 和 技 术 领 域 广 。在 分 行 备份 某 家 一 级 分 行 生 产 机 房 UP 供 电系 S
在 此 基 础 上 ,为 进 一 步 完 善 工 机房基础 设施 建设上 ,工商 银行从
行持续加 大投入 ,保障信息 系统安 上的柜 员业 务受理不 中断 ,自助服 系统的连续性运行。
数据中心大型主机智能化运维在探索中前行
数据中心大型主机智能化运维在探索中前行作者:王亚娟等来源:《中国金融电脑》 2018年第7期IT 运行的基本目标是稳定和安全,核心目的是为业务服务,如何改变大型主机传统的运维模式,结合分布式、大数据、人工智能等新兴技术的应用,提升主机运维的自动化、智能化水平,是大型主机运维人员的着重发力点。
随着银行业务的快速发展,银行业迈入转型创新关键期,如何对银行关键系统实现自主可控显得至关重要。
与此同时,以云计算、大数据为代表的新兴技术快速发展,更给数据中心运维工作带来全新挑战。
当前,工商银行的大型主机系统日均承载交易量达到5 亿笔,系统稳定运行的压力巨大。
此外,IT 运行的基本目标是稳定和安全,核心目的是为业务服务,如何改变大型主机传统的运维模式,结合分布式、大数据、人工智能等新兴技术的应用,提升主机运维的自动化、智能化水平,是大型主机运维人员的着重发力点。
近几年,工商银行数据中心(上海)大型主机运维团队在运维自动化、智能化方面做了一些尝试。
希望借助新技术逐步夯实运维基础,提升运维的自主可控水平,寻找保障业务安全稳定的有效路径。
一、夯实基础,积极布局智能运维平台随着系统架构的不断演变升级,不论是系统环境的数量还是整体系统架构复杂度,相较以往都有较大幅的增长。
以往的主机自动化工具开发及运维方式,与当前庞大复杂系统架构下的运维管理需求相比,匹配度正在逐年下降,疲态渐显,缺点渐露,这主要体现在可维护性差、复用程度低、主机配置自动化率低、各工具间缺乏有效联动等,过多地依赖于技术人员特别是有着丰富经验的技术人员的专业素质。
为了改变这个局面,中国工商银行数据中心(上海)大型主机运维团队展开了多维度多方面的基础性探索和改造。
二、运维数据标准化第一步:对各类性能、监控、运行数据的梳理、整合、入库,标准化处理将原本分散的性能类事件、监控报警、运行状态数据等内容整合,实现数据统一规划与存储。
然后对相似的指标进行标准化处理,对齐时间片,规范数据单位,统一格式,易于管理与抽取。
工商银行上海数据中心灾备系统运维实践
工商银行上海数据中心灾备系统运维实践一、“两地三中心”建设历程工商银行于1999 年开启了数据中心集约化建设的先河,在北京、上海分别建设两大数据中心后,于2002年1 月在国内同业率先启动了主机灾难备份工程。
经过多年的建设和持续投入,已经实现了高等级的核心系统灾备体系建设,完成了全行应用分等级灾备体系建设。
为进一步提升信息系统灾难恢复能力,工商银行启动了“两地三中心”工程建设。
根据规划,2014 年将在上海嘉定建立同城数据中心,与上海外高桥数据中心构成同城双中心,同城双中心整体与北京异地灾备中心组成异地灾备模式(如图1 所示)。
“两地三中心”模式可以满足不同灾难场景下的恢复要求,实现更灵活的风险应对。
在架构布局上,上海同城双中心具备基本相同的业务处理能力并通过高速链路进行实时数据同步,两个中心之间距离约55 千米,日常情况下可按主/ 备或双活模式运行。
在发生区域级灾难某个中心失效时,可在基本不丢失数据的情况下进行双中心间的应急切换,保持业务连续运行。
北京异地灾备中心用于同城双中心的灾难恢复,当出现因大范围自然灾害等原因导致同城双中心同时失效时,异地灾备中心可以用灾备系统接管全行核心业务。
二、“两地三中心”技术手段和实施策略工商银行通过技术攻关,完成了“两地三中心”模式下的信息系统业务连续性架构设计和方案研究,提出了可以提供多层级业务连续性保障水平的解决方案。
信息系统可以给银行业务应用提供A/A、A/Q 和A/S 等多种部署模式,最终以业务影响分析结果作为应用部署模式选型的决策依据。
在具体实施中,工商银行坚持“全面覆盖基本保障能力、重点针对关键核心应用部署高等级灾备保障技术”原则,做好资源分等级和差异化配置。
如ATM、POS、柜面业务、资本市场等核心业务系统是银行的关键应用,与其相关的应用系统就具有较高的业务连续性等级。
自2010 年工程启动以来,项目进展情况良好,完成方案规划设计和验证评审,在数据库复制技术全面推广、智能网管改造、55 千米磁盘同步镜像等关键技术领域取得了突破;完成了核心主机并行系统投产,即双园区模拟同城双活的试运行,目前主机并行系统主要运行可分离查询交易,分流了部分核心生产系统的负载压力;完成13 个开放平台应用服务器双活改造,预计今年将完成近50 个开放平台应用的双活改造。
数据库灾备方案的运维
数据库灾备方案的运维数据库灾备方案的运维是确保数据库系统在灾难情况下能够持续运行并保持数据的完整性和可用性的关键环节。
本文将讨论数据库灾备方案的运维工作,并介绍一些常用的运维策略和最佳实践。
一、灾备方案的制定和规划灾备方案的制定和规划是数据库灾备运维的第一步。
在这个阶段,需要评估企业的业务需求和风险承受能力,确定合适的灾备方案,并制定详细的操作计划和测试方案。
1. 风险评估和业务需求分析:通过对企业业务和数据的了解,评估潜在的风险和威胁,并确定数据库系统的可用性需求和恢复时间目标(RTO)。
2. 灾备方案选择:根据风险评估和业务需求,选择符合要求的灾备方案,如冷备、热备、异地多活等,并考虑数据复制、应用切换、故障恢复等关键技术。
3. 操作计划和测试方案:制定详细的操作计划,包括灾备切换、故障演练等,确保在灾难情况下能够及时有效地切换到备库、恢复数据并继续运行。
二、灾备环境的建设和配置灾备环境的建设和配置是数据库灾备运维的核心内容,它决定了数据库系统在灾难发生时能够正常切换和运行。
1. 备库的部署和配置:根据灾备方案的要求,选择合适的备库部署方式,如同城双机房、异地备份等,并配置好备库的硬件设备和数据库软件。
2. 数据复制和同步:根据业务需求和数据变更情况,选择合适的数据复制技术,如基于日志的物理复制、基于触发器的逻辑复制等,确保备库与主库之间的数据同步。
3. 备库的性能优化:对备库进行性能优化,包括合理的内存和CPU配置、优化数据库参数、定期进行数据库性能监控和调优等,以确保备库能够及时响应用户请求。
三、灾备方案的测试和演练灾备方案的测试和演练是数据库灾备运维的重要环节,通过定期的测试和演练,可以发现潜在的问题和风险,并及时进行修复和改进。
1. 灾备方案的测试:定期进行全面的灾备方案测试,包括数据切换、系统恢复、数据完整性验证等,以确保灾备方案的可行性和可靠性。
2. 灾备方案的演练:定期组织灾备方案的演练活动,模拟真实的灾难情况,检验操作流程和人员配合,进一步提高应急响应和处理能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
工商银行上海数据中心灾备系统运维实践
、“两地三中心”建设历程
工商银行于1999年开启了数据中心集约化建设的先河,在北京、上海分别建设两大数据中心后,于2002年1月在国内同业率先启动了主机灾难备份工程。
经过多年的建设和持续投入,已经实现了高等级的核心系统灾备体系建设,完成了全行应用分等级灾备体系建设。
为进一步提升信息系统灾难恢复能力,工商银行启动了“两地三中心”工程建设。
根据规划,2014年将在上海嘉定建立同城数据中心,与上海外高桥数据中心构成同城双中心,同城双中心整体与北京异地灾备中心组成异地灾备模式(如图1所示)。
“两地三中心”模式可以满足不同灾难场景下的恢复要求,实现更灵活的风险应对。
在架构布局上,上海同城双中心具备基本相同的业务处理能力并通过高速链路进行实时数据同步,两个中心之间距离约55千米,日常情况下可按主/ 备或双活模式运行。
在发生区域级灾难某个中心失效时,可在基本不丢失数据的情况下进行双中心间的应急切换,保持业务连续运行。
北京异地灾备中心用于同城双中心的灾难恢复,当出现因大范围自然灾害等原因导致同城双中心同时失效时,异地灾备中心可以用灾备系统接管全行核心业务。
二、“两地三中心”技术手段和实施策略
工商银行通过技术攻关,完成了“两地三中心”模式下的信息系统业务连续性架构设计和方案研究,提出了可以提供多层级业务连续性保障水平的解决方案。
信息系统可以给银行业务应用提供A/A、A/Q和A/S等多种部署模式,最终以业务影响分析结果作为应用部署模式选型的决策依据。
在具体实施中,工商银行坚持“全面覆盖基本保障能力、重点针对关键核心应用部署高等级灾备保障技术''原则,做好资源分等级和差异化配置。
如ATM、POS、柜面业务、资本市场等核心业务系统是银行的关键应用,与其相关的应用系统就具有较高的业务连续性等级。
自2010年工程启动以来,项目进展情况良好,完成方案规划设计和验证评审,在数据库复制技术全面推广、智能网管改造、55千米磁盘同步镜像等关键技术领域取得了突破;完成了核心主机并行系统投产,即双园区模拟同城双活的试运行,目前主机并行系统主要运行可分离查询交易,分流了部分核心生产系统的负载压力;完成13个开放平台应用服务器双活改造,预计今年将完成近50个开放平台应用的双活改造。
同时,工商银行积极探索“两地三中心”运行模式,按照“一体化管理”原则,初步制定了“两地三中心"生产运行管理方案,并对组织架构和主要职能进行了规划。
嘉定同城数据中心园区基建工程按计划推进,于2011年底奠基,2012年4月开工,2012年底8万平方米基建工程结构封顶,计划今年底机房楼交付使用,2014年嘉定同城数据中心园区建成启用,实现“两地三中心”的数据中心布局。
三、“两地三中心”安全措施
1.建立全面、系统、可持续发展的信息安全管理体系
①以安全、稳定、高效、追求卓越为安全方针建立具有工商银行特色的
ISO27001信息安全管理体系。
数据中心(上海)于2011年通过了
ISO27001:2005 信息安全管理体系认证,实现在信息安全组织、资产管理、人员
安全、物理和环境安全、通信及操作管理、访问控制等11个方面130余个控制
点的全方位的信息安全管理体系。
同时,建立起具有工商银行特色的支撑跨地
域统一管理的
ISO27001信息安全管理体系,主要包括信息安全制度管理、安全生产与运维管理、安全与防控技术管理、用户与人员管理、综合管理等五大方面共107项精细化管理制度。
②建设信息安全组织体系确保信息安全管理有效开展。
数据中心成立了信息安全领导小组,作为信息安全管理最高管理机构,确定信息安全方针、目标和控制策略,明确信息安全的管理职责。
信息安全领导小组定期或不定期召开联席会议,分析信息安全形势,研究中心信息安全管理薄弱环节及应对措施,贯彻落实监管部门、上级机构信息安全管理要求等。
中心建立了纵、横向联系报告机制,及时掌握并报告本区域重大信息安全事件、案件线索或案件,提示风险,有效防控风险。
③信息安全管理体系随着工商银行和中心自身的发展、内外部安全形势的不断变化,与时俱进持续改进。
主要措施包括:定期对人员、硬件、软件、数据与文档等各类重要资产所面临的风险进行评估,结合现有技术能力和管理成本,制定相关的补偿控制措施;利用有效的技术平台,通过完整、系统、及时的问题整改跟踪管理,将内外部审计检查发现的问题进行分析汇总,在督促及时完成整改的同时,不断挖掘制度漏洞和流程缺陷,及时完善管理体系;主动对生产故障事件、外部信息安全重大事件等进行分析研究,深入剖析问题发生和防控失效的深层次原因,进一步细化制度执行要求、强化技术硬控制、优化生产运维流程;积极与外部审计监管单位、各行业先进企业进行沟通,主动学习借鉴国际先进标准和业界领先经验,不断完善优化中心的信息安全管理体系。
2.生产运维安全措施多管齐下,确保生产稳定运行
①努力降低变更引发的安全生产问题。
变更前通过变更评审会和变更协调会对高风险度变更和跨多个部门的变更进行评估和协调;变更中严格按照双人复核提交方式进行变更操作;变更后及时开展技术和业务验证。
根据应用等级和对外服务时间严格控制变更窗口,严格控制紧急变更。
将环境搭建和版本升级准备等相关变更活动限制在与生产环境隔离的区域,进一步降低变更操作风险。
②持续完善应急管理。
制定完备的应急和灾备演练计划,开展层次丰富的各类演练,及时总结演练过程发现的问题并加以改进,定期开展南北两地互相远程接管演练等。
③建立了涵盖主机、网络、平台、UPS、应用、安全等各领域的集中监控报警平台,统一了监控报警事件的处理流程,使得各类报警能得以快速处理。
④定期对生产事件进行总结分析,找到问题根源和解决方案,避免事件的再次发生和深层次安全隐患。
建立完善的事件沟通机制,通过每日、每周及不定期专项会议将相关事件发生原因、处理过程、改进措施等进行分析总结,举一反三防微杜渐。
⑤高度重视性能容量管理,建立了覆盖操作系统、数据库、中间件、网络、存储、动力、应用等领域的较为全面的性能容量指标和监控系统及指标阈值和报警规则,并结合实际生产情况、版本变化定期进行全面的指标梳理。
定期开展性能容量统计分析,根据分析结果进行相应扩容、改造或资源回收。
⑥进一步完善运行操作管理,提高批量操作自动化水平,减少人为干预。
通过专业系统对操作步骤制定、修改、发布、执行过程记录等进行信息化、流程化、自动化管理。
实现了管理严谨、操作有序的安全生产目标。
⑦以“知其所需、最小授权、唯一鉴别、有效控制”为原则,进行各类用户权限的划分和按需发放,通过细致的访问控制,降低操作类安全事件发生的可能性。
⑧进行严格的网络区域划分,实现生产与外部网、生产与办公网的隔离。
在接入网和互联网区域网络边界部署入侵检测防护设备,实现对攻击事件、DOS/DDOS事件的检测和防护。
⑨通过技术手段严格落实数据访问、数据变形、数据传输、数据恢复、数据清理、数据销毁等数据管理各环节的安全管理要求。
同时建立完善的客户端安全技术防护体系,包括防病毒管理、系统补丁管理、软硬件管理、外发邮件管理、
互联网访问管理、电子文件安全管理、信息泄漏防护管理、笔记本硬盘密码保护管理等,实现客户端的安全准入控制和数据安全管理。
⑩通过日志集中和安全审计平台建设,对各类生产系统的人员操作、系统安全事件等进行快速和全面审计,及时发现和通报违规操作、恶意攻击、高风险操作等现象。
四、未来发展规划
未来,工商银行数据中心要努力实现生产运行管理可控、可靠、可持续的目标。
可控,即对日常运维和突发问题可以主动安排和快速把控;可靠,即能提供稳定可靠运作的基础设施环境,确保全行信息系统运行不因物理设备故障而中断。
可持续,即在任何时候、任何情况下均不发生对外服务中断。
为此重点要做好以下几方面工作。
一是树立“安全生产第一”和“第一时间恢复生产”的指导思想,落实各项生产运行管理措施。
包括提升监控的覆盖率、准确率和时效性;提升应急管理效率,确保在应急情况下,能够立即切换,第一时间恢复生产;提升生产一线发生事件的处置能力;提升变更管理和应用版本投产管理质量;提升健康检查、性能容量分析水平,提前采取预防和改进措施,切实降低重大生产事件发生概率;提升对境外机构的生产运行管理和服务,强化中心针对分行管理的专业人员的配备,完善对分行生产系统的远程实时监控能力,抓好分行机房动力设施、网络通信线路的改造升级等。
二是进一步提升信息系统的高可用性和灾备能力。
要积极推进以数据零丢失和“本地双活、异地灾备”为原则的“两地三中心”建设,高标准、高质量建设上海同城中心;要积极推动应用系统灾备体系优化,根据应用灾备等级划分的要求,加快推进开放平台应用系统的灾备建设,确保关键开放平台应用系统均具备异地灾备能力。
三是加强生产运维的自动化工具研发与投入,不断提升操作、监控、维护、
资源配置的自动化程度。
推动实现数据中心批量操作自动化比例达到98%以上; 要全面建立覆盖各应用系统的“端到端”业务级监控,推动数据中心运行维护和资源配置的自动化,从而全面提升数据中心例行化工作的质量和效率。
四是以风险管理为核心,建立覆盖全流程的信息安全管理体系,不断提升信息安全管理水平。
通过风险评估的方法,建立、实施、运行、监视、评审、保持和改进信息安全工作的流程与规范。
五是建立科学合理的人力资源配置和激励机制,加快建设数据中心专业化人才队伍。
要合理配置人力资源,加强行业领军人才和高级专业人才培养,建立人才梯队,稳定人才队伍。