工商银行分布式云计算运维转型思考与实践
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Special Attention
工商银行分布式云计算运维转型思考与实践
文II 中国工商银行数据中心副总经理丁旭东
一^商银行分布式云计算运维转型主要 —
*由两个因素驱动:一是外部因素,
工商银行积极响应国家战略,鼓励加大在 核心系统和关键技术研发创新,研究开源 技术在银行重要信息系统的应用;二是内 部因素,工商银行业务创新需要具有对海 量数据的处理能力、分析能力和成果转化 能力。
面对客户互联网化、移动化发展趋 势,工商银行在大数据、电子商务、互联 互通、客户体验等战术层面积极应对。
工商银行已建成九大企业级分布式 技术体系,具体包括分布式服务、软负载 均衡、分布式消息、分布式事务、分布式 缓存、分布式批量、分布式对象存储、分 布式文件共享存储和分布式数据。
日均服 务调用量和缓存日均访问量均达到数十亿 级别,消息发送峰值每秒超过百万笔。
目 前,已基本形成主机+开放平台的双核心 架构,经过大规模的生产考验,有相当多 的应用通过服务化完成分布式转型。
主要M 险和挑战
1. 支持业务灵活创新的运维掌控力不足。
一是面对业务运行的洞察力不足。
二是微服务化的应用依赖关系复杂,故障 定位能力不足。
三是对客户的服务能力跟 不上。
客户触点超越银行线上线下渠道, 直接接触场景减少。
2.
面对新架构下的业务连续性保障 不足。
一是应用架构有时存在不合理的现 象,高等级应用往往依赖低等级应用。
二 是应用部署规范化还不够,跨资源域交叉
访问的矛盾有时相对突出。
3.面向未来发展的服务供给不足。
一是机房空间捉襟见肘,转型过程中大量 交易从主机下移至平台,服务器规模剧增。
二是多活数据中心的运维能力略显不足, 有时缺乏从应用架构、技术架构和成本控 制等方面综合考虑。
主要思路与实践
工商银行数据中心从以“安全、稳定、 高效”为核心的IT 运维发展到以“体验、 效率、效益”为核心的IT 运营。
在坚守 安全底线的前提下,要兼顾效率和成本, 最终实现价值创造。
目前,主要思考与实 践如下。
1. 健全对业务运营的快速感知能力。
一是面向外部客户,建立与业务部门、大 客户及合作伙伴的直通渠道,提升危机场 景下的业务联动应急能力。
二是面向业务 运营,完善全链路运行监控和大额资金风 险监控,提升架构管控和故障定位能力。
2. 完善对业务连续性的保障能力。
一是完善生产管理制度,将“可灰度、可 监控、可回滚” ^■:为变更和版本的根本约 束。
二是强化应用高可用建设,研发应用 “一键式”切换工具,并在生产时段临检 实操。
三是建立应用上线准入机制,制定 运维功能的规范和标准,落实投产验收和
后评估,降低投产后的运维风险。
3.
提升对基础架构的技术把控能力。
一是运维团队要前移,主导应用产品非功 能需求设计和优化,深度参与关键软硬件
引入评测。
二是梳理制定新架构下运维管 理标准及规范,推动软硬件标准化,降低 运维复杂度。
三是持续建设资源灵活调度、 环境供应扩缩、版本自动升级等能力,提 升管控成熟度。
4. 强化对性能容量的管控能力。
一
是资源管理模式要从投产需求驱动转向池 化管理,减少资源碎片,提高基础设施利
用率。
二是推动“自助服务”建设,发布 运维标准化服务,以自助方式获取资源, 简化交付流程。
三是完善资源评价和回收 机制,建立分布式架构下的资源画像,监 测业务上线运营情况。
5.
打造信息安全的主动防御和纵深
防护能力。
一是围绕信息安全运营中心建
设,构建全面、主动、智能、可视的安全 态势感知体系。
二是形成总分联动的一体 化防御机制,统一管控全集团的安全事件、 漏洞、舆情、病毒、攻击、威胁情报等。
三是建立红蓝军对抗常态化机制,结合年 度信息安全攻防演练工作,提升实战能力。
6.
主动培育体制机制的创新发展能
力。
一是重构运维一二三线,推动运维人 员由“技术操作型”向“运维研发型”转化- 二是促进科技与业务、技术与管理、运维 与研发测试三方面融合。
三是数字化运营, 由“事件驱动”向“数据驱动”转变,由 “人工管控”向“智能管控”升级。
综上所述,数据中心原有的运维理论
体系需要不断地优化和完善。
工行数据中
心运维体系正通过自我革新实现进化,向 自动运维和智能运维方面积极推进。
S
44。