WOT-云安全与容灾-孙文明

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生产能力/运营能力/服务能力
时间
不具备应急的灾难恢复
时间
具备应急的灾难恢复
时间
具备应急的灾难恢复
时间
不具备应急的灾难恢复
应急容灾 过程
系统正常运行时
过程概述
系统正常运行时 系统发生灾难后
在线复制 连续或定时
多版本 历史快照
应急切换
业务恢复
保 持 业 务 连 续
恢复原始 系统
系统切换
软件 定义
超融 合
可用性
VMware vSphere vMotion® vSphere Storage vMotion vSphere HA Fault Tolerance Data Recovery
安全性
VMware vShield Zones VMware VMsafe®
可扩展性
DRS 热添加
应用程序 服务
计算
VMware ESXi™
HA高可 用
应急 容灾
DR容灾
IT监控
运维管 理
云与虚 拟化
应急容灾(全面容灾+应急体验)
可接受的数据损失 可接受的中断时间
RPO
(数据完整)
RTO
(业务持续)
应急体验
(可控简单) 不确定性: 时间、灾难种类、影响程度、 复杂程度、现场人员、临场发挥、 次生灾难……
适应灾难使用场景
云应急容灾
系统
正常状态 事件发生 正常状态恢复
正常状态恢复 正常状态恢复
正常状态 事件发生
正常状态恢复
业务恢复 非正常态 运行
重建
主体功能能力水平
重建
重建业务恢复
非正常态 运行 重建
生产能力/运营能力/服务能力
主体功能能力水平
主体功能能力水平
主体功能能力水平
生产能力/运营能力/服务能力
生产能力/运营能力/服务能力
计算虚拟化
云架构示例一
应用 云业 务
弹性计算 在线存储/备份 网络桌面 CDN
运营管理
….
CCF
BMS
资源调度层
自动化资源调度管理
虚拟块存储资 源池 虚拟对象存储 资源池
云IT 基础 设施
虚拟资源层 云计算平台 物理资源层
虚拟计算 资源池
虚拟网络 资源池
OMS
NMS
虚拟机、虚拟存储引擎 计算 存储 网络 安全
苹果iCloud服务宕机:多地受影响 2015年06月03日11:14 雷锋网 最近几个月,苹果服务遇到了多次宕机,包括 app store 、iTunes 以及开发者服务TestFlight 都遇到了很长时间的 宕机。
2016年5月12日,太平洋标准 时间 (PST)周二早上6:30到周 三下午14:30,Salesforce遭遇 了一次由于停电导致的大范围 宕机,此次宕机影响了北美的 14个站点,影响了湾区的大量 用户——湾区历来被称为 的后院,同时, 部分北美的用户也受到影响。
云安全与容灾
孙文明 秘书长 中国信息化推进联盟应急容灾专委会
目录
01 云安全事件
02 云架构分析
03 云应急容灾
04 提问与交流
目录
01 云安全事件
02 云架构分析
03 云应急容灾
04 提问与交流
“高大上”的业务中断事件
宁夏银行中断长达37个多小时 2014年7月1日下午15时至7月3日核心系统数据库 出现故障,导致存取款、网银、ATM等业务全部中断
存储
VMFS Thin Provisioning 存储 I/O 控制
网络
分布式交换机 网络 I/O 控制
基础架构 服务
DRS 和 VMware DPM 内存过量分配
私有云资源池
公共云
云架构示例五
云架构示例六
目录
01 云安全事件
02 云架构分析
03 云应急容灾
04 提问与交流容灾即灾难恢复源自恢 复 点目 标应急
自治
系统分层

针对硬件故障的保护 零停机的计划内维护 针对计划外停机和灾难的保护
高可用性和容错
站点级容灾
网卡绑定,存 储多路径功能
第3方 备份解决方案
组件
服务器
存储
数据
站点
系统级安全 业 务 持 续 保 障 与 应 急 容 灾
应急容灾———“速度第一,完美第二”
正常状态 正常状态 事件发生 事件发生
美领馆签证系统恢复正常 已开始 重新发放签证(6.17日瘫痪) 2015-6-25 23:59:48 崩溃半月有余 美国签证系统恢复正常 2014年7月26日, 美国签证在线系统陷入瘫痪。
云业务中断事件
支付宝大面积瘫痪 蚂蚁金服解释未获业界认同 2015-05-28 09:43:48 来源: 财经网(北京) 一是很有可能是支付宝遭到了攻击;二是支付宝的路由配 置瘫痪了;三是支付宝的云服务器瘫痪了,亚马逊也出现 过这个问题。 携程致歉全面瘫痪:确认系员工错误操作所致 2015年05月29日 08:33:34来源:环球网 从11:09到23:29,为什么恢复时间那么长?
对主系统关键的数据进行 备份存储,当故障造成数据丢 失时,可以通过备份找回。
RP0
恢复时间目标
建立与主系统相当的备份应 用系统,在灾难出现后,灾备系 统迅速接管或承担本地应用系统 的业务运行。
RTO
数据丢了多少?
业务断了多长时间?
国标GB/T 20988-2007信息系统灾难规范
常用容灾与恢复技术繁杂,众多问题值得商榷
保障信息系统持续运行提供符合要求的IT服务 能力的专业指导体系
应急容灾支撑体系
可用性
灾难恢 复
应急容 灾:2+1 手段
应急容 灾管理
应急容灾支撑体系
事前:高 可用、故 障监测
事中:应 急响应、 故障转移
事后:系 统重建、 业务还原
管理:流程、预案、计划、人员等
应急容灾相关领域
IT服务 管理
BCM业 务持续 管理 EM应急 管理
02 云架构分析
03 云应急容灾
04 提问与交流
云架构分析
Web访问 云桌面 命令行/API
业务支撑层
数据库/中间件
HPC/大数据分析 管理层
VDI
服务编排 自动伸缩
负载均衡 应用按需部署 基础架构层 资源调度
高可用 安全控制
计量计费 运维管理
监控告警 分布式存储 自主/商用服务器、网络、存储 虚拟网络
您的所有销售、服务和营销数据尽在指尖,但是有将 近5小时的数据蒸发了!
信息系统中断不可避免
发生频率
与可用性相关的
数据损坏 病毒 蠕虫 磁盘故障
业务连续运营
常见
应用中断
组件故障 网络问题 电源故障
不常见
恐怖行动/国内动荡 自然灾害 建筑火灾
与恢复相关的
发生的结果 (影响度)


目录
01 云安全事件
定时备份: 快照:RPO为天/小时级
实时备份: 实时数据保护CDP:RTO≈0 产 品: 磁带、VTL、磁盘阵列、 备份软件、备份一体机、 CDP
主备机 容错服务器 集群 主备系统 容灾一体机
RPO RTO
应急容灾
利用技术、管理手段以及相关资源确保信息系统和相 关业务在灾难发生后可以尽可能多且快地恢复的过程
EMS
云机 房
机柜
装饰
电力
布线
安防
制冷
FOS
云架构示例二
云架构示例三
统一管理平台
用户应用
虚拟机 SIM 管理代理 虚拟服务器层 刀片系统
共享SAN存储
云架构示例四
App
现有应用程序
App App App App
未来的应用程序
App App App
VMware vCenter 套件 VMware vSphere
自治(自愈)
自动 化
分布 式 人工 智能
微服 务
目录
01 云安全事件
02 云架构分析
03 云应急容灾
04 提问与交流
谢谢
演讲回放视频请登陆 51CTO学院观看
相关文档
最新文档