华为HyperMetroSAN与NAS一体化双活处理办法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
目录
1 业务连续性挑战 2 典型业务连续性需求解析 3 业界存储双活技术概览 4 华为一体化双活解决方案 5 成功故事
10
业界双活数据中心框架介绍
传输层 网络层
应用层 计算层
Fusion Sphere
存储层
数据中心A
传输
冗余可靠性保护、最小传输时延 ≤100km 裸光纤
网络层
高可靠、优化的二层互联 最优的访问路径
华为HyperMetro SAN与NAS一体化双活解决方案
目录
1 业务连续性挑战 2 典型业务连续性需求解析 3 业界存储双活技术概览 4 华为一体化双活解决方案 5 成功故事
2
IT系统业务连续的重要性
火灾
设备故障
停电
病毒爆发
3
每 小 时 停 机 损 失
单
位
:
万
美
9
元
648
280
200
160
63
Fusion Sphere
单数据中心
1
2
3
5
站点A
站点B
主备数据中心
4
5
6
站点A
站点B
双活数据中心
容灾等级
7
目录
1 业务连续性挑战 2 典型业务连续性需求解析 3 业界存储双活技术概览 4 华为一体化双活解决方案 5 成功故事
6
医院业务:结构化与非结构化数据并存
HIS
PACS
LIS
门诊 结束
病人基本信息 挂号
QS S1
故障场景:S1所在阵列与仲裁服务器的链路中断 处理结果:业务无影响
S2
QS S1
故障场景:S2所在阵列与仲裁服务器的链路中断 处理结果:业务无影响
S2
注: QS为仲裁服务器,S1为优先仲裁方
22
一体化定义
实现原理
创新设计
组合故障场景
QS
S1
S2
QS
S1
S2
QS
S1
S2
QS
S1
S2
QS
S1
S2
区域性灾难
率
建筑火灾
自然灾害
低
数据中心故障
恐怖袭击/战争
统计显示:
• 97%的局部故障会导致企业 对外业务运行中断;
• 3%的全局故障引起企业数据 丢失,可能导致企业消亡;
低
单次发生的损失
高
如何有效应对故障和灾难对业务连续性带来的挑战?---建设容灾系统
4
IT系统建设双活容灾势在必行
方案不足
• 数据丢失,不可挽回 • 经济损失,名誉损失 • 无冗余网络,恢复能力弱
仲裁
15
一体化双活:一台设备
SAN与NAS并行架构图
iSCSI/FC/FCOE
NFS/CIFS/FTP/HTTP
Block Service
File Service
Storage POOL
RAID 2.0+
一体化定义
实现原理
创新设计
免网关
块和文件一体,无需额外购买NAS网关,购置 成本降低15%
并行架构
Host Storage
DCL
LOG
⑥
① ② ⑥
⑤
HyperMetro management module
③④
Local cache
③④
Remote cache
Local storage array
Same-city network between data centers
Local LUN
DWDM
110
媒体 医疗 零售业 制造业 电信 能源 金融
来源: Network Computing, the Meta Group and Contingency Planning Research
业务连续性容灾系统建设的必要性
设备故障
高
数据损坏
磁盘故障
每
应用中断
组件故障
年
的
网络问题
发 生 频
电源故障
空调故障
单存储不可用时,记录数据差异
• 其中一台存储不可用时,仅写正常存储,同时数据变化记录到 DCL(Data Change Log)空间,待阵列修复好后,通过DCL 记录的信息,将数据增量写入存储;
分布式锁机制(DLM)
• 通过分布式锁机制,确保主机对同一存储地址的数据访问时, 由其中一台写入,确保数据一致性。
②
DCL
LOG
⑧
③
④
⑥
HyperMetro management module
⑤
④⑤
Primary Cache
Secondary Cache
Local storage array
Disk
IP/FC
Disk
Remote storage array Same-city network between data centers
• NetApp MetroCluster (SAN+NAS)
• IBM HyperSwap
特点:非网关/数据级镜像/紧耦合
NAS网关
控制器
控制器
NAS网关
控制器
控制器
• HDS GAD+HNAS 特点:非网关SAN+NAS网关/设备级隔离/松耦合
13
• Huawei HyperMetro(SAN+NAS) 特点:非网关/设备级隔离/松耦合/一体化
应用层
Oracle Database以及 Weblogic、apache等应用
计算层
虚拟化跨DC高可用、负载均衡、 迁移调度
存储层
双活访问、数据零丢失
11
Fusion Sphere
数据中心B
业界存储层双活技术演进
SAN双活
阵列AA双活 网关AA双活
NAS双活
阵列AP双活
阵列AP双活 阵列转发双活
网关AP双活
故障场景:QS故障后、S2再故障 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;S2再故障,S1继续提供服务
故障场景:QS故障后,S1再发生整体故障 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;S1再故障,S2失效,业务中断
故障场景:QS故障后,阵列间链路再中断 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;阵列间链路再故障,S1提供服务
Remote storage
array
20
一体化定义
实现原理
创新设计
数据写实时镜像
• 主机下发写请求到active租户的文件系统。 • 文件系统将写请求写到HyperMetro管理模块。 • 本端存储系统记录写请求的LOG信息。 • 执行双写:HyperMetro管理模块同时将该写请求写入两套存储
Cache。 • 两端Cache向HyperMetro管理模块返回写请求结果。 • HyperMetro管理模块返回写请求结果到文件系统。 • 存储系统将写I/O结果返回给主机。 • 判断双写是否成功。
双重模式
支持静态优先与第三方在仲裁模式,最大限度保障方案 高可用
业务粒度
按业务粒度仲裁,业务均衡分布,站点间链路故障时就 近访问
一体化双活:一种网络
站点A
站点B
主机应 用集群
IP/FC
FC/IP
IP/FC
OceanStor V3
IP
IP
仲裁服务器
18
OceanStor V3
一体化定义
实现原理
创新设计
Fusion Sphere
方案不足
• IT、网络资源利用率低,TCO高 • 手动切换,网络、业务中断时间长 • 组件多,故障恢复过程复杂,运维成本高 • 故障发生时,备份网络、数据是否可用?
Fusion Sphere
方案优势
• 数据、业务、网络连续性 • 双中心资源利用率高 • 业务、网络访问负载分担 • 端到端实时可用,自动容灾切换
Remote LUN
Remote storage
array
• 主机下发写I/O到双活管理模块。 • 系统记录LOG。 • 执行双写:双活管理模块同时将该写I/O写入本端Cache和
远端Cache。 • 本端Cache和远端Cache向双活管理模块返回写I/O结果。 • 双写结果处理:等待两端Cache的写处理结果都返回,才向
数据库集群
XXX 的数据
个人信息(姓名,年龄,身份证 号,卡号….)
图片信息(卷宗、笔录扫描 件、录音与.)
应用需求:A-A集群
• 数据库与文件业务提供实时在线访问
LUN
结构化数据
FileSystem
非结构化数据
站点A
SAN双活 NAS双活
站点B
存储需求:双活容灾
• SAN与NAS提供数据双活容灾,支撑多 部门实时访问
12
SAN与NAS 一体化双活
业界存储层双活方案解析
网关 控制器
网关 控制器
控制器
控制器
控制器
控制器
• IBM SVC • EMC VPLEX
特点:网关/数据级镜像/紧耦合
• HDS GAD • EMC VMAX3 • HPE PeerPersistence • DELL Live Volume
特点:非网关/设备级隔离/松耦合
分诊、急诊 取药
医生 下医嘱 检查
化验
执行医嘱
入院
缴费 出院
ICU探视
护理
输出结果
医生查房
手术/示教
医生
HIS:Hospital Information System(医院信息系统) PACS: Picture Archiving and Communication Systems(影像归档与通信系统) LIS:Laboratory Information Management System(实验室信息系统)
› 如果两端都写成功:清除LOG。 › 如果有任意一端写失败:LOG转换成DCL,记录差异。
一体化双活数据一致性保障
站点A
主 机
应用集群
站点B
主 机
跨站点双活AA集群
双活分布式锁互斥
阵 列 A 双活成员
阵 列 双活成员 B
一体化定义
实现原理
创新设计
存储层数据一致性保障
I/O双写确保数据一致
• 系统正常情况下,任意应用IO数据下发,都要同时写到两台阵 列才返回主机,确保两台阵列数据实时一致;
站点B
8
医生需求:实时访问
• 病人病历、住院信息、检查结果随时录入 与查询
应用需求:A-A集群
• 数据库与文件业务提供实时在线访问
存储需求:双活容灾
• SAN与NAS提供数据双活容灾,支撑实 时访问
公安警综业务连续性需求:7x24在线
客户端 负载均衡 HA
应用程序 (中间件)
警员需求:实时访问
• 案件信息、电子卷宗随时录入与查询
21
一体化双活典型故障场景处理
单点故障场景
处理结果
QS S1
故障场景:仲裁服务器故障 处理结果:自动进入静态优先模式,业务无影响
S2
QS S1
故障场景:S1故障 处理结果:S2接管所有业务,继续提供服务
S2
QS S1
故障场景:S2故障 处理结果:S1接管所有业务,继续提供服务
S2
QS S1
故障场景:阵列间链路中断 处理结果:S2失效,S1继续提供服务,同时记录差 S2 异,待恢复后增量同步配置、数据。
QS
S1
S2
处理结果
故障场景:S1与QS、S2与QS链路同时或先后中断 处理结果:自动进入静态优先模式,业务无影响
故障场景:阵列间、S2与QS间链路同时或先后中断 处理结果:S2失效,S1继续提供服务,业务无影响
故障场景:S1故障,S2仲裁获胜后,中断S2与QS间链路 处理结果:S2继续提供服务,业务无影响
主机返回写I/O结果。 • 判断双写是否成功。
– 如果都写成功:清除LOG。 – 如果有一端失败:LOG转换成DCL,记录本端LUN和
远端LUN的差异数据。
19
一体化双活写请求流程(FS)
Host Storage
①⑦
Host cluster
Primary File System
Secondary File System
SAN与NAS并行访问,为不同业务提供最优访 问路径,访问性能最优
RAID2.0+
数据快速恢复,速度相对传统技术提升20倍, 多盘失效风险降低95%
16
一体化双活:一套仲裁
仲裁部署
双活SAN服务
双活NAS服务
存储资源池
仲裁盘1 存储阵列A
存储阵列B
仲裁设备
17
一体化定义
实现原理
创新设计
统一管理
一套仲裁统一管理SAN与NAS双活,任何故障场景实现 相同站点提供服务,并支持在物理服务器/虚拟机/公有 云上部署
IP&FC NAS SAN
生产 存储
阵列与主机 间存储网络
数据实时镜像 双写心跳、配置
FC/IP
IP
IP
SIAP&NFC
SAN NAS
生产 存储
一套仲裁
SAN与NAS共用一套仲裁,确保链路故障时同一站点提 供服务,保障数据一致
一种网络
站点间心跳、配置、数据物理链路合一,一种网络即可 满足SAN与NAS传输
目录
1 业务连续性挑战 2 行业典型业务连续性需求解析 3 业界存储双活技术概览 4 华为一体化双活解决方案 5 成功故事
14
华为SAN与NAS一体化双活解决方案
站点A
站点B
一体化定义
实现原理
创新设计
主机应用集群 (共享卷挂载双 活文件系统)……
一台设备
免网关, 一台设备同时支持部署文件和数据库双活服务
7
数据库 SAN 文件系统 NAS
医院业务连续性需求:7x24在线
客户端 负载均衡 HA
应用程序 (中间件)
数据库集群
XXX 的数据
个人信息(姓名,年龄,身份证 号,卡号….)
图片信息(索引)(胸片, CT,B超图片….)
LUN
结构化数据
FileSystem
非结构化数据
站点A
SAN双活 NAS双活
链路复用
站点间心跳、配置、复制链路IP或FC,,一种网络 即可满足SAN与NAS数据传输需求
单一网络
支持业务网络、站点间网络、仲裁网络全IP部署, 组网简单
高效传输
按优先级排序,依次为:心跳 >配置 > 双活 & 同步复制 > 异步复制
一体化双活写请求流程(LUN)
一体化定义
实现原理
创新设计
数据写实时镜像