华为HyperMetro SAN与NAS一体化双活解决方案
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
华为HyperMetro SAN与NAS一体化双活解决方案
目录
1 业务连续性挑战 典型业务连续性需求解析 业界存储双活技术概览 华为一体化双活解决方案 成功故事
2
3 4 5
2
IT系统业务连续的重要性
每 小 时 停 机 损 失
648
单 位 : 万 美 元
火灾
设备故障
280 200 9 63 110 160
组合故障场景
QS S1 S2
处理结果
故障场景:S1与QS、S2与QS链路同时或先后中断 处理结果:自动进入静态优先模式,业务无影响
S1
QS S1 QS S1 QS S1 QS S1
S2
故障场景:S1故障 处理结果:S2接管所有业务,继续提供服务
QS
S1 QS S1 QS S1 QS S2 S2 S2
应用集群
主 机
• 系统正常情况下,任意应用IO数据下发,都要同时写到两台阵
列才返回主机,确保两台阵列数据实时一致;
跨站点双活AA集群
单存储不可用时,记录数据差异
• 其中一台存储不可用时,仅写正常存储,同时数据变化记录到 DCL(Data Change Log)空间,待阵列修复好后,通过DCL
双活分布式锁互斥
结构化数据
LUN
存储需求:双活容灾
SAN双活 NAS双活
站点A 站点B
FileSystem
非结构化数据
• SAN与NAS提供数据双活容灾,支撑实 时访问
8
公安警综业务连续性需求:7x24在线
客户端 负载均衡 HA
警员需求:实时访问
• 案件信息、电子卷宗随时录入与查询
应用程序 (中间件)
XXX 的数据
应用需求:A-A集群
• 数据库与文件业务提供实时在线访问
数据库集群
个人信息(姓名,年龄,身份证 号,卡号….)
图片信息(卷宗、笔录扫描 件、录音与.)
结构化数据
LUN
存储需求:双活容灾
SAN双活 NAS双活
站点A 站点B
FileSystem
非结构化数据
• SAN与NAS提供数据双活容灾,支撑多 部门实时访问
计算层
Fusion Sphere
计算层
虚拟化跨DC高可用、负载均衡、 迁移调度
Fusion Sphere
存储层
存储层
双活访问、数据零丢失 数据中心A 数据中心B
11
业界存储层双活技术演进
SAN双活
阵列AA双活
NAS双活
网关AA双活
阵列AP双活
SAN与NAS 一体化双活
阵列AP双活
网关AP双活
阵列转发双活
Storage POOL
RAID 2.0+
RAID2.0+
数据快速恢复,速度相对传统技术提升20倍, 多盘失效风险降低95%
16
一体化双活:一套仲裁
仲裁部署
双活SAN服务 双活NAS服务
一体化定义
实现原理
创新设计
统一管理
一套仲裁统一管理SAN与NAS双活,任何故障场景实现 相同站点提供服务,并支持在物理服务器/虚拟机/公有 云上部署
⑤
⑧
LOG
③ ④
⑤
④
• HyperMetro管理模块返回写请求结果到文件系统。 • 存储系统将写I/O结果返回给主机。 • 判断双写是否成功。
Remote storage array
Primary Cache
Secondary Cache
› 如果两端都写成功:清除LOG。 › 如果有任意一端写失败:LOG转换成DCL,记录差异。
Local LUN
DWDM
Remote LUN
Remote storage array
– 如果有一端失败:LOG转换成DCL,记录本端LUN和
远端LUN的差异数据。
19
一体化双活写请求流程(FS)
Host cluster Host Storage
一体化定义
实现原理
创新设计
数据写实时镜像
• 主机下发写请求到active租户的文件系统。 • 文件系统将写请求写到HyperMetro管理模块。
存储资源池 双重模式
仲裁盘1 存储阵列A 支持静态优先与第三方在仲裁模式,最大限度保障方案 高可用 存储阵列B
业务粒度
仲裁设备
按业务粒度仲裁,业务均衡分布,站点间链路故障时就 近访问
17
一体化双活:一种网络
站点A 站点B 主机应 用集群
一体化定义
实现原理
创新设计
链路复用
站点间心跳、配置、复制链路IP或FC,,一种网络 即可满足SAN与NAS数据传输需求
故障场景:阵列间、S2与QS间链路同时或先后中断 处理结果:S2失效,S1继续提供服务,业务无影响
S2
故障场景:S2故障 处理结果:S1接管所有业务,继续提供服务 故障场景:阵列间链路中断 处理结果:S2失效,S1继续提供服务,同时记录差 异,待恢复后增量同步配置、数据。 故障场景:S1所在阵列与仲裁服务器的链路中断 处理结果:业务无影响
7
医院业务连续性需求:7x24在线
客户端 负载均衡 HA
医生需求:实时访问
• 病人病历、住院信息、检查结果随时录入 与查询
应用程序 (中间件)
XXX 的数据
应用需求:A-A集群
• 数据库与文件业务提供实时在线访问
数据库集群
个人信息(姓名,年龄,身份证 号,卡号….)
图片信息(索引)(胸片, CT,B超图片….)
医院业务:结构化与非结构化数据并存
HIS
病人基本信息 挂号 分诊、急诊 医生
PACS
下医嘱
LIS
数据库
取药
检查
化验
门诊 结束
执行医嘱 入院
SAN
文件系统
缴费 出院
ICU探视 护理 输出结果 医生查房 手术/示教 医生
NAS
HIS:Hospital Information System(医院信息系统) PACS: Picture Archiving and Communication Systems(影像归档与通信系统) LIS:Laboratory Information Management System(实验室信息系统)
创新设计
数据写实时镜像
• 主机下发写I/O到双活管理模块。
Storage
①
DCL
• 系统记录LOG。
⑤ HyperMetro management module ③ ④
• 执行双写:双活管理模块同时将该写I/O写入本端Cache和 远端Cache。 • 本端Cache和远端Cache向双活管理模块返回写I/O结果。
Local storage array
Disk
IP/FC
Disk
Remote storage array Same-city network between data centers
20
一体化双活数据一致性保障
站点A 站点B
一体化定义
实现原理
创新设计
存储层数据一致性保障 I/O双写确保数据一致
主 机
13
目录
1 业务连续性挑战 行业典型业务连续性需求解析 业界存储双活技术概览 华为一体化双活解决方案 成功故事
2
3 4 5
14
华为SAN与NAS一体化双活解决方案
站点A 站点B
主机应用集群 (共享卷挂载双 活文件系统)……
一体化定义
实现原理
创新设计
一台设备
免网关, 一台设备同时支持部署文件和数据库双活服务
停电
病毒爆发
媒体
医疗
零售业 制造业 电信
能源
金融
来源: Network Computing, the Meta Group and Contingency Planning Research
3
业务连续性容灾系统建设的必要性
设备故障
高
每 年 的 发 生 频 率 低 数据损坏 应用中断 磁盘故障 组件故障 网络问题 空调故障 电源故障 建筑火灾
• • • • • • •
•
• • •
数据、业务、网络连续性
双中心资源利用率高 业务、网络访问负载分担 端到端实时可用,自动容灾切换
Fusion Sphere
IT、网络资源利用率低,TCO高 手动切换,网络、业务中断时间长 组件多,故障恢复过程复杂,运维成本高 故障发生时,备份网络、数据是否可用?
Fusion Sphere
仲裁
15
一体化双活:一台设备
SAN与NAS并行架构图
iSCSI/FC/FCOE NFS/CIFS/FTP/HTTP
一体化定义
实现原理
创新设计
免网关
块和文件一体,无需额外购买NAS网关,购置 成本降低15%
Block Service
File Service
并行架构
SAN与NAS并行访问,为不同业务提供最优访 问路径,访问性能最优
故障场景:S1故障,S2仲裁获胜后,中断S2与QS间链路 处理结果:S2继续提供服务,业务无影响 故障场景:QS故障后、S2再故障 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;S2再故障,S1继续提供服务 故障场景:QS故障后,S1再发生整体故障 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;S1再故障,S2失效,业务中断 故障场景:QS故障后,阵列间链路再中断 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;阵列间链路再故障,S1提供服务
统计显示:
• 97%的局部故障会导致企业 对外业务运行中断; • 3%的全局故障引起企业数据 丢失,可能导致企业消亡;
区域性灾难
自然灾害 恐怖袭击/战争
数据中心故障
低
单次发生的损失
高
如何有效应对故障和灾难对业务连续性带来的挑战?---建设容灾系统
4
IT系统建设双活容灾势在必行
方案优势 方案不足 方案不足
IP&FC NAS SAN
阵列与主机 间存储网络
一套仲裁
SAN
SAN IP&FC NAS
SAN与NAS共用一套仲裁,确保链路故障时同一站点提 供服务,保障数据一致
生产 存储
IP
数据实时镜像 双写心跳、配置
FC/IP
生产 存储
IP
一种网络
站点间心跳、配置、数据物理链路合一,一种网络即可 满足SAN与NAS传输
数据丢失,不可挽回 经济损失,名誉损失 无冗余网络,恢复能力弱
Fusion Sphere
站点A 单数据中心 1 2
5
站点B 5 6
站点A 双活数据中心 7
站点B
容灾等级
主备数据中心 3
4
目录
1 2 3 4 5 业务连续性挑战
典型业务连续性需求解析
业界存储双活技术概览
华为一体化双活解决方案
成功故事
6
FC/IP
IP/FC
IP/FC
单一网络
支持业务网络、站点间网络、仲裁网络全IP部署, 组网简单
高效传输
OceanStor>配置 > 双活 & 同步复制 > 异步复制
IP
IP
仲裁服务器
18
一体化双活写请求流程(LUN)
Host
一体化定义
实现原理
9
目录
1 业务连续性挑战 典型业务连续性需求解析 业界存储双活技术概览 华为一体化双活解决方案 成功故事
2
3
4
5
10
业界双活数据中心框架介绍
传输层
传输
冗余可靠性保护、最小传输时延 ≤100km 裸光纤
网络层
网络层
高可靠、优化的二层互联 最优的访问路径
应用层
应用层
Oracle Database以及 Weblogic、apache等应用
12
业界存储层双活方案解析
网关 控制器 网关 控制器 控制器 控制器 控制器 控制器
• IBM SVC • EMC VPLEX 特点:网关/数据级镜像/紧耦合
NAS网关 控制器 控制器
• • • •
HDS GAD EMC VMAX3 HPE PeerPersistence DELL Live Volume
• NetApp MetroCluster (SAN+NAS) • IBM HyperSwap 特点:非网关/数据级镜像/紧耦合
控制器 控制器
特点:非网关/设备级隔离/松耦合
NAS网关
• HDS GAD+HNAS 特点:非网关SAN+NAS网关/设备级隔离/松耦合
• Huawei HyperMetro(SAN+NAS) 特点:非网关/设备级隔离/松耦合/一体化
记录的信息,将数据增量写入存储;
阵 列 A
双活成员
双活成员
阵 列 B
分布式锁机制(DLM)
• 通过分布式锁机制,确保主机对同一存储地址的数据访问时, 由其中一台写入,确保数据一致性。
21
一体化双活典型故障场景处理
单点故障场景
QS S1 QS S2
一体化定义
实现原理
创新设计
处理结果
故障场景:仲裁服务器故障 处理结果:自动进入静态优先模式,业务无影响
①
⑦
Primary File System ②
DCL
Secondary File System
• 本端存储系统记录写请求的LOG信息。 • 执行双写:HyperMetro管理模块同时将该写请求写入两套存储
⑥ HyperMetro management module
Cache。
• 两端Cache向HyperMetro管理模块返回写请求结果。
④
⑥
LOG
② ⑥
③
• 双写结果处理:等待两端Cache的写处理结果都返回,才向
主机返回写I/O结果。 • 判断双写是否成功。 – 如果都写成功:清除LOG。
Local cache
Same-city network between data centers
Remote cache
Local storage array
目录
1 业务连续性挑战 典型业务连续性需求解析 业界存储双活技术概览 华为一体化双活解决方案 成功故事
2
3 4 5
2
IT系统业务连续的重要性
每 小 时 停 机 损 失
648
单 位 : 万 美 元
火灾
设备故障
280 200 9 63 110 160
组合故障场景
QS S1 S2
处理结果
故障场景:S1与QS、S2与QS链路同时或先后中断 处理结果:自动进入静态优先模式,业务无影响
S1
QS S1 QS S1 QS S1 QS S1
S2
故障场景:S1故障 处理结果:S2接管所有业务,继续提供服务
QS
S1 QS S1 QS S1 QS S2 S2 S2
应用集群
主 机
• 系统正常情况下,任意应用IO数据下发,都要同时写到两台阵
列才返回主机,确保两台阵列数据实时一致;
跨站点双活AA集群
单存储不可用时,记录数据差异
• 其中一台存储不可用时,仅写正常存储,同时数据变化记录到 DCL(Data Change Log)空间,待阵列修复好后,通过DCL
双活分布式锁互斥
结构化数据
LUN
存储需求:双活容灾
SAN双活 NAS双活
站点A 站点B
FileSystem
非结构化数据
• SAN与NAS提供数据双活容灾,支撑实 时访问
8
公安警综业务连续性需求:7x24在线
客户端 负载均衡 HA
警员需求:实时访问
• 案件信息、电子卷宗随时录入与查询
应用程序 (中间件)
XXX 的数据
应用需求:A-A集群
• 数据库与文件业务提供实时在线访问
数据库集群
个人信息(姓名,年龄,身份证 号,卡号….)
图片信息(卷宗、笔录扫描 件、录音与.)
结构化数据
LUN
存储需求:双活容灾
SAN双活 NAS双活
站点A 站点B
FileSystem
非结构化数据
• SAN与NAS提供数据双活容灾,支撑多 部门实时访问
计算层
Fusion Sphere
计算层
虚拟化跨DC高可用、负载均衡、 迁移调度
Fusion Sphere
存储层
存储层
双活访问、数据零丢失 数据中心A 数据中心B
11
业界存储层双活技术演进
SAN双活
阵列AA双活
NAS双活
网关AA双活
阵列AP双活
SAN与NAS 一体化双活
阵列AP双活
网关AP双活
阵列转发双活
Storage POOL
RAID 2.0+
RAID2.0+
数据快速恢复,速度相对传统技术提升20倍, 多盘失效风险降低95%
16
一体化双活:一套仲裁
仲裁部署
双活SAN服务 双活NAS服务
一体化定义
实现原理
创新设计
统一管理
一套仲裁统一管理SAN与NAS双活,任何故障场景实现 相同站点提供服务,并支持在物理服务器/虚拟机/公有 云上部署
⑤
⑧
LOG
③ ④
⑤
④
• HyperMetro管理模块返回写请求结果到文件系统。 • 存储系统将写I/O结果返回给主机。 • 判断双写是否成功。
Remote storage array
Primary Cache
Secondary Cache
› 如果两端都写成功:清除LOG。 › 如果有任意一端写失败:LOG转换成DCL,记录差异。
Local LUN
DWDM
Remote LUN
Remote storage array
– 如果有一端失败:LOG转换成DCL,记录本端LUN和
远端LUN的差异数据。
19
一体化双活写请求流程(FS)
Host cluster Host Storage
一体化定义
实现原理
创新设计
数据写实时镜像
• 主机下发写请求到active租户的文件系统。 • 文件系统将写请求写到HyperMetro管理模块。
存储资源池 双重模式
仲裁盘1 存储阵列A 支持静态优先与第三方在仲裁模式,最大限度保障方案 高可用 存储阵列B
业务粒度
仲裁设备
按业务粒度仲裁,业务均衡分布,站点间链路故障时就 近访问
17
一体化双活:一种网络
站点A 站点B 主机应 用集群
一体化定义
实现原理
创新设计
链路复用
站点间心跳、配置、复制链路IP或FC,,一种网络 即可满足SAN与NAS数据传输需求
故障场景:阵列间、S2与QS间链路同时或先后中断 处理结果:S2失效,S1继续提供服务,业务无影响
S2
故障场景:S2故障 处理结果:S1接管所有业务,继续提供服务 故障场景:阵列间链路中断 处理结果:S2失效,S1继续提供服务,同时记录差 异,待恢复后增量同步配置、数据。 故障场景:S1所在阵列与仲裁服务器的链路中断 处理结果:业务无影响
7
医院业务连续性需求:7x24在线
客户端 负载均衡 HA
医生需求:实时访问
• 病人病历、住院信息、检查结果随时录入 与查询
应用程序 (中间件)
XXX 的数据
应用需求:A-A集群
• 数据库与文件业务提供实时在线访问
数据库集群
个人信息(姓名,年龄,身份证 号,卡号….)
图片信息(索引)(胸片, CT,B超图片….)
医院业务:结构化与非结构化数据并存
HIS
病人基本信息 挂号 分诊、急诊 医生
PACS
下医嘱
LIS
数据库
取药
检查
化验
门诊 结束
执行医嘱 入院
SAN
文件系统
缴费 出院
ICU探视 护理 输出结果 医生查房 手术/示教 医生
NAS
HIS:Hospital Information System(医院信息系统) PACS: Picture Archiving and Communication Systems(影像归档与通信系统) LIS:Laboratory Information Management System(实验室信息系统)
创新设计
数据写实时镜像
• 主机下发写I/O到双活管理模块。
Storage
①
DCL
• 系统记录LOG。
⑤ HyperMetro management module ③ ④
• 执行双写:双活管理模块同时将该写I/O写入本端Cache和 远端Cache。 • 本端Cache和远端Cache向双活管理模块返回写I/O结果。
Local storage array
Disk
IP/FC
Disk
Remote storage array Same-city network between data centers
20
一体化双活数据一致性保障
站点A 站点B
一体化定义
实现原理
创新设计
存储层数据一致性保障 I/O双写确保数据一致
主 机
13
目录
1 业务连续性挑战 行业典型业务连续性需求解析 业界存储双活技术概览 华为一体化双活解决方案 成功故事
2
3 4 5
14
华为SAN与NAS一体化双活解决方案
站点A 站点B
主机应用集群 (共享卷挂载双 活文件系统)……
一体化定义
实现原理
创新设计
一台设备
免网关, 一台设备同时支持部署文件和数据库双活服务
停电
病毒爆发
媒体
医疗
零售业 制造业 电信
能源
金融
来源: Network Computing, the Meta Group and Contingency Planning Research
3
业务连续性容灾系统建设的必要性
设备故障
高
每 年 的 发 生 频 率 低 数据损坏 应用中断 磁盘故障 组件故障 网络问题 空调故障 电源故障 建筑火灾
• • • • • • •
•
• • •
数据、业务、网络连续性
双中心资源利用率高 业务、网络访问负载分担 端到端实时可用,自动容灾切换
Fusion Sphere
IT、网络资源利用率低,TCO高 手动切换,网络、业务中断时间长 组件多,故障恢复过程复杂,运维成本高 故障发生时,备份网络、数据是否可用?
Fusion Sphere
仲裁
15
一体化双活:一台设备
SAN与NAS并行架构图
iSCSI/FC/FCOE NFS/CIFS/FTP/HTTP
一体化定义
实现原理
创新设计
免网关
块和文件一体,无需额外购买NAS网关,购置 成本降低15%
Block Service
File Service
并行架构
SAN与NAS并行访问,为不同业务提供最优访 问路径,访问性能最优
故障场景:S1故障,S2仲裁获胜后,中断S2与QS间链路 处理结果:S2继续提供服务,业务无影响 故障场景:QS故障后、S2再故障 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;S2再故障,S1继续提供服务 故障场景:QS故障后,S1再发生整体故障 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;S1再故障,S2失效,业务中断 故障场景:QS故障后,阵列间链路再中断 处理结果:QS故障后,S1继续提供服务,并自动进入静 态优先模式;阵列间链路再故障,S1提供服务
统计显示:
• 97%的局部故障会导致企业 对外业务运行中断; • 3%的全局故障引起企业数据 丢失,可能导致企业消亡;
区域性灾难
自然灾害 恐怖袭击/战争
数据中心故障
低
单次发生的损失
高
如何有效应对故障和灾难对业务连续性带来的挑战?---建设容灾系统
4
IT系统建设双活容灾势在必行
方案优势 方案不足 方案不足
IP&FC NAS SAN
阵列与主机 间存储网络
一套仲裁
SAN
SAN IP&FC NAS
SAN与NAS共用一套仲裁,确保链路故障时同一站点提 供服务,保障数据一致
生产 存储
IP
数据实时镜像 双写心跳、配置
FC/IP
生产 存储
IP
一种网络
站点间心跳、配置、数据物理链路合一,一种网络即可 满足SAN与NAS传输
数据丢失,不可挽回 经济损失,名誉损失 无冗余网络,恢复能力弱
Fusion Sphere
站点A 单数据中心 1 2
5
站点B 5 6
站点A 双活数据中心 7
站点B
容灾等级
主备数据中心 3
4
目录
1 2 3 4 5 业务连续性挑战
典型业务连续性需求解析
业界存储双活技术概览
华为一体化双活解决方案
成功故事
6
FC/IP
IP/FC
IP/FC
单一网络
支持业务网络、站点间网络、仲裁网络全IP部署, 组网简单
高效传输
OceanStor>配置 > 双活 & 同步复制 > 异步复制
IP
IP
仲裁服务器
18
一体化双活写请求流程(LUN)
Host
一体化定义
实现原理
9
目录
1 业务连续性挑战 典型业务连续性需求解析 业界存储双活技术概览 华为一体化双活解决方案 成功故事
2
3
4
5
10
业界双活数据中心框架介绍
传输层
传输
冗余可靠性保护、最小传输时延 ≤100km 裸光纤
网络层
网络层
高可靠、优化的二层互联 最优的访问路径
应用层
应用层
Oracle Database以及 Weblogic、apache等应用
12
业界存储层双活方案解析
网关 控制器 网关 控制器 控制器 控制器 控制器 控制器
• IBM SVC • EMC VPLEX 特点:网关/数据级镜像/紧耦合
NAS网关 控制器 控制器
• • • •
HDS GAD EMC VMAX3 HPE PeerPersistence DELL Live Volume
• NetApp MetroCluster (SAN+NAS) • IBM HyperSwap 特点:非网关/数据级镜像/紧耦合
控制器 控制器
特点:非网关/设备级隔离/松耦合
NAS网关
• HDS GAD+HNAS 特点:非网关SAN+NAS网关/设备级隔离/松耦合
• Huawei HyperMetro(SAN+NAS) 特点:非网关/设备级隔离/松耦合/一体化
记录的信息,将数据增量写入存储;
阵 列 A
双活成员
双活成员
阵 列 B
分布式锁机制(DLM)
• 通过分布式锁机制,确保主机对同一存储地址的数据访问时, 由其中一台写入,确保数据一致性。
21
一体化双活典型故障场景处理
单点故障场景
QS S1 QS S2
一体化定义
实现原理
创新设计
处理结果
故障场景:仲裁服务器故障 处理结果:自动进入静态优先模式,业务无影响
①
⑦
Primary File System ②
DCL
Secondary File System
• 本端存储系统记录写请求的LOG信息。 • 执行双写:HyperMetro管理模块同时将该写请求写入两套存储
⑥ HyperMetro management module
Cache。
• 两端Cache向HyperMetro管理模块返回写请求结果。
④
⑥
LOG
② ⑥
③
• 双写结果处理:等待两端Cache的写处理结果都返回,才向
主机返回写I/O结果。 • 判断双写是否成功。 – 如果都写成功:清除LOG。
Local cache
Same-city network between data centers
Remote cache
Local storage array