聊聊软件定义存储

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分布式块存储---支持高速Infiniband网络
InfiniBand极速互联
56Gbps Fቤተ መጻሕፍቲ ባይዱR InfiniBand,超高速互联。
标准成熟多级胖树组网,平滑容量扩容。
近似无阻塞通信网络,数据交换无瓶颈
MB/s… 8000 6000 4000 2000 0
单链路速率对比
ns级通信时延,计算存储信息及时传递 无损网络QOS,数据传送无丢失 主备端口多平面通信,冗余通信无忧
存储本质上是IT硬件集成,IT软件定义。无非是集成和定义谁来做的问题。
独立业务存储
再修三年 修三年 新三年 旧三年
行业网关
修三年 新三年 旧三年
智能网 短、彩信
新三年 旧三年
统一增值平台 信令监测
新三年
各存储池形成 ,新购减少
移动E管家
MISC
彩铃
彩铃等大 量存储上 线
新增少,替 换成本高.
2003~2005
IBM DS8000 Huawei 18000 分布式存储最早诞生在互联网行业,随着技术的产品化成熟,越 EMC VMAX 来越多的企业级用户也在尝试,将传统的业务迁移到弹性,灵
活的分布式存储资源池
存储基本概念-----RAID
RAID(Redundant Array of Independent Disks)即独立磁 盘冗余阵列,RAID将多个单独 的物理硬盘以不同的方式组合成 一个逻辑硬盘,从而提高了硬盘 的读写性能和数据安全性 RAID5和RAID10
几个存储新概念
软件定义存储:存储资源由软件自动控制,通过抽象、池化和自动化,将标准服务器内存 存储、直连存储、外置存储或云存储等存储资源整合起来,实现应用感知,或者基于策略 驱动的部署、变更和管理,最终达到存储即服务的目标
超融合(HCI):是指同一套单元设备(如X86通用服务器)同时具备提供计算、存储和网 络服务的能力
计算
Controller
计算
Controller
Cache Controller
Cache Controller
存储
Controller
存储
计算
槽点:建议不超过32节点,集群规模需要研究;分级模型不明确,拭目以待;配置成本并不低 ,目前做到5k/TB;软硬解耦增加了太多磨合环节,甲方秒变集成商;大规模SSD的使用,损耗隐 患待研究;架构松耦合挺好的,但是故障点数量是增加的

磁盘柜

磁盘线缆
存储基本概念---DAS、NAS、SAN
DAS
主机
应用
文件/操作系统 逻辑卷管理器 RAID SCSI 设备驱动 SCSI/FC 总线卡 数据库 裸卷
NAS
主机
应用
文件/操作系统
I/O 重定向器 NFS/CIFS TCP/IP 协议栈 网络接口卡
FC SAN
主机
应用
IP SAN
主机
Exsi集群
Cluster 1
IBM DS8800
IBM 2499-384
Hp 3Par V800
Cluster 3
HP 3Par SS7440
IBM SVC IBM SVC IBM SVC
少量物理机
Cluster 2
HP 3Par SS7440
Brocade DCX
IBM SVC
少量物理机
Cluster 4
存储基本概念-----物理卷与逻辑卷
物理卷由几个硬盘通过RAID方式组成 ,从整体上看相当于一个盘组
在物理卷的基础上可以按照指定容量创建一个或多个逻辑卷,通过 LUN(Logic Unit Number)来标识 槽点:卷管理的概念,既在存储设备中存在,也在主机操作系统中使 用,因此传统块存储的IO层级较为复杂,维护工作量较大
2006~2008
2009~2011
2012~2014
2015~2017
设备投入生产年限很久,故障率高,年均2次的文件系统数据丢失问题 非资源池设备原厂已EOS,EOS比率40%以上 存储变更暴增,TOP1 性能问题难解,高可用问题风险较大 不断启动专项治理,2014年IBM,2015年华为,2016年惠普光交
X86服务器1
VM VM
VM
X86服务器2

VM
X86服务器N
X86服务器2
VM VM
X86服务器N
VM VM
FC/iSCSI
...
CPU 硬盘 硬盘 CPU … SAN
软件定义存储
硬盘
硬盘
硬盘
硬盘
硬盘
… …

硬盘
硬盘
硬盘
硬盘
硬盘
硬盘
硬盘
硬盘
分布式块存储架构
分布式无状态机头 IOPS提升3~5倍,性能线性扩展
传统存储网络不宜大规模池化
举例:资源池存储
石桥网管资源池
IBM DS8800
IBM 2499-384
IBM SVC IBM SVC IBM SVC IBM SVC IBM SVC Cluster 1
产业园网管资源池
Exsi集群
Cluster 2
HDS Vspg1000 Brocade DCX
IBM SVC IBM SVC IBM SVC
IP Network
网络接口卡 TCP/IP 协议栈
NFS/CIFS
数据管理系统 文件系统+ 逻辑卷管理器 RAID 设备驱动 块处理 I/O
FC总线卡 FC协议栈 数据管理系统 RAID 设备驱动 块处理 I/O
网络接口卡 TCP/IP协议栈
数据管理系统
RAID 设备驱动 块处理 I/O
传统存储的问题总结(满满的槽点)
实现SDS的scale-out架构
传统集中存储Scale-Up架构
1. 2. 3. 通过昂贵硬件保证系统的高可用性 管理维护要求能力高 扩展方式通过增加硬件配置实现 VM
X86服务器1
分布式存储Scale-Out架构
1. 2. 3. X86硬件,软件定义实现自动化、智能机制 管理维护要求能力低 扩展容易,可以达到PB级扩容空间
存储发展简史
1960s 大型机
1980s 个人电脑
1990s 互联网
2000s 移动互联网
2010s 大数据,云计算 IAAS 3.0
以云服务、移动宽带网络、大数据分 析、社交网络技术为依托
IAAS 1.0
以主机和终端、DAS为主
IAAS 2.0
以服务器、SAN/NAS为主
GB时代,MB/s
TB时代,GB/s
PB时代,10~100GB/s,分布式架 构
1956年 世界第一台磁盘存储 系统IBM 305磁盘介 质取代打孔卡,容量 5MB读写速率10K/s
1980年,薄膜磁头技 术,性能飞跃,容量 8*2.52GB 读写速率3MB/s
1993年 EMC Symmetrix 16MB DRAM, 1 GB Global Memory,容量1 TB, Hypervolume Extension
架构的致命缺点是IBM SVC为A/P模式,单个SVC故障时,Cluster需要软切换 ,敏感数据库业务无法接受切换时长,会Crash,已发生多次,无法避免; 该架构还有个前提条件是任何存储不能出现致命故障,否则全网业务可能宕 机,甚至是数据丢失; IBM SVC原厂早已停止进一步研发投入,且一线人员基本无法排障,升级到 二线也多次排查无果; 只余20TB空间,且IBM DS8800/HP 3par Ss7440存储已满配,无法扩容,只能 新增存储; 分配给了上千台虚拟机及少量物理机,数据库近30套,偶尔个别业务主机有 延时,怀疑是SVC性能问题,但一直无数据支撑,且原厂也分析不出根因;
性能 容量
• 计算机发展初期, 大容量硬盘价格非 常高,而需要存储 的数据量越来越大 • CPU运算速度飞速 提高,数据读写速 度不应该成为计算 机系统处理的瓶颈
RAID
可靠 性
• 信息时代,数据对 企业和个人的重要 性越来越大,数据 存储安全更需要保 障
槽点:RAID横行30年,技术越 来越复杂,维护难度加大


架构缺陷与石桥网管资源池相同 HP 3PAR SS7440存储为2TB的SATA盘,降低了存储整体性能 ,厂家检测: Vlun的read latancy为 368ms,高峰为438ms, Write latancy为 44 ms,高峰为59ms,可承受的合理IOPS不超 过9000,目前的实际IOPS为24068,超负核近2.5倍,风险非 常高。 产业园后端FC的3台存储硬盘总数(819块),远低于其他两 个资源池,整池IOPS性能较低,需要扩容。
举例:滨江资源池SAN瓶颈
1)核心一层为底端的Brocade4900,性能差,不如二 层的交换机性能好,且容易造成单点故障,会导致大 量业务主机宕机,但替换风险和难度很大,待实施。 2)整个SAN环境中共计有24台光纤交换机,极连时 都是单线,无Truck,即有IO瓶颈,也有可能某个极 连节点单线故障影响到下连所有光纤交换机上的业务 主机; 3)由于各类主机共用一个SAN,早期的一些服务器 不支持8GB或16GB速率,导致光纤交换机必须设置 最高为4GB才能兼容使用, 4)由于主机端挂载了多个存储,跨多个光纤交换机 节点,且有些光纤交换机节点工程时随意设置 DomainID,导致改造困难; 5)节点多,加上存储分配等随意性,排障非常困难 ,原厂经常找不到原因。
计算 存储
Cache Controller Controller Cache Controller
存储
分布式Cache 支持400G/800G/1.2T/2.4T的PCIE-SSD做高速缓存 支持多个SSD盘做高速缓存 在SATA盘场景下, 平均每盘100 IOPS以上,每节点最高可达到2000 IOPS 最小时延1mS 平均时延<5ms 在PCIE-SSD做场景下 平均每存储节点100K IOPS 最小时延0.3MS 平均时延<1MS
逻辑卷
LUN1
逻辑卷
LUN2
LUN3
物理卷
物理卷
RAID10
RAID5
单个物理卷上创建1个逻辑卷
单个物理卷上创建2个逻辑卷
存储基本概念---磁盘阵列

控制器
控制器是磁盘阵列的“大脑”,主要部 件为处理器和缓存,最先主要实现简单 IO操作、RAID管理功能,随着技术发 展,能够提供各种各样的数据管理功能 ,如快照、镜像、复制等 磁盘柜包含了多块的磁盘,本身既没有 处理器,也没有缓存,RAID及数据管 理功能通过控制器实现 槽点:中高端存储经过crossbar架构、 全点对点总线架构等演进,掌握架构基 本靠想象,黑盒子形成
投资:一次性成本较高,中高端集采单价1.5W/TB,光交30-40万一对,FC适配器可忽略;
如无规模优势,维保成本高;维护人员成本高,令人艳羡的待遇;能耗成本高。
工程集成:zone、LUN、RAID、owner、多链路、卷管理、备份、冗余、容灾。。。。工 作量较大,技能get投入大 维护监控:一套存储三种软件,有额外软件成本;厂家异构型号异构让统一存储运维只是一 个梦想;运维数据难于导出和解读,“拿去!你看不懂!”;故障处理往往需要多方会诊,问 题定位周期长,分析靠创意,排查靠遍历。 扩容升级:需要停机、扩容周期长、实施风险高,0点以后3小时起刷大夜。 性能表现:需根据实际配置进行计算,从不能相信技术指标;性能数据需专业解读,性能优 化基本靠扩 高可用及稳定性:稳定性高的背后,是大量的更换备件和升级版本操作;高可用演练环节多 ,药不能停;设备老旧,稳定性骤减,老干部要好好伺候。
GE
8G FC
10GE
56G FDR
槽点:成本高,技术支持差,线缆长度受限,网红目前有逐渐被万兆网络和高性能网卡替换的 趋势
分布式块存储---物理组网
组网归一
前端业务网络、后端存储网络均采用10GE,支持向 25GE/100GE平滑演进。 块、文件、对象统一硬件、统一网络管理。
Server SAN(基于服务器的分布式块存储):采用标准服务器作为硬件,通过软件对外提 供存储服务的产品 基于服务器的分布式文件存储:采用标准服务器作为硬件,通过软件对外提供文件存储服 务的产品,主流还是NAS,使用NFS/CIFS文件共享传输协议,树形目录+inode管理方法 对象存储(基于服务器的分布式对象存储):采用标准服务器作为硬件,通过软件对外提 供对象服务的产品,对象是一种数据集合,如图片、视频等,每个对象都在一个被称作存 储池的扁平地址空间的同一级别里拥有唯一OID,一个对象不会属于另一个对象的下一级
应用 数据库 裸卷 文件/操作系统 逻辑卷管理器 数据库 裸卷
文件/操作系统
逻辑卷管理器
SCSI 设备驱动 FC协议栈 FC总线卡
SCSI 设备驱动 iSCSI Layer TCP/IP Stack 网络接口卡
文件处理 I/O 块处理 I/O
IP Network
块处理 I/O
FC Network
块处理 I/O
相关文档
最新文档