容错服务器技术介绍
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Continuous Processing® Systems
TMR
6600
Duplex Expansion I/O
PCI
CPU N-way SMP Chipset
CPU N-way SMP Chipset Memory Stratus SNP ASIC
CPU N-way SMP Chipset
6600 Series PCI
容错技术发展
专有容错系统 软件容错系统
硬件容错系统
单机
60‘
双机
70‘ 80‘
Cluster
90‘
集群
2000‘
Stratus 的容错产品线
Continuum VOS UNIX & ftServer V-Series ftServer T-Series/L-Series ftServer W-Series Windows-based solution Telco/Enterprise Linux Solution VOS UNIX solution HP UNIX
0100010110100 MEM 0101010101110 1011101001011 0001100011101
X
I/O
Disk
MEM
I/O
2 1+1=?
CPU、内存和等待I/O的所有数据丢失,数据库、应用、文件系统都没有被安全关闭 需要时间等待备机检测到故障发生 需要时间和运气进行磁盘组切换、需要时间和运气进行文件系统检查 最重要的是:切换并不一定总是成功!!! 需要时间和运气重新启动数据库并进行数据库修复工作 需要时间重新启动应用程序,需要重新进行一些运算以回到断点
Stratus的合作伙伴
在操作系统可靠特性上密切合作
内存重新同步 强化驱动程序
支持核心业务应用程序的模式 ftServer® 服务器被布署在 Redmond 测试实验室中
长期良好的合作计划 可以提前使用最新芯片进行整合测试 ftServer® 服务器被布署在 intel实验室中
HAL
Virtualized Legacy Device Support
Stratus® HAL Extensions
Continuous Processing®
可用性保证
$100,000
计划名称 事件
Perfect Performance
意外的机器硬件、系统软件或 操作系统故障 Stratus 支付 $100,000 现金
HA 与 CA 的区别
HA
选择新平台
交易丢失
业务延滞
故障出现
故障恢复
CA
容错服务器的可靠性数学基础
CPU I/O
CPU
I/O
集群技术的 可靠性数学模型 ------提高可靠性 避错设计
平行式结构
CPU
CPU
I/O
I/O
容错技术的 可靠性数学模型 ------连续可靠性 容错设计
架桥式结构
当我们有彻底避免灾难的方案时 为什么还要选择灾难恢复方案呢
AL3 (高可用,无 自动故障恢复,将用户的工作和交易 系统始终保持在线; 故障发生后需重新启 单点故障) 切换到备用系统;多系统连接磁盘柜 动目前的交易和重新计算;可能引起系统性 能的下降 AL2 (高可用) 允许多系统访问共享磁盘,备份系统ຫໍສະໝຸດ Baidu系统暂时中断,但可以迅速重新登录;需要 将替代原系统继续工作 利用日志文件重新开始计算,系统性能受 到影响
CA方案,Continuous Availability
服务器可用性级别的概念
AL4--关系到整个企业 甚至公众的关键应用 AL2-3--关系到企业和政府 的日常运行 AL0-1--关系到计算 机的应用 和普及
AL4
Mission Critical
AL2 - 3 Business Critical
预防、诊断并解决软件问题
强化驱动
容错操作
Prevent Outages
透明的 I/O 切换
完善的热插拔支持
系统保护
错误诊断和隔离 PCI 总线保护
驱动模式
在线诊断 主动式维护接口
兼容 Microsoft® WMI
驱动模式
ftServer® Failsafe软件结构
Failover Drivers NT OS KERNEL PCI Drivers Stratus® Hotplug Driver
Continuous Processing®
Failsafe Software
软件可靠性
瞬时硬件故障通过软件屏蔽掉 强化的驱动程序可预防软件故障
Continuous Processing® Systems
故障预防
软件的问题被可靠地捕捉、分析和 纠正
内存和硬盘中的数据均被可靠地保 护 高度地集成;错误防真测试
正常工作的容错机
CPU/MEM 板
CPU MEM I/O
I/O 板
Disk
2 1+1=?
SNP SSP Passive Backplane SNP SSP
CPU MEM I/O
Disk
1+1=? 2
所有运算在不同板上同时进行
当CPU板出问题时…
CPU/MEM 板
CPU MEM I/O
I/O 板
Disk
Jay Bretzmann Director of IBM’s xSeries Marketing
Stratus Technologies
•1980 -- 硬件级容错计算机系统厂商Stratus成立
•1981 -- 首先推出基于硬件的容错计算机系统
•1988 -- 建立世界上第一个提供24小时服务的远程 服务网 •1990 — 推出世界上第一个容错的 UNIX 操作系统 - FTX •1991 -- 推出 RISC 结构的 XA/R 系列容错计算机 系统 •1995 -- 推出 RISC 结构的 Continuum 系列容错 计算机系统 •1997 -- 推出容错的 HP-UX 操作系统 •2001 -- 推出世界上第一台 Windows 2000 硬件容 错服务器 ftServer
Second Generation ftServer® Family
Memory Stratus SSP ASIC Stratus SNP ASIC
Memory Stratus SNP ASIC Stratus SSP ASIC
6600
Passive Backplane
参与相同计算的冗余部件保证了系统远离停机
ftServer® 服务器被布署在EMC认证实验室中 EMC CLARiiON® 的代理关系 合作支持模式
Continuous Processing®
锁步技术(Lockstep Technology)
硬 件 冗 错
DMR 6600
Duplex Core I/O Lockstep CPUs
ftServer 6600 TMR
Assured Availability
意外的机器硬件、系统软件或操作 系统故障 Stratus 从服务费中作出适当补偿
任何在 Assured Availability Plus service agreement 内的 ftServer
补偿
产品
与集群技术的对比 —— 1
SSP Passive Backplane SNP SSP
CPU MEM
1+1=? 2
2
X
I/O
Disk
任何一块I/O板上的任何部件损坏,也不会影响系统的正常运行。 正在进行的运算和操作同样象没发生问题一样继续下去。
Cluster 会如何呢?
CPU
1+2=3 2 1+1=? 系统 A 系统 B
CPU
容错服务器
99.99%
99.9%
消除单点 故障的集 群系统
大型主机
99%
独立服 务器
使用外部磁 阵的独立服 务器 简易的集 群系统
开始考虑总成本(TCO)吧!
典型IT环境的构建与运行费用分析
一个IT环境5年总费用的典型例子
人员费用 服务器硬件 客户端硬件 软件 通信方面 其它
“The smallest element of the cost of running servers is actual server purchase price.”
Clusters, Mainframes 灾难恢复
ftServer 灾难预防
“Why choose a server designed to recover from a failure, rather than a server designed not to fail?”
Vernon Turner, IDC
系统体系结构
硬件故障是否会导致应 用中断 硬件故障是否会带来数 据丢失 典型切换时间和应用中 断时间
不会
不会
会
CPU中、内存中、等待I/O的数据均有可能丢 失
冗余部件锁步工作,无切换,应用 不受任何影响
几分钟~几十分钟不等(具体水平依赖于实施 水平、应用类型、数据规模、切换原因等许多 不确定因素)。切换期间应用对外无法响应, 且切换完成后有可能导致性能下降
ftServer® 可靠性指标 99.999+%(不受任何其它因素的影 响,实际统计结果为99.9997%) 通过系统内部冗余部件配合先进的 锁步技术防止故障,不依赖于其它 软件。结构简单直观。 集群技术 99.9%~99.99%(具体水平依赖于实施水平、 应用类型、数据规模、切换原因等许多不确定 因素) 使用两套或两套以上的计算机、磁盘阵列甚至 光纤交换机等通过复杂的拓朴结构再配合以 Cluster软件来实现故障恢复。结构复杂。
• 永久性故障 permanent
• 永远持续下去直至修复为止
• 间歇性故障 intermittent
• 短暂的,但却是断续的,既有其偶然性,又有其不定 期的重复性
• 偶然性故障 transient
• 暂时的,且可能是非重复性的
间歇性故障和偶然性故障
• 占所有现场失效的90%
• 消除其影响是容错技术研究的重点课题
V090402
Continuous Availability Operational Simplicity Financial Advantage
The Stratus® ftServer® W Series Family
The Smarter Approach to Uptime™
容错概念
按时间划分的故障的分类
Stratus Technologies
20多年的容 错研究经验
The Smarter Approach to Uptime TM
雄厚的资金
INVESTCORP Intel Other MidOcean Partners
ftServer® 的研发
基于行业标准的容错体系结构 硬件容错机制 对标准操作系统的进一步增强 为可靠性、可用性最高要求而组建的客户服务 在过去的28个月中研发申请了42项专利技术
AL1 (RAID 数据 硬盘作镜像或 RAID,保留系统日志文 突然宕机, 业务停顿; 数据完整性得到部分 保护) 件以便判读出错和恢复运算中的交易 保证 AL0 独立服务器 除部分服务器有冗余电源,风扇外, 突然宕机,业务停顿,不能保证数据的完 其他部件没有冗余保护 整性
不同技术的可靠性对比
方案可靠性 99.999%
X 1+1=?
SNP SSP Passive Backplane SNP SSP
CPU MEM I/O
Disk
1+1=? 2
2
任何一块CPU板上的任何部件损坏,都不会影响系统的正常运 行。正在进行的运算和操作会象没发生问题一样继续下去。
如果I/O板再出问题呢?
CPU/MEM 板
I/O
I/O 板
Disk
AL0 - 1 Conventional Servers
International Date Corp. (IDC)
服务器可用性级别的定义
可用性级别 AL4 (连续可用) 系统保护性能 系统内部 100%的部件和功能冗余 部件损坏对客户的影响 系统对用户充分透明; 业务不会中断;交易 数据不会丢失;不影响系统性能
solution
Stratus的服务领域
所有持续可用性属于必须的 地方
任何停机时间都是不能容忍的
场合
委曲求全的“容错”方案 —— Cluster
HA方案,High Availability 但这并不是真正意义上的容错!!!
或者,我们就使用容错计算机
在整个设计过程中无时不刻不为可 靠性考虑的产品 硬件级的容错 提供实测高达99.9997%的可靠性 使用标准的 intel XEON CPU 运行标准的 Microsoft Windows 2000 Advanced Server / Windows 2008 Enterprise Edition 不会出现软件切换 不会因为硬件故障导致应用失败 在线更换部件 ……