第三章 计算机系统的可靠性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
备份介质
异地备份的备份信息至少不能存放在同一建筑物 业务数据由于系统或人为误操作造成损坏或丢失
后,利用本地备份信息实现数据恢复; 当发生地域性灾难时,使用异地备份实现数据及
整个系统的灾难恢复 常规数据备份一般要求一份数据至少应有两个拷
贝,一份放在生产中心以保证数据的正常恢复和 数据查询恢复,另一份则要移到异地保存。
硬件冗余通过硬件的重复使用来完成容错能力 软件冗余的基本思想是用多个不同软件执行同一
功能 信息冗余利用在数据中外加的一部分信息位来检
测或纠正信息在运算或传输中的错误而达到容错 时间冗余是通过消耗时间资源来实现容错,通过
重复运算来检测故障。按照重复运算是在指令级 还是程序级分为指令复执和程序复算 冗余设计可以是元器件的冗余设计,部件级、分 系统级的,或系统级的冗余设计
按备份的策略可分为完全备份、差分备份、增量 备份、按需备份
完全备份:对包括系统应用程序和数据库等一个 备份周期内的数据完全备份
差分备份:只备份上次完全备份以后有变化的数 据
增量备份:只备份上次备份以后有变化的数据 按需备份:根据临时需要有选择的进行数据备份 备份的数据量:完全备份>差分备份>增量备份
容错系统的概念
容错是用冗余的资料使计算机具有容忍故 障的能力,即在产生故障的情况下,仍有 能力将指定的算法继续完成
容错的思想来自于硬件容错 容错技术是指在一定程度上容忍故障的技
术,也称故障掩饰技术
容错系统
容错主要靠冗余设计来实现,通过增加资 源的办法换取可靠性,冗余技术分为硬件 冗余、时间冗余、信息冗余
三机表决系统 三台主机同时运行,由表决器根据三台机器的运行结果进行表决,
有两台以上机器运行的结果相同,则认为该结果为正确。当三机种的 一台机器损坏后,当双机备份系统 集群系统 均衡负载的双机或多机系统就是集群系统
软件冗余
主要目的是提供足够的冗余信息和算法程 序,使系统运行时能够及时发现程序设计 错误,采取补救措施,提高可靠性,保证 系统正常运行
第三章计算机系统的 可靠性
计算机系统的可靠性
可用性是指系统在规定条件下,完成规定的功能的能力 系统的可用性用可用度来度量 系统在t时刻处于正确状态的概率称为可用度,用A(t)来
表示 计算方法:
A=平均无故障时间MTBF/(平均无故障时间MTBF+平均修复时间 MTRF)
平均无故障时间指两次故障时间能正常的平均值,故障可 以是元器件故障,软件故障,也可能是人为攻击造成的
主要技术:恢复块方法和N-版本程序设计、 防卫式程序设计
恢复块方法
恢复策略:前向恢复和后向恢复 前向恢复指是当前的计算继续下去,把系统恢复
到连贯的正确状态,弥补当前状态不连贯情况 后向恢复指系统恢复到前一个正确状态继续执行 动态屏蔽技术---恢复块方法,采用的是后向恢复
策略
N-版本程序设计
种类
冗余无校验的磁盘阵列(RAID0) 镜像磁盘阵列(RAID1) 并行海明纠错阵列(RAID2) 奇偶校验并行位交错阵列(RAID3) 奇偶校验扇区交错阵列(RAID4) 循环奇偶校验阵列(RAID5) 二维奇偶校验阵列(RAID6)
员可靠性、环境可靠性
可用性的Hale Waihona Puke Baidu量
可维修性:指系统发生故障时容易进行修 复,以及平时易于维护的程度
可维修性定量:平均修复时间MTRF、在指定 时间内恢复服务的可能性
维修保障
避错:通过提高软硬件的质量来提高系统 的可靠性
容错:在计算机内部出现故障的情况下, 计算机仍能正确的运行程序并给出正确结 果的设计
数据备份的重要性:减少不必要的信息占用磁盘空间 防止由于各种原因造成的数据丢失 能够恢复的备份才是备份 为了保证单点的数据安全性,RAID技术、镜像技术甚至
双机备份无法替代数据备份 系统防护技术:防病毒、防黑客入侵技术 系统保护技术:数据备份,快速恢复、异地存放、远程控
制、灾难备援
平均修复时间指从故障发生到系统恢复平均所需要的时间
可用性的定量
1.可靠性:在一定条件下,在指定的时期 内系统无故障的执行指令任务的可能性
可靠度:在t0时刻系统正常的条件下,在给定 的时间间隔内,系统仍然能正确执行其功能的 概率
可靠性的测度:抗毁性、生存性和有效性 可靠性的表现:硬件可靠性、软件可靠性、人
采用的是前向恢复策略,设计思想:用N个 具有相同功能的程序同时执行一项计算, 记过通过多数表决来选择。
防卫式程序设计
基本思想:通过在程序中包含错误检查代 码和错误户代码,使得错误一旦发生,程 序能撤销错误状态,恢复到一个已知的正 确状态中去,实现策略包括错误监测、破 坏估计和错误恢复三个方面,软件容错已 成为容错领域重要分支之一
3.自动恢复 故障主机被替换后,进行故障隔离,修复完成后联机,将原来的工作 程序和磁盘上的数据自动切换回修复完成的主机上
硬件冗余
增加线路、设备、部件、形成备份
方法之一硬件堆积冗余 方法之二待命储备冗余 方法之三混合冗余系统
数据备份
问题:
备份的措施不足 备份解职的物理保护不够
磁盘阵列存储器的编码容错方案
廉价冗余磁盘阵列RAID简称磁盘阵列 是一种使用磁盘驱动器的方法,将一组磁
盘驱动器通过某种逻辑方式联系起来,作 为逻辑上的一个磁盘驱动器来使用
RAID优点
成本低、功耗小、传输速率高 可以提供容错功能 在同样的容量下,RAID比传统的大直径磁
盘驱动器来,价格要低许多
备份后的数据是否可更改
活备份是指备份到可擦写存储介质 死备份是指备份到不可擦写存储介质
双机容错系统 一个CPU板出现故障,CPU保持继续运行
双机热备份 当CPU出现故障时由闲置状态的备份系统接替,但正在处理的交
易可能会丢失,从而导致数据的不一致 “心跳线”出现问题,系统很难自动判断,资源浪费
容错系统工作过程
1.自动侦听:通过专用的冗余侦听系统各冗余单元是否存在故障,发现 可能的错误和故障,进行判断与分析,确认主机出错后,启动后备系 统 侦听检查部件:主机硬件、主机网络、操作系统、数据库、重要应用 程序、外部存储子系统
2.自动切换 数据可信是切换的基础 当确认某一主机出错时,正常主机除了保证自身原来的任务继续运行 外,将根据各种不同的容错后备模式,接管预先设定的后备作业程序 程序,进行后续程序及服务