容错服务器同集群技术的比较-海得控制
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
容错服务器同集群技术的比较
上海海得控制系统股份有限公司系统事业部
¾技术原理:
Stratus的容错服务器所采用专利的硬件Lockstep(锁步)技术,系统保持多CPU/内存单元在精确的同步状态——同一时钟周期执行相同的指令。Lockstep能够确保包括瞬时错误在内的任何错误都不会影响到系统运行,系统可以在任何CPU/内存单元,或IO单元发生错误的情况下不丢失动态数据或状态,也不需产生中断进行错误处理。因此容错服务器避免了一主一备的双机集群所产生的故障切换和恢复时间,以及该过程中和动态数据的丢失。集群的这种切换由于是建立在软件的基础上,随着数据库越来越大,应用的复杂性,切换时间可以从几分钟甚至几十分钟,切换时间内的实时数据将随之无法重新采集,对外服务停止。
¾系统结构:
容错服务器采用的是部件级别的冗余,即主机内部有冗余的CPU部件和I/O部件,同时CPU部件和I/O部件交叉通讯(如图),用部件冗余的方式消除了系统内部包括CPU,内存、I/O控制设备以及硬盘(RAID1)甚至底板的单点故障。而集群方案仅仅是系统级别(即服务器级别)的冗余,而且严格意义上必须配置两个镜像的外置磁盘阵列柜,才能真正意义从物理结构上消除系统和存储的单点故障,但整个系统依然在连接两台服务器的心跳线上存在切换的单点故障。另外,这种物理上的系统级别冗余还必须依靠脚本程序的设计和集群的实施水平,容错服务器也避免了这种无法确定的人为因素。
¾系统可靠性:
容错的可靠性级别完全符合业界对容错服务器99.999%可靠性指标的要求,这种服务器可靠性指标要求系统包括操作系统之内的年平均计划外停机时间必须小于5分钟,而Stratus多年来的实测证明, Windows平台下的容错服务器甚至达到99.9997%的可靠性,平均每年非计划外的停机时间小于3分钟。这种实测数据包括了操作系统和其他软件的因素,从某种程度上说明,Windows平台的容错服务器的可靠性甚至超过了任何UNIX操作系统平台下的服务器。而且从业界对集群技术的可靠性指标分析来讲,集群的可靠性指标通常只能达到99.9%--99.99%,即集群只能保证系统的每年平均计划外停机时间在8小时到53分钟,而且无法对单个集群系统进行可靠性预测。
¾数据可靠性(内存动态数据):
同集群技术相比,容错服务器简化了整个系统的结构,在数据容量要求不高的情况下(400*3GB 以内),避免了使用集群技术所必须的外置式共享存储柜,减少了系统的故障点。而且容错服务器在数据存储的设计上完全采用安全性最高的RAID 1镜像保护,在设计上只在数据写入硬盘之后,系统才认为完成一次真正的写操作,保证数据的完整性和安全性。而采用具有高容量缓存的硬RAID的技术,一旦RAID卡出现故障,没有写入硬盘、驻留在缓存中的数据存在丢失的可能。容错服务器独特的冗余硬
件结构不但保证磁盘静态数据的完整性,而且保证内存数据的完整性。从而保证数据的完整一致性。而集群一旦出现主机故障,其CPU、内存、缓存中的所有动态数据将无法复制到备机中,只能通过重新计算甚至花费大量时间来恢复。Stratus采用ftMemory功能能保存系统崩溃和重启动前指定区域的内存数据,保证动态数据的完整性。
¾故障容忍范围:
计算机故障可以分为永久故障和瞬间故障,容错服务器无论对永久故障还是瞬间故障,都能利用内置的逻辑比较线路和原理,自动采取自我检测、故障定位和故障自动隔离来消除故障,而不停止对外的服务。普通服务器没有容忍故障的功能,无论是永久故障还是瞬间故障都会对其造成致命的崩溃,而采用集群的方式,也只能治标不治本,它是放弃了对故障的避免设计,而采取故障后恢复的设计。
¾单软件映像:
容错服务器虽然是部件级冗余,系统内部有双重或者三重的冗余部件,但从软件角度上来看,它是单软件映像的,也就是说任何单机上开发的软件可以无缝移植到容错服务器上,而不需要进行任何代码修改和二次开发。对用户来讲,容错服务器就如同在单机上配置一样简单,用户开发管理非常方便,只需要把在单机上经过开发和测试的软件,移植到容错服务器上就可以。这种单软件映像,避免了集群系统上对软件做任何修改必须在两台服务器上作升级,也可能必须对集群软件进行脚本程序的重新编译,更重要的是必须经过多次不同模拟故障情况下的双机切换测试,而且这种故障模拟又是非常困难和难以周全的。因此,容错服务器单软件映像不但节省了系统的软件购买成本,而且相比集群技术,大大降低了软件开发、升级所需要的无法估计的高成本。容错服务器的单软件映像,不但简化系统的软件,提高软件的稳定性,而且使得系统的安装调试的时间大大降低,可以保证系统按时在最短的时间内投产;而一旦系统正常运行投入生产后,容错服务器又可以大大减少系统在软件升级或开发上所造成的计划停机时间。
¾操作系统可靠性:
Stratus ftServer利用其独特的冗余结构和容错技术,改进和完善了Windows操作系统的可靠性和稳定性,包括驱动程序的强化,在线转存功能,所有部件热插拔驱动功能,快速重启动功能等等。
¾热插拔功能:
容错计算机的重要部件是双份甚至三份冗余,并且是全双工同步运行,而且模块化设计。这使得容错计算机的所有部件均具备热插拔的功能,从而轻易实现容错计算机的在线恢复和在线升级等操作。换言之,我们对比普通服务器(即使在集群系统内的服务器也只是普通服务器),它们内部能够支持热插拔的部件只可能是冗余电源,硬盘,冗余风扇,有些可以在某些特定操作下对I/O板卡进行热插拔和热更换。但容错服务器的容错技术,保证系统任何部件出现故障,均可以在线热插拔和热更换:CPU、内存、电源、风扇、硬盘、I/O设备控制卡、网卡、主板上任何元器件甚至底板本身,均可在线更换和升级,而且一旦更换或增加完毕,操作系统会自动加载这些部件板,而所有这些操作对用户是完全透明的,用户完全可以通过更换模块来简单操作并且不需要经过专门的技术培训。值得特别提出的是,这种热插拔及在线升档是在运行系统的连续运行状态下进行的,对在用系统无任何影响。而集群结构的服务器通常在出现任何电源、风扇和硬盘以外的任何形式的硬件故障均需将应用短期中断或者进行把系统和应用从主机向备机切换,中断时间的长短视系统规模及结构的复