双机容错系统方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
双机容错系统方案
1.前言
对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少的,另一方面,计算机硬件和软件都不可避免地会发生故障,这些故障有可能给企业带来极大的损失,甚至整个服务的终止,网络的瘫痪。可见,对一些行业,如:金融(银行、信用合作社、证券公司)等,系统的容错性和不间断性尤其显得重要。因此,必须采取适当的措施来确保计算机系统的容错性和不间断性,以维护系统的高可用性和高安全性,提高企业形象,争取更多的客户,保证对客户的承诺,减少人工操作错误、达到系统可用性和可靠性为99.999%。
2.双机容错系统简介
根据用户提出的系统高可用性和高安全性的需求,推出基于Cluster集群技术的双机容错解决方案,包括用于对双服务器实时监控的Lifekeeper容错软件和作为数据存储设备的系列磁盘阵列柜。通过软硬件两部分的紧密配合,提供给客户一套具有单点故障容错能力,且性价比优越的用户应用系统运行平台。
3.Cluster集群技术
Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。
Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明的向Cluster中加入组件。
一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。
Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。
4.工作拓扑图
5.双机容错系统软、硬件配置
•硬件配置
两台可为不同类型的服务器(最好为同类型),如:HP LC2000/LH6000
服务器上的SCSI卡,如:AHA2940UW/2940U2W
服务器上的网卡(NIC),如:HP5013
磁盘阵列柜,如:Adaptec 6200
•软件配置
操作系统: SCO UNIX或UNIXWARE,WIN2000/NT4.0
(OS版本应相同)
容错系统:Lifekeeper HA
数据库:Informix、Oracle、Sybase、SQL Server 、Notes等等
其它应用软件
6.工作模式
双机热备份(Hot Standby):
所谓双机热备份就是一台主机为工作机(Primary Server),另一台主机为备份机(Standby Server),在系统正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况(工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机可尽早通知系统管理工作人员解决,确保下一次切换的可靠性)。当工作机出现异常,不能支持信息系统运营时,备份机主动接管(Take Over)工作机的工作,继续支持信息的运营,从而保
证信息系统能够不间断地运行(Non-Stop)。当工作机经过维修恢复正常后,它会将其先前的工作自动抓回,恢复以前正常时的工作状态。
双机互备援(Daul Active):
所谓双机互备援就是两台服务器均为工作机,在正常情况下,两台工作机均为信息系统提供支持,并互相监视对方的运行情况。当一台主机出现异常时,不能支持信息系统正常运营,另一主机则主动接管(Take Over)异常机的工作,继续支持信息的运营,从而保证信息系统能够不间断地运行,而达到不停机的功能(Non-Stop),但正常运行主机的负载(Loading)会有所增加。此时必须尽快将异常机修复以缩短正常机负载持续时间,当异常机经过维修恢复正常后,它会自动抓回先前的工作,恢复以前正常时的工作状态。注:此模式至少二块NIC卡
7.双机容错系统工作原理
HA软件主要由监控与接管两部分组成
•监控系统
SCSI侦测:
HA内部含有侦测心跳通讯线路, 结果置于磁盘阵列柜上的一个8MB的小区,用于监控,此小区一般在机柜逻辑盘的起始段。对于某一台服务器而言,将侦测讯息以类似于记录方式写在该小区内,其中每一条记录包括如下内容:
(1)系统对本服务器的监测状态信息。
(2)另一台服务器是否看到本服务器状态的信息。
当一台服务器有问题或出现故障时,对等服务器的可调变心跳频率不断提高;在最小心跳时间内发现记录内容没有更新,即会调用网络心跳侦测再次确认系统状态;当两组心跳都判断系统故障时,Lifekeeper将故障服务器的交易业务在最小安全切换时间内切换到对等服务器上继续运行,同时修改记录区内容。
网络侦测:
业务服务器对网络设备监测,同时配合SCSI心跳侦测,对等监控两台服务器的工作状态。当有一台服务器因为网络故障或其它原因引起故障而不能正常处理业务交易时,对等服务器的可调变心跳频率不断提高;在最小心跳时间内发现心跳记录内容没有更新,即会调用SCSI心跳侦测再次确认系统状态;当两组心跳都判断系统故障时,LIFEKEEPER将故障服务器的交易业务在最小安全切换时间内切换到对等服务器上继续运行,同时修改记录区内容。
•切换系统
网络服务:
双服务器后台对于用户一端,由监控软件LIFEKEEPER提供一个逻辑的IP Address,如:192.192.192.1,任一用户上网只需要用到这一地址;当后台有一台服务器出现故障时,另外一台服务器会自动将其网卡的IP Address 替换为192.192.192.1;这样,用户一端的网络不会因为一台服务器出现故障而断掉。
数据库服务:
当有一台服务器出现故障时,另外一台服务器会自动接管数据库;同时启动数据库和应用程序,使用户数据库可以继续操作,对用户而言不受影响。
应用系统:
当有一台服务器出现故障时,另外一台服务器会自动接管各类应用程序;同时启动应用程序,使用户可以继续操作,对用户而言不受影响。
8.双机容错系统的优点
与市场上其它同类软件比较,它具有以下特别的优势:
最少占用系统资源:
Lfekeeper HA是一种需要配合硬件(阵列柜)使用的双机容错软件,由于使用共享的磁盘阵列作为数据源,所以不需要在两台服务器间架设专用网络,进行繁重的数据同步工作。有利于减轻主机及网络的负载,同时大大提高了系统在繁重业务下的可靠性。
跨平台工作:
广泛应用于NT或UNIX平台
侦测可靠:
软件可同时使用三种侦测网络,包括RS-232、TCP/IP、Share Disk。侦测网络架设方便,互为备份,具有极高的可靠性,可避免由于侦测网络故障而发生误切换。
切换安全:
引入可根据具体应用而自由设定的最小安全切换时间机制,可有效防止业务繁忙状态下,主、备机不能及时交换信息引起的误切换。
数据永不丢失:
使用具有容错能力的磁盘阵列系统作为外部数据存储器,可以防止由于硬盘损坏、数据丢失造成的重大损失。客户可以根据对容错能力、存储容量、硬盘访问速度、经济性等方面的需求灵活选择容错模式。