双机容错技术简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

双机容错技术简介
随着网络应用的不断增多,对网络服务的可靠性要求也越来越强。

服务器系统作为整个网络系统提供服务的核心,如果一旦有故障就会影响整个业务系统的正常运行,给企事业单位带来无可估量的经济损失。

根据有关机构的调查表明,在系统服务器硬件中,最容易发生故障的仍然是传统的的机械部分即硬盘(故障发生率为50%左右),其次是内存和电源。

目前,对上述三者所实行的基本可靠性措施已经相当完备。

然而在软件故障中,有系统本身或应用引起的故障越来越多。

群集备份技术是解决由软硬件引起可靠性降低的有效措施。

群集技术是用网络将两个以上的服务器连接起来,当一台服务器停机时,群集中的其他服务器在保证自身业务的基础上,将停机服务器的业务接管。

在群集系统中,最简单、最为典型的是双机热备系统。

双机热备份是提供计算机网络系统可靠性的有力措施。

在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。

双机热备份系统是一种软硬件结合的高可靠性应用模式。

该系统由两台服务器系统和一个外接共享磁盘阵列柜及相应的双机热备份软件组成。

用户的数据存放在外接共享磁盘阵列中。

操作系统和应用程序安装在两台服务器的本地系统盘上。

双机热备份系统采用“心跳”方法保证主系统与备用系统的联系(所谓“心跳”,指的是主从系统之间,相互按照一定的间隔发送通讯信号,表明系统目前的运行状态)。

一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳”信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。

双机热备份系统图
二、微软集群(CLUSTER)技术
2.1技术简介
为了向管理员提供管理企业和商业网络服务器的高级管理功能。

微软公司将群集技术集成在windows NT/2000 /2003 server企业版操作系统中,将该技术分为群集服务(CLUSTER)和负载平衡(NLB)服务。

虽然这两项技术都提供了提高服务器可用性和效率的解决方案,但是这两项技术是互为补充的。

当一个服务器出现故障时,另一个服务器则会接管该服务器负责处理的事务,即双机容错,而微软称该技术为MSCS(微软群集服务)。

设计MSCS用于对访问共享驱动器阵列的多个物理服务器进行分组,以便他们可以像单个网络服务器一样工作。

客户端可以使用单个计算机名访问应用程序,就好象群集是一个普通服务器。

MSCS服务可以监视群集内每一个服务器或者节点的运行情况。

如果其中一个服务器出现故障,MSCS会将寄存应用程序的责任转移到另一节点上。

负载均衡技术(NLB)允许管理员对多个服务器进行分组,以便每一个服务器都可以响应客户端请求。

群集服务的优点包括:
可用性高。

有了群集服务,诸如磁盘驱动器和 IP 地址之类的资源所有权会自动从发生故障的服务器转移到未发生故障的服务器。

当群集中的某一系统或应用程序发生故障时,群集软件在未发生故障的服务器上重新启动已发生故障的应用程序,或将工作从故障节点分散到其余节点上。

结果,用户只感觉到服务有瞬间的停顿。

故障回复。

当故障服务器回到联机状态时群集服务自动重新平衡群集中的工作负荷。

易管理性。

您可以使用“群集管理器”将群集作为一个系统来管理,对应用程序的管理也与它们运行在一台服务器中没有什么区别。

您可以通过拖放群集对象来将应用程序在群集内的不同服务器之间移动。

您还可以用同样的方式在不同的服务器之间移动数据。

这种方法可用来手动平衡服务器的工作负荷,并且能够卸载其工作负荷,以便进行有计划的维护。

您还可以从网络中的任何位置监视群集、所有节点以及资源的状态。

可伸缩性。

对群集服务可以进行扩展,以便满足不断增长的需求。

当一个支持群集的应用程序其总体负荷超过群集本身的能力时,就可以添加更多的节点。

负载均衡的效益:在NLB群集中的负载均衡服务器提供两项重要的功能。

第一是NLB可通过分散客户端的访问请求到群集的各个服务器中来调整应用程序的运行性能。

当流量增大时,可通过添加新的服务器到群集中。

添加或删除服务器不会中断整体服务的运行。

第二,NLB提供了高可用性,也就是不中断的服务,它可以通过监听群集中的服务器的失效,而自动地在剩下的可用服务器中重新安排客户端的网络流量。

2.2 技术特点
群集软件可将两台服务器构建为相互备援,负载分散(Dual Active)的高可用性服务器群集,亦支持活动服务器和备份服务器(Active/Standby)工作方式。

两台服务器的品牌、型号及配置不需完全一致。

两台服务器可同时处理不同的作业(例如:一为Internet Server,一为SQL Server)。

当任一台活动服务器死机时,其IP地址、服务器名称及运行的作业会自动转移至另一台服务器、客户端软件不须重新设定,只要重新连结至原先的IP地址及服务器名称即可继续作业。

服务器之间的作业转移可采用手动或自动方式。

两台服务器的信息交换可透过:RS232、Ethernet或双主机磁盘阵列系统。

NT群集软件是以双NT Service形态运行,若有一个NT Service不正常中断,另一个
NT Service会自动重新启动该不正常中断的NT Service,以确保NT群集软件不会成为单点失败。

2.3系统需求
两台Intel兼容CPU的PC服务器
Windows 2000 ADVANCED操作系统
TCP/IP或NetBEUI协议
心跳侦测链路:1个RS232接口, 1至N个Ethernet接口。

双机磁盘阵列(如 ESCORT DA系列磁盘阵列)
2.4应用支持
文件共享
Microsoft IIS(WWW, FTP, Gopher) 及BackOffice Server
关系型数据库应用(Microsoft SQL, Oracle, Sybase, DB2)
Microsoft Exchange Server, Lotus Notes Server
以NT服务为基础的软件
以TCP/IP通讯协议(IP地址)为基础的软件
以NetBEUI通讯协议(服务器名称)为基础的软件
2.5 工作原理
Cluster原理图
物理架构
服务器配置
操作系统:Windows 2000 Advanced(两台服务器的操作系统版本应相同)
应用软件:可以在两台服务器上正常应用的数据库软件(如:Oracle、Sybase、DB2,SQL等)或其他应用软件。

网络连接
私用网:两台服务器通过私用网传送心跳(HeartBeat)信号,使两台服务器能够相互了解对方的运行情况。

私用网也可通过RS-232网互连。

公用网:用来提供服务。

Client通过此网路与服务器通信。

当两台服务器互为备份时,对于不同的服务,可以用不同的公用网连接到两台服务器。

存储设备
自用存储设备:每台服务器均有自已的存储设备(本机硬盘),用于存放操作系统软件和其他一些不需要被另一台服务器访问的软件和数据。

共用存储设备:磁盘阵列上的信息可以被两台服务器分别访问,用于存放网络共享的重要数据。

磁盘阵列容错RAID系统可保证数据的安全性和可恢复性,避免和缩减了由磁盘故障或错误所造成的损失。

工作模式
主从方式工作原理:主机工作,从机处于监控准备状况;当主机宕机时,从机接管主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服务切换到主机上运行。

如下图所示:
主从方式图
双工方式工作原理:两台主机同时运行各自的服务工作且相互监测情况,当任一台主机宕机时,另一台主机立即接管它的一切工作,保证工作实时。

双工方式图
服务进程
双服务器采用TCP/IP或NetBEUI网络协议和客户连接
双机后台对于客户/服务器(Client/Server)网络用户透明
网络服务:对于客户端,由WINDOWS 2000 Cluster双机容错软件提供一个逻辑的IP 地址和一个主机别名。

这样,对于客户端不会因服务器故障切换,而重新登录。

数据库服务:当一台服务器出现故障时,另外一台服务器会自动接管数据库Engine;同时激活数据库和应用程序,便于客户数据库可以继续操作,对于客户而言不受影响。

自动侦测
Cluster软件正常工作时,两台服务器通过冗余通讯线路(私用网,Private Net)周期性地互送信号来互相侦测对方主机的状态(即心跳侦测),并将检测结果送往另一方作为判断的依据。

共有三类连接方式来建立私用网(Private Net):
RS-232 Socket Private Net:配置服务器空闲的串口作为一条通讯路径。

TCP/IP Socket Private Net:两台服务器上的网卡用反线(back to back)直连或通过 LAN 连接建立一条通讯路径。

磁盘卷:共享磁盘上的两个8M的NTFS专用分区(不推荐使用)为了避免不必要的失效切换,最好建立两条独立的物理路径作为通讯路径。

监控对象资源
卷(Volume)——磁盘阵列上的磁盘分区,提供“卷锁定”,以保证独占式卷存取。

两台服务器盘符映射和卷的分区信息必须相同。

IP地址:基于TCP/IP可切换的网络逻辑IP地址
计算机别名:基于NetBEUI可切换的计算机别名(Alias Name):
共享文件:客户可以存取共享目录,两个服务器使用相同的共享名。

NT 服务:大多数 Windows NT 的应用软件都通过NT 服务来实现.
用户自定义:配置资源不是通过NT服务来实现的Windows NT应用软件,把相关的资源对象捆绑在一起组成资源层次。

异常接管如果所有的私用网均失效,服务器起仍然可以用公用网侦测对方服务器的可用性。

如果对方服务器仍然可用,不触发接管动作;如果对方服务器不可用,立即触发接管动作。

当进入异常接管时,将在备机上启动一系列用来接管的程序,这些程序很可能以如下顺序来执行∶
备机接管磁盘阵列子系统的全部控制权
激活后备数据库
数据恢复
在新主机上恢复原操作环境
重新运行应用软件异常接管的时间=心跳侦测时间+外部存储接管+系统进程接管时间。

异常接管是全自动的,消除了人工不断监视的要求以达以最小的反应时间。

换回阶段在故障主机修复后,系统可手动或自动进行换回阶段,本阶段涉及以下程序∶关闭后备数据库
已修好的主机重新控制磁盘阵列子系统
正在工作的备机回到正常模式
恢复原系统环境并重新运行应用软件
WINDWOS 2000 Cluster软件运行的过程与原理
WINDOWS 2000 Cluster软件的组成
服务程序(Service):为客户提供服务的进程,如NFS或Oracle、Sybase、 DB2等数据库服务。

HA代理(Agent):HA代理监视服务的可用性,并向HA管理进程报告服务的状态。

HA管理进程(HA Manager):HA管理进程是WINDOWS 2000 Cluster软件的核心进程,由它来初始化系统配置,接来自HA代理的信息,并通过私用网与其它服务器的HA管理进程通信,协调运行服务器与备份服务器间的关系。

GUI管理工具(Administration Tool):系统管理者通过GUI管理工具管理、监视服务的运行状态。

NT Cluster软件的运行过程
WINDOWS 2000 Cluster软件运行时,首先启动HA Manager管理程序,对双机系统的配置初始化,然后启动必要的服务和代理程序来监控和管理系统服务。

HA代理程序用来监控、监测、诊断和管理硬件软件服务。

HA代理程序检测到该服务处理于活动状态并通告本机HA Manager,HA Manager会定时通知后备服务器上的HA Manager,其每项服务处于正常。

当HA代理程序检测到某个服务发生故障时,它就通知HA Manager管理程序。

HA软件首先会重新起动该服务多次(可由用户设定),如果启动不能成功,该服务会由HA转移到后备服务器上。

HA周期性地检测系统硬件的状态,如果硬件发生故障,HA会把与该硬件相关的服务转移到后备服务器上。

当某项服务发生转移时,HA首先在运行服务器上停止该服务,之后,由备份服务器上的HA在备份服务器上启动该服务。

由于停止和启动该服务都需要一定的时间,所以当服务被切换(转移)时,该服务会有短暂的中断,转移完成后,服务自动恢复正常运行。

考虑到一些数据库系统(如Oracle、Sybase、DB2等)以及其他一些应用软件(如Domino Server、WWW Server等),WINDOWS 2000 Cluster提供了一系列的Agent软件模块。

Agent为一个软件监视模块,监控数据库服务或其他应用服务的运行。

当运行服务器发生故障时,由Agent检测到之后,Agent向HA主控软件请求,进行相应的处理动作。

WINDOWS 2000 Cluster软件极大程度上减少了人工的介入,提高了系统的可靠性与安全性,使服务器能高可靠的运行。

相关文档
最新文档