HA和集群的概念

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.1 什么是集群简单的说集群cluster就是一组计算机它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点node。一个理想的集群是用户从来不会意识到集群系统底层的节点在他/她们看来集群是一个系统

而非多个计算机系统。并且集群系统的管理员可以随意增加和删改集群系统的节点。 1.2 集群系统的主要优点1高可扩展性2高可用性HA集群中的一个节点失效它的任务可传递给其他节点。可以有效防止单点失效。3高性能负载平衡集群允许系统同时接入更多的用户。4高性价比可以采用廉价的符合工业标准的硬件构造高性能的系统。2.1 集群系统的分类虽然根据集群系统的不同特征可以有多种分类方法但是一般把集群系统分为两类1、高可用High Availability

集群简称HA集群。这类集群致力于提供高度可靠的服务。就是利用集群系统的容错性对外提供724小时不间断的服务如高可用的文件服务器、数据库服务等关键应用。负载均衡集群使任务可以在集群中尽可能平均地分摊不同的计算

机进行处理充分利用集群的处理能力提高对任务的处理效率。在实际应用中这几种集群类型可能会混合使用以提供更加高效稳定的服务。如在一个使用的网络流量负载均衡集群中就会包含高可用的网络文件系统、高可用的网络服务。

2、性能计算High Perfermance Computing集群简称HPC集群也称为科学计算集群。在这种集群上运行的是专门开发

的并行应用程序它可以把一个问题的数据分布到多台的计

算机上利用这些计算机的共同资源来完成计算任务从而可

以解决单机不能胜任的工作如问题规模太大单机计算速度

太慢。这类集群致力于提供单个计算机所不能提供的强大的计算能力。如天气预报、石油勘探与油藏模拟、分子模拟、生物计算等。 3.1 什么是高可用性HA 计算机系统的可靠性用平均无故障时间MTTF来度量即计算机系统平均能够正常运行多长时间才发生一次故障。系统的可靠性越高平均无故障时间越长。可维护性用平均维修时间MTTR来度量即系统发生故障后维修和重新恢复正常运行平均花费的时间。系统的可维护性越好平均维修时间越短。计算机系统的可用性定义为MTTF/MTTFMTTR 100。由此可见计算机系统的可用性定义为系统保持正常运行时间的百分比。计算机产业界通常用如下表所示的9的个数来划分计算机系统可用性的类型。可用性分类可用水平每年停机时间容错可用性999999 1 min 极高可用性99999 5 min 具有故障自动恢复

能力的可用性9999 53 min 高可用性999 8.8 h 商品可用性99 43.8h 负载均衡服务器的高可用性为了屏蔽负载均衡服务器的失效需要建立一个备份机。主服务器和备份机上都运行High Availability监控程序通过传送诸如“I am alive”这样的信息来监控对方的运行状况。当备份机不能在一定的时间内收到这样的信息时它就接管主服务器的服务IP并继续提

供服务当备份管理器又从主管理器收到“I am alive”这样的信息是它就释放服务IP地址这样的主管理器就开开始再次进行集群管理的工作了。为在主服务器失效的情况下系统能正常工作我们在主、备份机之间实现负载集群系统配置信息的同步与备份保持二者系统的基本一致。HA的容错备援运作过程自动侦测Auto-Detect阶段由主机上的软件通过冗余侦测线经由复杂的监听程序。逻辑判断来相互侦测对方运行的情况所检查的项目有主机硬件CPU和周边、主机网络、主机操作系统、数据库引擎及其它应用程序、主机与磁盘阵列连线。为确保侦测的正确性而防止错误的判断可设定安全侦测时间包括侦测时间间隔侦测次数以调整安全系数并且由主

机的冗余通信连线将所汇集的讯息记录下来以供维护参考。自动切换Auto-Switch阶段某一主机如果确认对方故障则正常主机除继续进行原来的任务还将依据各种容错备援模式

接管预先设定的备援作业程序并进行后续的程序及服务。

自动恢复Auto-Recovery阶段在正常主机代替故障主机工作后故障主机可离线进行修复工作。在故障主机修复后透过冗余通讯线与原正常主机连线自动切换回修复完成的主机上。整个回复过程完成由EDI-HA自动完成亦可依据预先配置选择回复动作为半自动或不回复。 3.2、HA三种工作方式1、主从方式非对称方式工作原理主机工作备机处于监控准

备状况当主机宕机时备机接管主机的一切工作待主机恢复

正常后按使用者的设定以自动或手动方式将服务切换到主机上运行数据的一致性通过共享存储系统解决。2、双机双工方式互备互援工作原理两台主机同时运行各自的服务工作且相互监测情况当任一台主机宕机时另一台主机立即接管它的一切工作保证工作实时应用服务系统的关键数据存放在共享存储系统中。3、集群工作方式多服务器互备方式工作原理多台主机一起工作各自运行一个或几个服务各为服务定义一个或多个备用主机当某个主机故障时运行在其上的服务就可以被其它主机接管。第一章高可用性基础概念第二节集群技术集群技术是实现系统高可用性的重要手段本节将讨论什么是服务器集群、如何建立服务器集群及相关问题。什么是服务器集群服务器集群是作为单一系统进行管理的一组独立的服务器用于实现更高的可用性、可管理性和更优异的可伸缩性。怎样建立服务器集群服务器集群的最低要求是a两台服务器通过网络互连b允许每台服务器访问对方的磁盘数据c专用的集群软件如Microsoft Cluster Server MSCS。专用软件可以提供包括故障检测、恢复等多种服务并允许将服务器作为一个单一系统进行管理。服务器集群有何优势服务器集群拥有三项主要优势更高的可用性、更方便的可管理性以及更经济高效的可伸缩性。可用性MSCS能够自动检测应用或服务器故障并可将其在幸存服务器上快速重新启动而用户只会体验到瞬间的服务暂

停。可管理性MSCS使管理员能够快速检查所有集群资源的状态并轻松地将工作负载分配给集群之中的不同服务器。这对于人工负载平衡十分有用并且无需将重要数据和应用

脱机即可对服务器进行“滚动升级”。可伸缩性支持集群的应用可以通过MSCS应用程序接口API使用MSCS服务从而在一个集群中的多台服务器上实现动态负载平衡和扩展。三种集群技术共享磁盘最早的服务器集群允许所有服务器访问所有磁盘。最初这种方式需要部署昂贵的线缆和交换机并要求使用专用的软件和应用协调共享磁盘访问的专用软

件通常被称为分布式锁定管理器或DLM。今天像SCSI这样的标准已经消除了对昂贵线缆和交换机的需求。然而共享磁盘集群仍然需要使用经过专门改造的应用。这就意味着它不能供广泛的应用所使用然而这些应用却被部署在每年销

售量达数以百万计的服务器之上。共享磁盘集群也存在着固有的伸缩性局限因为当您在集群中增加服务器时DLM争用是呈几何倍数增长的。共享磁盘解决方案的实例包括Digital VAX集群和Oracle并行服务器。镜像磁盘一种更为灵活的替代方案是使所有服务器均拥有自己的磁盘并且运行这样

的软件即能够将一台服务器的每一次写入操作“镜像”到至少一台其它服务器的数据拷贝中。对于需要与主服务器数据保持同步的灾难恢复站点应用来说这是一项非常重要的技术。现在市场上有很多磁盘镜像解决方案例如Network

相关文档
最新文档