【最新】服务器集群

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【最新】服务器集群
集群服务器
百科名片
集群服务器
集群，英文名称为Cluster，通俗地说，集群是这样一种技术：它将多个系统连接到一起，使多台服务器能够像一台机器那样工作或者看起来好像一台机器。

采用集群系统通常是为了提高系统的稳定性和网络中心的数据处理能力及服务能力。

目前，有两种常用的服务器集群方法，一种是将备份服务器连接在主服务器上,当主服务器发生故障时,备份服务器才投入运行,把主服务器上所有任务接管过来。

另一种方法是将多台服务器连接,这些服务器一起分担同样的应用和数据库计算任务,改善关键大型应用的响应时间
举个例子来说，我们架设了一台、DEC、HP、NCR、SUN、SGI、NEC、SIEMENS 等） _ 支持众多的PC平台的Uni_系统（如：SCO/Uni_、Solraris _86等） _ 支持各种数据库：MS-SQL、Oracle 、Informi_、Sysbase、E_cheng|、Lotus/Nose、DB2等接管动作包括
_ 文件系统( File System) _ 数据库( Database) _ 网络地址( IP
Address) _ 应用程序(AP) _ 系统环境(OS) _ 容错备援运作过程
自动侦测(Auto-Detect)阶段，由主机上的软件通过冗余侦测线，经由复杂的监听程序。

逻辑判断，来相互侦测对方运行的情况，所检查的项目有：
_ 主机硬件(CPU和周边) _ 主机网络 _ 主机操作系统 _ 数据库引擎及其它应用程序 _ 主机与磁盘阵列连线
为确保侦测的正确性，而防止错误的判断，可设定安全侦测时间，包括侦测时间间隔，侦测次数以调整安全系数，并且由主机的冗余通信连线，将所汇集的讯息记录下来，以供维护参考。

自动切换(Auto-Saster，主机B为Slave _ 主机A处理作业和数据，主机B作为热备份机 _ 主机A故障后，主机B自动接管主机A的作业和数据 _ 主机B同时接管A的主机名(Host)及网络地址(IP) _ 主机A的作业将在主机B上自动运行 _ 主机A的客户(client)可继续运行，无需重新登录 _ 主机B现为Master,主机A修复后作为Slave，作为热备份机 _ 2个主机建议使用规格相同的主机模式3---双机热备份(Hot Standby)
_ 双主机通过一条TCP/IP网络线以及一条RS-232电缆线相联 _ 双主机各自通过一条SCSI电缆线与RAID相联 _ 主机A为Master，主机B为Slave _ 主机A处理作业和数据，主机B作为热备份机 _ 主机A故障后，主机
B自动接管主机A的作业和数据 _ 主机B同时接管A的主机名(Host)及网络地址(IP) _ 主机A的作业将在主机B上自动运行 _ 主机A的客户(client)可继续运行，无需重新登录 _ 主机A修复后，自动接管原来的作业和数据，主机B继续作备份机
模式4---双机双网络适配器(Dual Ethernet Adapter)
_ 双主机各自通过一条SCSI电缆线与RAID相联 _ 双主机各自运行不同的作业 _ 每一主机定义第一网口和第二网口 _ 主机A上第一网口在故障时由第二网口接管 _ 主机B上第一网口在故障时由第二网口接管 _ 主机A故障后，主机B自动接管主机A的作业和数据 _ 主机B同时接管A 的主机名(Host)及网络地址(IP) _ 主机A的作业将在主机B上自动运行 _ 主机A的客户(client)可继续运行，无需重新登录 _ 主机A同样可作B 的备份机 _ 进行数机双工备份和网卡的备份
ROSE HA 新功能介绍RoseHA for SCS应用程序心跳故障检测Heartbeat：LifeKeeper在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制.即通过每一个通信路径，在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,LifeKeeper就把这条路径标示为失效(红色),如果你只定义了一条通信路径当 LifeKeeper 把这唯一的一条通信路径标为失效时,LifeKeeper便立即开始恢复过程.然而,如果有冗余路径.LifeKeeper能够通过第二条路径确定是系统故障还是
只是通信路径有问题。

如果LifeKeeper开启优先级第二的通信路径并收到了心跳信号，它就不开始failover恢复，只需要把第一条通信路径标成红色（失效），作为信号告诉你需要修理一下有故障的路径。

一般情况下LifeKeeper 只在下列事件发生时，启动系统恢复功能：所有的通信路径故障.如果所有节点都没能收到心跳信号.把所有通信路径都标为失效，Lifekeeper开始安全检查。

安全检查失败.当所有通信路径故障时,LifeKeeper向整个网络发出安全检查信号.如果信号指出配对系统还”活”着的时候,LifeKeeper不启动Failover如果安全检查没从配对节点返回信号，LifeKeeper 就开始Failover。

因而，为了减少由于潜在的通讯错误所引起的不必要的系统切换，建议您使用不同介质的多条通信路径.通信路径：
LifeKeeper支持在节点之间和心跳通讯中，使用如下通讯路径：
(1)socket，即套接字。

你使用任何的网络硬件接口，只要它能够支持TCP/IP 的通讯协议。

这样的硬件包括：以太网、快速以网、令牌环网以及FDDI 或CDDI 。

(2)串行口在LifeKeeper配置中，你应当配置有一个串行口通信路径。

串口通信路径需要利用RS232的拟调解线路来与LifeKeeper系统相连接。

(3)共享磁盘你可以定义一个共享磁盘分区来作为LifeKeeper的通讯中介。

可以只使用小至1MB的分区，当然，也可以使用更大的空间。

LifeKeeper 假定，当通过心跳信号检测其它服务器失败时，则认为此服务器是关闭的。

因此，为了避免不必要的失效切换，最好建立两种以上独立的物理路径，使用至少两种心跳。

例如，如果两个服务器被一个串口连接起来，并且，从属服务器来的心跳信号无法被主服务所检测到，则下面之一是可能引起这一现象的原因：服务器的RS-232卡或者端口失败电缆失效主服务器暂时挂起主服务器失败,失效切换只可能在最后一种情况下才发生。

因此，节点间的多种通信路径可以帮助避免不必要的失效切换。

注： 1、支持目前所有主流的 DataBase
ndcluster多节点高可用集群系统
解决方案描述：目前大多行业用户所面临和苦恼的问题包括：1、关键业务的可靠性问题；2、系统中多个关键业务的维护难度高的问题；3、应用数据安全的问题；4、业务系统停止服务会造成巨大损失的问题。

LanderCluster产品系列包括双节点产品和多节点产品LanderCluster-MN。

主要解决用户关键业务系统的高可用性、可管理性、系统整合、系统配置优化的问题。

联鼎双机能有效的解决单一关键业务的可用性问题，构建一个高效的双机集群环境。

而联鼎多节点集群方案则能够将多个关键业务整合在一个多节点的集群环境中，各节点之间实现了灵活的硬件冗余，在集群中的一个或多个服务器发生故障时，保证关键业务的不间断服务。

解决方案目标用户：
银行中间业务系统、电信计费、邮政储蓄、政府、医院、厂矿企业等具有关键业务的行业用户。

解决方案功能与优势：
功能描述：●自主产权软件产品，支持功能定制；●集群配置安装维护简单；●管理员密码验证，安全级别高；●集群软件自我监控功能，确保守护进程健康运行；●对应用程序的灵活监控功能，可以对进程数量、特殊应用进行监控；●节点和任务的可伸缩性；●通过集群管理平台可以进行集中、远程的管理、监控；●理论上支持的节点数无限；●任务的备援规则可以灵活配置，资源利用更加合理；●基于系统级的集群实现应用级的集群；●保证了足够的集群系统综合处理性能；●集群工作方式灵活多样，支持多机互备、多备一、多备多等方式；●完善的日志记录和错误报警，便于错误跟踪；。

●应用的无关性，支持几乎所有的数据库环境（Informi_/oracle/Sybase等）;方案优势：●节省管理成本，集群中的节点统一管理，使管理变得轻松；●整合了环境中的应用，使之达到
整体高可用；●方案性价比高，关键业务子系统越多、方案的平均投入越低，节省了设备的投资；●方案伸缩性好，集群中主机可以灵活增加、减少；●服务优势明显，借助联鼎服务平台，可以得到全方位、及时的技术服务
系统构架
系统配置● Linu_、Other Uni_● SCO OpenServer 5.0.4 or later● SCO Un磁盘空间;●共享磁盘阵列子系统中需要划分单独的字符设备;●用于SCSI HeartBeat容量5M;● LanderCluster需200K左右的内存;
数据库：
● Informi_ 7._ or later● Oracle DataServer 7._ or later● Sybase all released version ● DB2 7._ or later其他：●用户可以根据实际环境定制功能●用户定制备援规则
配置示意图解
方案一：
方案二：
方案三：
所属主题:平台
数据库
系统监控
集群
服务器
上一篇下一篇
集群（cluster）技术是一种较新的技术，通过集群技术，可以在付出较低
成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益，其任务调度则是集群系统中的核心技术。

集群是一组相互独立的、通过高速网络互联的计算机，它们构成了一个组，并以单一系统的模式加以管理。

一个客户与集群相互作用时，集群像是一个独立的服务器。

集群配置是用于提高可用性和可缩放性。

1 科学集群
科学集群是并行计算的基础。

通常，科学集群涉及为集群开发的并行应用程序，以解决复杂的科学问题。

科学集群对外就好像一个超级计算机，这种超级计算机内部由十至上万个独立处理器组成，并且在公共消息传递层上进行通信以运行并行应用程序。

2 负载均衡集群
负载均衡集群为企业需求提供了更实用的系统。

负载均衡集群使负载可以在计算机集群中尽可能平均地分摊处理。

负载通常包括应用程序处理负载和网络流量负载。

这样的系统非常适合向使用同一组应用程序的大量用户提供服务。

每个节点都可以承担一定的处理负载，并且可以实现处理负载在节点之间的动态分配，以实现负载均衡。

对于网络流量负载,当网络服务
程序接受了高入网流量，以致无法迅速处理，这时，网络流量就会发送给在其它节点上运行的网络服务程序。

同时，还可以根据每个节点上不同的可用资源或网络的特殊环境来进行优化。

与科学计算集群一样，负载均衡集群也在多节点之间分发计算处理负载。

它们之间的最大区别在于缺少跨节点运行的单并行程序。

大多数情况下，负载均衡集群中的每个节点都是运行单独软件的独立系统。

但是，不管是在节点之间进行直接通信，还是通过中央负载均衡服务器来控制每个节点的负载,在节点之间都有一种公共关系。

通常，使用特定的算法来分发该负载。

3 高可用性集群
当集群中的一个系统发生故障时，集群软件迅速做出反应，将该系统的任务分配到集群中其它正在工作的系统上执行。

考虑到计算机硬件和软件的易错性，高可用性集群的主要目的是为了使集群的整体服务尽可能可用。

如果高可用性集群中的主节点发生了故障，那么这段时间内将由次节点代替它。

次节点通常是主节点的镜像。

当它代替主节点时，它可以完全接管其身份，因此使系统环境对于用户是一致的。

高可用性集群使服务器系统的运行速度和响应速度尽可能快。

它们经常利用在多台机器上运行的冗余节点和服务，用来相互跟踪。

如果某个节点失
败，它的替补者将在几秒钟或更短时间内接管它的职责。

因此，对于用户而言,集群永远不会停机。

在实际的使用中，集群的这三种类型相互交融，如高可用性集群也可以在其节点之间均衡用户负载。

同样，也可以从要编写应用程序的集群中找到一个并行集群，它可以在节点之间执行负载均衡。

从这个意义上讲，这种集群类别的划分是一个相对的概念，不是绝对的。

优势
一、集群系统可解决所有的服务器硬件故障，当某一台服务器出现任何故障，如：硬盘、内存、CPU、主板、I/O板以及电源故障，运行在这台服务器上的应用就会切换到其它的服务器上。

二、集群系统可解决软件系统问题，我们知道，在计算机系统中，用户所使用的是应用程序和数据，而应用系统运行在操作系统之上，操作系统又运行在服务器上。

这样，只要应用系统、操作系统、服务器三者中的任何一个出现故障，系统实际上就停止了向客户端提供服务，比如我们常见的软件死机，就是这种情况之一，尽管服务器硬件完好，但服务器仍旧不能向客户端提供服务。

而集群的最大优势在于对故障服务器的监控是基于应用的，也就是说，只要服务器的应用停止运行，其它的相关服务器就会接
管这个应用，而不必理会应用停止运行的原因是什么。

三、集群系统可以解决人为失误造成的应用系统停止工作的情况，例如，当管理员对某台服务器操作不当导致该服务器停机，因此运行在这台服务器上的应用系统也就停止了运行。

由于集群是对应用进行监控，因此其它的相关服务器就会接管这个应用。

缺点
我们知道集群中的应用只在一台服务器上运行，如果这个应用出现故障，其它的某台服务器会重新启动这个应用，接管位于共享磁盘柜上的数据区，进而使应用重新正常运转。

我们知道整个应用的接管过程大体需要三个步骤：侦测并确认故障、后备服务器重新启动该应用、接管共享的数据区。

因此在切换的过程中需要花费一定的时间，原则上根据应用的大小不同切换的时间也会不同，越大的应用切换的时间越长。