HACMP基础知识

合集下载

HACMP培训课程

以上文件在系统安装盘中
设置系统心跳线
HACMP软件需要通过心跳线监测双机之间是否正常。连接两个系统之间的心跳线，将一分八的异步电缆接在各自系统的八口异步卡上，以RS232线缆连接，在P570_1/570_2上配置tty1，使用smit tty命令。
设置系统心跳线
选择RS232异步端口模式，TTY Type为tty rs232 Asynchronous Terminal 。
HACMP的构成示意图
备份网卡服务网卡备份网卡服务网卡
A
SSA卡 1# A-1 SSA卡 1# A-2
SSA 卡 2# A-1 SSA 卡 2# A-2
心跳线
SSA卡 1# A-2 SSA卡 1# A-1
B
SSA 卡 2# A-2 SSA 卡 2# A-1
SSA 环路B
A 镜像
B 镜像
户计算机系统及其应用的可靠性，而不是单台主
机的可靠性。
HACMP的构成
HACMP通过以下的方式提供一个高可用性的环境：
定义集群资源和资源组
定义群集中节点对资源组的接管关系
群集资源包括以下硬件或软件部件：磁盘、卷组、文件系统、网络地址和应用服务器。集群中的每种资源为了实现高可用性，必须被归入一个资源组，资源组时为了便于管理及配置而定义的相关性的资源集合，如某个节点机的卷、文件系统、 IP地址、磁盘、应用系统往往定义为一个资源组。集群中节点的接管关系确定了当某个节点失败时，与其相关的资源组由哪个节点接管以及如何接管的规则。
主机B（standby): Service_ip: Standby_ip: Boot_ip: perm_ip:
6.100.4.3 192.168.1.2 192.168.2.2 6.100.4.4 永久ip

HACMP______

一、功能原理1.HACMP的概念HACMP（High Availability Cluster Multi-Processing）是IBM基于Unix平台开发的一套高可用性集群软件，这个软件是为了确保关键资源或应用可以获得处理。

在hacmp集群环境中，应用必须在hacmp的管理之下，这样才可以确保应用的高可用性，当集群中的一个节点或组件出现问题，集群会将这个节点或组件所需的资源转移至其他节点上。

建立集群的目的✓减少计划或非计划的宕机时间✓避免单点故障✓快速故障恢复，但不能实现容错2.节点,网络,心跳2.1节点节点是安装并运行AIX操作系统和hacmp软件的一台独立系统，节点之间可以共享一系列资源：磁盘，卷组，文件系统，网络，网络IP地址和应用程序。

2.2网络集群各个节点之间通过网络进行相互通讯，当一个节点的某个网卡出现故障后，网络连接会自动切换到这个节点的其他网卡上，如果这个节点的所有网络连接都不可用的时候，集群会把应用极其所使用资源切换到其他节点上，并进行IP 地址接管操作IPAT（IP Address Takeover）。

集群的网络IP接管方式有2种：IP别名和IP替换IP别名：当集群把资源组以及IP地址从主节点切换目标节点时，在目标节点上并不会用主节点的服务地址去替代目标节点的网卡地址，而是在目标节点的网卡上建立IP别名（IP Alias），这样允许一个网卡绑定多个服务地址，因此同一节点可以装载更多的资源组。

IP替换：当集群把资源组以及IP地址从主节点切换目标节点时，目标节点的初始化启动IP将被主节点的服务IP所替换，这样只有使用同一服务地址的资源组可以装载到目标节点。

如果使用IP替换的接管方式还可以配置网络硬件地址HWAT（Hardware Address Takeover）即MAC地址切换，以确保ARP cache对网络地址的影响。

注：在HACMP4.5版本以前网络接管方式只能配置为IP替换方式。

Hacmp_介绍

第一章介绍本章内容包括对IBM针对AIX产品线的高可用性集群多处理系统的介绍以及IBM高可用产品的概念本章将讨论以下主题：●什么是HACMP？●历史与发展●高可用性的概念●高可用性Vs容错1.1.什么是HACMP？在我们解释什么是HACMP以前，我们先来定义一下高可用性的概念。

High availability在当今复杂的环境下，成功实现IT应用的一个关键要素就是提供不间断的应用服务。

HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件，它能达到消除从硬件到软件的单点故障（SPOFs）。

一个高可用性解决方案可以保证方案中任何组件的失效（包括硬件、软件或系统管理）都不会造成客户无法访问应用和应用数据。

高可用性解决方案可以通过恰当的设计、计划、硬件选择、软件配置以及细心控制改变管理方法来消除单点故障。

Downtime停机时间是指应用程序不能为客户端提供服务的时间。

停机时间分为：➢计划内：-硬件升级-维修-软件更新/升级-备份（离线备份）-测试（对群集确认必须进行周期性测试）-发展➢计划外：-管理员过失-应用失效-硬件失效-其他不可抗力（天灾）IBM针对AIX的高可用性解决方案——HACMP给予饱经考验的IBM群集技术，它包括以下两个组件：➢高可用性：该进程保证应用在用户复制和/或共享资源时是可用的。

➢群集多处理：该进程提供在同一节点上多个应用共享或并发访问数据。

基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。

在恰当的应用中，HACMP还可以在并行应用处理中提供对数据的并发访问，从而提供更高的可扩展性。

标准的HACMP环境如图1-1。

1.1.1.历史与发展IBMHACMP最早可追溯至90年代。

HACMP在1990年开始为RS/6000机器上的应用提供高可用性解决方案。

我们不会提供关于更早版本的信息，原因在于这些版本要么已经不被支持或者已经不再使用，我们只提供近期一些版本的相关信息。

IBM HACMP介绍

© 2008 IBM Corporation
IBM System P
什么是HACMP
使用HACMP的考虑点
• 应用必须能从停止或重启操作中恢复
– Must release all resources when stopped—either normally or abnormally – Must tolerate a loss of memory contents – Must tolerate a loss of processor state – Must perform a restart from a checkpoint – Must recover from partial data writes – Must operate in a “transactional” protocol
IBM HACMP 介绍
陶仁全 (Tao Ren Quan) STG TSS rqtao@
IBM System P
当前硬件系统已经非常可靠，但是硬件故障还只是占系统中断事故的一小部分
• 几项研究表明硬件故障的比例介于 20%-45%之间 • 人为故障、软件故障和计划维护导致了大多数的系统中断事故
HACMP Limits
Component Nodes Resource groups Networks Network interfaces, devices and labels Cluster resources Parent-Child dependencies Sites Interfaces Application monitors Persistent IP Maximum number supported in a cluster 32 64 48 256 While 128 is the maximum clinfo can handle, there can be more in the cluster. max of 3 levels 2 7 interfaces per node per network per site 128 alias one per node per network

HACMP工作原理介绍

HACMP工作原理介绍HACMP（High Availability Cluster Multiprocessing）是一种高可用性的集群解决方案，旨在提供在系统或硬件失败发生时，保证应用程序持续可用的能力。

它通过在多个计算节点上部署应用程序和数据，并实时监控系统健康状况，来实现高可用性。

1.集群：HACMP通过将多个计算节点连接在一起形成一个集群。

每个节点都是一台具备计算和存储能力的服务器，运行着相同的操作系统和应用程序。

集群中的节点通过专用网络互相通信，实现对整个集群的协调和控制。

2.资源：在HACMP中，应用程序和其相关的数据被称为资源。

资源可以是单个的进程、服务、文件系统等。

HACMP对资源的管理包括资源的分配、启动、停止和迁移等操作。

3.心跳检测：为了实时监控系统的健康状况，HACMP引入了心跳检测机制。

每个节点通过定期发送心跳信号来表示自己的正常运行，其他节点接收到心跳信号后确认，如果长时间未收到心跳信号则判断该节点可能出现故障。

4.预定义和自动化的故障切换：当一些节点出现故障时，HACMP会自动将该节点上的资源切换到其他节点上，以保证应用程序的持续可用性。

切换的过程中，HACMP会确保数据的一致性，并在尽可能短的时间内完成切换操作。

如果故障节点恢复正常，HACMP会自动将资源切换回原节点。

5.监控和故障恢复：HACMP提供了一套完善的监控和故障恢复机制。

它实时监控系统中的节点状态、资源状态和网络连接等信息，并根据预定义的策略执行相应的故障恢复动作。

当故障发生时，HACMP会立即做出响应，启动资源切换和恢复节点操作。

通过上述工作原理，HACMP能够实现高可用性的应用程序部署和运行。

它具有以下优点：1.高可用性：HACMP提供实时监控和故障恢复机制，能够及时检测和处理系统和软件故障，保证应用程序持续可用。

2.负载均衡：HACMP能够根据系统负载情况，将资源合理地分配到不同的节点上，实现负载均衡和性能优化。

1 入门

HACMP 认证学习系列，第1 部分：入门摘自红皮书《IBM eserver pSeries HACMP V5.x Certification Study Guide Update》本文包含对IBM High Availability Cluster Multi-Processing (HACMP) for AIX 产品系列的介绍，以及作为IBM 高可用性产品基础的概念。

其中将讨论以下主题：什么是HACMP？历史和发展高可用性概念高可用性与容错的对比什么是HACMP？在解释什么是HACMP 之前，我们必须定义高可用性的概念。

高可用性在当今的复杂环境中，为应用程序提供连续的服务是成功的IT实现的重要组成部分。

高可用性屏蔽或消除计划内和计划外的系统和应用程序停机时间，是帮助为应用程序客户端提供连续服务的组件之一。

这是通过消除硬件和软件单点故障（single points of failure，SPOF）来实现的。

高可用性解决方案将确保任何解决方案组件（无论是硬件、软件还是系统管理）的故障不会导致应用程序及其数据对用户不可用。

高可用性解决方案应该通过适当的设计、规划、硬件选择、软件配置和精心控制的变更管理规程来消除单点故障(SPOF)。

停机时间停机时间是应用程序不能为其客户端提供服务的时间范围。

可以将停机时间划分为：∙计划内停机：∙硬件升级∙维修∙软件更新/升级∙备份（离线备份）∙测试（需要定期测试以实现集群验证。

）∙开发∙计划外停机：∙管理员错误∙应用程序故障∙硬件故障∙环境灾难用于AIX的IBM高可用性解决方案High Availability Cluster Multi Processing 基于久经考验的IBM 集群技术，并包括两个组件：∙高可用性：通过使用重复和/或共享资源来确保应用程序可供使用的过程。

∙集群多处理：运行在相同节点上并具有共享或并发数据访问的多个应用程序。

基于HACMP 的高可用性解决方案提供了自动化的故障检测、诊断、应用程序恢复和节点重新集成。

HACMP操作及注意事项

HACMP操作及注意事项
一．启动HACMP：
主机启动后先在一台主机，如S85上执行smitty clstart ，启动完后再在另一台机，如M80上执行smitty clstart ，HACMP启动db2也自动启动。

二．关闭及切换HACMP：
由于安装的HACMP为cascading方式，S85为主节点，M80为次节点。

在S85主机上上执行smitty clstop，有三个选项graceful、takeover、forced，如选graceful，S85上的HACMP正常停止，S85上的资源如datavg、s85_svc、datavg上的文件系统、应用系统不切换给M80；如选takeover，S85上S85上的HACMP 正常停止，S85上的资源如datavg、s85_svc、datavg上的文件系统、应用系统切换给M80；如选forced S85上的HACMP强行停止，S85上的资源如datavg、s85_svc、datavg上的文件系统、应用系统不切换给M80；
若S85出现故障而宕机或用takove切换，S85重新正常启动HACMP后，S85上的资源如datavg、s85_svc、datavg上的文件系统、应用系统又切换回S85。

三．HACMP注意事项：
在一台主机如S85上增加文件系统、改变文件系统大小、增
加逻辑卷时，需在另一台主机如M80上进行exportvg 和importvg操作。

HACMP培训资料

HACMP原理及应用简1、几种常见的提高系统可靠性的技术 Topic 2、HACMP的工作原理 Topic 3、HACMP的管理 Topic 4、HACMP应用案例 Topic 5、HACPM troubleshooting Appendix、共享LVM的定义
灾难恢复技术和集群技术的比较
数据的安代价全性 high 灾难恢复不容许中备份中心只是主 high 技术断的应用数据中心的备份 medium 集群技术适用于可各个节点之间可 medium 以允许短以进行负载分担暂的中断，但很快就可以恢复的应用适用范围负载分担
Application layer consists of the high available application that use HACMP for AIX services HACMP for AIX layer provides high available services to client application RSCT layer(HACMP/ES only) provides greatest scalability and coordination of subsystem for HACMP/ES clusters AIX layer provides operation system services LVM layer manages disk space at the logical level TCP/IP layer manages commuciation of the logical level
不同等级的RAID技术的比较技术的比较不同等级的
RAID Level RAID0 (striping) RAID1 (mirror) Cost low high R/W Date’s security speed high low mediu m high low low High high medium medium

HACMP总结

配置拓扑、定义网卡
定义应用服务器
定义资源组
HACMP 5.X:
新特点：
所有版本合并（all in one）
简化了HACMP Cluster的配置与管理
通过磁盘传输心跳信号(Heartbeat over Disk)
IPAT通过Alias实现(IPAT via Alias)(缺省方式，另有replacement方式)
4.X
HACMP:High Availability Cluster Multi-Processing （not tolerance）
资源：
磁盘、卷组、文件系统
NFS 输出的文件系统
IP 地址
应用程序
HACMP 群集的硬件由以下硬件组成：
节点
共享磁盘设备
网络和网卡
客户机
#varyonvg -f vg_name
HACMP规划：
Cluster规划
Node规划
Recourse规划
IP网络及地址（Service IP、Non-Service IP、Persistent IP）
Heartbeat网络（IP、串口、共享硬盘）
Volume Group and File System
SRC（System Resource Controller）
IPAT(IP takeover)：一个节点接替另一个节点的VIP
资源组：HACMP把相关资源分配到不同的资源组中，便于管理。共有三种类型的资源组，分别是Cascading 资源组、Rotating 资源组和Concurrent 资源组
3、“硬件地址切换”功能。硬件地址切换是将一个假的硬件地址与IP 地址一起移动，防止客户机上拥有错误的ARP 表

hacmp工作原理及安装

S85_1# cat /etc/hosts >/dev/tty0 S85_2# cat </dev/tty0 如果在S85_2机能接收到信息，则表明心跳线已经配置好
11
IBM HACMP双机系统的安装及配置（续）
五、具体配置
注：HACMP的配置（或修改配置）只需要在其中的一台主机上进行，当配置
（或修改）完毕后使用同步命令将配置结果传到另外一台主机上。一般选S85_1 在进行配置
#smitty tty TTY TTY type TTY interface Description Status Location
Parent adapter
tty0 tty rs232 Asynchronous Terminal
Available 20-70-01-00
sa2
10
IBM HACMP双机系统的安装及配置（续）
逻辑地看成一块大硬盘物理分区（PP）：卷组中物理卷划分成固定大小
的块（缺省为4MB）逻辑卷（LV）：逻辑卷是位于物理分区上的信息
集合逻辑分区（LP）：逻辑卷由一定数量的逻辑分区
组成
22
IBM磁盘阵列及文件系统的管理（续）
二、常用命令
lsvg rootvg 看内置硬盘属性
lsdev -Cc disk 看所有硬盘
(1) Cascading (2) Concurrent (3) Rotating
16
IBM HACMP双机系统的安装及配置（续）
3、配置Cluster Resources
3.1 定义一个资源组(Define Resource Groups)
注意，在定义资源组的时候，要注意Participating Node Names的先后顺序

§1 HACMP多机集群结构简介

§1 HACMP多机集群结构简介HACMP是一个专为RS/6000服务器设计的软件保护程序，通过多台服务器以集群(Cluster)方式运行，保证共享数据资源的高可用性。

一旦某台服务器发生故障，它自动使备用服务器接替工作，而完全不需人工干预，从而保证整个系统不至因某个单元故障而崩溃。

HACMP/6000共有72种配置方式，其接管时间从几秒钟到几分钟不等。

在配置方式的灵活性、高可用性上和价格上都明显优于其它厂家产品的多机集群解决方案，广泛应用在银行、商业、电信等重要企业计算环境，实为一种极为经济有效的高可用性解决方案。

HACMP/6000支持多种流行的数据库产品，例如DB2/6000，Oracle，Informix，Sybase，Ingres，Progress，Unify和Unidata。

这些UNIX数据库产品可不需修改地在一个HACMP高可用性集群子系统中运行。

从经济角度考虑，HACMP软件价格便宜；几台服务器可以各自独立工作，完成不同的应用，不至于造成备份机的空闲浪费。

§1.1 HACMP工作原理及工作模式HACMP的工作原理是利用网络来检查主机及网络卡的状况，用AIX提供的硬盘管理功能，在主机、网络卡、硬盘控制卡、硬盘或网络发生故障时，自动切换到另一套备件上重新工作。

如果是主机故障，还可以在备份机上重新启动应用程序。

这个重新启动的过程一般可在5分钟内完成，具体的重新启动时间应和系统资源状况、所编写的重新启动过程及所启动的应用程序有关。

HACMP可根据需要灵活配置。

HACMP工作方式有以下几类：◆主-从备份。

一节点为备份机，使其处于空闲等待状态，等待接替故障节点的应用；◆轮换备份。

几个节点各自工作，并定义一个节点为其余节点的备份机；◆互为备份。

几个节点都各自有自己的应用和任务，它们之间互相作为备份机；◆并发存取。

几个节点通过同时访问同一共享存储设备，进行同一工作，不但保证了高可用性，也显著提高了生产率。

HACMP介绍

故障切换（FailOver）行为
当一个节点故障时资源组将表现出三种可能的行为：
• Cascading
资源按照从高至低的顺序在节点间移动重整时资源返回优先级高的节点缺省情况下，资源只运行在优先级高的节点上
• Rotating：
资源按照一定的顺序自从一个节点移至下一个节点资源将保留在所在的节点，除非此节点故障或系统管理者调用
RS/6000 NodeA
SCSI/FC
LAN
RS232 HeartBeat
Shared VG
en1
en0
IP2
STB SVC boot
SCSI/FC
RS/6000 NodeB
HACMP术语
集群（cluster）：由2-8各运行HACMP的RS/6000和共同的IP网络组成
节点（node）：及群众的一台RS/6000 网络（network）：用于集群内部通讯的TCP/IP和非IP网络拓扑结构（topology）：HACMP ODM对象类中的对节点、网络、网
高可用性集群
完善的HACMP集群设计没有单点失败
完善的集群设计需要的基本硬件要求：
• 2-8个节点均运行HACMP • 需要共享磁盘 • 可共享访问的TCP/IP网络 • 一个或更多的非IP网络 • 多个磁盘接口卡 • 多个网络适配器 • 多个TCP/IP网络
en0
en1
IP1
SVC STB boot
卡的逻辑描述资源（resource）：受到HACMP保护的逻辑体，包括：IP地址、文
件系统、卷组、应用等资源组（resource group）：与特定的应用相关的具有相同故障
接管行为的可管理的资源集合应用服务器（application server）：在HACMP控制下的用于启动

HACMP全攻略

9.rotating模式，节点是平等的，按预先定义的顺序接管资源，节点恢复后不会回拉资源。

10.concurrent模式，并发模式，应用跑在所有的的节点上，不存在资源接管的问题。

什么情况下不要用HA1.如果不能忍受任何宕机时间。

7*24小时的服务或生命系统的服务需要使用错误避免。

2.如果你的系统安全和网络安全得不到保障的话，使用HA也是没有意义的。

3.如果没有经过培训的系统管理员，或常有用户在上面瞎搞得话，还是不用为好。

HACMP全攻略之准备篇HACMP全攻略之准备篇首先当然是要安装操作系统了。

AIX的安装这儿就不讲了，记着打补丁、升微码，应该没什么问题吧。

共享硬盘的准备。

1、共享硬盘为scsi盘。

要考虑scsi卡和总线可能是单点故障，scsi硬盘的id号不要设为7。

2、共享硬盘为ssa盘，即7133之类。

每个节点要有两个ssa卡并仔细规划好结构，保证没有单点故障。

3、确保各节点都能访问到共享的硬盘，并保证各节点上使用相同的VG major number。

用lvlstmajor看可用的major number，在importvg时用-V指定major number。

4、把共享vg的auto-varryon属性设为no。

串口网络：1、接好线。

2、定义RS-232，选择正确的端口号，并禁止登录。

3、在所有节点上做测试。

TCP/IP网络1、规划好网络拓扑，包括各节点的boot、service和standby地址。

HA5以后就没有boot地址的概念了，只有service 和standby。

2、编辑/etc/hosts文件。

3、service和standby网卡应分别接在不同的交换上以防止单点故障。

4、编辑/.rhosts文件，保证各节点可互相访问。

在ha同步时要用，配置完后要记得删除。

HACMP全攻略之安装与配置HACMP全攻略之安装与配置在此之前我们已经设计好了cluster、定义了TCP/IP网络、串口网络、LVM。

HACMP概念详解

本章将介绍以下 HACMP 集群主题：∙节点规模调整注意事项∙集群硬件规划∙软件规划∙存储规划∙灾难恢复规划注意：规划是成功的实现的一半，但是就 HACMP 而言，如何强调正确规划的重要性都不为过。

如果规划不当，您可能会在以后某个时候发现自己陷入种种限制之中，而要摆脱这些限制可能是非常痛苦的经历。

因此，请保持镇定从容，并使用产品附带的规划工作表；这些工作表对于任何迁移或问题确定情形或者对于规划的文档记录都是非常有价值的。

规划注意事项在规划高可用性集群时，您应该考虑节点、存储、网络等方面的规模调整，以便即使是在接管情况下，也能够提供应用程序正确运行所必需的资源。

规模调整：选择集群中的节点在开始集群的实现之前，您应该了解需要多少个节点，以及应该使用什么节点类型。

就应用程序所需要的资源而言，将要使用的节点类型是非常重要的。

节点的规模调整应该涵盖以下方面：∙CPU（CPU 的数量和速度）∙每个节点中的随机访问存储器 (RAM) 容量∙磁盘存储（内部）∙每个节点中的通信和磁盘适配器数量∙节点可靠性集群中的节点数量取决于要实现高可用性的应用程序的数量，同时还取决于所需的可用性程度。

在集群中为每个应用程序准备多个备用节点可以提高应用程序的总体可用性。

注意：HACMP V5.1 集群中的最大节点数量是 32。

HACMP V5.1 支持各种各样的节点，涵盖从桌面系统到高端服务器的范围。

SP 节点和逻辑分区（Logical Partition，LPAR）也受支持。

有关进一步的信息，请参阅红皮书《HACMP for AIX 5L V5.1 Planning and Installation Guide》（SC23-4861-02）。

集群资源的共享基于应用程序的需求。

有些节点执行的任务与要实现高可用性的应用程序并不直接相关，并且不需要与应用程序节点共享资源，应该将此类节点配置在单独的集群中以简化实现和管理。

所有的节点都应该提供足够的资源（CPU、内存和适配器），以维持所有指定的应用程序在故障转移（接管故障节点中的资源）情况下的执行。

HACMP认证知识：应用程序兼容性

HACMP认证知识：应用程序兼容性HACMP认证知识：应用程序兼容性运行在某个独立AIX 服务器上的几乎任何应用程序都可以通过使用HACMP 集群得到保护，从这个意义上讲，HACMP 是一个灵活的高可用性解决方案。

在开始集群应用程序规划时，应该考虑以下方面：与所使用的AIX 版本的应用程序兼容性。

与要实现用于高可用性的存储方法的应用程序兼容性。

还必须知道应用程序和平台之间的所有相互依赖性，也就是所有应用程序文件的所有存储位置(持久数据、临时文件、套接字，以及管道——如适用的话)。

还应该能够提供无人参与的应用程序启动/停止方法(脚本)，并且应用程序必须能够在重新启动时从错误(例如，在运行应用程序的节点崩溃的情况下)中恢复。

重要：如果应用程序无法在独立节点上正常运行，或者不能确定所有的应用程序依赖性，请不要继续进行 HACMP 实现!如果计划使用应用程序监视，则还应该提供应用程序监视工具(方法、行为和脚本)。

应用程序客户端依赖性(服务器重新启动时的客户端行为)。

应用程序网络依赖性(套接字、路由等等)许可证授权问题，也就是说，如果应用程序依赖 CPU ID，则应该考虑为能够承载应用程序的每个节点购买备用许可证。

此外，如果应用程序基于处理器数量授予许可证，则在故障转移情况下，要确保不会违背许可证授权。

应用程序服务器根据HACMP 定义，应用程序服务器由一个脚本集合来表示，HACMP 使用这些脚本在激活资源组时启动应用程序，或在将资源组置于离线时停止同一个应用程序。

在应用程序已启动之后，HACMP 还可以监视该应用程序，并在应用程序不能正常运行时采取相应措施。

应用程序监视可以在进程级别执行，还可以使用自定义方法来执行(例如，对于诸如数据库引擎等多进程应用程序)。

注意：HACMP/ES V4.4 中已经引入了基于 RSCT 的事件管理功能(EM) 的应用程序监视。

从HACMP V5.2 开始，事件管理已被取代为资源监视和控制(Resource Monitoring and Control，RMC)，后者在功能上是等效的，但是提供了更多的灵活性。

相关主题

hacmp实施

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.什么是HACMP (1)2.为什么要选择HACMP (2)3.HACMP的工作原理 (2)4.HACMP V5.x的新特点 (3)5.Cluster的节点的配置要求 (3)6.Cluster的网络配置要求 (4)6.1网络连接示意图 (4)6.2 IPAT via IP aliases（别名） (5)6.3 IPAT via IP replacement (6)6.4 Persistent Node IP label (6)6.5磁盘心跳（Heartbeat via disk) (7)6.6Enhanced concurrent Volume Group （增强型并发卷组） (8)6.7快速磁盘接管（fast disk takeover) (8)6.8资源组（Resource Group）定义： (9)1.什么是HACMPHigh Availability：系统可用性或运行时间最大化系统宕机时间最小化不是容错机（fault tolerance）第 1 页什么是multi-processing？一个cluster里的各个节点上可以运行多个应用共享数据或并发访问数据2.为什么要选择HACMP各厂商现有的UNIX 服务器一般都拥有很高的可靠性，在这一点上IBM 的P 系列服务器表现尤为突出。

但所有UNIX 服务器均无法达到如IBM 大型主机S/390 那样的可靠性级别，这是开放平台服务器的体系结构和应用环境所决定的。

使用IBM 高可用性集群软件--HACMP，可以更好的保护关键业务应用不受故障影响。

3.HACMP的工作原理HACMP 是High Availability Cluster Multi-Processing 的缩写。

HACMP 是IBM 公司在P 系列AIX 操作系统上的高可靠集群软件，配置冗余，消除单点故障，保证整个系统连续可用性和安全可靠性。

HACMP 是利用网络来侦测主机及网卡的状况，搭配AIX 所提供的硬盘镜像等功能，在主机、网卡、硬盘控制卡、硬盘或网络发生故障时，自动切换到另一套备用元件上重新工作; 若是主机故障还切换至备份机上继续应用系统的运行。

作为双机系统的两台服务器同时运行HACMP 软件：两台服务器的备份方式有二种:A: 一台服务器运行应用，另外一台服务器做为备份B: 两台服务器除正常运行本机的应用外，同时又作为对方的备份主机;两台主机系统在整个运行过程中，通过"心跳线" 相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等); 一旦发现对方主机的运行不正常(出故障) 时，故障机上的应用就会立即停止运行，本机(故障机的备份机) 就会立即在自己的机器上启动故障机上的应用，把故障机的应用及其资源(包括用到的IP 地址和磁盘空间等) 接管过来，使故障机上的应用在本机继续运行; 应用和资源的接管过程由HACMP 软件自动完成，无需人工干第 2 页预; 当两台主机正常工作时，也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行。

4.HACMP V5.x的新特点在HACMP v5之前，每个版本的HACMP软件都有四个模块，HAS，CRM，ES 和ESCRM，用户在定购的时候根据需要选择其中一个模块，从HACMP v5开始IBM 只提供一个模块，包简化了HACMP Cluster的配置与管理括以前四个模块的所有功能。

●通过磁盘传输心跳信号(Heartbeat over Disk)●IPAT通过Alias实现(IPAT via Alias)(缺省方式)●用户自定义的资源组(Custom RG)●快递磁盘接管(Fast Disk Takeover)5.Cluster的节点的配置要求●至少2个pseries 服务器作为cluster的节点（安装并运行HACMP,每个节点的AIX 版本和HACMP的版本要完全一致)●内置硬盘：预留一定的硬盘空间满足HACMP的安装要求●I/O插槽：要满足网卡、HBA卡（阵列和带库要分开）、串口卡●至少一种non-IP 网络，通常采用RS232网络，如果某些节点集成串口无法作心跳，要配#2943 8口异步卡，节点间要配串口线●一个共享磁盘阵列（7133/FastT/ESS等)为了保证cluster的性能，一个cluster支持的最大组件数目如下：组件最大数目node 32Resource Groups 64Networks 48第 3 页Network interface,devices, and labels 2566.Cluster的网络配置要求确定用户的IP网络类型确定用户的IP网络资源分配准备以太网交换机的端口在交换机上划分VLAN分配IP地址确定采用的IPAT的方式确定用户的Non-IP网络（心跳）串口方式IP网络方式Target mode 方式硬盘方式6.1网络连接示意图第 4 页6.2 IPAT via IP aliases（别名）●Non-service labels 在AIX 启动时分配●在HACMP 启动后,service IP label 作为一个alias 添加到一块带有non-service label 的network interface上●non-service label 从来都不会从一个NIC上移走●如果节点失败, 一个takeover 节点会获得失败节点的service IP label ，并作为一个alias 添加到它的位于同一个HACMP network 里的一块带有non-service label 的network interface上设置IPAT via IP aliases 功能#smitty hacmpExtended Configuration >Extended Topology Configuration >Configure HACMP Networks >Change/Show a Network in the HACMP Cluster >Change/Show an IP-Based Network in the HACMP Cluster第 5 页Change/Show an IP-Based Network in the HACMP ClusterType or select values in entry fields.Press Enter AFTER making all desired changes.[Entry Fields]* Network Name net_ether_01New Network Name []* Network Type [ether] +* Netmask [255.255.255.0] +* Enable IP Address Takeover via IP Aliases [Yes] +IP Address Offset for Heartbeating over IP Aliases []* Network Attribute public +6.3 IPAT via IP replacement●Non-service labels 在AIX 启动时分配●HACMP 启动后,service IP label 替换（replaces）non-service IP label ●如果节点失败, 一个takeover 节点使用它的位于同一个HACMPnetwork里的一个non-service interface 来获得（acquire)失败节点的service IP label6.4 Persistent Node IP label●是一个IP alias ，它可以分配给cluster里的一个特定节点●总是位于同一个节点●可以位于一块已经拥有service 或non-service IP label 的网卡上●不需在节点上安装额外的物理网卡●不属于任何资源组●能被用于对指定的节点进行管理●每个节点可配置多个.●在节点启动后即可用，当HACMP服务停止后也始终保持可用第 6 页●如果网卡失败，它只会迁移到相同网络的同一个节点上的其它网卡●如果节点失败，该IP标识不会迁移到群集中的其它节点6.5磁盘心跳（Heartbeat via disk)HACMP5.1的新功能能够使用下列任何一种共享磁盘阵列(Fibre Channel,SCSI, 或SSA)使用的磁盘是一个enhanced concurrent volume group 的一部分, 唯一的要求是这个VG必须在两个节点都有定义磁盘的这块特殊区域不能用作任何的LVM 操作, 而只能用来在两个节点间传递心跳消息第7 页6.6Enhanced concurrent Volume Group （增强型并发卷组）●使用RSCT 进行通信●支持ACTIVE 和PASSIVE 模式●ACTIVE Varyon: 类似通常的varyon●PASSIVE Varyon: 不允许高级操作（high level operations ）●HACMP 协调节点间的活动，保证只有一个节点可以vary on volumegroup actively●enhanced concurrent volume groups 能够被包含在一个non-concurrentresource groups里6.7快速磁盘接管（fast disk takeover)●通过提供快速资源组fallover，减少宕机时间●对于2块硬盘的VG，接管时间一般不超过10秒。

●对于带有大数量磁盘的VG的资源组有显著的性能提高。

●需要enhanced concurrent volume groups 定义在non-concurrentresource groups里●对于位于共享盘阵上enhanced concurrent volume groups，如果是共享资源组的资源，HACMP 会自动实现快速磁盘接管.你可以查看vg的状态通过lsvg 命令：VG STATE无论是actively 或者passively方式的varyon，都将显示active状态。

VG PERMISSION如果是actively方式的varyon ，将显示read/write，如果是passive方式的varyon ，将显示passive-only。

CONCURRENT将显示Capable或者Enhanced-Capable (对于concurrent vg).第8 页第 9 页6.8资源组（Resource Group ）定义：一些可管理的资源集合在一起，和特定的应用相关联，并可一同执行 failover 等行为的组.包含四种类型：Cascading resource group （资源组的优先级）Rotating resource group （循环资源组）Concurrent resource group （并发资源组）Custom resource group （自定义资源组）Cascading resource group资源移动按照一个从高到低的优先级顺序当发生失败节点重新加入（reintegration ）时，资源会返回到优先级更高的节点缺省，资源会在优先级最高的节点上启动资源（Resources ）:Service IP Labels/AddressesVolume GroupsFilesystemsApplication ServersCascading 资源组提供下面三种属性，这些属性需要在hacmp的Extended configuration菜单中设置Cascading without faallbackInactive takeoverDynamic node priority资源移动按照一定顺序，一个接一个呈rotation当节点失败,第一个备(standby)节点会获得失败节点的资源组一个失败节点重新加入cluster，将会作为备(standby)节点，不会重新获得原来的资源组资源（Resources）:Service IP Labels/AddressesVolume GroupsFilesystemsApplication ServersConcurrent resource group所有的节点共享且可并发访问数据应用在所有节点上并行运行有Lock Manager 协调各节点对数据的访问一个节点失败，会降低cluster 性能，但不会发生接管。