HACMP工作原理及运维治理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

HACMP 工作原理及运维治理
目录
1.HACMP双机系统的功能介绍............................................................................错误!未定义书签。

2.HACMP双机系统的工作原理............................................................................错误!未定义书签。

3.HACMP双机系统结构图.....................................................................................错误!未定义书签。

4.HACMP安装配置前需作的准备工作................................................................错误!未定义书签。

5.HACMP的常用命令 ........................................................................................... 错误!未定义书签。

6.HACMP常见故障解决 ....................................................................................... 错误!未定义书签。

1.HACMP双机系统的功能介绍
Hacmp（High Availability Cluster Multi-Processing）双机热备份软件的要紧功能是提高客户运算机系统及其应用的靠得住性，而不是单台主机的靠得住性。

2.HACMP双机系统的工作原理
1.作为双机系统的两台效劳器（主机A和B）同时运行Hacmp软件
2.效劳器除正常运行自机的应用外，同时又作为对方的备份主机
3.两台主机系统（A和B）在整个运行进程中，通过“心跳线”彼此监测对方的运行情形（包括系统的软硬件运行、网络通信和应用运行情形等）
4.一旦发觉对方主机的运行不正常（出故障）时，故障机上的应用就会当即停止运行，本机（故障机的备份机）就会当即在自己的机械上启动故障机上的应用，把故障机的应用及其资源（包括用到的IP地址和磁盘空间等）接管过来，使故障机上的应用在本机继续运行
5.应用和资源的接管进程由Ha软件自动完成，无需人工干与
6. 当两台主机正常工作时，也能够依照需要将其中一台机上的应用人为切换到另一台机(备份机)上运行
3.HACMP双机系统结构图
4.HACMP安装配置前需作的预备工作
1. 划分清楚两台效劳器主机各自要运行的应用(如A机运行应用，B机作为standby）
2. 给每一个应用(组)分派Service_ip、Standby_ip、boot_ip和心跳线tty，
3. 依照各主机的应用的要求，成立好各自的磁盘组，并分派好磁盘空间
4. 依照Ha软件的要求，对效劳器操作系统的参数作必要的修改
5.HACMP的经常使用命令
一、查看Cluster的运行情形：
# /usr/sbin/cluster/clinfo –a
# /usr/sbin/cluster/clstat
/usr/sbin/cluster/clstat能够帮忙你查看当前HACMP的节点状态。

屏幕会如下显示：
二、启动HACMP：
# smitty clstart
注：有两种启动HACMP的方式：
now：手工启动HACMP
restart、both：在系统启动时自动启动HACMP
3、停止HACMP：
# smitty clstop
注：有三种停止方式：
graceful：只停止本节点上HACMP的运行，并释放由本节点治理的资源，但许诺其它节点接管。

graceful with takeover：停止本节点上HACMP的运行，释放资源，让其他节点接管。

forced：停止本节点上HACMP的运行，但不释放资源。

4、查看Cluster的进程状态：
# ps –ef | grep cluster
注：应有三个HACMP进程：clstrmgr、clinfo、clsnuxpd
五、查看Cluster的日记及错误信息：
# more /tmp/
# more /var/adm/
注：能够在启动HACMP时利用# tail –f /tmp/命令，以查看HACMP的启动是不是正常或跟踪启动时的错误信息。

六、查看Cluster运行的历史记录：
# cd /usr/sbin/cluster/history
注：此目录下寄存着天天的Cluster运行记录
7、查看Cluster运行时的网络情形及资源组的利用情形：
HACMP启动之前：
# netstat –i
现在应能够看到boot和standby地址
# lsvg –o
现在只能看到本地的VG
HACMP启动以后：
# netstat –i
现在应能够看到service和standby地址
# lsvg –o
现在应能够看到本地的VG及共享VG
6.HACMP常见故障解决
致使集群中节点失效的无反映开关（Deadman Switch）
问题现象：
集群中的节点经历着极端的性能问题，如：大量的I/O传输、过量的错误记录、内存不足等，致使集群治理器（clstrmgr）没有取得足够的CPU处置时刻，而引发无反映开关在分派的时刻被重置。

某个应用程序运行权限高过集群治理器时，会致使此问题。

解决方式：
术语“Deadman Switch”指的是在特定集群条件下，未能及时重置该开关，引发系统宕机和转储的内核扩展部份。

无反映开关在超过了特定的时刻限制后会宕掉处于挂起状态的节点。

此进程致使集群中的其它节点接管处于挂起状态节点的资源。

要解决此问题需要解决与之相关的几个性能问题：
一、调整系统I/O pacing
二、增加信息同步（syncd）的频率
3、增加通信子系统利用的内存量
4、更改错误探测速度
调整系统利用I/O的步伐：
利用I/O pacing调整系统，使得在大量写操作时，系统资源的分派更合理。

为HACMP集群激活I/O Pacing是必要的，尤其是在集群中可能会有大量磁盘数据块写操作的时侯。

按下述步骤修改I/O Pacing设置：
# smitty hacmp
Cluster Configuration
Advanced Performance Tuning Parameters
Change/Show I/O Pacing
修改HIGH water mark for pending write I/Os per file域，推荐值为33，可用值在0－32767之间。

修改LOW watermark for pending write I/Os per file域，推荐值为24，可用值在0－32767之间。

不同的系统，以上两个值也不同。

修改上两个值只能略微减少写次数，通常能够解决上述问题。

增大syncd的运行频率：
增加syncd的运行频率，使缺省60秒运行一次变成30秒、20秒或10秒运行一次。

如此能够强迫增加I/O刷新速度，并减少由于繁重的I/O流量触发无反映开关的可能性。

按下述步骤修改syncd运行频率设置：
# smitty hacmpCluster Configuration
Advanced Performance Tuning Parameters
Change/Show syncd frequency
修改syncd frequency in seconds域，推荐值为10秒，可用值在0－32767之间。

增加通信子系统可用的内存量：
若是运行命令：# netstat –m，发觉请求mbuf被拒绝，或运行命令# errpt发觉LOW_MBUFS 错误，那么应增加网络参数“thewall”的值。

Thewall的缺省值为25％的系统实内存。

能够将其增加为50％的系统实内存。

按下述步骤修改thewall值的设置：
# vi /etc/
在此文件的末尾加入：
no -o thewall= xxxxxxxxxx是指你希望设置的供通信子系统利用的实内存值。

如：
no -o thewall=10240
修改错误探测速度：
若是激活I/O Pacing或增加Syncd运行频率不能解决无反映开关不能重置的问题时，那么修改错误探测速度，将其值该为Slow。

如此能够延长一个挂起节点挪用无反映开关之前，和接管节点探测到节点故障并取得挂起节点资源之前所需的时刻。

注意：在完成上述步骤之前，I/O Pacing必需先激活。

这是因为修改此设置会调整I/O数据的传输量。