HACMP7配置

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

PowerVM 环境下实施 PowerHA7.1 要点

本文主要介绍 PowerVM 环境下实施 PowerHA 的一些要点,包括 PowerHA 对虚拟网络监控、光纤心跳在虚拟化环境下的实施等。需要注意的是,本文测试所得到的数据是试验中的测试数据,非 IBM 公司官方数据。

0评论:

魏新宇, 高级 IT 专家, IBM China

2013 年 9 月 26 日

•内容

前言

随着 PowerVM 使用的越来越多,在虚拟化环境下实施 PowerHA 的案例会越来越多。传统 PowerHA6.1 在物理分区下实施是比较经典的配置,PowerHA7.1 为了适应 PowerVM,在开发的时候进行了相关考虑,主要包含三点:PowerHA7.1 中允许 1 个 HA 节点只有 1 个网卡、1 个 BootIP 和一个 ServiceIP,并且ServieIP 可以和 BootIP 在相同网段;netmon.cf 的功能在虚拟化环境中能够成功实施,解决了 PowerHA 监控虚拟网卡状态的问题;FC 心跳在虚拟环境下能够成功实施。本文讲主要介绍虚拟化环境下实施的相关要点。

回页首

PowerHA7.1 对虚拟网络的监控

netmon.cf 的配置

在传统的 HA 环境下,PowerHA 可以通过监控物理网卡的状态来进行网络监控。而虚拟化环境下,VIOC 中虚拟网卡永远不会处于 down 或者 detach 的状态(除非人为操作),带来的结果是可能 VIOC 已经无法对外通信,但是由于其虚拟网卡状态仍然是 up 的状态,HA 不会识别网络故障,资源组也不会发生切换,结果就是业务中断,也就是“该它干的活它没干”,HA 失去了其本来的意义。

因此,在 PowerVM 环境下实施 PowerHA7.1 的时候,就必须要引入 netmon.cf 的配置。在 netmon.cf 中,我们通过设备 HA 本地网卡 ping 目标地址的方法,来判断虚拟网卡通讯是否正常。

针对 netmon.cf 文件的配置。在 PowerHA7.1 中推荐的格式是:

# cat /usr/es/sbin/cluster/netmon.cf

!REQD 172.16.25.175 172.16.24.82

其中:172.16.25.175 是 HA 节点的 bootIP,172.16.24.82 是目标 IP。在这个配置文件中,通常建议写入多个 IP 地址(这个文件最多写 32 行),这样增加本机将会在 ping 不通第一个 IP 的时候,尝试 ping 第二个,直到配置文件中的所有 IP 地址都 ping 不通。这样做的好处是避免由于网络不稳定造成资源组错误切换。不同的 HA 节点的配置文件中,目标 IP 可以不同。

netmon.cf 能够检测到虚拟网络问题并且触发资源组切换的条件是:

1.配置 netmon.cf 的分区的 IP 地址 ping 不通 netmon.cf 中配置的目

标地址。

2.HA 节点之间的网络多播心跳不通。

netmon.cf 的功能验证

我们以一个双节点的 PowerHA7.1 作为实验环境。实验环境中有两个物理服务器,每个物理服务器上有一个 VIOS,一个 VIOC,两个 VIOC 之间配置了 PowerHA,并且在两个 HA 节点上都配置了 netmon.cf。

查看配置文件内容:

# cat /usr/es/sbin/cluster/netmon.cf

!REQD 172.16.25.175 172.16.24.82

查看资源组状态,资源组 rg1 运行在 HA1 上,浮动 IP172.16.25.178处于 up 状态。

# clRGinfo

-----------------------------------------------------------------------------

Group Name State Node

-----------------------------------------------------------------------------

rg1 ONLINE node1

OFFLINE node2

# netstat -in

Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll

en0 1500 link#2 .e.30.a 181132 0 14699 0 0

en0 1500 172.16.25 172.16.25.178 181132 0 14699 0 0

en0 1500 172.16.25 172.16.25.175 181132 0 14699 0 0

lo0 16896 link#1 16237 0 16237 0 0

lo0 16896 127 127.0.0.1 16237 0 16237 0 0

lo0 16896 ::1%1 16237 0 16237 0 0

初始情况下,HA1 节点可以 ping 通 netmon.cf 中的目标地址(172.16.24.82),目标地址与源地址互发网络包正常。

# tcpdump host 172.16.24.82

tcpdump: verbose output suppressed, use -v or -vv for full protocol decode listening on en0, link-type 1, capture size 96 bytes

21:33:18.669852 IP node1 > 172.16.24.82: ICMP echo request, id 488, seq 587, length 43

21:33:18.670058 IP 172.16.24.82 > node1: ICMP echo reply, id 488, seq 587, length 43

接下来,让 HA1 节点与目标地址无法通讯(可以通过删除路由、将目标地址网卡 down 掉或者将目标分区 down 等方法),即 HA1 节点 ping 不通

172.16.24.82 地址时,HA1 节点依然会正常工作,资源组不会发生切换。

从下面的输出信息中,可以看到 HA1 与目标地址交互不正常。

#tcpdump host 172.16.24.82

tcpdump: verbose output suppressed, use -v or -vv for full protocol decode listening on en0, link-type 1, capture size 96 bytes

21:00:59.785591 ARP, Request who-has 172.16.24.82 tell 172.16.24.1, length 46

21:01:01.071314 IP node1 > 172.16.24.82: ICMP echo request, id 488, seq 184, length 43

21:01:01.426657 IP node1 > 172.16.24.82: ICMP echo request, id 488, seq 184, length 43

21:01:01.782209 IP node1 > 172.16.24.82: ICMP echo request, id 488, seq 184, length 43

在这个时候,可能我们会理所当然地认为本机网卡将会标示出故障。其实不然,这个时候,在 PowerHA 的日志 hacmp.out 和 PowerHA 命令 lscluster -m 的

相关文档
最新文档