HACMP日常维护和配置
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HACMP日常系统管理
1:日常日志:
日常日志主要是记录平时事件的启动,从中可以了解HACMP的动作,例如主机standby网卡故障,有fail_standby事件发生,系统管理员可从日志中得知何时出的故障,及有没有解决。
主要日志文件有:
/tmp/hacmp.out:记录HACMP启动或有动作时执行的各事件。
此文件
一天刷新一次,保留七天,文件保存为
/tmp/hacmp.out.1-7;
/usr/adm/cluster.log:记录HACMP的错误信息及各事件,另记录事件
发生的时间;
/tmp/cm.log:保存HACMP中clstrmgr进程产生信息的时间;
/usr/sbin/cluster/history/cluster.mmdd:HACMP的历史记录文件。
2:启动和关闭HACMP:
每次机器启动后,由系统管理员手工启动HACMP,机器shutdown前,手工关闭HACMP。
启动命令:# smit clstart 选项按缺省,启动顺序为先启主机,待主机的/tmp/hacmp.out文件中node_up_local_complete执行完后,再启动备机的HACMP;
关闭命令:# smit clstop shutdown mode选项要确认为graceful。
当出现以下情况时须按指定步骤操作:主、备机在关电后,再次启动时,备机正常,主机不能启动。
指定步骤:在备机上执行# smit hacmp 选择cluster configuration进入,选择Cluster Resources进入,选择Chage/show Resources for a Resource Group进入,将Inactive Takeover Activated 改为true执行。
退出到命令行,启动HACMP,这时备机接管主机的资源。
3:查看HACMP状态:
在HACMP中,它启动一个进程来监控各节点。
用# ps –ef|grep clinfo 命令查看clinfo 进程是否启动。
若未启动,有两种方法启动此进程:1)执行# /usr/sbin/cluster/clinfo
2)启动HACMP时,# smit clstart 中Startup Cluster Information Daemon改为true
用/usr/sbin/cluster/clstat命令查看各节点状态,因现使用的是字符终端,出现的将是字符界面。
须注意的是群集的substate属性,正常为Stable,不是Stable时,HACMP可能有动作或是不正常。
4:校验HACMP
执行# /usr/sbin/cluster/diag/clverify,将会出现一个交互式界面,可以检验HACMP软件(bos)和拓扑结构(topology),管理员可按提示操作。
5:在磁盘阵列上添加逻辑卷,扩大卷组:
首先把主、备机的HACMP停下。
在主机上:# varyonvg sharevg ;
扩大卷组或增加逻辑卷;
# varyoffvg sharevg;
在备机上:# exportvg sharevg;
# smit importvg 将sharevg重新import进来;
# smit chvg 将sharevg 在下次启动时不自动激活;
# varyoffvg sharevg。
6:增加文件系统、新的卷组,并要接管:
首先把主、备机的HACMP停下。
在主机上:# varyonvg sharevg ;
增加文件系统、新的卷组;
# varyoffvg sharevg;
在备机上:# exportvg sharevg;
# smit importvg 将sharevg重新import进来;
# smit chvg 将sharevg 在下次启动时不自动激活;
# varyoffvg sharevg。
在主机上:# smit hacmp →Cluster Configuration→Cluster Resources →Chage/Show Resources for a Resource Group
在Filesystems选项中加入新的文件系统,Volume Groups选项中加入新的卷组名;
#smit hacmp →Cluster Configuration→Cluster Resources→Synchronize Cluster Resources按缺省选项执行。
7:HACMP备份:
HACMP允许将群集的配置存储在一个文件中,称为snapshot,系统管理员可从此文件中恢复HACMP的配置。
文件缺省存放在/usr/sbin/cluster/snapshots目录下,生成两个文件,后
缀名分别为.odm、.info,.odm文件存放AIX ODM数据库类的信息,.info为群集的信息,可查看。
创建方法:# smit hacmp→Cluster Configuration→Cluster Snapshots→Add a Cluster Snapshot,在Cluster Snapshot Name中填写fibha,在Cluster Snapshot Description中填写fib ha backup,执行。
系统管理员将/usr/sbin/cluster/snapshots下的fibha.odm、 文件备份。
恢复方法:先将备份的fibha.odm、文件拷入/usr/sbin/cluster/snashots目录下,执行# smit hacmp →Cluster Configuration→Cluster Snapshots→Apply a Cluster Snapshot选择fibha,执行。
8:错误恢复:
当HACMP配置出现问题时,启动不能正常结束,此时/tmp/hacmp.out 文件中会出现event errot <event name>,管理员应按以下步骤停止HACMP:
# smit hacmp→Cluster Recovery Aids→Recovery from Script Failure选择一块正在工作的网卡,建议用standby网卡,执行。
然后再将HACMP关闭。
兴业银行HACMP配置清单
cluster ID:xx ------------------ xx 为分行代号
cluster name : clusterfib
(例:clusterxx,其中xx代表各分行拼音开头字母)
node name :
主机:fibzj (例:xxzj)
备机:fibbj (例:xxbj)
cluster configuration: Cascading (主从热备模式)
TCP/IP Network Adapter worksheet:
Interface Adapter Adapter Adapter Network Network Name Ip Label Function Ip addr Name Attribute
zj-en0 fibzj-boot boot 168.x.12.10 fibhanet public
zj-en0 fibzj-svc service 168.x.12.11 fibhanet public
zj-en1 fibzj-stb standby 168.x.99.11 fibhanet public
bj-en0 fibbj-svc service 168.x.12.12 fibhanet public
bj-en1 fibbj-stb standby 168.x.99.12 fibhanet public
zj-tty1 fibzj-tty serial fibtty private
bj-tty1 fibbj-tty serial fibtty private
(含boot、service、standby、serial或tmscsi 的配置,x为分行代号)
The application server name:fibas --------- 主机应用启动停止脚本Start server name: /usr/sbin/cluster/start.as
Contention:
chown rmix /dev/*db*
su – fib –c tbinit
su –fib –c ‘export XTJYRQ=`cat /fib/etc/var/xtjyrq.sys`;mntrdes’banner “HACMP START” > /dev/console
Stop server name: /usr/sbin/cluster/stop.as
Contention:
kill ‘ps –ef|grep fib|grep mntr|cut –c 9-14’
su –fib –c tbmode –ky
banner “HACMP STOPPING” > /dev/console
The application server name:fibas --------- 备机应用启动停止脚本Start server name: /usr/sbin/cluster/start.as
Contention:
Sleep 3
chown rmix /dev/*db*
ifconfig en0 detach
route add –net 168.x.12.0 168.x.12.11 -interface
route add default 168.x.12.0 168.x.12.1
ifconfig en0 inet 168.x.12.12 netmask 255.255.255.0
sleep 5
su – fib –c tbinit
su –fib –c ‘export XTJYRQ=`cat /fib/etc/var/xtjyrq.sys`;mntrdes’
banner “HACMP START” > /dev/console
Stop server name: /usr/sbin/cluster/stop.as
Contention:
kill ‘ps –ef|grep fib|grep mntr|cut –c 9-14’
su –fib –c tbmode –ky
banner “HACMP STOPPING” > /dev/console
route delete –net 168.x.12.0 168.x.12.11
route add –net 168.x.12.0 168.x.12.12 -interface
The resource group name fibrg
Node Relationship Cascading
Participating Node Names fibzj fibbj
Service IP Label fibzj-svc
Filesystems /fib
Filesystems to Export
Filesystems to NFS Mount
Volume Groups sharevg
Raw Disks
Application Servers fibas
Inactive Takeover no
Group in AIX:
Name:informix group ID:200
User in AIX:
Name:informix home path:/informix user ID:201 shell:ksh
Name:fib home path:/fib user ID:202 shell:ksh
name:wh home path:/home/wh user ID:301 shell:ksh
name:pcl home path:/fib/etc/sh user ID:302 shell:ksh /fib/etc/sh/pcl.sh
name:zpcl home path:/fib/etc/sh user ID:303 shell:ksh
/fib/etc/sh/zpcl.sh
Informix configuration:
Environment variable:
INFORMIXDIR=/usr/informix
PATH=$PATH:$INFORMIXDIR/bin
AIX : aio0 enable
Lv name and attribution
Lvname:rdbslv group:informix user:informix mod:660
Lvname:dbloglv group:informix user:informix mod:660
Lvname: group: user: mod:
配置注意事项:
1.主备机连接磁盘阵列并且在同一条SCSI总线上的SCSI适配器的
external id 不能相同,否则,当一台机器重启时,会破坏磁盘阵列的数据
2.主服务IP地址配置虚拟硬件地址。