系统平台部培训手册(12)——HACMP群集的管理v1.0
HACMP培训课程
以上文件在系统安装盘中
设置系统心跳线
HACMP软件需要通过心跳线监测双机之间是否正常。连接两个系 统之间的心跳线,将一分八的异步电缆接在各自系统的八口异步卡 上,以RS232线缆连接,在P570_1/570_2上配置tty1,使用smit tty命 令。
设置系统心跳线
选择RS232异步端口模式,TTY Type为tty rs232 Asynchronous Terminal 。
HACMP的构成示意图
备份 网卡 服务 网卡 备份 网卡 服务 网卡
A
SSA卡 1# A-1 SSA卡 1# A-2
SSA 卡 2# A-1 SSA 卡 2# A-2
心跳线
SSA卡 1# A-2 SSA卡 1# A-1
B
SSA 卡 2# A-2 SSA 卡 2# A-1
SSA 环路B
A 镜像
B 镜像
户计算机系统及其应用的可靠性,而不是单台主
机的可靠性。
HACMP的构成
HACMP通过以下的方式提供一个高可用性的环境:
定义集群资源和资源组
定义群集中节点对资源组的接管关系
群集资源包括以下硬件或软件部件:磁盘、卷组、文件系统、 网络地址和应用服务器。集群中的每种资源为了实现高可用 性,必须被归入一个资源组,资源组时为了便于管理及配置 而定义的相关性的资源集合,如某个节点机的卷、文件系统、 IP地址、磁盘、应用系统往往定义为一个资源组。 集群中节点的接管关系确定了当某个节点失败时,与其相关 的资源组由哪个节点接管以及如何接管的规则。
主机B(standby): Service_ip: Standby_ip: Boot_ip: perm_ip:
6.100.4.3 192.168.1.2 192.168.2.2 6.100.4.4 永久ip
HACMP配置与维护手册
POWER HA5.5配置与维护手册2010年9月2日目录第一章一体化系统HACMP配置 (3)§1.1系统结构图 (3)§1.2拓扑规划 (3)§1.3磁盘资源规划 (4)§1.4应用规划 (5)§1.5操作系统要求 (6)第二章HACMP日常维护 (8)§2.1HACMP服务正常启停 (8)§2.1.1HACMP启动 (8)§2.1.2停止HA (9)§2.2查看HACMP集群服务状态 (10)§2.2.1查看HACMP服务状态 (10)§2.2.2查看资源组的状态 (10)§2.2.3查看HACMP集群状态 (11)第三章系统切换方案 (12)§3.1rlw1机器应用出现故障,HACMP资源切换 (12)§3.1.1切换rlw1_apprg资源组 (12)§3.1.2恢复rlw1_apprg资源组 (13)§3.2hg2机器应用出现故障,HACMP资源切换 (15)§3.2.1切换rlw2_orarg资源组 (15)§3.2.2恢复rlw2_orarg资源组 (17)第四章HACMP切换测试 (19)§4.1网卡故障模拟测试 (19)§4.2rlw1 系统单机故障模拟测试 (20)§4.3rlw2 系统单机故障模拟测试 (22)§4.4rlw1系统HA 手工切换测试 (24)§4.5rlw2系统HA 手工切换测试 (26)第一章一体化系统HACMP 配置§1.1 系统结构图§1.2 拓扑规划P780(1)主机(LPAR rlw1)共享磁盘阵列(HDS USPV 存储系统)心跳线(tty0)ent2ent0 P780(2) 主机(LPAR rlw2)ent2ent0Service NetworkPersistent Networkrlw1机器boot1地址配置在第一块外置网卡上(en0),将boot2地址配置在第二块外置网卡(en2),persistent ip地址绑在第二块外置网卡上(en2);rlw2机器boot1地址配置在第一块外置网卡上(en0),将boo2地址配置在第二块外置网卡(en2),persistent ip地址绑在第二块外置网卡上(en2)。
HACMP日常操作手册【范本模板】
HACMP操作手册强制方式停掉HACMP:HACMP 的停止分为3 种,graceful(正常),takeover(手工切换),force(强制)。
下面的维护工作,很多时候需要强制停掉HACMP 来进行,此时资源组不会释放,这样做的好处是,由于IP 地址、文件系统等等没有任何影响,只是停掉HACMP 本身,所以应用服务可以继续提供,实现了在线检查和变更HACMP 的目的。
一般所有节点都要进行这样操作。
强制停掉后的HACMP 启动:在修改HACMP 的配置后,大多数情况下需要重新申请资源启动,这样才能使HACMP 的配置重新生效.日常检查及处理为了更好地维护HACMP,平时的检查和处理是必不可少的.下面提供的检查和处理方法除非特别说明,均是不用停机,而只需停止应用即可进行,不影响用户使用。
不过具体实施前需要仔细检查状态,再予以实施。
clverify 检查这个检查可以对包括LVM 的绝大多数HACMP 的配置同步状态,是HACMP 检查是否同步的主要方式。
smitty clverify—〉Verify HACMP Configuration回车即可经过检查,结果应是OK。
如果发现不一致,需要区别对待。
对于非LVM 的报错,大多数情况下不用停止应用,可以用以下步骤解决:1.先利用强制方式停止HACMP 服务。
同样停止host2 的HACMP 服务.1.只检查出的问题进行修正和同步:smitty hacmp —〉Extended Configuration—>Extended Verification and Synchronization这时由于已停止HACMP 服务,可以包括"自动修正和强制同步“。
对于LVM 的报错,一般是由于未使用HACMP 的C-SPOC 功能,单边修改文件系统、lv、VG 造成的,会造成VG 的timestamp 不一致.这种情况即使手工在另一边修正(通常由于应用在使用,也不能这样做),如何选取自动修正的同步,也仍然会报failed。
HACMPXD GLVM 安装配置手册v1.0
HACMP/XD GLVM 安装配置手册v1.0目录1环境描述 (4)2配置集群 (4)2.1安装软件 (4)2.2创建基本cluster (7)2.2.1准备网络环境 (7)2.2.2添加 cluster (8)2.2.3添加 nodes (8)2.2.4添加两个 sites (9)2.2.5添加两个networks (9)2.2.6添加communication interfaces (9)2.3创建resource group (10)2.3.1创建app server (10)2.3.2创建monitor (11)2.3.3创建Resource Group (12)2.4HACMP 同步验证 (13)3配置 GLVM (14)3.1创建RPV server (P550B) (14)3.2创建 RPV client (P550A) (15)3.3创建 RPV server (P550A) (17)3.4创建 RPV client (P550B) (18)3.5创建 VG (19)3.6Create LV (20)3.7创建 FS (24)3.8创建GLVM copies (25)3.9在P550B上 Import GMVG (27)3.10修改 PowerHA Resouce Group 属性 (28)3.11PowerHA 同步 (29)4启动和测试 (30)4.1启动 cluster (30)4.2测试 resource move (30)5Q&A (Synchronous) (31)5.1Clstat,cldump error (31)5.2Hacmp Verify Error 1 (32)5.3Hacmp Verify Error 2 (33)5.4After fallover or fallback, find stale state (33)6转换 Sync GLVM 为Async Mode (34)6.1分配 PVs to mirror pool (34)6.2改变vg属性 (35)6.3改变 LV属性 (36)6.4添加 aio_cache LV (caching of asynchronous write request) (39)6.5转换 Mirror Pool为 Asynchronous Mirroring (41)6.6改变Resource Group属性 (41)6.7在P550B再次importvg datavg2 (42)6.8PowerHA 同步验证 (43)7Q&A (Asynchronous) (43)7.1PowerHA Verify Error 1 (43)7.2Varyonvg failed 1 (44)7.3Varyonvg failed 2 (44)本文档仅供研发内部使用,如需在生产环境使用,请先对指导书各步骤进行验证1环境描述两个节点的集群,软件硬件配置如下:1.Power5 5502.AIX 6103-sp33.PowerHA SystemMirror 6.1 sp14.2个 IP Networks5.每个节点2 disks(DS5020):✓一个是rootvg, 另外一个为GLVM testing✓磁盘在集群节点间不共享✓一个datavg22配置集群2.1安装软件#smitty install_latest上图为预安装,如没有报错,则将PREVIEW only? (install operation will NOT occur)修改为no ,则正式安装开始。
IBM认证知识:HACMP集群规划
IBM认证知识:HACMP集群规划IBM认证知识:HACMP集群规划集群规划也许是实现成功的配置过程中最重要的步骤。
HACMP 规划应该包括以下方面:硬件规划节点网络存储软件规划操作系统版本HACMP 版本应用程序兼容性测试和维护规划测试过程变更管理管理操作硬件规划实现高可用性配置的目标是通过消除单点故障(硬件、软件和网络),以及通过屏蔽服务中断(无论是计划内还是计划外的中断),从而提供高度可用的服务。
节点规划的决策因素包括:支持的.节点:计算机类型、功能、支持的适配器、电源(AC、DC、双电源与单电源等等)。
连接和电缆:电缆类型、长度、接头、型号、导线管布线、电缆槽容量需求,以及可用性。
节点配置HACMP V5.1 支持在一个集群中使用 IBM Eserver pSeries(独立和 LPAR 模式)、IBM SP 节点以及现有的 RS/6000 服务器的任何节点组合。
节点必须满足内部内存、内部磁盘、可用I/O 插槽数量和操作系统兼容性(AIX 版本)的最低要求。
要考虑的项包括:内部磁盘(磁盘数量、容量以及是否使用LVM 镜像)共享磁盘容量和存储数据保护方法(RAID 和 LVM 镜像)I/O 插槽限制及其对导致单点故障(SPOF) 的影响对集群的客户端访问(网络适配器)其他LAN 设备(交换机、路由器和网桥)I/O 适配器和子系统冗余电源冗余网络配置规划群集网络时的主要目标是评估所需的冗余程度,以消除网络组件成为单点故障的可能性。
应该考虑以下方面:网络:连接到多个物理网络的节点对于 TCP/IP 子系统故障:使用非 IP 网络以帮助决策过程网络接口:每个网络上的冗余网络适配器(以防止在单个网络接口发生故障情况下的资源组故障转移)在规划集群网络配置时,必须为节点连接选择正确的组合:集群网络拓扑(交换机、路由器等等)。
连接集群节点的IP 和非IP(点到点)网络组合和每个节点到所有网络的连接数量。
HACMP教程
资源规划HACMP给客户端提供高可用性的资源环境,当HACMP集群中的节点失效或按正常程序退出群集时,群集管理器将重新在剩余的节点中分配资源。
在HACMP中定义了以下资源类型:卷组、磁盘、文件系统、要“Mount”到“网络文件系统”上的文件系统、要“Export”到“网络文件系统”上的文件系统、Service IP地址、应用程序。
资源组群集中的每个资源被定义为资源组的一部分,这样做可以将有关联的资源聚集在一起,以提供特殊服务;同时,资源组还包括能够获得资源及提供这些资源到客户端的节点列表。
有三种类型的资源组:Cascading、Rotating、Concurrent。
每种类型的资源组描述了节点在群集中的不同关系类型,及节点进入或离开群集的不同表现。
Cascading资源组中的节点设置优先等级,优先级最高的节点是活动节点,控制着整个资源组。
当优先级最高的节点失效时,次高优先级的节点控制资源组;当优先级最高的节点重新加入群集时,它将重新获得对资源组的控制权。
Rotating资源组涉及的不是连接某一个节点,而是和多个节点都有能力采用的共享的IP地址相联系,当定义了共享适配卡的第一个节点加入群集时,它将获得和共享IP地址相关联的Rotating 资源组。
当控制Rotating资源组的节点离开群集时,下一个存在的节点获得该Rotating资源组;当该节点重新加入群集时,它将处于待机状态,而不重新获得该Rotating资源组的控制权。
Concurrent资源组能被多个节点同时共享,当一个节点失效时,没有任何接管工作发生;当失效节点重新加入群集时,它将和其它节点同时访问Concurrent资源组。
对于上述三种资源组分别可用一句话来进行概述:Cascading --- 活动节点使用最高优先级控制资源组。
Concurrent --- 所有活动节点可访问资源组。
Rotating --- 节点使用rotating资源组的相关的service IP地址来控制资源组。
HACMP教材
HACMP for AIX 原理、设计及实现联想集成系统有限公司目录前言__________________________________________________________________ 3 第一章HACMP的概念和原理 ______________________________________________ 4 §1.1 HACMP简介_____________________________________________________________ 5 §1.2 HACMP中术语的定义______________________________________________________ 6 §1.3 HACMP群集的硬件组成____________________________________________________ 7 §1.4 AIX与HACMP __________________________________________________________ 10 §1.5 HACMP群集的软件结构____________________________________________________ 11 §1.6 HACMP群集资源________________________________________________________ 12 §1.7 建立高可用系统――避免单点故障 __________________________________________ 15 第二章HACMP群集的设计 _______________________________________________ 21 §2.1 高可用性设计要点 ________________________________________________________ 21 §2.2 存储系统设计 ____________________________________________________________ 21 §2.3 LVM组件设计____________________________________________________________ 30 §2.4 HACMP for AIX的网络设计________________________________________________ 31 §2.5 群集结构的设计 __________________________________________________________ 36 §2.6 应用的设计 ______________________________________________________________ 42 第三章HACMP群集的实现 _______________________________________________ 43 §3.1 准备AIX ________________________________________________________________ 44 §3.2 安装HACMP ____________________________________________________________ 51 §3.3 配置HACMP ____________________________________________________________ 52 第四章HACMP群集的管理 _______________________________________________ 57 §4.1 群集的启动 ______________________________________________________________ 57 §4.2 群集的停止 ______________________________________________________________ 58 §4.3 群集的监视 ______________________________________________________________ 59 §4.4 群集的测试 ______________________________________________________________ 60 附录A HACMP和数据库 _________________________________________________ 61 附录B HACMP与同类产品的比较 _________________________________________ 64前言传统概念里,关键性任务的计算一直是大型主机的专有领域。
HACMP 5.X安装设置手册
HACMP v5.x安装设置手册版本 v1.0二零零八年五月神州数码(中国)技有限公司文档控制更改记录版本创建/修改时间编制/修改者文件/修改内容审批人v1.0 2008-5-29 贾志锋创建文档审阅姓名职位发布姓名职位目录目录 (3)HACMP v5.x安装配置 (4)1.1、了解HACMP的基本概念 (4)1.2、 HACMP规划 (4)1.3、安装HACMP软件 (6)1.3.1、操作系统版本 (6)1.3.2、安装依赖的软件包 (6)1.3.3、安装HACMP v5.4 (8)1.4、 HACMP配置规划 (10)1.4.1、 HACMP规划表格 (10)1.4.2、配置IP和网络 (11)1.4.3、编辑/etc/hosts文件 (12)1.4.4、编写应用服务器启动停止脚本 (12)1.4.5、创建共享卷组和文件系统 (13)1.4.6、配置非TCP/IP网络 (16)1.5、 HACMP Standard配置 (17)1.5.1、添加 cluster和节点 (18)1.5.2、配置cluster资源 (18)1.5.3、创建并配置资源组 (20)1.5.4、同步HACMP的配置 (21)1.6、 HACMP Extended配置 (21)1.6.1、配置串口心跳 (22)1.6.2、配置永久IP (24)1.6.3、同步HACMP的配置 (25)1.7、 HACMP启动和测试 (25)1.7.1、启动HACMP (25)1.7.2、 HACMP切换测试 (26)HACMP v5.x安装配置1.1、了解HACMP的基本概念对于从事IBM售后技术支持工作的人员,深刻理解IBM各项技术的基本概念是做技术支持工作的基本要求,只有掌握了基础的东西,才能使自己的知识更加的巩固,才能灵活的运用技术,解决工作中遇到的各种故障;同时,是知识扩展能力更强,能举一反三,更好的理解客户的真正的需求,能够给客户提供更成熟、更适合客户的解决方案。
ha-hacmp安装配置手册
***商业银行HACMP安装配置手册***(北京)科技有限公司目录1前言 (4)2硬件系统配置要求 (4)2.1M85小型机 (4)2.1.1yccb_1主机 (4)2.1.2yccb_2主机 (4)2.2存储系统配置 (4)3软件系统的基本配置 (5)4系统及应用环境检查 (5)4.1HACMP主机A配置 (5)4.2HACMP主机B配置 (6)4.3卷组VG同步 (6)4.4修改卷组AUTO V ARYON属性 (7)4.5用户USER (7)4.6共享文件系统FS属性 (7)5HACMP系统软件安装 (7)5.1HACMP的安装 (7)5.2HACMP补丁的安装 (8)5.3HACMP安装后检查 (8)5.3.1方法一 (8)5.3.2方法二 (8)5.4检查操作系统补丁 (9)6HACMP规划 (9)6.1HACMP资源组接管策略 (9)6.2HACMP IP规划 (10)6.3HACMP网络环境准备 (11)6.4双机配置AIX系统网卡 (11)6.4.1A机上配置boot1网卡地址 (11)6.4.2A机上配置boot2网卡地址 (11)6.4.3B机上配置boot1网卡地址 (12)6.4.4B机上配置boot2网卡地址 (12)6.4.5修改IP地址的方法 (12)6.5整理/ETC/HOSTS文件 (12)6.6检查和配置/USR/ES/SBIN/CLUSTER/ETC/RHOSTS (13)6.7配置心跳线 (13)6.8双机配置启动、停止脚本 (14)7HACMP配置 (14)7.1HACMP网络拓扑设置方法(手工定义) (14)7.1.1创建新的cluster (14)7.1.2在cluster中增加A机节点 (14)7.1.3在cluster中增加B机节点 (15)7.1.4在cluster上添加ethter网络 (15)7.1.5在cluster上添加serial网络 (17)7.2HACMP资源配置 (18)7.2.1配置service地址 (18)7.2.2配置应用服务(启动停止脚本) (18)7.2.3配置资源组 (18)7.3定义EMC CUSTOM DISK (19)7.4资源同步和检验 (20)7.5设置EMC共享盘的SCSI_ID(两台机器都要做) (20)7.6更改HACMP的调试级别(如有必要) (21)7.7调整SNMPD版本(YCCB_1,YCCB_2都做) (22)7.8如何删除一个CLUSTER (22)8HACMP系统维护及测试 (22)8.1.1存储相关设备设置修改 (22)8.1.2HACMP的启动、停止、状态查询及相关 (23)8.1.3某些HACMP的故障处理 (24)8.1.4HACMP某个的资源组资源的调整 (25)8.1.5测试HACMP系统的接管情况 (26)1前言本文档为***商业银行核心业务系统主机M85安装、配置HACMP编写。
HACMP_安装,配置,管理与诊断分析
HACMP安装配置,管理与诊断分析HACMP工作原理HACMP的工作原理是利用LAN来监控主机及网络、网卡的状态。
在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。
TCP/IP网络即应用客户端访问的公共网,该网可以是大多数AIX所支持的网络,如Ethernet,T.R.,FDDI,ATM,SOCC,SLIP,等等。
非TCP/IP网络用来为HACMP对HA环境(Cluster)中的各节点进行监控而提供的一个替代TCP/IP的通讯路径,它可以是用RS232串口线将各节点连接起来,也可以是将各节点的SCSI卡或SSA卡设置成Target Mode方式。
安装HACMP软件主机屏幕显示键盘操作xinzhuan将含有HACMP软件的光盘插入光驱g1xinzhuang2root:/> smitty install_latestINPUT device /directory for /dev/cd0Software SOFTWARE to install All<Enter>only? noPREVIEW安装完成后提示OK<Enter>关机重启–Frroot:/> shutdown HACMP主要进程Cluster Manager daemon(/usr/sbin/cluster/clstrmgr):是HACMP的核心进程,运行于每个群集节点,监视群集目标,如节点、网络接口、网络等的变化,生成事件,激活相应的事件脚本程序script做处理。
Cluster SMUX Peer daemon(/usr/sbin/cluster/clsmuxpd):也运行于每个群集节点,通过clinfo对客户端应用提供SNMP支持,该守护进程维护管理信息库MIB(Management Information Base)中的群集状态,可通过标准的SNMP函数访问这些数据,注意同时要运行snmpd。
HACMP
高可靠性集群系统软件HACMP高可用性群集多处理(HACMP)是一种可以将RS/6000 服务器连接起来的高可用的群集的应用。
群集服务器支持并行数据访问,能够帮助提供冗余和容错恢复能力,完全满足关键性商务应用的需求。
HACMP 包含基于图形用户界面的工具,可以帮助您以一种极为高效的方式对群集进行安装、配置和管理。
HACMP 的配置和使用十分灵活。
单处理器和对称多处理器(SMP)都可以加入到具有高可用性的群集之中。
您可以将不同规模、性能水平、网络结构和磁盘阵列的系统混合在一起,以满足各种应用、网络和磁盘性能的需求。
HACMP 群集可以配置为多种模式,以满足不同类型的处理需求。
并发访问模式比较适合的环境是所有的处理器必须工作于同一工作负荷并共享数据;互为备份模式是处理器共享工作负荷并相互备份;热备份模式允许一个节点备份群集中任何其它的节点。
无论您选择哪种模式,HACMP 都将提供数据访问和备份计划,以帮助您优化应用程序的执行和扩展性,同时帮助您避免代价高昂的系统故障和停机时间。
HACMP 同样支持服务器针对应用恢复/重启进行配置,以便为关键性的商务应用提供保护。
HACMP/ES 和RS/6000 群集技术总体系统故障时间中有很大一部分是由计划内的故障时间引起的。
HACMP 可以通过以并行方式执行硬件、软件和其它维护活动,使计划内的故障时间最小化,与此同时应用程序依然持续运作于其它节点上。
服务可能会从某一群集节点上转移至另一个节点,当维护活动完成后再转回该节点。
计划外的故障时间可能是由如下两方面原因之一造成的:硬件或软件。
结合由AIX 操作系统提供的各种实用工具,HACMP 可以通过将服务从一个故障节点自动转移到另一个群集节点,来保护您的系统运作不受硬件故障的影响。
引起节点故障的软件故障可检测到。
但是对于那些中断系统运作、但不引起系统故障或挂起的软件故障而言,则需要使用RS/6000 群集技术(RSCT)所代表的更进一步的可用性技术,该项技术由HACMP/ES 特性提供。
HACMP 第 1 部分:入门
什么是 HACMP?在解释什么是 HACMP 之前,我们必须定义高可用性的概念。
高可用性在当今的复杂环境中,为应用程序提供连续的服务是成功的 IT 实现的重要组成部分。
高可用性屏蔽或消除计划内和计划外的系统和应用程序停机时间,是帮助为应用程序客户端提供连续服务的组件之一。
这是通过消除硬件和软件单点故障(single points of failure,SPOF)来实现的。
高可用性解决方案将确保任何解决方案组件(无论是硬件、软件还是系统管理)的故障不会导致应用程序及其数据对用户不可用。
高可用性解决方案应该通过适当的设计、规划、硬件选择、软件配置和精心控制的变更管理规程来消除单点故障 (SPOF)。
停机时间停机时间是应用程序不能为其客户端提供服务的时间范围。
可以将停机时间划分为:∙计划内停机:∙硬件升级∙维修∙软件更新/升级∙备份(离线备份)∙测试(需要定期测试以实现集群验证。
)∙开发∙计划外停机:∙管理员错误∙应用程序故障∙硬件故障∙环境灾难用于 AIX 的 IBM 高可用性解决方案 High Availability Cluster Multi Processing 基于久经考验的 IBM 集群技术,并包括两个组件:∙高可用性:通过使用重复和/或共享资源来确保应用程序可供使用的过程。
∙集群多处理:运行在相同节点上并具有共享或并发数据访问的多个应用程序。
基于 HACMP 的高可用性解决方案提供了自动化的故障检测、诊断、应用程序恢复和节点重新集成。
使用适当的应用程序,HACMP 还可以为并行处理应用程序提供并发数据访问,从而提供卓越的水平可伸缩性。
图 1 显示了一个典型的 HACMP 环境。
图 1 HACMP 集群历史和发展IBM High Availability Cluster Multi-Processing 可追溯到 20 世纪 90 年代初。
HACMP 的开发始于 1990 年,目的是为运行在 RS/6000 服务器上的应用程序提供高可用性解决方案。
HACMP培训资料
磁盘阵列技术
磁盘阵列(DISK ARRAY)是一个由硬盘控制器 控制的多个硬盘的相互连接,使多个硬盘的读写同步, 减少错误,提高效率和可靠性的技术; RAID(REDUNDANT Array of Inexpensive Disk) 是磁盘阵列技术标准,也就是利用多余的磁盘对信息 进行冗余保存,从而提高磁盘系统的可靠性。常见的 等级有1、0+1、3、5等。
灾难恢复技术和集群技术的比较
数 据 的 安 代价 全性 high 灾难恢复 不 容 许 中 备份中心只是主 high 技术 断的应用 数据中心的备份 medium 集群技术 适 用 于 可 各个节点之间可 medium 以 允 许 短 以进行负载分担 暂 的 中 断,但很 快就可以 恢复的应 用 适用范围 负载分担
Cluster resource and resource group
HACMP中的资源由硬件和软件组成: •Disks •Volume Groups •File System
•Network Addresses
•Application Server 为了有效地利用HACMP的高可靠性,每种资源必须定 义在resource group中,resource group可以使相关的资 源联系成一个逻辑实体,这样易于配置和管理。
Components of a HACMP Cluster
•Node
•Shared external disks devices
•Networks – – Public network, Private network, Serial network Ethernet, Token-Ring, FDDI,ATM
Topic 2
HACMP工作原理
HACMP维护手册
注意:我们不推荐在同一时间在多个节点上使用第三个选项来停止群
集服务。
第15页,共30页。
HACMP日常系统管理维护
• 无论何时,都应该避免用kill -9命令停止群集管理后台进程。在这种 情况下(使用kill -9命令),系统资源控制器(SRC)会检测到clstrmgr
群集多处理(CMP): 该进程提供在同一节点上多个应用共享或并发访问 数据 。
基于HACMP的高可用性解决方案提供自动失效检测、诊断 、应用恢复和节点重新控制。在恰当的应用中,HACMP还 可以在并行应用处理中提供对数据的并发访问,从而提供 更高的可扩展性。
第3页,共30页。
高可用性系统VS容错系统 容错系统: 它是提供冗余的设计为不间断操作。这样的系统中所有的
组件都是双份的(不管硬件还是软件),CPU、内存、磁 盘都有特殊的设计来提供不间断服务。这样的系统是非常 昂贵和非常专业的。只有在要求0宕机的环境中,容错系 统设备和方案才有需求。 高可用性系统: 配置为高可用性的系统是一组软件、硬件的组合,可以保 证系统失效后在可接受的宕机时间内恢复。在这种系统中 ,软件负责监测到环境故障后将应用交给另一个机器实现 队员机器的接管。因此,在这种环境下重要的是消除SPOF 。例如,如果只有一个网络连接,就需要提供第二块网卡 以备主网卡失效后接管。另一点就是通过将数据放在所有 节点都可以访问的共享磁盘上并实现镜像。
第12页,共30页。
HACMP日常系统管理维护
• 日常日志2: /tmp/cm.log:(未找到)保存HACMP中clstrmgr进程产生信
息的时间;HACMP技术人员在clstrmgr处于debug模式下排 错需要参考此文件内容。重启集群服务,这个文件就会被 重写,因此需要做好备份。(/var/hacmp/log中有参考日 志文件) /var/hacmp/adm/history/cluster.mmddyyyy:HACMP的历史 记录文件,不同日期发生的集群事件记录在不同的文件中 。mm-月 dd-日 yyyy-年
系统管理员培训手册
平台系统管理员培训手册1平台操作界面1.1平台主界面管理平台的界面包括三个主IE页面:一个操作主界面、一个视频窗口界面、一个GIS操作界面,分别如下图所示。
其中视频窗口界面和GIS操作界面从主界面的菜单打开,可关闭。
在使用三屏客户端时,三个主界面可分别显示在三个屏幕上,方便操作。
操作主界面:包括标题栏、主菜单栏、状态栏、页脚、设备树/用户树、子页面区几个分区。
主菜单栏:主菜单栏中右侧有下拉箭头的菜单可再下拉选择最多两级菜单,选择菜单项后,在子页面区显示操作页面,或弹出新窗口。
在设备树、用户树点击鼠标右键,按照设备属性,部分节点会弹出快捷菜单。
状态栏:显示登录的用户名、登录后停留时间。
设备树/用户树:已注册的设备/用户以树形结构展示。
有两种显示方式。
(a)按照城市行政区划显示树结构,设备按照所属行政区划显示在相应的节点下。
(现版本设备所属行政区划与监控中心相同)。
在主页面、视频播放控制页面、设备/用户选择页面显示此树结构。
(b)按照监控中心分级显示树结构,设备按照所属监控中心显示在相应的节点下。
在用户管理、设备管理页面显示此树结构。
系统消息列表:显示系统在运行过程中的消息提示信息,并提供部分相应的操作入口。
!注意:屏幕模式对界面显示效果具有一定的约束。
(c)监控中心主值班员推荐采用三屏显示模式,左-中-右屏幕分别显示为操作界面-视频显示控制界面-GIS地图显示控制界面。
多界面并行工作,互不遮挡,显示信息量大,值班操作效率高。
显示分辨率推荐设为1280x1024以上。
(d)普通值班员采用单屏模式,默认界面功能区为左-右上-右下分别对应操作界面-视频显示控制界面-GIS地图显示控制界面,各分界面可移动、放大、缩小,变换后界面相互有不同程度地遮挡。
显示分辨率推荐设为1280x1024以上。
1.2常用控件1)列表列表是管理平台常用的显示控件。
列表的操作有:分页:记录可分多页显示,在列表下方显示当前页及总页数。
HACMP 群集启动停止管理
HACMP群集的管理HACMP群集的管理包括群集的启动、群集的停止、群集的监视。
§4.1 群集的启动启动群集是指在一个或几个节点上启动Cluster Manager,并使客户机能够访问群集的资源。
HACMP可以配置为自动启动或手动启动,自动启动是通过在文件/etc/inittab中的一条命令来实现的,但是配置为自动启动后,故障节点返回群集时可能发生资源的接管,造成不必要的停机。
因此,建议配置为手动启动。
启动HACMP必须有root权限。
启动节点建议每次启动一个节点,观察主控台上有无错误信息。
启动HACMP可以使用SMIT菜单(smit clstart)或命令行(/etc/rc.cluster –l –i -boot)启动HACMP。
建议在一个节点完全启动后再启动另一个节点,并在启动过程中监视事件脚本的输出(tail –f /tmp/hacmp.out)。
检查资源是否正常、可用群集启动后,应检查IP地址、磁盘、卷组、文件系统、应用等高可用资源是否可用并处于正确位置。
图35是HACMP启动菜单,快捷路径是smit clstart。
其中各项的含义如下:Start now, on system restart or both,是指启动方式是自动还是手动。
选择now为手动启动,选择restart/both为自动启动。
BROADCAST message at startup?,是指是否向所有用户发出群集正在启动的信息。
Startup Cluster Lock Services? ,是指是否启动锁管理器。
Startup Cluster Information Daemon?,是指是否启动clinfo进程,如果用clstat监视群集状态,则必须启动clinfo进程。
图35§4.2 群集的停止停止群集是指在一个或几个节点上停止Cluster Manager,此时群集资源可能可用,也可能不可用。
HACMP工作原理及运维管理
HACMP 工作原理及运维管理目录1. HACMP双机系统的功能介绍 (3)2. HACMP双机系统的工作原理 (3)3. HACMP双机系统结构图 (3)4. HACMP安装配置前需作的准备工作 (4)5。
HACMP的常用命令 (4)6。
HACMP常见故障解决 (6)1.HACMP双机系统的功能介绍Hacmp(High Availability Cluster Multi—Processing)双机热备份软件的主要功能是提高客户计算机系统及其应用的可靠性,而不是单台主机的可靠性。
2.HACMP双机系统的工作原理1.作为双机系统的两台服务器(主机A和B)同时运行Hacmp软件2。
服务器除正常运行自机的应用外,同时又作为对方的备份主机3.两台主机系统(A和B)在整个运行过程中,通过“心跳线”相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等)4.一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用在本机继续运行5.应用和资源的接管过程由Ha软件自动完成,无需人工干预6。
当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行3.HACMP双机系统结构图4.HACMP安装配置前需作的准备工作1。
划分清楚两台服务器主机各自要运行的应用(如A机运行应用,B机作为standby) 2. 给每个应用(组)分配Service_ip、Standby_ip、boot_ip和心跳线tty,3。
按照各主机的应用的要求,建立好各自的磁盘组,并分配好磁盘空间4. 根据Ha软件的要求,对服务器操作系统的参数作必要的修改5.HACMP的常用命令1、查看Cluster的运行情况:#/usr/sbin/cluster/clinfo –a#/usr/sbin/cluster/clstat/usr/sbin/cluster/clstat可以帮助你查看当前HACMP的节点状态。
(O管理)HACMPOR安装配置手册
除 了 haview, netwiew(Tivoli),的 包 以 外 , 所 有 的 HACMP 的 软 件 包 都 要 安 装 , rsct.opt.storagerm 为可选安装包,对于基本包在安装光盘或 Expansion 光盘上可以查找
ibm03 ibm03-priv
Privat e
172.16.1.48
Hostsfile
ibm04 ibm04
Public 192.168.1.49 Hostsfile
ibm04 ibm04-vip
Virtual 192.168.1.211 Hostsfile
ibm04 ibm04-priv
Privat e
172.16.1.49
Hostsfile
1.2、安装 HACMP 软件
完成 HACMP 安装配置规划后,可以开始安装 HACMP 软件,安装版本为 HACMPv5.4。
1.2.1、操作系统版本
#oslevel-r 5300-06
1.2.2、安装依赖的软件包
检 查 系 统 的 软 件 安 装 包 , 请 参 照 IBM 红 皮 书 中 《HighAvailabilityClusterMulti-ProcessingforAIX5LInstallationGuide》。这里我们建 议安装软件束 APP-DEV 和 SERVER,其中包括的红皮书要求的大部分软件包。 安装 rsct 软件包:
第1章HACMPv5.4 安装配置
1.1、IP 规划
Node InterfaceName Type IPAddress
RegisteredIn
ibm03 8 Hostsfile
ibm03 ibm03-vip
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HACMP的概念和原理
系统平台部培训手册
-3-
HACMP简介
IBM公司的HACMP for AIX软件是基于AIX平台 的,在高可用系统层次实现关键性任务计算环 境的工具软件。HACMP应用于RS/6000系列 的单处理器机型、对称多处理器机型或SP的节 点,可以检测系统故障并快速恢复服务,使最 终用户只感受到很小的中断时间。HACMP (High Availability Cluster Multi-Processing) 有两个主要的组成部分:高可用技术(HA) 和群集多处理技术(CMP)
在其它节点上建立LVM实体
• 用SMIT导入VG的配置信息,SMIT路径是smit vg→Import a Volume Group • 用chvg –a n命令禁止VG自动Vary-on • Mount 文件系统,确认操作成功
系统平台部培训手册
-18-
配置镜像的JFS日志
系统平台部培训手册
-15-
LVM组件设计
LVM组件的设计目标-没有单点故障,
• • • • 所有逻辑卷,包括JFS日志,均使用LVM镜像 将镜像放在不同的物理卷上 使用多块磁盘卡 使用多个电源
系统平台部培训手册
-16-
LVM配置要点
系统平台部培训手册
-14-
存储系统设计
• 设计高可用的配置的主要部分之一是共享的磁盘存储 设备。RS/6000具有全系列的磁盘存储设备可用于 HACMP,这些设备可分成以下三类: • 常规SCSI磁盘,包括SCSI-2 Differential和SCSI-2 Differential Fast/Wide磁盘。 • RAID磁盘阵列 • SSA磁盘子系统
• • • • • • • •
系统平台部培训手册
-10-
资源组
• • • • • • • • • • • • • Cascading资源组 Cascading资源组可以被一个或多个节点接管。 所有被指定参与接管一个资源组的节点都是该资源组的资源链的一部分,每个参与的节点都 被指定了接管优先级,优先级代表了接管可用资源的顺序。 当接管发生时,具有最高优先级的活动节点将获得资源组。如果该节点不可用,则由具有次 高优先级的节点获得资源组,依此类推。 当对该资源组具有更高优先级的节点重新回到群集后,它将取回它的资源组。 Rotating 资源组 一个Rotating 资源组和一组节点相关联。资源组在所有被定义的节点之间轮转。每个节点可 以拥有一个资源组。 开始时,第一个加入群集的节点获得第一个资源组,第二个加入群集的节点获得第二个资源 组,依此类推,直到所有的资源组都被节点获得。剩余的节点作为备份节点。 当一个控制资源的节点故障时,可用节点中对资源组具有最高优先级的节点将接管资源组。 当故障节点重新加入群集后,成为备份节点,不再取回资源组。 Concurrent 资源组 Concurrent 资源组由多个节点共享。所有并发访问资源组的节点在加入群集后都获得该资源 组。节点之间没有优先级的区别。 由于AIX JFS 不支持并发访问,应用就必须用生设备(逻辑卷)。因此Concurrent 资源组的 资源只能有应用、磁盘和卷组。 Concurrent 资源组的共享磁盘必须是SSA盘或RAID盘。
系统平台部培训手册
-9-
HACMP群集资源
• • • HACMP for AIX软件通过以下途径提供高可用性环境: 定义一组必须的群集资源,资源可以是硬件,也可以是软件。 定义群集节点访问这些资源的关系。这些关系确定哪个节点控制资源以 及当该节点放弃资源的控制权后哪个节点接管资源。当一个节点离开群 集时,Cluster Manager能够将这个节点的资源转移到群集中的其它节点 上。 资源的类型 高可用资源可以是以下几种实体: 应用 磁盘 卷组 文件系统 NFS文件系统 IP地址
系统平台部培训手册
-11-
建立高可用系统――避免单点故障
• • 高可用系统的主要特点是具有检测和响应可能影响到关键服务的 事件的能力。HACMP for AIX软件使群集在遇到系统的关键组件 (例如网卡)发生故障的情况下仍能继续对外提供服务。 HACMP for AIX软件通过避免单点故障的方式建立高可用的和可 扩展的群集。单点故障点是指一个关键的群集功能只由单一的组 件提供,当这个组件故障时,群集没有其它的途径提供关键的服 务。 在群集中,有可能出现单点故障的群集组件是: ★ 节点 ★ 网络和网卡 ★ 磁盘和磁盘控制卡 ★ 应用 HACMP可以检测和响应三种类型的故障:节点故障、网卡故障 和网络故障。
• • • • • • • 通常,当第一个文件系统添加到卷组时,系统自动建立JFS日志。 在HACMP环境中,为确保JFS日志逻辑卷的名字唯一且逻辑卷 镜像,应按如下方式建立JFS日志: 用smit mkvg来建立VG,指定唯一名字如“sharedvg” 建立一个逻辑卷,类型为“jfslog”,大小为1个LP,每个LP指定 2-3个拷贝 指定唯一名字如“sharevglog” 用命令logform /dev/sharevglog将逻辑卷格式化为日志逻辑卷 建立另外的逻辑卷,指定唯一的名字 在LV上建文件系统
在一个节点上建立所有的LVM实体
• • • • • 共享VG只能使用外置磁盘 建文件系统之前,先建立JFS日志 将VG配置为系统启动时非自动Vary--on状态 配置文件系统为系统启动时非自动mount状态 VG、LV、FS都建立好后,执行命令 varyoffvg
系统平台部培训手册
-17-
系统平台部培训手册
-19-
维护HACMP LVM组件
• • • • • • • 卷组的定义信息保存在以下位置:磁盘上的VGDA、ODM、 /etc/vg/vg*和内存中,在维护LVM时,要保证共享此VG的所有 节点上,此信息必须一致。 如果LVM实体需要改变,包括增加/删除PV、增加/删除LV、扩展 LV或FS、为LV或FS重命名等操作,应遵循以下步骤进行: ★ 在一个节点上进行配置,然后测试 ★ 在所有其它节点上输出旧的VG定义:exportvg sharedvg ★ 重新导入VG定义:impoitvg –v (major number) –y (VG name) –f (hdisk#) ★ 修改VG的属性:chvg –a n (VG name) ★ 检查、修改LV的属主和权限
系统平台部培训手册
-4-
高可用技术
在HA产品出现之前,在UNIX领域实现高可用性的最有效途径是通过容错技术。 容错技术依靠专门的硬件设备检测到硬件的故障, 然后立即切换至冗余的硬件设备上,不管故障设备是处理器、内存板、电源、 I/O子系统还是存储子系统。尽管这种切换能够无缝地提供不间断的服务,但 却在硬件费用和性能上付出了很高的代价,因为冗余的设备不能处理事务。更 重要的是,容错系统不能处理软件故障,而这却是宕机的最常见的原因。 高可用技术并不是通过将可用性当作一系列重复的物理设备来实现高可用性, 它将高可用性看作是一个全系统范围的、共享的资源的集合,这些资源相互协 作来保证关键的服务。高可用技术将软件和工业标准的硬件结合起来,在系统、 设备或应用发生故障时通过快速恢复关键服务来使宕机时间减至最小。尽管不 能立即切换,恢复服务也是很快的,通常在1分钟之内。 容错技术和高可用技术的区别在于服务中断的时间。当硬件发生故障时,容错 环境没有宕机时间,而高可用环境有很小的宕机时间。但是,在容错环境中, 由于软件故障无法被检测,有可能造成系统的严重破坏。而在高可用环境中, 软件故障只会造成很小的宕机时间。 现在,大多数的公司都愿意忍受一小段的宕机时间,采用高可用技术,而不愿 意花费高得多的代价采用只能检测硬件故障的容错技术。另外,在高可用配置 中,备份机还可承担其他应用。
系统平台部培训手册——
HACMP for AIX 原理、设计及实现
北京神州数码思特奇信息技术股份有限公司 系统平台部 2006年08月
系统平台部培训手册
目 录
• • • • HACMP的概念和原理 HACMP群集的设计 HACMP群集的实现 HACMP群集的管理
系统平台部培训手册
-2-
系统平台部培训手册
• • • • • •
系统平台部培训手册
-12-
HACMP群集的设计
系统平台部培训手册
-13-
高可用性设计要点
• 努力做到“没有单点故障”:这是设计的前提,应贯穿 设计的始终 • 自动故障恢复:故障恢复应无需人工干预 • 权衡投资、性能和可用性的关系:在保证可用性和性 能的条件下,使硬件投资最大程度地发挥效力 • 考虑应用软件: 认真编写启动和停止脚本,使应用在 故障时能自动恢复 • 设计高可用网络 • 考虑客户机:使客户机受群集故障影响最小 • 其它需要考虑的问题:各节点的用户帐号和用户目 录,批处理、打印队列、邮件、备份等其他应用和服 务
系统平台部培训手册
-6-
HACMP中术语的定义
• • 群集(Cluster):多个服务器节点一起工作,使用TCP/IP进行通讯,每个节点 上运行Cluster Manager进程。 节点(Node):群集中的每个运行Cluster Manager进程的独立的机器。节点是 HACMP的核心部分,节点上运行AIX操作系统和HACMP for AIX软件。在 HACMP群集中,每个节点有一个唯一的节点名。一个节点可能拥有一组资源 --――磁盘、卷组、文件系统、网络、网络地址和应用。节点上一般运行着访问 共享磁盘上数据的“后台”应用。 资源(Resources):由一个节点控制的实体,当节点发生故障时能够被其它节 点接管。可以被当作资源的实体有: ★ 磁盘、卷组、文件系统 ★ NFS输出的文件系统 ★ IP地址 ★ 应用程序 关键应用(Critical Application):由HACMP控制其启动和停止的应用程序, 例如数据库的后台进程。 事件(Event):群集中发生的一些事情,即群集状态的改变,包括节点 up/down,网络up/down,网卡故障等等。 行为(Behavior):事件发生时群集的响应动作。事件是由shell脚本控制的。 重聚(Reintegration):将故障节点、网络、网卡重新带回群集的过程。