HACMP原理

合集下载

使用 SSA Target 模式配置 HACMP

如下图所示：实验环境拓扑图我们在F85 上依次执行以下命令：规划Cluster我们的Cluter 规划如下：43P140 F85Cluster name db2_cluster db2_cluster node name db2_140 db2_85 Network net_ether_01 net_ether_01Network test140_boottest140_stbtest140_svc test85_boot test85_stb test85_svc非IP Network net_tmssa_01 net_tmssa_01非IP Network tmssa_140 /dev/tmssa140 tmssa_85 /dev/tmssa85 Resource GroupGroup Name db2_gr1 db2_gr2Cluster Mode cascading cascadingCluster Node db2_140, db2_85 db2_85 ,db2_140Service IP Label test140_svc test85_svcShare VGShare LVShare FS db2_vg db2_lv db2_fs db2_vg db2_lvdb2_fsApplication Server db2_svr db2_svr网络故障如果发往node1 上的service 和standby 网卡上的K-A (Keep-Alive 信息) 包全都丢失，而非TCP/IP 网络上的K-A 仍然存在，那么HACMP 判断node1 仍然正常而网络发生故障。

此时HACMP 执行一个network_down 事件。

网卡连接电缆故障：用命令：# ps –ef | grep cluster，确认所有节点上的HACMP 已启动。

用命令：# errclear 0，清空系统错误日志。

用命令：# tail –f /tmp/hacmp.out，监控HACMP 的运行状态。

打造高可用的Oracle数据库

打造高可用的Oracle数据库作者：何国庆王润宇宿云凯来源：《电子世界》2012年第15期【摘要】随着现代科技的不断进步，数据库技术在各种计算机和信息应用系统中发挥着越来越重要的基础性作用。

然而随时都有可能发生的各种突发事件，使数据库的高可用性面临着巨大挑战。

针对上述情况，本文从操作系统和数据库两个层面出发，重点介绍了三种保障数据库高可用性方面的技术：操作系统集群技术、Oracle数据库的RAC技术和Dataguard技术，并对其各自的优缺点进行了比较分析。

【关键词】数据库；高可用；RAC；DataGuard一、引言随着信息技术的发展，信息技术不仅改变了我们的工作方式，更是我们提高工作效率的原动力。

数据库是信息技术的核心技术之一，其直接存储和管理信息数据主体，并提供数据查询等服务。

数据库的稳定高效运行是业务是否稳定的前提。

然而，各种突发事件诸如网络威胁、硬件故障、火灾等，都使数据库稳定运行面临着巨大挑战。

为了在突发事件发生时，数据库仍然能够高效稳定运行，或使突发事件产生的影响降低到最小。

从操作系统到数据库应用都产生了很多高可用技术。

本文首先分析操作系统层面的高可用技术，及其对于数据库的局限性。

然后重点讨论目前常见的oracle数据库和高可用性有关的两项技术：Real Application Cluster和Data Guard。

二、操作系统上的高可用性时至今日，服务器不仅运算速度有了飞速提升，各种硬件的冗余技术，硬盘的RAID技术及日益稳定的操作系统都使其稳定性有了质的飞跃，但是硬件故障、操作系统的漏洞和bug依旧不能完全避免。

为了满足特殊服务器的高可用需求，常见的操作系统均推出了自己的集群技术，如AIX的High Availability Cluster Multi-Processing(简称HACMP或HA)。

Windows的windows Failover Cluster(简称WSFC)等。

HACMP______

一、功能原理1.HACMP的概念HACMP（High Availability Cluster Multi-Processing）是IBM基于Unix平台开发的一套高可用性集群软件，这个软件是为了确保关键资源或应用可以获得处理。

在hacmp集群环境中，应用必须在hacmp的管理之下，这样才可以确保应用的高可用性，当集群中的一个节点或组件出现问题，集群会将这个节点或组件所需的资源转移至其他节点上。

建立集群的目的✓减少计划或非计划的宕机时间✓避免单点故障✓快速故障恢复，但不能实现容错2.节点,网络,心跳2.1节点节点是安装并运行AIX操作系统和hacmp软件的一台独立系统，节点之间可以共享一系列资源：磁盘，卷组，文件系统，网络，网络IP地址和应用程序。

2.2网络集群各个节点之间通过网络进行相互通讯，当一个节点的某个网卡出现故障后，网络连接会自动切换到这个节点的其他网卡上，如果这个节点的所有网络连接都不可用的时候，集群会把应用极其所使用资源切换到其他节点上，并进行IP 地址接管操作IPAT（IP Address Takeover）。

集群的网络IP接管方式有2种：IP别名和IP替换IP别名：当集群把资源组以及IP地址从主节点切换目标节点时，在目标节点上并不会用主节点的服务地址去替代目标节点的网卡地址，而是在目标节点的网卡上建立IP别名（IP Alias），这样允许一个网卡绑定多个服务地址，因此同一节点可以装载更多的资源组。

IP替换：当集群把资源组以及IP地址从主节点切换目标节点时，目标节点的初始化启动IP将被主节点的服务IP所替换，这样只有使用同一服务地址的资源组可以装载到目标节点。

如果使用IP替换的接管方式还可以配置网络硬件地址HWAT（Hardware Address Takeover）即MAC地址切换，以确保ARP cache对网络地址的影响。

注：在HACMP4.5版本以前网络接管方式只能配置为IP替换方式。

缓冲溶液的缓冲原理.

谢
制作人：
谢
杨斌
+
外来H-
平衡移动结果：外来H+被消耗。溶液pH没有明显降低抗酸缓冲作用
缓冲作用的原理
HAc + H2O 平衡移动方向 Ac－ + H3O +
+
OH-
H2O 平衡移动结果：外来OH－被消耗。HAc 解离补充了消耗的H＋，pH没有明显升高抗碱缓冲作用
缓冲作用的原理
• 1．弱酸及其对应盐的缓冲作用原理（HAc — NaAc）
– 抗酸成分： Ac-（主要来自NaAc） – 抗碱成分：HAc
抗酸作用：Ac-+H+
抗碱作用：HAc+OH-
HAc
Ac-+H2O
缓冲作用的原理
• 2．弱碱及其对应盐的缓冲作用原理： (NH3· H2O-NH4Cl)
抗酸成分：NH3 抗碱成分： NH4+ （主要来自NH4Cl）
抗酸作用：NH3+H+ 抗碱作用：NH4+ +OH-
药用基础化学/ 同离子效应和缓冲溶液
缓冲溶液的缓冲原理
பைடு நூலகம்冲作用的原理
以HAc~NaAc缓冲体系为例： HAc + H2O 因NaAc的同离子效应抑制了HAc 的解离体系中存在大量HAc和Ac－ H3O + + Ac－
缓冲作用的原理
在HAc~NaAc缓冲体系中加入少量强酸时： HAc + H2O H3O + + Ac－平衡移动方向
NH4+ NH3· H 2O
缓冲作用的原理
• 3．多元酸的酸式盐及其对应的次级盐的缓冲作用原理 NaHCO3-Na2CO3 抗酸成分： CO32-（Na2CO3）抗碱成分： HCO3-（NaHCO3）抗酸：CO32-+H+ HCO3抗碱：HCO3-+OHCO32-+H2O

HACMP日常操作手册【范本模板】

HACMP操作手册强制方式停掉HACMP:HACMP 的停止分为3 种，graceful(正常)，takeover(手工切换），force(强制)。

下面的维护工作，很多时候需要强制停掉HACMP 来进行,此时资源组不会释放，这样做的好处是,由于IP 地址、文件系统等等没有任何影响，只是停掉HACMP 本身,所以应用服务可以继续提供，实现了在线检查和变更HACMP 的目的。

一般所有节点都要进行这样操作。

强制停掉后的HACMP 启动：在修改HACMP 的配置后，大多数情况下需要重新申请资源启动，这样才能使HACMP 的配置重新生效.日常检查及处理为了更好地维护HACMP，平时的检查和处理是必不可少的.下面提供的检查和处理方法除非特别说明，均是不用停机，而只需停止应用即可进行，不影响用户使用。

不过具体实施前需要仔细检查状态，再予以实施。

clverify 检查这个检查可以对包括LVM 的绝大多数HACMP 的配置同步状态，是HACMP 检查是否同步的主要方式。

smitty clverify—〉Verify HACMP Configuration回车即可经过检查，结果应是OK。

如果发现不一致，需要区别对待。

对于非LVM 的报错,大多数情况下不用停止应用,可以用以下步骤解决：1.先利用强制方式停止HACMP 服务。

同样停止host2 的HACMP 服务.1.只检查出的问题进行修正和同步：smitty hacmp —〉Extended Configuration—>Extended Verification and Synchronization这时由于已停止HACMP 服务，可以包括"自动修正和强制同步“。

对于LVM 的报错，一般是由于未使用HACMP 的C-SPOC 功能，单边修改文件系统、lv、VG 造成的，会造成VG 的timestamp 不一致.这种情况即使手工在另一边修正（通常由于应用在使用,也不能这样做)，如何选取自动修正的同步，也仍然会报failed。

GPFS文件系统介绍

Disk02
Disk03
2005 Technical Support Service
GPFS介绍----与NFS,SAN File System比较
客户端-服务器结构的网络文件系统客户端服务器结构的网络文件系统 (NFS, DFS, or AFS): 存在单个服务器”瓶颈” 存在单个服务器”瓶颈” 网络协议导致额外开销
2005 Technical Support Service
GPFS 特点 --- 高可用的文件系统
GPFS是一种日志文件系统，为不同节点建立各自独立的日志。日志种记录 Metadata的分布，一旦节点发生故障后，可以保证快速恢复数据。 GPFS Fail-over功能通过规划，将数据分布到不同Failure Group内达到高可用性，减少单点故障的影响。为了保证数据可用性，GPFS可以在多个Failure Group内为每个数据实例做备份，即使创建文件系统时没有要求复制，GPFS 也会自动在不同的Failure Group内复制恢复日志。 GPFS对NSD的访问可用通过多路径进行，可用为每个NSD定义一个Primary NSD Server和一个Secondary NSD Server。在SAN环境下，对NSD的访问，首先通过SAN进行，如果SAN不可访问，则通过网络访问Primary NSD Server， Primary NSD Server再访问NSD。如果Primary NSD Server不可用，则由 Secondary NSD Server完成对NSD的访问。
数据流
LAN
/gpfs1
Host02 Host03 Host04
Disk02
Disk03
2005 Technical Support Service

HACMP原理及应用简介

Components of a HACMP Cluster
•Node •Shared external disks devices •Networks
– Public network, Private network, Serial network – Ethernet, Token-Ring, FDDI,ATM •Network Adapters – Service network adapter, standby network adapter •Clients
现在有些厂家对于其他的部件，也可以采用热插拔技术。如控制卡、电源等。
集群技术
集群（Cluster）技术是利用HA（High Availability）双机热备份软件,通过避免系统的单点故障，来提高客户计算机系统及其应用的可靠性。集群技术已用于多种平台：
•UNIX •Open VMS •Novell •Windows NT
灾难恢复技术
必要性 • 数据的高度集中； • 自然灾害，如水灾、火灾、地震等； • 其他来自计算机系统以外的问题，如电力系统故障；
灾难恢复技术的两大技术要素： •瞬时复制技术 •连续和周期性更新
灾难恢复技术和集群技术的比较
适用范围负载分担
数据的安代价
全性
灾难恢复不容许中备份中心只是主 high
优点： • 减少管理开销； • 减少节点状态不一致性的可能性； • 高效管理逻辑卷和控制集群服务。
单点故障
消除的潜在的单点故障包括： • Nodes • Applications • Networks and network adapters • Disks and disk adapters
HACMP 用以下的方式来处理节点的失败： • Disk takeover • IP address takeover (with or without hardware address swapping)

[整理]HA工作原理

HA工作原理HACMP工作原理 [转帖]HACMP工作原理HACMP的工作原理是利用LAN来监控主机及网络、网卡的状态。

在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。

TCP/IP网络即应用客户端访问的公共网，该网可以是大多数AIX所支持的网络，如Ethernet，T.R.，FDDI，ATM，SOCC，SLIP，等等。

非TCP/IP网络用来为HACMP对HA环境（Cluster）中的各节点进行监控而提供的一个替代TCP/IP的通讯路径，它可以是用RS232串口线将各节点连接起来，也可以是将各节点的SCSI卡或SSA卡设置成Target Mode方式。

HACMP将诊测并响应于三种类型的故障：1网卡故障，2网络工作，3节点故障。

下面就这三种故障分别进行介绍。

1、网卡故障前面讲到，HACMP的群集结构中，除了TCP/IP网络以外，还有一个非TCP/IP网络，它实际上是一根“心跳”线，专门用来诊测是节点死机还是仅仅网络发生故障。

如下图所示，一旦节点加入了Cluster(即该节点上的HACMP已正常启动)，该节点的各个网卡、非TCP/IP网络就会不断地接收并送Keep-Alive信号，K-A的参数是可调的，HA在连续发送一定数量个包都丢失后就可确认对方网卡，或网络，或节点发生故障。

因此，有了K-A后，HACMP可以很轻易地发现网卡故障，因为一旦某块网卡发生故障发往该块网卡的K-A就会丢失。

此时node 1上的cluster manager( HACMP的“大脑”)会产生一个swap-adapter的事件，并执行该事件的script(HACMP中提供了大部分通用环境下的事件scripts,它们是用标准AIX命令和HACMP 工具来写的)。

每个节点上都有至少两块网卡，一块是service adapter,提供对外服务，另一块是standby adapter，它的存在只有cluster manager知道，应用和client并不知道。

hacmp工作原理及安装

S85_1# cat /etc/hosts >/dev/tty0 S85_2# cat </dev/tty0 如果在S85_2机能接收到信息，则表明心跳线已经配置好
11
IBM HACMP双机系统的安装及配置（续）
五、具体配置
注：HACMP的配置（或修改配置）只需要在其中的一台主机上进行，当配置
（或修改）完毕后使用同步命令将配置结果传到另外一台主机上。一般选S85_1 在进行配置
#smitty tty TTY TTY type TTY interface Description Status Location
Parent adapter
tty0 tty rs232 Asynchronous Terminal
Available 20-70-01-00
sa2
10
IBM HACMP双机系统的安装及配置（续）
逻辑地看成一块大硬盘物理分区（PP）：卷组中物理卷划分成固定大小
的块（缺省为4MB）逻辑卷（LV）：逻辑卷是位于物理分区上的信息
集合逻辑分区（LP）：逻辑卷由一定数量的逻辑分区
组成
22
IBM磁盘阵列及文件系统的管理（续）
二、常用命令
lsvg rootvg 看内置硬盘属性
lsdev -Cc disk 看所有硬盘
(1) Cascading (2) Concurrent (3) Rotating
16
IBM HACMP双机系统的安装及配置（续）
3、配置Cluster Resources
3.1 定义一个资源组(Define Resource Groups)
注意，在定义资源组的时候，要注意Participating Node Names的先后顺序

ORACLE数据库HA架构方案

摘要:0^。

位数据库在各类应用系统中负责存储平台所有的用户数据，数据库的可靠性及安全性直接影响平台的安全运行，目前采用的Oracle Replication方式来实现的数据库高可靠性已经显示出了弊端，本文介绍并分析了目前比较流行的几种数据库高可用性的架构：Oracle Replication、Oracle Rac、Oracle主机HA等，希望给大家一个参考。

1什么是高可用性（High Availability高可用（HA）性有两种不同的含义，在广义环境中是指整个系统的高可用性，在狭义方面一般指主机、服务的冗余，如主机HA、应用程序的HA等，无论那种情况，高可用性都可以包含如下一些方面：0系统失败或崩溃0应用层或者中间层错误0 网络失败0 介质失败：指一些存放数据的媒体介质故障0 人为错误0 系统的容灾备份0 计划内的维护或者重启可见，高可用性不仅包含了系统本身故障、应用层的故障、网络故障、认为操作的错误等，还包含数据的冗余、容灾及计划的维护时间等，也就是说一个真正的高可用环境，不仅能避免系统本身的问题，还应该能防止天灾、人祸，并且有一个可靠的系统升级及计划维护操作。

本文探讨的Oracle数据库层面的高可用性，不可避免也会涉及到一些主机、存储、操作系统方面的高可用性，因为要实现Oracle服务的连续性保障是离不开硬件层面的支持的。

随着Oracle技术的发展（Oralce 8i/9i/10g/11g），高可用性越来越完善、越来越可靠，本文介绍了四种Oracle高可用性的相关产品，并通过其实现方式和性能的比较得到在现在和未来的Vas2000系统中更适合的数据库高可用性方案：0 Oracle Parallel Server/Oracle Real Application Cluster (Oracle Rac ) 0 Oracle Standby Database/Oracle Data Guard0 Oracle Advanced Replication/Oracle Stream0 Oracle Server HA2 Oracle 并行数据库OPS/RACOPS 从Oracle 8i 开始提供，从Oracle 9i 开始成为RAC ,并且随着高性能PC SERVER 的普及，Oracle Rac 也成为Oracle 高可用性产品最流行的一种架构，Oracle Rac 通过组织多个服务器的Cluster 来获得更大的计算处理能力和故障处理能力的集群。

§1 HACMP多机集群结构简介

§1 HACMP多机集群结构简介HACMP是一个专为RS/6000服务器设计的软件保护程序，通过多台服务器以集群(Cluster)方式运行，保证共享数据资源的高可用性。

一旦某台服务器发生故障，它自动使备用服务器接替工作，而完全不需人工干预，从而保证整个系统不至因某个单元故障而崩溃。

HACMP/6000共有72种配置方式，其接管时间从几秒钟到几分钟不等。

在配置方式的灵活性、高可用性上和价格上都明显优于其它厂家产品的多机集群解决方案，广泛应用在银行、商业、电信等重要企业计算环境，实为一种极为经济有效的高可用性解决方案。

HACMP/6000支持多种流行的数据库产品，例如DB2/6000，Oracle，Informix，Sybase，Ingres，Progress，Unify和Unidata。

这些UNIX数据库产品可不需修改地在一个HACMP高可用性集群子系统中运行。

从经济角度考虑，HACMP软件价格便宜；几台服务器可以各自独立工作，完成不同的应用，不至于造成备份机的空闲浪费。

§1.1 HACMP工作原理及工作模式HACMP的工作原理是利用网络来检查主机及网络卡的状况，用AIX提供的硬盘管理功能，在主机、网络卡、硬盘控制卡、硬盘或网络发生故障时，自动切换到另一套备件上重新工作。

如果是主机故障，还可以在备份机上重新启动应用程序。

这个重新启动的过程一般可在5分钟内完成，具体的重新启动时间应和系统资源状况、所编写的重新启动过程及所启动的应用程序有关。

HACMP可根据需要灵活配置。

HACMP工作方式有以下几类：◆主-从备份。

一节点为备份机，使其处于空闲等待状态，等待接替故障节点的应用；◆轮换备份。

几个节点各自工作，并定义一个节点为其余节点的备份机；◆互为备份。

几个节点都各自有自己的应用和任务，它们之间互相作为备份机；◆并发存取。

几个节点通过同时访问同一共享存储设备，进行同一工作，不但保证了高可用性，也显著提高了生产率。

(财务知识)金蝶财务软件EAS系统网络及硬件部署方案建议

（财务知识）金蝶财务软件EAS系统网络及硬件部署方案建议目录1.前言42.技术架构53.系统部署方式63.1.标准方案63.2.双机热备方案63.3.应用级集群部署方案73.3.1.集群模型特点73.3.2.集群部署建议83.4.系统级集群方案83.4.1.IBM P系列服务器群集技术(HACMP)83.4.2.HP MC/ServiceGuard 集群方案93.5.分区技术94.网络安全94.1.EAS客户端与服务器连接94.2.VPN技术105.网络环境115.1.局域网115.2.广域网115.3.带宽要求126.服务器选型与配置126.1.EAS运行支持环境126.2.服务器硬件选型136.3.磁盘存储系统146.4.数据库选型156.5.应用服务器选型156.6.客户端硬件配置167.典型配置167.1.20个并发用户以内167.2.20-50个并发用户数187.3.50-100个并发用户数197.4.100-200个并发用户数207.5.200-500个并发用户数227.6.500个并发用户数以上237.7.IBM I系列集成服务器部署258.附件：性能测试报告278.1.EAS IBM IIC(上海)性能测试报告278.2.EAS HP方案解决中心性能测试报告308.3.EAS S UN F IRE服务器兼容性暨性能测试报告33 8.4.IBM O PEN P OWER 解决方案测试证书379.最终建议371.前言金蝶EAS(EnterpriseApplicationSuite)，是金蝶国际软件集团推出的新一代企业应用套件。

秉承40万家用户的最佳应用实践，采用最新的ERPⅡ管理思想和最先进的平台化技术架构，是K/3产品的重大平台升级和管理升级，涵盖集团管理、财务管理、人力资源管理、客户关系管理、供应链管理、供应商关系管理、协同平台等管理领域。

为大中型企业提供最适合中国企业管理特质的个性化企业管理及电子商务应用解决方案。

HACMP原理知识点

IP地址接管（IPAT）：大多数应用程序都要求IP是高度可用的。为了确保这一点，我们把服务IP地址包含在资源组中，把服务IP地址从一个NIC转移到另一个上的过程称为IP地址接管。
实现（IPAT）的方式：通过别名实现：powerHA使用AIX IP别名特性，把服务IP地址添加到NIC中
通过替换实现：powerHA把接口IP地址替换为服务IP
什么是HACMP
1、系统可用性运行时间最大化
2、系统宕机时间最小化
3、不是容错机
4 避免单点故障spof
HACMP V5.x的特点
1、简化了HACMP Cluster的配置与管理
2、通过磁盘传输心跳信号
3、IPAT通过Alias实现
4、用户自定义的资源组
5、快递磁盘接管
故障恢复策略：决定资源组是否执行故障恢复
PowerHA的子系统
集群管理器clstrmgr是核心进程，包括拓扑管理器、资源管理器、事件管理器、时间脚本以及对故障做出反应的RSCT（守护进程）。主要作用是监视集群成员关系
clinfo进程提供用于在集群管理器和应用程序之间进行通信的APL。clinfo还提供远程监视功能，可以在集群状态发生变化时运行脚本。
配置HACMP的规划和考虑
硬件规划： 1、节点的配置要求（完全一致）
2、网络的配置要求（IP和Non-IP网络）
3、存储设备上的要求
软件的规划： 1、操作版本和补丁要求
2、HACMP的版本和补丁要求
3、所有应用程序的兼容性
HACMP的资源组的规划（主要是为了避免单点故障spof）
文件系统：许多应用程序需要挂载文件系统
卷组：许多应用程序需要高可用性的卷组

HACMP

高可用集群多处理(HACMP)HACMP 提供两个主要的部件：✧高可用子系统：为集群中的每一成员提供服务，系统管理，配置的完整性及控制，以及故障接管和恢复。

✧共享资源管理器：在一个集群中，管理多台机器的同时存取数据。

HACMP 的特点：* HACMP 是一个软件产品，用于监测硬盘、硬盘适配卡、网络、网卡和处理器(服务器)，以及这些部件的故障恢复。

一个松散耦合的处理器或节点集群，在HACMP 软件的配合下，可以通过将控制从一个已发生故障的处理器(服务器)转移到具有冗余能力的备份处理器上，来保持应用的可用性。

* HACMP产品在支持广泛的集群配置和处理不同的出错类型方面具有极大的灵活性：* HACMP可以支持多至16个节点(即：16台服务器)的集群，允许同时存取或非同时存取的配置。

* HACMP可以支持整个RS/6000服务器产品系列。

这样，集群系统就无须限定在对称式配置上。

* HACMP支持较低成本的备份机配置，其性能未必要匹配生产机，以便节省投资。

*对有些部件的故障，如ATM网卡，则根本无需由另一节点进行出错接管。

HACMP 能够监测和恢复在一个主机内部的错误。

由于部件的切换时间比处理器的切换时间更短，因此，停机的时间进一步缩短。

* HACMP提供一系列安装和配置工具，使用户可以从一个节点上对整个RS/6000处理器集群进行配置，比逐一配置更为简单。

此外，HACMP还提供一组综合的，数据驱动的出错接管文本程序(script)，使得集群的管理和配置工作更容易。

* HACMP的集群管理员(ClusterManager)通过一个“心跳”协议来监控处理器(节点)和网络界面。

当可设置的一组“生存数据包”(keepalivepackage)全尽失败时，集群管理员则假设有故障并采取相应的行动。

只有当所有激活的集群管理员都认为有故障发生，此故障才被最后确认。

这就是为什么IBM的HACMP不靠单一的途径在集群系统的各节点间传递“心跳”。

专题资料双机介绍

专题资料IIN 双机介绍目录目录第1章双机概述 ....................................................................................................................... 1-11.1 HA介绍.............................................................................................................................. 1-11.1.1 HA的概念................................................................................................................ 1-11.1.2 HA基本原理 ............................................................................................................ 1-11.2 IIN双机介绍 ....................................................................................................................... 1-1第2章 HA系统特性介绍 .......................................................................................................... 2-12.1 HP MC/ServiceGuard介绍 ................................................................................................ 2-12.1.1 HP MC/ServiceGuard概述...................................................................................... 2-12.1.2 HP MC/Service Guard软件结构 ............................................................................. 2-12.1.3 HP MC/ServiceGuard 相关进Daemon进程........................................................... 2-22.1.4 HP MC/ServiceGuard 分层 ..................................................................................... 2-22.1.5 HP MC/ServiceGuard Package工作原理 .............................................................. 2-32.2 IBM HACMP介绍............................................................................................................... 2-42.2.1 IBM HACMP概述.................................................................................................... 2-42.2.2 IBM HACMP软件组成............................................................................................. 2-42.2.3 HACMP 分层 ........................................................................................................... 2-62.2.4 Resource Group的模式 .......................................................................................... 2-82.3 SUN Cluster介绍............................................................................................................... 2-82.3.1 SUN Cluster概述 ................................................................................................... 2-82.3.2 SUN Cluster3.0特性 ............................................................................................... 2-92.3.3 SUN Cluster3.0软件结构...................................................................................... 2-102.3.4 SUN Cluster3.0硬件组成...................................................................................... 2-112.3.5 SUN Cluster3.0应用配置...................................................................................... 2-11第3章 IIN双机 ......................................................................................................................... 3-13.1 IIN双机的特点.................................................................................................................... 3-13.2 IIN HP双机介绍 ................................................................................................................. 3-23.2.1 HP双机的开发方案 ................................................................................................. 3-23.2.2 HP双机的脚本介绍 ................................................................................................. 3-33.3 IIN IBM双机介绍................................................................................................................ 3-33.3.1 IBM双机的开发方案................................................................................................ 3-33.3.2 IBM双机的脚本介绍................................................................................................ 3-43.4 IIN SUN 双机介绍 .............................................................................................................. 3-53.4.1 SUN双机的开发方案............................................................................................... 3-53.4.2 SUN双机的脚本介绍............................................................................................... 3-53.4.3 SUN双机的工具脚本............................................................................................... 3-7第1章双机概述1.1 HA介绍1.1.1 HA的概念HA（High Availability），即高可用性，指通过一定的硬件、软件冗余，提高系统抵御非预期故障引起的业务中断的能力，提高系统的可用性。

安盟动态口令认证系统产品说明书

安盟动态口令身份认证系统产品说明文档1动态口令身份认证系统原理在传统的静态口令验证系统中，由于口令为“一次设置，重复使用”，由于口令的重复使用而增加了口令丢失和破解的危险性，降低了系统的安全系数，特别是在互联网环境下，黑客、木马和病毒泛滥，使得静态口令更加容易被泄露，造成企业信息系统和资源的非授权访问，导致直接经济损失和间接的信誉和商誉损失。

所以，除了用户记忆的静态口令外，还需要增加一个物理因素，如令牌，这样采用你所知道的（记忆的静态密码）和你所拥有的（令牌）两个要素构成有效密码，实现严格身份信息验证，而你所拥有的要素必须具有不可复制和篡改的性能。

动态口令认证即是依据上述原理实现的双因素强身份认证系统：1)本系统以令牌作为信物，实现双因素认证。

令牌显示依据种子密钥和时间随机计算的动态口令，具有不可复制和篡改的性能，而后台认证系统认为，只有持有令牌才可能输入正确的密码，反过来说，只要输入了当前时间点的正确密码，就可以认为持有可信的要素，即令牌。

用户登录时，必须同时验证静态口令（称之为PIN码）和动态口令，只有两者均正确时才能确认用户身份2)令牌与服务器之间的同步。

令牌和认证服务器一般以密钥和时间为基础，每隔一定时间（常见为60妙）就计算出一个口令，由于令牌和认证服务器双方都共享了对称密钥、时间因子和计算方法，所以计算出来的口令就是同步的和唯一的。

3)一次一密。

令牌上显示的密码只有在当前时间点有效，且使用一次即失效，实现高强度的安全性。

系统的部署结构如下：解决的主要问题：1)密码安全管理问题，实现不依赖于客户端安全意识和安全习惯可控的安全性，用户也免于设置复杂密码、记忆并定期更新之苦。

2)密码每分钟变化，只在当前时间点有效，且使用一次即失效，即使黑客在传输过程当中截获或窃听了，只有在一分钟之内解开，且解开之后，必须先于用户或管理员进入系统才构成威胁，这几乎不可能，大大加强了应用系统的安全性和可靠性。

AIXHACMPoracle双机集群项目

AIX+HACMP+oracle双机集群项目一、集群分类1、按用途分类（1）高可用集群（High Availability Cluster）（2）负载均衡集群（Load Balance Cluster）（3）科学计算集群（High Performance Computing Cluster）2、按结构分类（1）主从模式(active-standby mode)（2）双机互备(mutual backup mode)（3）多点集群(multi node cluster)3、按厂商分类（1）IBM： HACMP(High Availability Cluster Multi-Processing) （2）HP： HPTC(High Performance Technical Computing) （3）Sun： Sun Cluster（4）RedHat：RHCS(RedHat Cluster )HA的工作原理：Boot IP ,standby IP ,service IP(服务IP) ,heart beatStandby NetworkService A service Network Service B二、项目规划：1、项目流程：集群项目步骤（重要）（1）Define HA Topology Structure（定义HA TOP结构）P3021)configure HA Cluster name（配置集群名字）2)Add nodes to HA Cluster（加节点）3)configure network types between two nodes（配置网络类型）4)configure Interfaces/devices for network types（配置接口/设备）（2）Define HA resource configure（定义HA资源配置）1)configure 2 Application server (DB start/stop service)（配置2个启停脚本）2)configure 2 service IP Address（配置2个服务IP）(2个VG组免配)3)configure resource Groups & participating nodes（创建资源组和节点配置）4)configure resources in each resource groups （配置每个资源组的资源）2、硬件配置：IBM P640小型机2台，单台配置本地SCSI硬盘2块及双网卡IBM 7133 D40 磁盘阵列一台，配置SSA阵列硬盘8块3、软件配置：AIX 5.3.0.0-0.4操作系统；HACMP 5.3 集群软件；ORACLE 10.2 数据库软件；4、实现目标：1）阵列硬盘分为两组分别实现RAID5,并分别归属于两台小型机作为datavg；2）两台小型机分别运行两个不同的数据库服务，数据存放在datavg上，两机实现双机互备。

Hacmp_网络配置与存储配置

3.1.网络配置群集之间节点通过群集通讯网络进行通讯。

如果一个网络上的一个节点的一块网卡失效，群集会通过该节点的另一块网卡进行通讯。

如果节点连接失败，HACMP会将该节点拥有的资源传送给其他可用节点。

附加的，HACMP（通过RSCT拓扑服务的）在节点之间使用心跳信息来检查群集节点的可用性和群集节点通讯接口的可用性。

如果HACMP检测到一个节点没有心跳，该节点就被认为已经失效，它的资源就会自动传送至其他可用节点。

推荐配置群集节点之间的多条通讯路径，这样能防止群集分割。

在分割的群集中的危险在于，不同分割区的群集节点会不经过协调同时访问一个数据，这会造成数据破坏。

3.1.1.网络类型这里我们讨论下列网络类型：物理的和逻辑的网络一个物理的网络连接两个或更多的物理网络接口。

有很多种物理网络，HACMP将其分为两种：➢基于IP的网络，如以太网、令牌环➢基于设备的网络，如RS-232、SSA标记模式在HACMP中，一组逻辑网络中的接口可以直接和其他网络接口通讯，HACMP给每个逻辑网络一个名称（如net_ether_01）。

HACMP中的一个逻辑网络可以包含一或多个子网，RSCT管理每个逻辑子网中的心跳包。

全局网络多个HACMP网络组成一个全局网络。

HACMP网络是一些不同物理网络和/或逻辑网络的集合，这些网络共享一个冲突域，例如，以太网。

HACMP将这种组合的全局网络视为网络一个网络。

RSCT处理全局网络内部路由。

3.1.2.TCP/IP网络HACMP支持的基于IP的网络有：➢ether（以太网）➢atm（异步传输模式-ATM）➢fddi（光纤分布式数据接口-FDDI）➢hps（SP交换）➢token（令牌环）HACMP通过RSCT拓扑服务监视这些网络。

通过IP别名的心跳在HACMP中，你可以配置通过IP别名控制心跳。

在以前的HACMP版本中心跳只能通过服务/非服务IP地址/标签（基本或引导IP地址/标签）来进行交换。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

HACMP工作原理HACMP的工作原理是利用LAN来监控主机及网络、网卡的状态。

在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。

TCP/IP网络即应用客户端访问的公共网，该网可以是大多数AIX 所支持的网络，如Ethernet，T.R.，FDDI，ATM，SOCC，SLIP，等等。

非TCP/IP网络用来为HACMP 对HA环境（Cluster）中的各节点进行监控而提供的一个替代TCP/IP的通讯路径，它可以是用RS232串口线将各节点连接起来，也可以是将各节点的SCSI卡或SSA卡设置成Target Mode方式。

HACMP将诊测并响应于三种类型的故障：1网卡故障，2网络工作，3节点故障。

下面就这三种故障分别进行介绍。

如下图所示，一旦节点加入了 Cluster(即该节点上的HACMP已正常启动)，该节点的各个网卡、非TCP/IP网络就会不断地接收并送Keep-Alive信号，K-A的参数是可调的，HA在连续发送一定数量个包都丢失后就可确认对方网卡，或网络，或节点发生故障。

因此，有了K-A后，HACMP可以很轻易地发现网卡故障，因为一旦某块网卡发生故障发往该块网卡的K-A就会丢失。

此时node 1上的cluster manager( HACMP的“大脑”)会产生一个swap-adapter的事件，并执行该事件的script(HACMP 中提供了大部分通用环境下的事件scripts,它们是用标准AIX命令和HACMP工具来写的)。

每个节点上都有至少两块网卡，一块是service adapter,提供对外服务，另一块是standby adapter，它的存在只有cluster manager知道，应用和client并不知道。

一旦发生swap-adapter事件后，cluster manager将原来service adapter的 IP地址转移到standby adapter上，而standby 地址转移到故障网卡上，同时网络上其他节点进行ARP的刷新。

网卡互换(swap-adapter)在几秒内就可完成，以太网为3秒，并且这种转换对应用和client来说是透明的，只发生延迟但连接并不中断。

2、网络故障如果发往node1上的service和standby网卡上的K-A包全都丢失，而非TCP/IP网络上的K-A仍然存在，那么HACMP判断node1仍然正常而网络发生故障。

此时HACMP执行一个3 、节点故障如果不仅TCP/IP网络上的K-A全部丢失，而且非TCP/IP网络上的K-A也丢失，那么HACMP 断定该节点发生故障，并产生node-down事件。

此时将有资源接管，即放在共享磁盘陈列上的资源将由备份节点接管，接管包括一系列操作：Acquire disks，Varyon VG, Mount file systems，Export NFS file systems, Assume IP network Address, Restart highly available applications,其中IP地址接管和重新启动应用由HACMP来实现，而其他是由AIX来完成。

当整个节点发生故障时，HACMP将故障节点的service IP address转移到备份节点上，使网络上的client仍然使用这个IP地址，这个过程称为IP地址接管(IPAT)，如图所示。

当一个节点down掉后，如果设置了IP地址接管，网络上的clients会自动连接到接管节点上；同样，如果设置了应用接管，该应用会在接管节点上自动重启，从而使系统能继续对外服务。

对于要实现接管的应用，只需在HACMP中把它们设置成application server,并告诉HACMP启动这个应用的start script的全路径名和停止该应用的stop script的全路径名。

由此可见，应用接管的配置在HACMP中十分简单，重要的是start script和stop script的写作，这需要用户对自己应用的了解。

4、其他故障HACMP只去检测网卡、网络和节点是否发生故障，并作出相应的转移、接管行为。

对于其他故障，那么HACMP缺省不作任何动作。

a.硬盘故障一般我们都将硬盘设置成RAID-5方式或mirror方式，从而提供硬盘的高可用性。

RAID-5将奇偶较验位分散在硬盘组中，因此当一组内的一个硬盘坏掉，组内的其他硬盘可以通过奇偶较验位将该硬盘上的数据恢复出来。

RAID-5方式一般是由硬件实现的，如下7133的SSA适配器,而且如果同一组内的两个硬盘坏掉，该组硬盘的数据很可能就会全部丢失。

mirror方式是将同一个数据写到至少两个物理外置上，因此它的效率没有RAID-5好，而且用盘量大，但安全性比RAID-5高，而且它易于实现，通过AIX中的(Logic Volume Management)可以很方便地设置。

b.硬盘控制卡存储设备连接到主机上都必须通过一块控制卡，SCSI设备是SCSI Adapter, SSA设备是SSA Adapter,如果这块卡坏掉，与之连接的外设就无法利用。

有几种办法可以解决这个问题。

一种办法是用多个adapter。

每个主机上都有两块或两块以上adapter,分别连接mirror的数据，因此无论是硬盘坏掉，还是Adapter坏掉，所有好数据还是可以被主机利用，不会出现单点故障。

这种方法实现起来并不难，但必须配置多块adapter,而且必须采用数据mirror方式。

这种方法也不用通过HACMP来实现。

另一种方法仍只用一块adapter,利用HACMP中的Error Notification Facility( 错误通告机制)来解决。

Error Notification Facility是HACMP提供的对其他设备的监控工具，任何报告给AIX的错误(error)都能被捕获被采取相应措施。

HACMP提供了smit界面，使配置简单化。

我们已知道，用LVM可实现硬盘镜像，当一个盘坏掉，仍有一份数据在镜像盘里，数据仍可进行读写，但此时数据不再有可用性，若镜像盘也坏掉则数据全部丢失。

所以在此例中，PV丢失(LVM_PVMISS)的信息会大幅显示在控制台面上，从而提醒用户去仔细查看error log找出故障并修复它。

同样，此例中HACMP提供了界面，结合AIX的功能，从而监控故障的发生。

c.应用故障如果用户的应用有kernel call调用，或以root身份来启动等，一旦应用发生故障，很容易导致操作系统down掉，发生死机，这时实际上等于节点故障，HACMP会采取相应接管措施。

如果只是应用自身死掉，AIX仍正常运行，HACMP最多利用Error Notification Facility来提供监控功能，对应用本身不采取任何动作。

但如果应用中调用了AIX的SRC (System Resource Controller)机制所提供的API接口，就可以使应用在down掉后自动重新启动。

除了SRC提供API接口外，HACMP中的clinfo也提供这样的API。

clinfo是cluster Information daemon,它负责维护整个cluster的状态的信息，clinfo API 允许应用程序利用这些状态信息来采取相应行动。

d. HACMP故障如果cluster中节点的HACMP进程down掉，HACMP将其升级为节点故障，从而发生资源接管。

如上所述，HACMP只全权负责诊断网卡故障、网络故障和节点故障这三类故障，并负责实现IP地址转换或接管，以及整个系统资源( 硬件、文件、系统、应用程序，等等)的接管。

对于这三类故障外的其他故障，可以结合AIX基本功能和HACMP提供的一些机制，如Error Notification Facility, clinfo API 等，同样可以实现对故障的监控并采取相应措施。

Hacmp（High Availability Cluster Multi-Processing）双机热备份软件的主要功能是提高客户计算机系统及其应用的可靠性，而不是单台主机的可靠性。

一、Hacmp双机系统的工作原理HACMP的工作原理是利用LAN来监控主机及网络、网卡的状态。

在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。

TCP/IP网络即应用客户端访问的公共网，该网可以是大多数AIX所支持的网络，如Ethernet，T.R.，FDDI，ATM，SOCC，SLIP，等等。

1、作为双机系统的两台服务器（主机A和B）同时运行Hacmp软件；2、服务器除正常运行自机的应用外，同时又作为对方的备份主机；3、两台主机系统（A和B）在整个运行过程中，通过“心跳线”相互监测对方的运行情况（包括系统的软硬件运行、网络通讯和应用运行情况等）；4、一旦发现对方主机的运行不正常（出故障）时，故障机上的应用就会立即停止运行，本机（故障机的备份机）就会立即在自己的机器上启动故障机上的应用，把故障机的应用及其资源（包括用到的IP地址和磁盘空间等）接管过来，使故障机上的应用在本机继续运行；5、应用和资源的接管过程由Ha软件自动完成，无需人工干预；6、当两台主机正常工作时，也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行。

HACMP双机系统结构图（点击看大图）二、Hacmp安装配置前需作的准备工作1、划分清楚两台服务器主机各自要运行的应用(如A机运行应用，B机作为standby)；2、给每个应用(组)分配Service_ip、Standby_ip、boot_ip和心跳线tty，如：主机A（运行应用）：Service_ip: 172.16.1.1Standby_ip: 172.16.2.1Boot_ip: 172.16.1.3主机B（standby）：Service_ip: 172.16.1.2Standby_ip: 172.16.2.2Boot_ip: 172.16.1.43、按照各主机的应用的要求，建立好各自的磁盘组，并分配好磁盘空间；4、根据Ha软件的要求，对服务器操作系统的参数作必要的修改。

面就这三种故障分别进行介绍。

1、网卡故障HACMP的群集结构中，除了TCP/IP网络以外，还有一个非TCP/IP网络，它实际上是一根“心跳”线，专门用来诊测是节点死机还是仅仅网络发生故障。

HACMP原理

使用 SSA Target 模式配置 HACMP

打造高可用的Oracle数据库

HACMP______

缓冲溶液的缓冲原理.

HACMP日常操作手册【范本模板】

GPFS文件系统介绍

HACMP原理及应用简介

[整理]HA工作原理

hacmp工作原理及安装

ORACLE数据库HA架构方案

§1 HACMP多机集群结构简介

(财务知识)金蝶财务软件EAS系统网络及硬件部署方案建议

HACMP原理知识点

HACMP

专题资料 双机介绍

安盟动态口令认证系统产品说明书

AIXHACMPoracle双机集群项目

Hacmp_网络配置与存储配置

专题资料双机介绍