HACMP学习之测试和故障排除
HACMP工作原理及运维治理
HACMP 工作原理及运维治理目录1.HACMP双机系统的功能介绍............................................................................错误!未定义书签。
2.HACMP双机系统的工作原理............................................................................错误!未定义书签。
3.HACMP双机系统结构图.....................................................................................错误!未定义书签。
4.HACMP安装配置前需作的准备工作................................................................错误!未定义书签。
5.HACMP的常用命令 ........................................................................................... 错误!未定义书签。
6.HACMP常见故障解决 ....................................................................................... 错误!未定义书签。
1.HACMP双机系统的功能介绍Hacmp(High Availability Cluster Multi-Processing)双机热备份软件的要紧功能是提高客户运算机系统及其应用的靠得住性,而不是单台主机的靠得住性。
2.HACMP双机系统的工作原理1.作为双机系统的两台效劳器(主机A和B)同时运行Hacmp软件2.效劳器除正常运行自机的应用外,同时又作为对方的备份主机3.两台主机系统(A和B)在整个运行进程中,通过“心跳线”彼此监测对方的运行情形(包括系统的软硬件运行、网络通信和应用运行情形等)4.一旦发觉对方主机的运行不正常(出故障)时,故障机上的应用就会当即停止运行,本机(故障机的备份机)就会当即在自己的机械上启动故障机上的应用,把故障机的应用及其资源(包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用在本机继续运行5.应用和资源的接管进程由Ha软件自动完成,无需人工干与6. 当两台主机正常工作时,也能够依照需要将其中一台机上的应用人为切换到另一台机(备份机)上运行3.HACMP双机系统结构图4.HACMP安装配置前需作的预备工作1. 划分清楚两台效劳器主机各自要运行的应用(如A机运行应用,B机作为standby)2. 给每一个应用(组)分派Service_ip、Standby_ip、boot_ip和心跳线tty,3. 依照各主机的应用的要求,成立好各自的磁盘组,并分派好磁盘空间4. 依照Ha软件的要求,对效劳器操作系统的参数作必要的修改5.HACMP的经常使用命令一、查看Cluster的运行情形:# /usr/sbin/cluster/clinfo –a# /usr/sbin/cluster/clstat/usr/sbin/cluster/clstat能够帮忙你查看当前HACMP的节点状态。
HACMP配置与维护手册
POWER HA5.5配置与维护手册2010年9月2日目录第一章一体化系统HACMP配置 (3)§1.1系统结构图 (3)§1.2拓扑规划 (3)§1.3磁盘资源规划 (4)§1.4应用规划 (5)§1.5操作系统要求 (6)第二章HACMP日常维护 (8)§2.1HACMP服务正常启停 (8)§2.1.1HACMP启动 (8)§2.1.2停止HA (9)§2.2查看HACMP集群服务状态 (10)§2.2.1查看HACMP服务状态 (10)§2.2.2查看资源组的状态 (10)§2.2.3查看HACMP集群状态 (11)第三章系统切换方案 (12)§3.1rlw1机器应用出现故障,HACMP资源切换 (12)§3.1.1切换rlw1_apprg资源组 (12)§3.1.2恢复rlw1_apprg资源组 (13)§3.2hg2机器应用出现故障,HACMP资源切换 (15)§3.2.1切换rlw2_orarg资源组 (15)§3.2.2恢复rlw2_orarg资源组 (17)第四章HACMP切换测试 (19)§4.1网卡故障模拟测试 (19)§4.2rlw1 系统单机故障模拟测试 (20)§4.3rlw2 系统单机故障模拟测试 (22)§4.4rlw1系统HA 手工切换测试 (24)§4.5rlw2系统HA 手工切换测试 (26)第一章一体化系统HACMP 配置§1.1 系统结构图§1.2 拓扑规划P780(1)主机(LPAR rlw1)共享磁盘阵列(HDS USPV 存储系统)心跳线(tty0)ent2ent0 P780(2) 主机(LPAR rlw2)ent2ent0Service NetworkPersistent Networkrlw1机器boot1地址配置在第一块外置网卡上(en0),将boot2地址配置在第二块外置网卡(en2),persistent ip地址绑在第二块外置网卡上(en2);rlw2机器boot1地址配置在第一块外置网卡上(en0),将boo2地址配置在第二块外置网卡(en2),persistent ip地址绑在第二块外置网卡上(en2)。
HACMP故障
HACMP工作原理HACMP的工作原理是利用LAN来监控主机及网络、网卡的状态。
在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。
TCP/IP网络即应用客户端访问的公共网,该网可以是大多数AIX 所支持的网络,如Ethernet,T.R.,FDDI,ATM,SOCC,SLIP,等等。
非TCP/IP网络用来为HACMP 对HA环境(Cluster)中的各节点进行监控而提供的一个替代TCP/IP的通讯路径,它可以是用RS232串口线将各节点连接起来,也可以是将各节点的SCSI卡或SSA卡设置成Target Mode方式。
HACMP将诊测并响应于三种类型的故障:1网卡故障,2网络工作,3节点故障。
下面就这三种故障分别进行介绍。
1、网卡故障前面讲到,HACMP的群集结构中,除了TCP/IP网络以外,还有一个非TCP/IP网络,它实际上是一根“心跳”线,专门用来诊测是节点死机还是仅仅网络发生故障。
如下图所示,一旦节点加入了C luster(即该节点上的HACMP已正常启动),该节点的各个网卡、非TCP/IP 网络就会不断地接收并送Keep-Alive信号,K-A的参数是可调的,HA在连续发送一定数量个包都丢失后就可确认对方网卡,或网络,或节点发生故障。
因此,有了K-A后,HACMP可以很轻易地发现网卡故障,因为一旦某块网卡发生故障发往该块网卡的K-A就会丢失。
此时node 1上的cluster manager( HACMP的“大脑”)会产生一个swap-adapter的事件,并执行该事件的script(HACMP中提供了大部分通用环境下的事件scripts,它们是用标准AIX命令和HACMP工具来写的)。
每个节点上都有至少两块网卡,一块是service adapter,提供对外服务,另一块是standby adapter,它的存在只有cluster manager知道,应用和client并不知道。
软件测试中的异常处理与故障排查
软件测试中的异常处理与故障排查随着软件的广泛应用和复杂性的增加,软件测试在保证软件质量方面扮演着重要的角色。
然而,在测试过程中常常会遇到各种异常情况和故障,如何有效地处理异常并进行故障排查成为了测试人员必备的技能。
本文将探讨软件测试中的异常处理与故障排查的重要性以及相关的方法与技巧。
一、异常处理的重要性异常处理是软件测试过程中不可或缺的一环。
当软件在测试过程中出现异常行为或产生错误时,及时处理异常并找到异常的原因是保证软件质量和确保测试结果准确性的关键。
同时,异常处理还能帮助发现潜在的软件缺陷和漏洞,为软件的改进和优化提供有力的依据。
合理的异常处理可以帮助测试人员更好地理解软件系统的运行机制,根据异常信息进行相关的分析和判断。
通过仔细研究异常情况,测试人员可以更加准确地定位问题,从而提高故障排查的效率。
二、异常处理的常见方法与技巧1. 异常分类与记录在软件测试过程中,异常可以分为预期异常和非预期异常。
预期异常是已知的,可以通过设定特定的测试场景和输入数据来验证软件的异常处理能力。
比如,输入非法字符时的异常处理、网络连接中断时的异常处理等。
而非预期异常是未知的,需要测试人员通过不断尝试和观察来发现和处理。
测试人员在处理异常时需要及时记录异常出现的时间、现象以及相关的环境信息等。
这样有助于以后的故障排查并提供参考。
2. 异常处理流程与规范在处理异常时,测试人员需要按照一定的流程和规范进行操作。
一般来说,异常处理的流程包括异常捕获、异常分析和异常处理。
首先,测试人员需要捕获异常的相关信息,如异常代码、异常堆栈轨迹等。
接下来,通过对异常信息的分析和研究,找出异常的原因和可能影响的范围。
最后,根据异常的具体情况,进行相应的异常处理,如给出错误提示、修复代码等。
在处理异常时,测试人员应遵循一定的规范,如编写清晰的异常处理文档、遵循异常处理代码的编写规则等。
这样可以提高异常处理的效率和一致性。
3. 异常模拟与测试用例设计为了更好地进行异常处理测试,测试人员可以通过模拟异常场景和异常数据来验证软件的异常处理能力。
测试人员的故障排除与问题解决技巧
测试人员的故障排除与问题解决技巧在软件开发和系统部署的过程中,测试人员起着至关重要的作用。
他们负责发现和解决各种问题,以确保软件和系统的稳定性和可靠性。
然而,故障排除和问题解决并不总是一帆风顺的过程。
本文将介绍一些测试人员常用的故障排除和问题解决技巧,以帮助他们更好地应对挑战。
一、收集信息和分析在遇到故障或问题时,第一步是收集尽可能多的信息。
这包括错误消息、日志文件、截图以及其他有关故障现象的详细描述。
这些信息可以帮助测试人员了解故障的背景和特点,为后续的排查工作提供依据。
接下来,测试人员需要对收集到的信息进行分析。
他们可以比对之前成功的运行日志或记录,查找是否有类似的故障出现过。
通过对信息的分析,测试人员可以初步确定故障的可能原因,从而确定下一步的解决方向。
二、逐步缩小范围当测试人员面对一个复杂的问题或故障时,他们需要逐步缩小范围来定位问题的具体原因。
这可以通过以下几种方式实现:1. 分而治之法:将整个系统或软件拆分为多个子系统或模块,逐一进行测试和排查。
这样可以快速定位到故障产生的子系统或模块,从而减少排查范围。
2. 逆向联想法:通过查看错误信息或日志,回溯到故障发生之前的步骤或操作。
测试人员可以尝试重现故障,找出导致故障发生的具体操作或条件。
3. 数据驱动分析法:通过分析输入和输出数据,找出异常或错误的数据。
这有助于测试人员更快地定位到引起故障的具体数据和操作。
通过上述方法逐步缩小范围,测试人员可以更精确地定位到问题的根本原因,为后续的解决方案提供指导。
三、查阅文档和资源解决复杂故障或问题时,测试人员应该善于利用各种资源和文档。
这包括技术手册、在线帮助文档、论坛和社区等。
通过查阅相关资源,测试人员可以获得更多的解决思路和方法,了解其他人在类似情况下的解决方案。
这些经验和知识可以为测试人员提供宝贵的参考和启发。
四、与开发人员和其他团队沟通合作在解决故障和问题的过程中,测试人员应与开发人员和其他相关团队保持紧密的沟通和合作。
HACMP______
一、功能原理1.HACMP的概念HACMP(High Availability Cluster Multi-Processing)是IBM基于Unix平台开发的一套高可用性集群软件,这个软件是为了确保关键资源或应用可以获得处理。
在hacmp集群环境中,应用必须在hacmp的管理之下,这样才可以确保应用的高可用性,当集群中的一个节点或组件出现问题,集群会将这个节点或组件所需的资源转移至其他节点上。
建立集群的目的✓减少计划或非计划的宕机时间✓避免单点故障✓快速故障恢复,但不能实现容错2.节点,网络,心跳2.1节点节点是安装并运行AIX操作系统和hacmp软件的一台独立系统,节点之间可以共享一系列资源:磁盘,卷组,文件系统,网络,网络IP地址和应用程序。
2.2网络集群各个节点之间通过网络进行相互通讯,当一个节点的某个网卡出现故障后,网络连接会自动切换到这个节点的其他网卡上,如果这个节点的所有网络连接都不可用的时候,集群会把应用极其所使用资源切换到其他节点上,并进行IP 地址接管操作IPAT(IP Address Takeover)。
集群的网络IP接管方式有2种:IP别名和IP替换IP别名:当集群把资源组以及IP地址从主节点切换目标节点时,在目标节点上并不会用主节点的服务地址去替代目标节点的网卡地址,而是在目标节点的网卡上建立IP别名(IP Alias),这样允许一个网卡绑定多个服务地址,因此同一节点可以装载更多的资源组。
IP替换:当集群把资源组以及IP地址从主节点切换目标节点时,目标节点的初始化启动IP将被主节点的服务IP所替换,这样只有使用同一服务地址的资源组可以装载到目标节点。
如果使用IP替换的接管方式还可以配置网络硬件地址HWAT(Hardware Address Takeover)即MAC地址切换,以确保ARP cache对网络地址的影响。
注:在HACMP4.5版本以前网络接管方式只能配置为IP替换方式。
Hacmp_介绍
第一章介绍本章内容包括对IBM针对AIX产品线的高可用性集群多处理系统的介绍以及IBM高可用产品的概念本章将讨论以下主题:●什么是HACMP?●历史与发展●高可用性的概念●高可用性Vs容错1.1.什么是HACMP?在我们解释什么是HACMP以前,我们先来定义一下高可用性的概念。
High availability在当今复杂的环境下,成功实现IT应用的一个关键要素就是提供不间断的应用服务。
HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件,它能达到消除从硬件到软件的单点故障(SPOFs)。
一个高可用性解决方案可以保证方案中任何组件的失效(包括硬件、软件或系统管理)都不会造成客户无法访问应用和应用数据。
高可用性解决方案可以通过恰当的设计、计划、硬件选择、软件配置以及细心控制改变管理方法来消除单点故障。
Downtime停机时间是指应用程序不能为客户端提供服务的时间。
停机时间分为:➢计划内:-硬件升级-维修-软件更新/升级-备份(离线备份)-测试(对群集确认必须进行周期性测试)-发展➢计划外:-管理员过失-应用失效-硬件失效-其他不可抗力(天灾)IBM针对AIX的高可用性解决方案——HACMP给予饱经考验的IBM群集技术,它包括以下两个组件:➢高可用性:该进程保证应用在用户复制和/或共享资源时是可用的。
➢群集多处理:该进程提供在同一节点上多个应用共享或并发访问数据。
基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。
在恰当的应用中,HACMP还可以在并行应用处理中提供对数据的并发访问,从而提供更高的可扩展性。
标准的HACMP环境如图1-1。
1.1.1.历史与发展IBMHACMP最早可追溯至90年代。
HACMP在1990年开始为RS/6000机器上的应用提供高可用性解决方案。
我们不会提供关于更早版本的信息,原因在于这些版本要么已经不被支持或者已经不再使用,我们只提供近期一些版本的相关信息。
HACMP全攻略之概念篇
一些容易混淆或常被问及的问题:hacmp不是错误避免,只能减少宕机时间,不可能避免。
不是有了HA就OK的,它需要包括各种软硬件、仔细的设计规划及管理等,ha软件只是其中一部分。
hacmp是通过减少单点故障来减少宕机时间的。
hacmp的plan非常重要,要仔细考虑。
hacmp既可以减少计划外的宕机时间,也可以减少计划内的宕机时间。
90%的宕机时间是计划内的,减少计划内的宕机时间只能靠管理员不断提高自己的水平来解决了。
hacmp是无法解决所有问题的,ha解决不了诸如硬盘、硬盘适配器、硬盘总线的损坏,当然也解决不了ha自身的问题。
这些问题应该在操作系统层面上解决。
可以通过自定义的事件来实现大多数个性化的需求。
hacmp心跳信号用的是snmp协议,同时在TCP/IP和非TCP/IP网络上跑,非TCP/IP包括RS232/RS422、SSA、SCSI等。
所以心跳线不只是使用串口线。
没有配非TCP/IP网络的,即没有心跳线的HA是可以跑的。
前面已经说了心跳信号在TCP/IP 网络上也在跑。
但是,没有非TCP/IP网络的HA是无法区分TCP/IP失败还是节点失败,这样的话网络的失败会造成孤立的节点,备用会对资源进行错误的接管。
hacmp es最多可支持128个节点,但实际很少会见到超过3个节点的Cluster。
任何时候都不要kill ha进程。
即使用了ha,备份依旧是不可缺少的。
基本概念拓扑:一个逻辑概念,包括节点、网络、网卡以及之间的关系。
资源:ip地址、文件系统、卷组、应用等。
资源组:一组资源,包含在接管中所要用的所有资源。
一个节点可以有多个资源组。
应用服务器:启动/停止应用的脚本。
同步:在所有节点中更新配置,ha 4.x拓扑和资源是分开同步的,5以后就只要同步一次就可以了。
事件:状态的改变。
可以通过自定义事件来实现个性化的要求。
进程:核心进程包括clstrmgr和clsmuxpd。
此外还有,clinfo-提供显示群集的状态,cllockd-提供并发控制,在concurrent模式下使用。
学习有效的代码调试与错误排查方法
学习有效的代码调试与错误排查方法代码调试与错误排查是每位程序员必须掌握的重要技能,它能帮助我们快速定位和解决代码中的问题,提高代码质量和效率。
在日常的开发过程中,我们经常会遇到各种bug和错误,下面就来介绍一些有效的代码调试与错误排查方法。
一、使用调试工具1. IDE调试器:几乎所有的集成开发环境(IDE)都配备了调试器工具,比如Visual Studio、Eclipse等。
通过设置断点、单步执行等功能可以逐步调试代码,查看变量值、函数调用栈等信息,帮助我们快速定位问题所在。
2.浏览器开发者工具:在前端开发中,我们可以使用浏览器的开发者工具(如Chrome Developer Tools)来调试JavaScript代码,查看网络请求、DOM结构、样式等,帮助我们分析问题并进行排查。
3.日志输出:在代码中适当添加日志输出语句,可以帮助我们跟踪代码执行流程,定位问题所在。
可以使用printf、console.log等方法输出日志信息。
二、排查常见问题1.语法错误:代码中最常见的错误之一是语法错误,比如拼写错误、缺少括号等。
这时需要仔细检查代码,使用IDE的语法检查功能可以帮助我们找出这类问题。
2.逻辑错误:逻辑错误可能会导致程序运行时出现逻辑混乱、逻辑错误等问题。
这时需要通过思考、排查等方法找出问题所在,并进行相应的修正。
3.异常处理:代码中存在异常时,需要及时处理。
可以使用try-catch语句捕获异常,并进行相应的处理,避免程序崩溃或出现未知错误。
4.程序性能问题:程序运行缓慢可能是由于性能问题导致的。
可以使用性能分析工具(如profiler)来分析程序性能,找出性能瓶颈并进行优化。
三、调试技巧1.缩小范围:如果遇到问题无法定位,可以通过缩小范围的方法来逐步定位问题。
可以注释部分代码或引入问题,以确定问题所在。
2.重现问题:在排查问题时,先确认问题能否重现。
如果问题能够重现,则可以更容易地定位和解决问题。
测试过程中遇到的问题和解决方案
测试过程中遇到的问题和解决方案
在测试过程中可能会遇到一些问题,常见的问题及其解决方案如下:
1. 无法复现问题:有时候测试人员可能无法复现报告的问题。
解决方案可以是重新执行测试用例,确保正确的输入和操作步骤,或者尝试在不同的环境中进行测试。
2. 难以重现问题:有时候测试人员可能无法重现用户报告的问题。
解决方案可以是更仔细地跟踪并记录测试过程中的每个步骤,或者尝试与用户进一步沟通以获取更多的细节。
3. 兼容性问题:在不同的设备、操作系统或浏览器上进行测试时,可能会出现兼容性问题。
解决方案是在尽可能多的环境中进行测试,并确保软件适配各种不同的配置。
4. 性能问题:软件可能会在某些场景下出现性能问题,如响应时间慢或高负载下崩溃。
解决方法可以是使用性能测试工具对软件进行性能测试,并进行优化或调整软件的配置。
5. 安全问题:软件可能会存在安全漏洞,如数据泄露或未经授权的访问。
解决方法可以是进行安全性测试,并修复所有发现的漏洞或脆弱性。
6. UI问题:用户界面可能会出现设计问题或不一致的问题。
解决方法可以是进行用户界面测试,并与设计团队合作解决问题。
7. 文档问题:软件的用户文档或技术文档可能不完整或不准确。
解决方案是进行文档测试,并向开发团队提供反馈以修复或改进文档。
总体来说,要解决测试过程中的问题,测试人员需要仔细分析问题,并与开发人员、设计人员和相关团队紧密合作,以找到合适的解决方案。
HACMP日常操作手册【范本模板】
HACMP操作手册强制方式停掉HACMP:HACMP 的停止分为3 种,graceful(正常),takeover(手工切换),force(强制)。
下面的维护工作,很多时候需要强制停掉HACMP 来进行,此时资源组不会释放,这样做的好处是,由于IP 地址、文件系统等等没有任何影响,只是停掉HACMP 本身,所以应用服务可以继续提供,实现了在线检查和变更HACMP 的目的。
一般所有节点都要进行这样操作。
强制停掉后的HACMP 启动:在修改HACMP 的配置后,大多数情况下需要重新申请资源启动,这样才能使HACMP 的配置重新生效.日常检查及处理为了更好地维护HACMP,平时的检查和处理是必不可少的.下面提供的检查和处理方法除非特别说明,均是不用停机,而只需停止应用即可进行,不影响用户使用。
不过具体实施前需要仔细检查状态,再予以实施。
clverify 检查这个检查可以对包括LVM 的绝大多数HACMP 的配置同步状态,是HACMP 检查是否同步的主要方式。
smitty clverify—〉Verify HACMP Configuration回车即可经过检查,结果应是OK。
如果发现不一致,需要区别对待。
对于非LVM 的报错,大多数情况下不用停止应用,可以用以下步骤解决:1.先利用强制方式停止HACMP 服务。
同样停止host2 的HACMP 服务.1.只检查出的问题进行修正和同步:smitty hacmp —〉Extended Configuration—>Extended Verification and Synchronization这时由于已停止HACMP 服务,可以包括"自动修正和强制同步“。
对于LVM 的报错,一般是由于未使用HACMP 的C-SPOC 功能,单边修改文件系统、lv、VG 造成的,会造成VG 的timestamp 不一致.这种情况即使手工在另一边修正(通常由于应用在使用,也不能这样做),如何选取自动修正的同步,也仍然会报failed。
HACMP工作原理介绍
HACMP工作原理介绍HACMP(High Availability Cluster Multiprocessing)是一种高可用性的集群解决方案,旨在提供在系统或硬件失败发生时,保证应用程序持续可用的能力。
它通过在多个计算节点上部署应用程序和数据,并实时监控系统健康状况,来实现高可用性。
1.集群:HACMP通过将多个计算节点连接在一起形成一个集群。
每个节点都是一台具备计算和存储能力的服务器,运行着相同的操作系统和应用程序。
集群中的节点通过专用网络互相通信,实现对整个集群的协调和控制。
2.资源:在HACMP中,应用程序和其相关的数据被称为资源。
资源可以是单个的进程、服务、文件系统等。
HACMP对资源的管理包括资源的分配、启动、停止和迁移等操作。
3.心跳检测:为了实时监控系统的健康状况,HACMP引入了心跳检测机制。
每个节点通过定期发送心跳信号来表示自己的正常运行,其他节点接收到心跳信号后确认,如果长时间未收到心跳信号则判断该节点可能出现故障。
4.预定义和自动化的故障切换:当一些节点出现故障时,HACMP会自动将该节点上的资源切换到其他节点上,以保证应用程序的持续可用性。
切换的过程中,HACMP会确保数据的一致性,并在尽可能短的时间内完成切换操作。
如果故障节点恢复正常,HACMP会自动将资源切换回原节点。
5.监控和故障恢复:HACMP提供了一套完善的监控和故障恢复机制。
它实时监控系统中的节点状态、资源状态和网络连接等信息,并根据预定义的策略执行相应的故障恢复动作。
当故障发生时,HACMP会立即做出响应,启动资源切换和恢复节点操作。
通过上述工作原理,HACMP能够实现高可用性的应用程序部署和运行。
它具有以下优点:1.高可用性:HACMP提供实时监控和故障恢复机制,能够及时检测和处理系统和软件故障,保证应用程序持续可用。
2.负载均衡:HACMP能够根据系统负载情况,将资源合理地分配到不同的节点上,实现负载均衡和性能优化。
HACMP测试和故障排除
HACMP学习之测试和故障排除HACMP的测试:1、网卡故障:网络接口故障:用命令:# ps –ef | grep cluster,确认所有节点上的HACMP已启动。
用命令:# errclear 0,清空系统错误日志。
用命令:# tail –f /tmp/hacmp.out,监控HACMP的运行状态。
用命令:# ifconfig en0 down,宕掉Service网卡。
用命令:# netstat –in,查看Standby网卡是否接管了宕掉的Service网卡的IP地址和MAC地址。
用命令:# ifconfig en1 down,宕掉接管了Service网卡IP地址和MAC地址后的Standby网卡。
用命令:# netstat –in,查看Service网卡是否将IP地址和MAC地址接管回来。
网卡连接电缆故障:用命令:# ps –ef | grep cluster,确认所有节点上的HACMP已启动。
用命令:# errclear 0,清空系统错误日志。
用命令:# tail –f /tmp/hacmp.out,监控HACMP的运行状态。
断开与Service网卡连接的网线。
用命令:# netstat –in,查看Standby网卡是否接管了Service网卡的IP地址和MAC地址。
重新连接上与原Service网卡连接的网线。
用命令:# netstat –in,查看此时原Service网卡的IP地址和MAC地址是否为原Standby网卡的IP地址和S ervice地址。
断开与原Standby网卡连接的网线。
用命令:# netstat –in,查看Service网卡的IP地址和MAC地址是否恢复为原来的Service网卡的IP地址和MAC地址。
重新连接上与Standby网卡连接的网线。
用命令:# netstat –in,查看Standby网卡的IP地址和MAC地址是否恢复为原来的Standby网卡的IP地址和MAC地址。
HACMP总结
定义应用服务器
定义资源组
HACMP 5.X:
新特点:
所有版本合并(all in one)
简化了HACMP Cluster的配置与管理
通过磁盘传输心跳信号(Heartbeat over Disk)
IPAT通过Alias实现(IPAT via Alias)(缺省方式,另有replacement方式)
4.X
HACMP:High Availability Cluster Multi-Processing (not tolerance)
资源:
磁盘、卷组、文件系统
NFS 输出的文件系统
IP 地址
应用程序
HACMP 群集的硬件由以下硬件组成:
节点
共享磁盘设备
网络和网卡
客户机
#varyonvg -f vg_name
HACMP规划:
Cluster规划
Node规划
Recourse规划
IP网络及地址(Service IP、Non-Service IP、Persistent IP)
Heartbeat网络(IP、串口、共享硬盘)
Volume Group and File System
SRC(System Resource Controller)
IPAT(IP takeover):一个节点接替另一个节点的VIP
资源组:HACMP把相关资源分配到不同的资源组中,便于管理。共有三种类型的资源组,分别是Cascading 资源组、Rotating 资源组和Concurrent 资源组
3、“硬件地址切换”功能。硬件地址切换是将一个假的硬件地址与IP 地址一起移动,防止客户机上拥有错误的ARP 表
Hacmp_IP网络测试
4.7.IP网络测试在测试IP失效时的群集行为以前,你必须保证群集网络设置为:➢如果使用VLAN,确保所有的物理接口连接在相同的VLAN中➢如果群集使用MAC地址接管,确保交换机端口没有和MAC地址绑定➢如果可能的话,指定接口速度值并设为双工通讯。
确保接口速度设置和交换机端口速度匹配。
确保在切换时你有相同的设置➢校验网络环境的ARP相关设置。
代理ARP路由器对群集接管有干扰。
校验网络支持无代价ARP和UDP广播。
➢你不可避免要使用3层设备(路由器、3层交换机、防火墙等等)来连接群集节点,虽然这些设备会阻塞UDP广播和群集节点间通讯时使用的信息。
➢校验任何网络接口的失效都不会造成群集分割4.7.1.通讯适配器失效我们添加一些步骤来模拟节点(包含有不确定数目的接口)的一个网络接口失效:1.拔除适配器上的线缆2.如果该适配器有服务IP地址配置:-校验在/tmp/hacmp.out中有“swap_adapter”事件发生-使用命令netstat -in校验服务IP地址已经被删除•如果使用通过别名的IPAT,服务IP地址应被作为一个可用引导接口的别名•如果使用通过替换的IPAT,在一个可用的备用接口上的服务IP 地址应该被删除-如果有的话,校验永久性IP地址已经移动到其他可用接口-将线缆插入适配器•如果使用通过别名的IPAT,引导IP地址应该变为可用如果使用通过替换的IPAT,备用IP地址应该变为可用3.如果适配器没有配置服务IP,它的IP地址会从群集中删除。
配置在该接口的永久性IP地址应该别名其他可用的接口4.每次一个,在其他所有接口上执行拔掉、插上线缆的动作4.7.2.网络失效要避免单点故障,群集到外部环境的连接应该使用多于一个的交换机以确保客户可以连接到群集。
你可以通过对交换机断电测试你的群集对交换机失效是弹性适应的;通过使用命令netstat -in校验群集IP服务地址会被迁移(不管是通过别名还是通过替换)到仍然连接到交换机的接口上。
HACMP原理及应用简介
Components of a HACMP Cluster
•Node •Shared external disks devices •Networks
– Public network, Private network, Serial network – Ethernet, Token-Ring, FDDI,ATM •Network Adapters – Service network adapter, standby network adapter •Clients
现在有些厂家对于其他的部件,也可以采用热插 拔技术。如控制卡、电源等。
集群技术
集群(Cluster)技术是利用HA(High Availability)双 机热备份软件,通过避免系统的单点故障,来提高客户计 算机系统及其应用的可靠性。 集群技术已用于多种平台:
•UNIX •Open VMS •Novell •Windows NT
灾难恢复技术
必要性 • 数据的高度集中; • 自然灾害,如水灾、火灾、地震等; • 其他来自计算机系统以外的问题,如电力系统故障;
灾难恢复技术的两大技术要素: •瞬时复制技术 •连续和周期性更新
灾难恢复技术和集群技术的比较
适用范围 负载分担
数 据 的 安 代价
全性
灾难恢复 不 容 许 中 备份中心只是主 high
优点: • 减少管理开销; • 减少节点状态不一致性的可能性; • 高效管理逻辑卷和控制集群服务。
单点故障
消除的潜在的单点故障包括: • Nodes • Applications • Networks and network adapters • Disks and disk adapters
HACMP 用以下的方式来处理节点的失败: • Disk takeover • IP address takeover (with or without hardware address swapping)
hacmp工作原理及安装
11
IBM HACMP双机系统的安装及配置(续)
五、具体配置
注:HACMP的配置(或修改配置)只需要在其中的一台主机上进行,当配置
(或修改)完毕后使用同步命令将配置结果传到另外一台主机上。一般选S85_1 在进行配置
#smitty tty TTY TTY type TTY interface Description Status Location
Parent adapter
tty0 tty rs232 Asynchronous Terminal
Available 20-70-01-00
sa2
10
IBM HACMP双机系统的安装及配置(续)
逻辑地看成一块大硬盘 物理分区(PP):卷组中物理卷划分成固定大小
的块(缺省为4MB) 逻辑卷(LV):逻辑卷是位于物理分区上的信息
集合 逻辑分区(LP):逻辑卷由一定数量的逻辑分区
组成
22
IBM磁盘阵列及文件系统的管理(续)
二、常用命令
lsvg rootvg 看内置硬盘属性
lsdev -Cc disk 看所有硬盘
(1) Cascading (2) Concurrent (3) Rotating
16
IBM HACMP双机系统的安装及配置(续)
3、配置Cluster Resources
3.1 定义一个资源组(Define Resource Groups)
注意,在定义资源组的时候,要注意Participating Node Names的先后顺序
软件测试中的错误排查与解决技巧
软件测试中的错误排查与解决技巧在软件开发过程中,软件测试是一个必不可少的环节。
通过测试,我们可以发现软件中的错误并排查解决,从而提高软件的质量和可靠性。
在软件测试中,错误排查与解决是非常重要的技巧之一。
本文将介绍一些在软件测试中常用的错误排查与解决技巧,帮助测试人员更好地完成任务。
对于错误排查,日志记录是一个非常重要的工具。
在测试过程中,我们可以使用日志记录软件来记录软件运行过程中的详细信息,包括错误信息、警告信息等。
当出现错误时,我们可以通过查看日志记录来定位问题所在。
同时,日志记录还可以帮助团队成员更好地了解软件的问题,并共同解决。
调试工具是软件测试中的重要辅助手段。
调试工具可以帮助我们在软件运行过程中,对程序进行单步调试,观察变量的值和代码执行的过程,从而找出错误的具体原因。
常用的调试工具有断点调试工具和内存调试工具。
断点调试工具可在特定代码行设置断点,程序运行到该行时会自动暂停,我们可以逐步执行代码,观察变量的值来定位错误。
内存调试工具则可以帮助我们检查内存中的错误,如访问无效内存地址等。
使用调试工具可以大大提高错误追踪与修复的效率。
单元测试也是一个非常重要的错误排查与解决技巧。
单元测试是对软件中最小的可测试单元进行测试,通常为函数或方法。
通过编写、运行和分析单元测试用例,我们可以验证代码的行为是否符合预期,并发现潜在的错误。
在编写单元测试时,我们应该尽量覆盖不同的输入情况和边界条件,以找出可能存在的问题。
当单元测试发现错误时,我们可以通过分析错误信息和代码,定位错误的具体原因,并进行修复。
错误排查与解决技巧中还有一些常见的方法和技巧。
比如,使用断言断言是一种常用的技巧,它可以帮助我们在运行时检查条件是否满足预期,如果不满足,则会抛出异常或错误消息,从而帮助我们快速发现和解决问题。
异常捕获是另一种常用的技巧,它可以在程序运行过程中捕获异常并进行处理,避免程序崩溃或发生不可预料的错误。
同时,还可以通过日常代码审查、团队讨论、版本管理等方式,促进错误排查与解决的效率和质量。
HACMP概念详解
本章将介绍以下 HACMP 集群主题:∙节点规模调整注意事项∙集群硬件规划∙软件规划∙存储规划∙灾难恢复规划注意:规划是成功的实现的一半,但是就 HACMP 而言,如何强调正确规划的重要性都不为过。
如果规划不当,您可能会在以后某个时候发现自己陷入种种限制之中,而要摆脱这些限制可能是非常痛苦的经历。
因此,请保持镇定从容,并使用产品附带的规划工作表;这些工作表对于任何迁移或问题确定情形或者对于规划的文档记录都是非常有价值的。
规划注意事项在规划高可用性集群时,您应该考虑节点、存储、网络等方面的规模调整,以便即使是在接管情况下,也能够提供应用程序正确运行所必需的资源。
规模调整:选择集群中的节点在开始集群的实现之前,您应该了解需要多少个节点,以及应该使用什么节点类型。
就应用程序所需要的资源而言,将要使用的节点类型是非常重要的。
节点的规模调整应该涵盖以下方面:∙CPU(CPU 的数量和速度)∙每个节点中的随机访问存储器 (RAM) 容量∙磁盘存储(内部)∙每个节点中的通信和磁盘适配器数量∙节点可靠性集群中的节点数量取决于要实现高可用性的应用程序的数量,同时还取决于所需的可用性程度。
在集群中为每个应用程序准备多个备用节点可以提高应用程序的总体可用性。
注意:HACMP V5.1 集群中的最大节点数量是 32。
HACMP V5.1 支持各种各样的节点,涵盖从桌面系统到高端服务器的范围。
SP 节点和逻辑分区(Logical Partition,LPAR)也受支持。
有关进一步的信息,请参阅红皮书《HACMP for AIX 5L V5.1 Planning and Installation Guide》(SC23-4861-02)。
集群资源的共享基于应用程序的需求。
有些节点执行的任务与要实现高可用性的应用程序并不直接相关,并且不需要与应用程序节点共享资源,应该将此类节点配置在单独的集群中以简化实现和管理。
所有的节点都应该提供足够的资源(CPU、内存和适配器),以维持所有指定的应用程序在故障转移(接管故障节点中的资源)情况下的执行。
浅谈HACMP for AIX系统的测试及应用
将 主 机 开 启 执 行 s tcs r 后 , 源 将 重 新 恢 复 到主 节 点 。 mi l t 资 t a 测试 完成 后 在 / s/ s si/ ls r 运 行 cs t 令 查 看 网卡 ur e/ bn cut 下 e l 命 a t 1 态 、网 卡 2状 态 、 节点 运 行 状 态 、心 跳 线 运行 状 态 、服 务信 状
三,H C 资源接管 A MP
1模 拟 主 备 机 资 源 接 管 测试 方 法 : . () 机 上 运 行 :s ty cso + 关 闭方 式 选 tk o e 。 1主 mi l p- t t a ev r
() 2主机上运行h l q即时关机( at 最佳方法) 。
() 3同时拔去主机所有网线和心跳 线。
在今 天 竞 争 激 烈 的 全球 市 场 中 , 从金 融 、 信 、 疗 到 零售 、 电 医 运输 、 制造 的各 个 企 业 都 必 须保 证 关 键 性 业 务 的 信 息和 数 据 的 可 用 性 ,因此 ,要保 证 业 务 的 连 续性 , 必 须 尽 可 能 减 少会 导 致 信 就 息 和 应用 不 可 用 的 系统 宕机 时 间 ,从 而 减 小 对 用 户服 务 的 影 响 。 I M 公 司 的 HAC o X软 件 是 基 于 AI 平 台 的 ,在 B MP frAI X
sd y tb s b t y d SC V
监测对方的运 行情况 ( 包括系统的软硬件运行 、 网络通讯和应用
运 行 情 况 等 ) 。 l Ol 机 系 统 结 构 图  ̄ P双
要 使 网 卡恢 复 最 初 的 对 应 I P,可 以运 行
Sm it tY
h c ,选定 S se Ma a e n C S OC ,选定 HAC amp y tm n g me t( - P ) MP
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
内容:HACMP学习之测试和故障排除HACMP的测试:1、网卡故障:网络接口故障:用命令:# ps –ef | grep cluster,确认所有节点上的HACMP已启动。
用命令:# errclear 0,清空系统错误日志。
用命令:# tail –f /tmp/hacmp.out,监控HACMP的运行状态。
用命令:# ifconfig en0 down,宕掉Service网卡。
用命令:# netstat –in,查看Standby网卡是否接管了宕掉的Service网卡的IP地址和MAC地址。
用命令:# ifconfig en1 down,宕掉接管了Service网卡IP地址和MAC地址后的Standby网卡。
用命令:# netstat –in,查看Service网卡是否将IP地址和MAC地址接管回来。
网卡连接电缆故障:用命令:# ps –ef | grep cluster,确认所有节点上的HACMP已启动。
用命令:# errclear 0,清空系统错误日志。
用命令:# tail –f /tmp/hacmp.out,监控HACMP的运行状态。
断开与Service网卡连接的网线。
用命令:# netstat –in,查看Standby网卡是否接管了Service网卡的IP地址和MAC地址。
重新连接上与原Service网卡连接的网线。
用命令:# netstat –in,查看此时原Service网卡的IP地址和MAC地址是否为原Standby网卡的IP地址和Service地址。
断开与原Standby网卡连接的网线。
用命令:# netstat –in,查看Service网卡的IP地址和MAC地址是否恢复为原来的Service网卡的IP 地址和MAC地址。
重新连接上与Standby网卡连接的网线。
用命令:# netstat –in,查看Standby网卡的IP地址和MAC地址是否恢复为原来的Standby网卡的IP 地址和MAC地址。
节点故障:模拟操作系统崩溃:用命令:# ps –ef | grep cluster,确认所有节点上的HACMP已启动。
用命令:# errclear 0,清空系统错误日志。
用命令:# tail –f /tmp/hacmp.out,监控HACMP的运行状态。
用命令:# cat /etc/hosts > /dev/kmem,模拟操作系统崩溃状态。
用命令:# netstat –in、# lsvg –o、# ps –ef APP_PID,查看备份节点是否接管了故障节点的Service地址、共享卷组和应用程序。
重新启动故障节点,并启动HACMP。
用命令:# netstat –in、# lsvg –o、# ps –ef APP_PID,查看该节点是否将原属于他的Service地址、共享卷组和应用程序接管回来了。
模拟CPU故障:用命令:# ps –ef | grep cluster,确认所有节点上的HACMP已启动。
用命令:# errclear 0,清空系统错误日志。
用命令:# tail –f /tmp/hacmp.out,监控HACMP的运行状态。
直接断开某个节点的电源,模拟CPU故障。
用命令:# netstat –in、# lsvg –o、# ps –ef APP_PID,查看备份节点是否接管了故障节点的Service地址、共享卷组和应用程序。
重新启动故障节点,并启动HACMP。
用命令:# netstat –in、# lsvg –o、# ps –ef APP_PID,查看该节点是否将原属于他的Service地址、共享卷组和应用程序接管回来了。
HACMP常见故障解决:1、导致集群中节点失效的无反映开关(Deadman Switch)问题现象:集群中的节点经历着极端的性能问题,如:大量的I/O传输、过多的错误记录、内存不足等,导致集群管理器(clstrmgr)没有得到足够的CPU处理时间,而引起无反映开关在分配的时间被重置。
某个应用程序运行权限高过集群管理器时,会导致此问题。
解决方法:术语“Deadman Switch”指的是在特定集群条件下,未能及时重置该开关,引起系统宕机和转储的内核扩展部分。
无反映开关在超过了特定的时间限制后会宕掉处于挂起状态的节点。
此过程导致集群中的其它节点接管处于挂起状态节点的资源。
要解决此问题需要解决与之相关的几个性能问题:1、调整系统I/O pacing2、增加信息同步(syncd)的频率3、增加通信子系统使用的内存量4、更改错误探测速率1、调整系统使用I/O的步调:使用I/O pacing调整系统,使得在大量写操作时,系统资源的分配更合理。
为HACMP集群激活I/O Pacing是必要的,尤其是在集群中可能会有大量磁盘数据块写操作的时侯。
按下述步骤修改I/O Pacing设置:# smitty hacmpCluster ConfigurationAdvanced Performance Tuning ParametersChange/Show I/O Pacing修改HIGH water mark for pending write I/Os per file域,推荐值为33,可用值在0-32767之间。
修改LOW watermark for pending write I/Os per file域,推荐值为24,可用值在0-32767之间。
不同的系统,以上两个值也不同。
修改上两个值只能稍微减少写次数,通常能够解决上述问题。
2、增大syncd的运行频率:增加syncd的运行频率,使缺省60秒运行一次变为30秒、20秒或10秒运行一次。
这样可以强迫增加I/O刷新速率,并减少由于沉重的I/O流量触发无反映开关的可能性。
按下述步骤修改syncd运行频率设置:# smitty hacmpCluster ConfigurationAdvanced Performance Tuning ParametersChange/Show syncd frequency修改syncd frequency in seconds域,推荐值为10秒,可用值在0-32767之间。
3、增加通信子系统可用的内存量:如果运行命令:# netstat –m,发现请求mbuf被拒绝,或运行命令# errpt发现LOW_MBUFS 错误,则应增加网络参数“thewall”的值。
Thewall的缺省值为25%的系统实内存。
可以将其增加为50%的系统实内存。
按下述步骤修改thewall值的设置:# vi /etc/在此文件的末尾加入:no -o thewall= xxxxxxxxxx是指你希望设置的供通信子系统使用的实内存值。
如:,no -o thewall=102404、修改错误探测速率:如果激活I/O Pacing或增加Syncd运行频率不能解决无反映开关不能重置的问题时,则修改错误探测速率,将其值该为Slow。
这样可以延长一个挂起节点调用无反映开关之前,以及接管节点探测到节点故障并获得挂起节点资源之前所需的时间。
注意:在完成上述步骤之前,I/O Pacing必须先激活。
这是因为修改此设置会调整I/O数据的传输量。
八、HACMP 4.4.1及后续版本的改进:1、首先现要将三个网络地址(Boot、Service、Standby)配置好,并在/etc/hosts文件中,将三个网络地址对应的卡标识编辑好。
2、然后按照:Cluster Topology -> Configure Networks -> Configure IP-Based Network -> Discover Current Network Configuration -> Local Network Configuration的顺序生成本节点上的逻辑接口配置清单。
3、再按照:Cluster Topology -> Configure Networks -> Configure IP-Based Network -> Add a Network的顺序定义IP网络。
4、该菜单中的各域内容如下:Network Name:用户指定的网络名字。
Network Attribute:指明该网络的类型:Public(TCPIP、Token-Ring、FDDI、SLIP),Private(ATM)。
Network Type:指明该网络的网络类型(TCPIP、Token-Ring)。
Subnets:按F4从列表中选取Boot和Standby卡对应的子网。
5、网络配置完毕后,按照:Cluster Topology -> Configure Adapters -> Configure IP-based Adapters -> Discover Current Network Configuration的顺序收集当前的网络配置信息。
6、IP网络配置完毕后,按照:Cluster Topology -> Configure Networks -> Configure Non IP-Based Networks -> Add a Network的顺序配置非IP网络(心跳网络)。
与IP网络不同的是需要指定一个网络名和网络类型(RS232)。
7、再根据:Cluster Topology -> Configure Adapters -> Configure IP-based Adapters -> Add an Adapter的顺序开始配置网卡。
8、选择一个欲增加网卡的子网,如果先前没有定义网络,则可以使用Add an Adapter on a new Network菜单创建网络。
9、该菜单中的各域内容如下:Adapter IP Label:按F4从子网列表中选择欲配置的网卡。
Network Type:此域自动生成。
Network Name:此域自动生成。
Adapter Function:表明此网卡的用途:Boot、Service、Standby。
Adapter Identifier:此卡的IP地址或设备名。
Adapter Hardware Address:此卡的硬件地址,通常仅用于Service卡。
Node Name:该卡所在的节点名。
Netmask:该卡的子网掩码。
10、重复以上步骤,知道所有节点上的所有卡均配置完毕。
11、基于IP网络的网卡配置完毕后,再配置基于非IP网络的网卡。
按照:ClusterTopology -> Configure Adapters -> Configure Non IP-based Adapters -> Add anAdapter > Choose Network for new Adapter的顺序配置基于非IP网络的网卡(心跳线)。