TS_NIM_ERROR_STUCK_错误故障分析及处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

9113-550 TS_NIM_ERROR_STUCK_错误

故障分析及处理

2015年8月21日星期五

目录:

1.故障机器: (3)

2.故障描述: (3)

3.故障分析 (4)

4.故障处理步骤 (4)

5.风险规避 (15)

1.故障机器:

M/T:9113-550

S/N:659907E

FW:SF240_358

OS:5300-09-04-0920

2.故障描述:

系统持续报出如下错误:

LABEL: TS_NIM_ERROR_STUCK_

IDENTIFIER: 3D32B80D

Date/Time: Tue Aug 18 20:25:49 2015

Sequence Number: 283056

Machine Id: 00C9907E4C00

Node Id: OLC_1_2

Class: S

Type: PERM

Resource Name: topsvcs

Description

NIM thread blocked

Probable Causes

A thread in a Topology Services Network Interface Module (NIM) process

was blocked

Topology Services NIM process cannot get timely access to CPU

Thread which was blocked

receive thread

Interval in seconds during which process was blocked

25

Interface name

tty0

3.故障分析

从错误日志来看,TS_NIM_ERROR_STUCK_错误是由于tty0的心跳堵塞所导致的,这种错误一般有以下几个原因所引起:

1.串口卡和串口线物理连接的问题

2.串口卡和串口线备件故障的问题

3.操作系统/var文件系统曾经达到过100%,虽然之前通过清除文件或扩大

文件系统的方法解决了文件系统满的情况,但是操作系统没有重启过。

4.双机Failure Detect Rate所设置的心跳检测间隔时间过短

这种错误一般来说不会引起系统运行的异常,但是如果是上述的1、2、4这几种情况导致的话,有可能会在双机需要进行切换的时候影响双机的切换,严重的话,有可能会导致切换过程中节点直接宕机。

第3种情况对系统运行不会有影响,但是持续的报错,对系统的监控会有一点的影响。

4.故障处理步骤

由于下面的部分修复操作需要停止双机和应用,虽然不会对操作系统和应用做任何操作,理论上来说,对操作系统和应用是不会有影响的,但是考虑到操作系统和应用停止以后再次启动的话,还是存在一定的操作系统和应用启动方面的风险,因此建议对操作系统和应用数据进行备份,一旦出现问题,可以通过备份来对操作系统和应用进行恢复。

强烈建议做以下操作之前先对操作系统和应用数据进行备份,操作系统备份可使用mksysb来做。

操作系统备份方法如下:

#smitty mksysb

故障的具体修复步骤如下:

1.检查两个节点之间的串口线,看看接口是不是脱落了或是松掉了。

2.如果物理上连接是没有问题的,可以通过lsdev -C|grep tty查看状态是不是

available。

3.停止应用(由客户应用人员执行相关操作)

4.停止双机,具体步骤如下:

a)执行smitty clstop进入如下菜单

b)通过F4或ESC+4选择需要停止的双机节点,在这里把两个节点全选

上。

c)按回车确认执行

d)停止双机操作执行后,结果如下图

e)等到双机将服务IP和共享VG释放后,通过命令查看双机状态,如果

状态为ST_INIT,表示双机停止完成,则继续后面的操作。

root@cbp60:/>lssrc -ls clstrmgrES|grep -i state

Current state: ST_INIT

5.如果物理连接和系统中状态都没有问题,可以尝试将双机停下来,测试一

下看看串口是不是通的,此方法必须先停下双机才可以测试,测试方法如下:

a)在A节点上执行:

#cat < /dev/tty0

b)在B节点上执行:

#cat /etc/hosts > /dev/tty0

如果能把B节点上面的/etc/hosts文件正常的输出到A节点上,表示串口设备通讯正常,否则就有可能是串口卡或心跳线的故障了,

需要更换备件修复

6.如果串口是通的,还是有这种报错,可以考虑通过以下方法修复,建议以

下二步都要做。

A.检查系统目录是不是有达到100%的,如果有,扩大文件系统,然后

重启主机.

a)通过df –g命令检查文件系统是否有达到100%的

#df –g

b)如果有,则通过如下命令扩大文件系统,其中xx为你想要把文

件系统扩大到的大小值

#chfs –a size=xx G /var

c)如果没有,则通过如下命令重启操作系统,有报错的节点都需要

重启

#shutdown –Fr

d)重启完成后继续执行下面的操作

B.修改双机串口和网络的FDR(failure detect rate),把它从normal修改成

slow,这样的话,双机心跳检测的间隔时间就会相应加大,从而增强双机运行的安全性,和减少并解决系统的相关报错,修改完成后需要对双机进行同步操作。

FDR修改:该操作需要把双机和应用停止下来进行操作,一般来说是在以下这个位置,不同的双机版本,位置略有不同,不过大致都差不多,具体步骤如下:

a)smitty hacmp->extended configuration->config hacmp network

modules->change a network module using predefined values

相关文档
最新文档