01-04 故障管理配置

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4故障管理配置关于本章
通过配置故障管理,用户可以在网管侧快速有效地收集故障信息,提高故障定位的效
率。

4.1 故障管理简介
介绍故障管理的定义和目的。

4.2 故障管理原理描述
介绍故障管理的实现原理。

4.3 故障管理配置注意事项
介绍故障管理的配置注意事项。

4.4 配置故障管理
介绍故障管理的详细配置过程。

4.5 维护故障管理
介绍查看和清除告警、事件的命令。

4.6 配置告警管理示例
4.1 故障管理简介
介绍故障管理的定义和目的。

定义
故障管理FM(Fault Management)用于对设备产生的告警或事件进行集中管理和有效
上报。

目的
随着网络规模的扩大和网络复杂度的提高,当设备某个模块发生故障的时候,可能会
在一台或多台设备上产生大量的告警。

由于设备侧以及网管侧处理告警的能力有限,
会发生部分告警丢失的情况,给故障定位带来不便。

为了避免告警的丢失,保证在网管侧能够快速有效地收集对用户有价值的故障信息,
设备上产生的告警信息在上报网管之前,可以通过配置故障管理功能,实现告警和事
件的集中管理和有效上报。

4.2 故障管理原理描述
介绍故障管理的实现原理。

4.2.1 故障管理基本概念
l告警:
设备运行状态偏离正常情况,需要用户关注或处理时产生的一种通知,是维护人
员了解设备运行状态、进行故障定位的重要信息。

l活动告警:
某个告警的产生通知。

例如,告警hwFanInvalid表示风扇故障。

l恢复告警:
某个告警的恢复通知。

例如,告警hwFanInvalidResume表示风扇故障恢复。

活动告警与恢复告警互为匹配告警。

l事件:
设备运行过程中重要状态的提醒,需要用户了解时产生的一种通知,是维护人员
了解设备运行状态的重要信息。

4.2.2 故障管理基本原理
FM模块接收设备产生的告警和事件信息,然后根据系统定义的缺省级别保存告警和事
件,并记录告警和事件产生的时间。

通过配置故障管理功能,可以做到:
l修改设备侧告警的级别,实现在网管侧根据实际情况选择需要关注告警的级别,以屏蔽不需要关注的告警。

l告警的延迟上报,在告警延迟上报周期内,重复上报的多条告警,在告警延迟上报周期到达后只上报一条,以减少告警的上报频率。

l事件的延迟上报,在事件延迟上报周期内,重复上报的多条事件,在事件延迟上报周期到达后只上报一条,以减少事件的上报频率。

4.3 故障管理配置注意事项
介绍故障管理的配置注意事项。

涉及网元
无需其他网元配合。

License支持
本特性是交换机的基本特性,无需获得license许可即可应用此功能。

版本支持
表4-1产品形态和软件版本支持情况
如需了解交换机软件配套详细信息,请参见硬件查询工具。

特性依赖和限制
无。

4.4 配置故障管理
介绍故障管理的详细配置过程。

4.4.1 配置告警级别
背景信息
针对每条告警,系统定义了缺省的告警级别,用户也可以修改告警级别。

通过修改告
警的级别,网管接收到设备上报的告警信息后,可以设置过滤条件选择只查看某一级
别的告警,以方便用户查看此类告警信息。

在X.733标准中,故障信息按严重等级或紧急程度划分为6个级别,如表1所示,数字越
小,表示告警级别越严重。

表4-2告警级别的定义
操作步骤
步骤1执行命令system-view,进入系统视图。

步骤2执行命令alarm,进入告警管理视图。

步骤3(可选)执行命令display alarm information [ name alarm-name ],查看告警的当前级别。

步骤4执行命令alarm-name alarm-name severity severity,配置告警的级别。

缺省情况下,系统已经定义了告警的缺省级别。

----结束
4.4.2 配置告警清除后不再重复上报功能
背景信息
使用命令clear alarm active或通过MIB表hwAlarmActiveTable手动清除活动告警后,当
告警再次产生时会重复上报。

为了防止告警重复上报,可以配置活动告警手动清除后
不再重复上报的功能,使手动清除的活动告警在恢复前不再重复上报。

操作步骤
步骤1执行命令system-view,进入系统视图。

步骤2执行命令alarm,进入告警管理视图。

步骤3执行命令mask manual-clear alarm,使能活动告警手动清除后不再重复上报的功能。

缺省情况下,活动告警手动清除后会重复上报。

----结束
后续处理
1.执行命令clear alarm active { all | sequence-number sequence-number },清除活动
告警信息。

活动告警信息清除后,在恢复告警上报前,不会再重复上报该活动告警。

2.执行命令display alarm manual-clear,查看不再重复上报的活动告警信息。

3.(可选)执行命令clear alarm manual-clear { all | sequence-number sequence-
number },清除不重复上报的活动告警信息,使对应的活动告警可以继续上报。

4.4.3 检查故障管理的配置结果
背景信息
l在任意视图下执行命令display alarm information [ name alarm-name ],查看告警的当前配置信息。

l在任意视图下执行命令display event information [ name event-name ],查看事件的当前配置信息。

l在告警管理视图下执行命令display this,查看告警的配置信息。

l在事件管理视图下执行命令display this,查看事件的配置信息。

4.5 维护故障管理
介绍查看和清除告警、事件的命令。

4.5.1 清除告警信息
背景信息
清除告警信息会导致网管无法以任何方式获取清空前的信息。

务必仔细确认网管是否
需要获取待清除的告警信息。

在日常维护工作中,可以执行以下命令,清除告警信息。

操作步骤
l清除硬件告警信息
–执行命令clear record device-alarm [ all | slot slot-id ],清除设备硬件告警信
息。

l清除活动告警信息
a.执行命令system-view,进入系统视图。

b.执行命令alarm,进入告警管理视图。

c.执行命令clear alarm active { all | sequence-number sequence-number },清除
活动告警信息。

----结束
4.5.2 清除事件信息
背景信息
清除事件信息会导致网管无法以任何方式获取清空前的信息。

务必仔细确认网管是否
需要获取待清除的事件信息。

在日常维护工作中,可以在事件管理视图下选择执行以下命令,清除事件信息。

操作步骤
步骤1执行命令system-view,进入系统视图。

步骤2执行命令event,进入事件管理视图。

步骤3执行命令clear event all,清除系统中的事件信息。

----结束
4.5.3 监控告警信息
操作步骤
l执行命令display alarm active,查看活动告警信息。

l执行命令display alarm information [ name alarm-name ],查看告警配置信息。

l执行命令display alarm history,查看历史告警信息。

l执行命令display alarm urgent [ slot slot-id | time interval ],查看设备的硬件告警信息。

----结束
4.5.4 监控事件信息
操作步骤
l执行命令display event,查看事件信息。

l执行命令display event information [ name alarm-name ],查看事件配置信息。

----结束
4.6 配置告警管理示例
组网需求
如图4-1所示,设备与网管路由可达。

用户希望在网管侧及时准确地接收设备产生的告
警信息。

为了实时监控设备在网络的连通状态,用户需要重点关注设备产生的
linkDown告警。

图4-1配置告警管理组网图
10.1.1.1/2410.1.2.1/24
配置思路
采用如下思路配置:
配置告警级别为Critical,这样用户可以在网管侧通过选择过滤条件实现对linkDown告
警的实时监控。

操作步骤
步骤1配置SNMPv2用户和网管主机
<HUAWEI> system-view
[HUAWEI] sysname Switch
[Switch] snmp-agent
[Switch] snmp-agent sys-info version v2c
[Switch] snmp-agent target-host trap address udp-domain 10.1.1.1 params securityname public
[Switch] snmp-agent trap enable feature-name ifnet trap-name linkdown
[Switch] snmp-agent trap enable feature-name ifnet trap-name linkup
步骤2配置linkDown的告警级别为Critical
[Switch] alarm
[Switch-alarm] alarm linkDown severity critical
[Switch-alarm] return
步骤3验证配置结果
# 执行命令display alarm information [ name alarm-name ],查看告警的配置信息。

<Switch> display alarm information name linkdown
**********************************
AlarmName:
linkDown
AlarmType:
Alarm
AlarmLevel:
Critical
Suppress Period:
NA
CauseAlarmName:
NA
Match VB Name:
ifIndex
*********************************
<Switch> display alarm information name linkup
**********************************
AlarmName:
linkUp
AlarmType: Resume
Alarm
AlarmLevel:
Cleared
Suppress Period:
NA
CauseAlarmName:
linkDown
Match VB Name:
ifIndex
**********************************
----结束
配置文件
Switch的配置文件
#
sysname
Switch
#
snmp-
agent
snmp-agent local-engineid
800007DB03000BC0005E0B
snmp-agent sys-info version v2c
v3
snmp-agent target-host trap address udp-domain 10.1.1.1 params securityname cipher %^%#Ey)G6^#X.
6{X|aE9BbKSSI0WC7l/0>o/ueKU7;SV%^%#
snmp-agent trap enable feature-name IFNET trap-name
linkDown
snmp-agent trap enable feature-name IFNET trap-name linkUp
#
return。

相关文档
最新文档