IPRAN网络故障定位与处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Copyright © 2011 Huawei Technologies Co., Ltd. All rights reserved.
前言
l当IP 网络中出现故障时,根据故障类型采取相应的诊断方式快速定位故障。
l U2000 告警提供全网告警监控,告警是维护人员获取故障信息的最直接途径。
根据不同告警类别给出相应的故障定位思路。
l通过路径可视化故障定位功能,在设置源宿接口或IP地址后,网管会自动发现并以拓扑图方式呈现业务路径。
培训目标
l学完本课程后,您应该能:
p描述故障分类和处理流程
p描述故障定位常用操作
p使用故障诊断工具
p描述日常监控与维护的原则
p学习故障处理案例完成故障处理工作
目录
1.故障分类和处理流程
2.故障定位常用操作
3.常用故障诊断工具
4.故障处理案例
目录
1.故障分类和处理流程
2.故障定位常用操作
3.常用故障诊断工具
4.故障处理案例
目录
1.故障分类和处理流程
1.1 故障分类
1.2 故障定位思路
1.3 故障定位方法
故障分类
l IP RAN的故障场景根据故障现象可分为三大类:p业务(通断)类故障
p性能(质量)类故障
p其他(时钟)类故障。
业务类(1/2)
故障场景描述
典型故障现象
可能原因单个基站业务中断
指受影响的单个基站无法与控制器通信,该基站附近的客户无法通过移动终端进行通信、经常掉线或者接通率低。
一个基站断站或业务不通。
²
与基站相连的链路中断²
光模块失效或光口污染,光功率异常,误码率上升
单台ATN 连接的多个基站的业务中断
指受影响的多个基站无法与控制器通信,这些基站连接在同一台ATN ,基站附近的客户无法通过移动终端进行通信、经常掉线或者接通率低。
多个基站断站或业务不通,这些基站连接在同一台ATN 。
²环境温度高导致的单板异常
²设备主控板硬件异常²
设备电压不足
单个接入环上的所有基站的业务中断
指受影响的多个基站无法与控制器通信,这些基站连接在同一个接入环,基站附近的客户无法通过移动终端进行通信、经常掉线或者接通率低。
多个基站断站或业务不通,这些基站连接在同一个接入环。
²链路中断
²
ISIS network-entity 或者OSPF Router ID 配置冲突
业务类(2/2)
故障场景
描述
典型故障现象
可能原因
一对ASG 设备连接的所有接入环的业务中断
指受影响的多个基站无法与控制器通信,这些基站连接在不同的接入环,但这些接入环连接在同一对ASG ,基站附近的客户无法通过移动终端进行通信、经常掉线或者接通率低。
多个基站断站或业务不通,这些基站连接在不同的接入环,但这些接入环连接在同一对ASG 。
²
BFD 检测时间与TE Tunnel 保护组时间配置不合理²ISIS
network-entity 或者OSPF Router ID 配置冲突²没有配置bfd for tunnel 导致VPN FRR 无法快速切换²VRRP IP 地址与基站不在同一个网段²主备ASG 设备故障
某台基站控制器对应的所有基站业务中断
指受影响的多个基站无法与控制器通信,这些基站均受某台基站控制器管理,基站附近的客户无法通过移动终端进行通信、经常掉线或者接通率低。
多个基站断站或业务不通,这些基站均受某台基站控制器管理。
²
与基站控制器相连的链路中断²
主用链路故障,业务未切换到备用链路
性能类
故障场景描述
典型故障现象可能原因基站与基站控制器之间转发丢包
指客户通过移动终端进行语音通信时,出现单通、杂音等异常,影响通话质量。
客户通话时出现单通、杂音等异常。
²VRRP 配置错误²RSG 设备间的链路中断²转发芯片改包
²链路拥塞导致业务闪断²
MTU 配置不合理导致的大包被丢弃
基站控制器PING 基站时延大
指客户通过移动终端进行语音通信时,出现掉线、呼损。
客户通话时出现掉线,呼叫时无法一次性接通。
²链路中断²
COST 值配置错误
其他故障
故障场景
描述
典型故障现象可能原因同步以太时钟无法同步
基站切换频繁掉话,基站不能获取BITS 时钟源的高精度时钟。
网络侧的同步以太频率无法同步。
基站不能获取BITS 时钟源
的高精度时钟,基站切换频繁掉话,严重时基站不能提供业务。
²时钟源频偏过大²同步以太配置错误²
同步以太跟踪路径和规划不符1588 V2时间无法同步
基站切换频繁掉话,基站不能获取BITS 时钟源的高精度时钟。
网络侧的1588 V2时间无法同步。
基站不能获取BITS 时钟源
的高精度时钟,基站切换频繁掉话,严重时基站不能提供业务。
²外时间配置错误²
外时间线缆连接不正确²1588V2配置错误²
PTP 报文被异常丢弃
1588 V2时间同步质量差
1588V2时间同步协商成功,但使用专业测试仪器测试会发现时间同步存在较大偏差。
无法满足基站同步要求,基站切换频繁掉话。
²
1588V2报文发包频率过低
²PTP 报文被异常丢弃
目录
1.故障分类和处理流程
1.1 故障分类
1.2 故障定位思路
1.3 故障定位方法
通断类或质量类故障定位思路
M2000
U2000
故障排查,排除基站和RNC 问题
无线NOC
网络NOC
NodeB1
NodeB2
RNC1
RNC2
向承载网报障:NodeB2 IP, RNC1 IP, 接通率低
输入:
源:NodeB2 IP 宿:RNC1 IP 现象:接通率低
查找业务路径,自动执行随路测试,及路径告警、性能分析
输出:
丢包节点或链路
61
业务告警:NodeB2用户接通率低,对应RNC1
2
345
时钟类故障定位思路
无线设备和IP RAN网间定界业务故障后,无线部门维护工程师排查后,怀疑故
障发生在IPRAN网络,将相关信息提供给IPRAN网
络维护工程师,IPRAN网络维护工程师通过U2000
的故障定位手段进行处理。
确定故障范围时钟拓扑监控:在U2000网管时钟拓扑中监控当前
的跟踪关系是否正常,是否出现失锁、时钟源倒换
问题,初步确定故障范围。
故障定位排查重点检查时钟告警、配置、PTP报文计数,中间网
络连通性等故障信息。
对于无法处理的疑难问题则通过使用抓包工具抓取
报文后,请厂商工程师处理。
目录
1.故障分类和处理流程
1.1 故障分类
1.2 故障定位思路
1.3 故障定位方法
网络故障处理流程
发现故障
通过告警定位故障
通过路径可视化
定位故障
性能类故障
业务类故障
其他故障
PMS 监控数据业务测试与检查
根据告警修复建议操作
通过路径可视化
定位故障
告警定位
故障现象
处理建议
U2000 产生性能告警或越限告警。
说明:
告警名称中包含“性能”或“越限”字眼的告警。
例如,“逻辑端口性能提示告警”或“BRAS 接入数越限”。
当有采集到的性能数据超过上下限阈值时,会触发越限告警。
查看详细告警信息并跳转到性能监
控模块,查询性能历史数据和查询实时性能数据,分析性能越限原因,并给出网络优化方案。
U2000 产生业务相关告警。
根据如下字段判断告警是否影响业务。
对于Tunnel 、PWE3、
L3VPN 、VPLS 等业务相关告警,U2000 提供了三种诊断方式:²测试与检查²快速诊断²
业务测试诊断
U2000 产生其他告警。
其他告警是指除性能告警和业务告警之外的告警。
查看详细的告警信息后,判断是否是衍生告警,
对于每条衍生告警务必找到根源告警,根据根因
告警的处理建议排除故障问题。
路径可视化定位
故障现象
处理建议
从无线网络接收到的丢包、时延引起的语音质量变差,话音时断时续等故障,可以通过路径可视化来定位和解决。
通过IP/MPLS 故障定位功能,在设置源宿接口或IP 地址后,网管会自动发现并以拓扑图方式呈现业务路径。
同时,在“节点”、“链路”、“光模块信息”、“告警”页签中将呈现组网中的性能数据、光模块基本信息、告警记录,为您初步定位故障范围提供参考。
最终可通过快速诊断一键式发现问题。
故障分类和处理流程自测题
选择题
1. 故障定位与处理有两种方式,分别是()
A. 监控定位
B. 告警定位
C. 逐跳定位
D. 路径可视化定位
目录
1.故障分类和处理流程
2.故障定位常用操作
3.常用故障诊断工具
4.故障处理案例
目录
2.故障定位常用操作
2.1 通过告警定位故障
2.2 通过路径可视化定位故障
定位业务类故障(1/2)
l选择主菜单“故障> 浏览当前告警”,查看“是否影响业务”,判断告警是否影响业务。
定位业务类故障(2/2)
l常用的业务故障的定位方法,有以下三种:
p测试与检查:提供业务的故障定位功能,故障定位的“检查步骤”指定了业务的检测项和检测顺序;同时,支持对业务各个层面进行Ping 操作,以检测业务各层面的连通性;还支持
Traceroute操作和采集业务关键信息功能,从而定位具体的故
障点。
p快速诊断:支持对指定的对象(如PW、VSI、VRF 等)进行连
通性检测和故障定位。
p测试诊断:支持对业务进行定时诊断。
定位性能类故障(1/3)
l性能类故障是指,告警名称中包含“性能”或“越限”字眼的告警。
l查看该条告警的详细信息:
l检查指标“阈值”设置是否合理。
p–如果不合理,则在“性能管理”中调整阈值设置。
p–如果合理,则根据告警原因调整相关的硬件或者业务。
定位性能类故障(2/3)
l查看产生该条告警资源的实时性能和历史性能图像,判断是否是持续性告警,进而做出相应的处理措施。
p在“实时性能”中查看性能指标是否还处于越限状态。
定位性能类故障(3/3)
p在“浏览历史性能数据”中查看性能指标历史状态。
定位其他告警
常见告警处理
l物理实体告警
l路由协议告警
l MPLS隧道告警
l VPN业务告警
l时钟告警
目录
2.故障定位常用操作
2.1 通过告警定位故障
2.2 通过路径可视化定位故障
路径可视化定位思路
业务故障投诉
对应到告警无告警网外
网内
节点
链路
可替换单元
可定位
无法定位•拓扑和路径发现•随路告警分析
•告警根因分析•三段式ping •抓包分析•OAM 测试
•路径路由异常分析•路径MTU 分析•路径性能分析
•链路流量对帐分析•精细流量统计分析•智能ping
U2000 IP 故障诊断系统
有无告警区分(3-5m)
故障分责(1-10m)
故障定位(5-50m)
系统定位总时长目标5-65m 。
(诊断
20m 以内)
5-60m
1-30m
5-100m
总耗时6-190m ,平均65m
传统故障定位
(工具化: 稳定、可控)
(人因成分大: 不可控)
路径可视化故障场景
A B C
Z
基线路径
当前路径
A
B C Z
D E
基线路径
当前路径
1.1根因为转发平面问题,检查如下内容进行定位:
A.CPU/MEM 高(设备被攻击等)
B.流量拥塞;
C.单板转发问题—硬件问题
D.链路质量问题(传输问题(含线路),光模块
异常)
2.1: 根因控制平面问题导致路径切换,针对基线路径进行如下定位
A. 物理端口down ,但告警未被关注;
B. 协议配置被修改或丢失
2.2: 当前路径的转发类问题导致质量劣化,进行如下定位:A.同场景1.1
A
B
C Z
D E
基线路径
当前路径
场景1: 未切换,业务劣化
场景2:切换,业务劣化
场景4: 切换,业务中断A
B
C
Z
基线路径
当前路径
场景3: 未切换,业务中断
3.1:根因控制平面问题导致无路径,基于基线路径定
位
A.同场景2.1
3.2:有实时路径且和基线一致,转发问题A.同场景1.1
4.1:根因控制平面问题导致路径切换,基于基线路径定位同场景2.1
4.2:备用路径业务中断,针对当前路径进行如下定位:A.同场景1.1
业务劣化
业务中断
A
B
C
Z
基线路径
流量对账
设备丢包统计分析ACL 流量统计分析抓包分析……
路径发现
路由错误/隐患检查告警、性能检查设备错误统计检查接口一致性检查
移动业务报障
——移动业务故障,初步排查判断为IPRAN 网络问题,向IP NOC 部门报障,通过业务规划表或资源管理等系统确定业务接入信息
路径基本状态检查
——转发路径发现,随路关键信息采集,风险检查。
输入:对Eth 基站,业务源宿IP 地址;对TDM/ATM 基站,业务AC 接口
路径检测
—连通性检测,质量测试(丢包、时延)ü一般用户:一键式路径检测;ü专家用户:支持手工灵活执行测试
(1)转发路径呈现(路径中断情况指出倒换失效初步原因);(2)随路信息呈现:告警、性能,重要配置、状态、统计;(3)路径错误或隐患提示(1)连通性测试结果:转发中断位置、大包不通位置,等;(2)质量测试结果:路径E2E 质量,质量劣化位置(两点一线)
转发不通配置检查,拓扑状态检查
故障业务标识:Eth 业务,提供基站、基站控制器业务IP 地址;TDM/ATM 业务,提供基站接入侧网络AC 接口;
故障现象:单个或多个基站业务故障,如:电话接不通、接通率低、语音掉线、数据业务不通等节点和链路劣化定位
路径及随路状态监控故障修复路由冲突检查
定位故障?
升级处理
故障发现
网间、网内定界
故障定位
Yes
No
质量劣化两点一线转发中断位置随机故障,或无明确异常
非路径可视化范围径可视化R6范围待规划
路径可视化故障定位流程
路径可视化功能
l
U2000 路径可视化功能包括了路径发现、性能、告警、智能诊断、流量对账/统计等。
性能流量对账/统计
告警
智能诊断
路径发现-输入(1/2)
l首先是输入,包括手工输入和选择输入。
l手工输入
p手工输入三层业务源IP地址,或者连接三层业务源地址的路由设备接口IP地址。
p手工输入三层业务宿IP地址,或者连接三层业务宿地址的路由设备接口IP地址。
路径发现-输入(2/2)
l
选择输入
p
选择网元。
自动查询存在二层业务和三层业务的接口列表。
支持按网元名称、接口名称、接口描述、接口IP 地址过滤。
p
选择连接业务的接口。
支持按接口名称、接口描述、接口IP 地址过滤/排序。
说明:三层业务需同时输入源宿IP 地址;二层业务只需输入连接业务的一端接口。
路径发现-路径信息
l每发现路径,路径列表中新增
一条记录。
l路径详细信息显示每条业务路径的正反向路径的路径组成,包括业务层、隧道层、和IP层的关系
路径发现-可视化呈现
l通过用户的输入与配置,以及特定的路径发现算法,U2000实现了路径的可视化呈现。
路径发现-历史路径
l通过对全网路径信息备份,在网络发生变化后将历史路径还原并显示在TOPO上。
随路性能
l当某网元CPU、内存占用率,
以及接口的带宽利用率高于设
置的门限,拓扑图上自动冒泡
显示当前的性能指标。
l支持链路上MTU、速率、带宽利用率、单播速率、广播速率、多播速率、单板CPU占用率、单板内存占用率、性能数据刷新时间的显示。
随路告警
l路径拓扑刷新之后,路径上存在告警的节点会以对应的告警级别着色。
智能诊断-SmartPing
l路径TOPO节点上右键菜单选择SmartPing。
l在SmartPing对话框作如下设置:
p1、设置源、目的IP地址、
VPN名称(可选)、回应报文
地址(可选)等参数
p2、探测报文参数(超时时间
、发包间隔、填充模式、报文
大小)。
p3、设置丢包率、延迟时间等
阈值参数。
智能诊断-快速诊断
l功能菜单上点击快速诊断按钮或拓扑区中右键菜单快速诊断,选择需要检测的路径。
l功能菜单上点击快速诊
断按钮或拓扑区中右键
菜单快速诊断,选择需
要检测的路径。
流量统计-流量对账
l路径TOPO链路上右键菜单选择“发送报文对比”。
l在实时性能监控界
面中查看出入接口
的流量统计;当有
报文丢失时,流量
波形会存在不一致。
流量统计-ACL流量统计
l路径TOPO链路上右键菜单选择ACL流量统计。
l智能诊断定位到两点一线后链接ACL流量统
计。
l根据选取检测点,自动
在统计点配置ACL规则
、流分类、流行为、流
策略。
l自动在检测的源宿点之
间发送报文。
自动统计
各点匹配的报文值,支
撑定位故障点。
支持外
部(如无线侧)发包。
以太网交换机工作原理自测题
选择题
2. 通过告警故障定位了?()
A. 业务类故障
B. 性能类故障
C. 其他告警
3. 路径可视化功能包括了路径发现、( )、( )、( )、流量对账/
统计等。
目录
1.故障分类和处理流程
2.故障定位常用操作
3.常用故障诊断工具
4.故障处理案例
OAM诊断
l通过以太OAM 或者ATM OAM 可以对以太网链路或ATM 链路的连通性进行检测。
l以太网OAM 通过定时或手动发送检测报文来探测网络的连通性。
提供类似IP 网络中的Ping Packet Internet Groper 和Traceroute 的功能,对以太网进行故障确认和故障定位。
l ATM OAM 是一种针对ATM 业务的端到端OAM 功能,通过在用户信元流中间插入一些有着标准信元结构的OAM 信元来检测ATM 链路,实现对跨越多个网元的ATM 业务质量进行检测。
测试诊断
l测试诊断工具提供了针对各网络层次的连通性测试。
l依据网络协议层次,测试例分为以下类型:
p应用层诊断:DNS、FTP、DHCP、DHCP 仿真、HTTP、SNMP、VoIP。
p传输层诊断:TCP、UDP。
p网络层诊断:ICMP Ping、ICMP Trace、ICMP VRF Ping、ICMP VRF Trace、ICMP Jitter、Multicast Ping、Multicast Trace、Multicast VRF Trace、MTU Ping、故障定界。
p MPLS 诊断:LSP Ping、LSP Trace、LSP Jitter、PWE3 Ping、PWE3 Trace、VPLS MAC Ping、VPLS MAC Trace、Service Ping、MAC Study、MFIB Ping 、MFIB Trace、VPLS PW Ping、VPLS PW Trace。
p链路层诊断:以太业务MAC Ping(802.1ag)、CE Ping。
目录
1.故障分类和处理流程
2.故障定位常用操作
3.常用故障诊断工具
4.故障处理案例
目录
4.故障处理案例
4.1 业务类处理案例
4.2 性能类处理案例
4.3 时钟类处理案例
4.4 路径可视化处理案例。