以太网故障定位
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
测试仪表
SmartBits:主流以太网测试仪表(又名数据分析仪),主要功能: 1、性能指标测试;2、构造并发送各种类型报文;3、收、发包统计; 4、抓包并解码分析。 IXIA:常用功能和SmartBits基本相同。
文档密级:内部公开
华为机密,未经许可不得扩散
8
以太网故障定位
如何找准问题的锲入点
原则:与SDH故障定位思路一样,以太网故障定位也遵循“先外部、
基于不同平台的单板的共性与特征 封装协议、封装颗粒、接口类型、功能实现、版本特 征、配臵方法…… 单板的性能指标 吞吐量、时延、背靠背和交换容量 单板可支撑故障定位的功能 环回、测试帧、流量统计、黑匣子、SDH类告 警与性能、以太网类告警与性能(RMON) 单板固有缺陷 运行稳定性、软件BUG、批次问题……
文档密级:内部公开
华为机密,未经许可不得扩散
12
以太网故障定位方法
故障类型---业务严重受损(二)
测试帧的不足
测试帧是由虚通道侧发出和接收,未能覆盖到整个业务通路,因此有可 能测试帧收发正常而实际业务不正常,怎么办?继续定位MAC和PHY芯 片状态是否异常。 PS:虽然此时复位、拔插能迅速恢复业务,但为了定位故障根本原因 (实验室一般都不能重现故障),就辛苦一下查查其他数据了。
文档密级:内部公开
华为机密,未经许可不得扩散
7
工具使用
工欲善其事,必先利其器
工具软件
SERV-U:FTP服务器端软件,可基于WIN98/2000/XP平台,利用 FTP可在一定条件下近似反映出通道带宽。 SNIFFER:简明实用的抓包工具,可基于WIN98/2000/XP平台,处 理疑难杂症时推荐使用,缺点是发包功能较弱。 SolarWinds:功能纷繁复杂,适合数通专业人员使用,附带的Ping 工具功能强大,并可输出log文件,缺点是部分功能不够准确,会对用 户产生误导。
“知己”的第一项——以太网
CSMA/CD 端口工作模式 帧格式 以太网各种错帧 以太网流控 VLAN 何时需要?如何实现?实际效果? 二者有何联系?
三者有何联系?错帧对业务的影响?
功能、实现与 引入的问题?
文档密级:内部公开
华为机密,未经许可不得扩散
4
以太网特性单板基础
“知己”的第二项——以太网特性单板
文档密级:内部公开
华为机密,未经许可不得扩散
17
案例分析
了解用户业务的特征
某日,用户投诉和公司总部的网络连接异常,网络速度缓慢。运营商已 排除数通设备故障可能,要求小A处理。 端口性能事件中反映收到了较多的超长包,初步怀疑是这些超长包被 丢弃而导致的业务异常,但这些超长包从何而来呢? 咨询运营商数通人员得知:此用户新近开通了VPN业务。 VPN业务需要在用户数据帧的基础上打上MPLS或IP Tunnel标签,因 此会将数据帧加长N个字节,如果用户数据帧较长,则打上VPN标签后会 超过1522字节,而ET1将此类超长帧丢弃。 修改ET1的MTU值即可解决问题。 提醒:目前VPN技术正在逐步向基于MPLS的二层VPN过渡,由于此类 VPN的MPLS标签在以太网帧头之前,老一代以 太网单板(ET1/EGT等)不能识别此类封装格 式会将所有帧丢弃。配合用户开VPN业务时, 一定要了解清楚其VPN的实现方式,并决定是 否需要使用EMS/EFS系列单板。
文档密级:内部公开
华为机密,未经许可不得扩散
9
以太网性能分析
最直观的定位工具--RMON
处理SDH故障时,我们首先做的就是查告警查性能,同样,处理以太 网故障时,我们第一步也是查清告警和性能。请注意,涵盖SDH侧和 以太网侧。 排除A类告警:Ethlos、AIS、LOP等必然导致业务中断的告警 排除B类告警和性能:B3SD、LPBBE等导致业务丢包 错包 接收 碰撞与延迟 发送 流控 接收 硬件异常
Metro产品培训
以太网故障定位
文档密级:内部公开
华为机密,未经许可不得扩散
1
课程目标
通过本次课程,学员应掌握以下内容:
以太网故障定位的思路 以太网故障定位的常见方法 常用工具软件、仪表的使用方法 如何策划联合测试方案
系统的方法论,必须建立在对传送网、数据通信、网络产品等 知识全面、系统的了解之上
文档密级:内部公开
华为机密,未经许可不得扩散
15
案例分析
准确判断故障(二)
网络割接,次日用户投诉不能上网,QQ、E-mail和WEB全部中断, 但Ping各个门户网站都能通,运营商M检查数通设备一切正常,于是向我 司工程师小A申述传输故障。 小A接到申诉后: 吸取了上次的经验,和用户确认的确能Ping通,于是认为故障在上游数 通环节,与ET1无关,至于为何割接后出现问题那纯属偶然。运营商M也 认为小A有理,又去折腾了半天数通产品还是没搞定,于是又投诉小A说 的确是传输割接引起的故障,要求必须到现场处理。 小A极不情愿但又有点心虚的到了现场: 告警、性能都正常,看不出毛病 Ping的确是通的 PC直连在ET1都不能上网 小A一筹莫展了,咋办呢?可恨用户刁蛮,问题 显然跟传输无关嘛。 问题真的跟传输无关吗?
文档密级:内部公开
华为机密,未经许可不得扩散
6
网络产品基础
“知彼”的第二项——数通宽带产品知识
产品的功能与分类 了解数通产品的基本功能与分类,掌握与其对接的要点。 常见主流网络产品 了解常见主流数通产品的主要功能与网络地位,学习其 基本的配臵方法。 混合组网与测试 具备根据业务和对接数通设备需要设计MSTP网络的能 力,具备根据对接数通设备特点筹划联合组网测试的能力。 熟悉了宽带产品,才能远离处理对接问题时的尴尬与无奈, 才能底气十足的和C公司的NB工程师交涉,才能让用户用崇拜 的眼光仰视自己……
文档密级:内部公开
华为机密,未经许可不得扩散
11
以太网故障定位方法
故障类型---业务严重受损
判定故障原因是否在MSTP侧
探询故障的触发事件--是否对网络做过操作、发生倒换等 隔离法:两端直接使用PC互Ping 发测试帧:简单实用,但并非所有产品都支持
定位故障点
法宝一:环回--老套路,再熟悉不过的东东了 法宝二:测试帧--不支持咋办啦?不支持那就用法宝三呗。 法宝三:RMON性能统计 套路:从近端开始逐段环回(以太网单板、交叉、线路),每环回一段, 通过测试帧测试是否收、发一致,当收发不一致时,即找到故障所在点。 如产品不支持测试帧功能,则只能利用PC发包,通过单 板端口RMON的收、发包数量是否一致来判断。 “啊哈哈哈哈……这点小问题,轻松搞定!” “STOP!别得意太早,想想还遗漏了什么?”
华为机密,未经许可不得扩散
10
发送
重点分析RMON:
文档密级:内部公开
以太网性能分析
RMON分析
A类错包事件(蓝色字体) AlignmentErrors:对齐错误---碰撞引起或硬件故障(对端居多) FCSErrors:CRC校验错---碰撞(全双工VS半双工)、网线质量差或 受到干扰、对端硬件故障 结论:查端口模式、查网线、查对端硬件 B类碰撞相关事件(紫色字体) 结论:1、本端口实际工作在半双工模式,建议调整到全双工模式; 2、CSMA/CD算法所决定,非故障。 C类流控事件(绿色字体) 结论:反映了通道的“拥挤”程度,建议根据需要扩容。 D类硬件异常(红色字体) DropEvents:由于FIFO溢出而导致的丢包 结论:若数量较大,则先硬复位单板,如现象持续,则更换单板。
收、发包数量一致就万事大吉了吗
NO!如果硬件出现故障,有可能会将包随机修改后发送出去, 从而导致实际业务产生大量异常甚至中断。
总结陈词:一般而言,业务出现明显受损的故障
相对容易判定故障界面,同时其定位手段容易流程 化、规则化,加上故障现象较单一,因此定位难度 较低。 提醒:1、正确的配臵是应首先确保的。 2、环回定位手段仅针对以太网透传版本。
同SDH相比,以太网特性单板规格更多、配臵和应用更复杂, 只能多花精力来学习和记忆!当然,理解是记忆的基础。
文档密级:内部公开
华为机密,未经许可不得Байду номын сангаас散
5
数通理论基础
“知彼”的第一项——数通理论知识
数据通信的发展 了解数据通信技术的发展历史,加深对各项数通技术的理解, 把握数据通信发展的趋势。 高层协议 初步掌握TCP/IP协议族主要内容,了解交换、路由等方面 基础理论知识。 业务内容与实现 了解应用层业务内容与高层协议的关系,了解业务与底层 技术的联系。 根本目的:建立一套系统的数据通信知识体系,并同已有 的传输知识体系有机结合,站在业务的角度、网络的角度来 思考问题、理解网络。
文档密级:内部公开
华为机密,未经许可不得扩散
16
案例分析
深入理解单板工作原理
小A无奈之下打数通800求援,学到一招:Ping大包。My god!果然 200字节以上的大包都Ping不通,看来问题的确出在传输上。 配臵原因?硬件损坏?版本缺陷? 思路:对于此类问题,首先应从单板的工作原理下手分析,找到导致问 题发生的可能原因,然后逐项排除。 ET1将以太网帧首先拆分成N个64字节的分片,然后轮循放进虚通道绑 定的VC12中传送,对端从相应的VC12中取出完成的分片后再恢复成一个 完整的以太网帧发送出去。 因此,绑定的任意一个VC12出现异常或两端虚通道绑定的VC12没有一 一对应,都会导致业务出现有规律的损伤。 如何定位: 检测配臵是否出现了两端VC12不对应的情况 排除法,减少绑定的VC12(二分法) 总结:1、检查业务Ping要带包长参数,建议包长1500字节 2、要理解单板原理,从原理出发来分析问题
文档密级:内部公开
华为机密,未经许可不得扩散
2
工程师的疑惑
MSTP产品以太网故障定位的难点:
当我们接到用户投诉时,如何迅速完成以下工作 判断是否真的发生了故障 判断故障的严重程度 判定故障界面
定位故障原因
解决之道:知己(MSTP)知彼(数通)
文档密级:内部公开
华为机密,未经许可不得扩散
3
以太网理论基础
再内部;先软件、再硬件;先单板、再系统”的原则,充分利用性能 事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计 划有步骤的定位。 业务全阻 步骤 业务部分丢包 弄清故障现象 非故障 SDH侧 查询伴随的告警和性能 以太网侧 难点:判定故障界面 MSTP故障 数通产品故障 对接故障
恭喜恭喜:一旦判定了故障界面,则整个定位工作完成了70%
文档密级:内部公开
华为机密,未经许可不得扩散
14
案例分析
准确判断故障
某日,用户投诉不能上网,QQ、E-mail和WEB全部中断,Ping门户 网站都不通,运营商M检查数通设备认为一切正常,于是向我司工程师小 A申述传输故障。 小A接到申诉后: 反映一:心想这下问题大了,啥都干不了,肯定ET1出了大问题。于是 一边打800一边飞奔到现场,手忙脚乱查告警查性能,最后没招了还折腾 着跟小B求援要他到对端接个PC来对Ping一把。 反映二:心想ET1挺稳定的呀,不会这么容易撂担子,用户也动过设备, 肯定是其他哪个疙瘩出茬子了。于是,仔细而冷静的分析了用户的故障现 象,发现用户都是使用域名上网,难道是DNS不正常?那就Ping一下 Internet的某个IP或者Telnet到某个BBS,果然,此时Ping和Telnet都正常, 显然是DNS出了故障。 总结:做为一个网络用户,平日多思考一下网络业务的实现原理和过程, 了解其中关键环节,出现问题时应站在业务的高度来分析,要能看到传输 以外的其他环节。
文档密级:内部公开
华为机密,未经许可不得扩散
13
以太网故障定位方法
故障类型---业务损伤不明显
判定故障原因是否在MSTP侧
由于此时业务损伤不明显,甚至不能称之为“故障”,因此通过隔离法 往往难以迅速判定故障界面;或故障具有突发性和自愈性,不能及时抓到 故障信息,需要长期监测定位。 此类问题,一般有以下几种处理方法: 协调用户调走业务,使用仪表对问题通道进行长期(24~72小时)稳 定性测试,验证通道的长期可靠性。 不调动业务,使用仪表或软件工具进行在线长期监测,记录并输出log 文件和其他信息。 替换法,直接更换相应单板,在线长期观察。 难点:MSTP做为业务承载平台,目前缺乏相应的OAM手段来记录、反 映业务状态,因此出现问题时经常要“替人受过”,这点在二层交换版本 尤为严重。一方面通过不断改进MSTP产品为定位提供功能支撑,一方面 需要工程师更多的了解对接数通产品,站在整个业务流程的角度来分析问 题,寻找解决问题的方法。