01 排错方法和流程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络故障排错TSHOOT(Troubleshooting)
网络管理员的职责:
1. 规范整理网络运行资料,包括:网络拓扑结构图、互连关系列表、网络设备目录、IP地址分配置表、网络设备的配置信息、以及原始设计文件。
(整理基线数据)
2. 监控网络设备交换机、路由器、防火墙和服务器的运行状态,确保网络按设计要求正常稳定运行。
(接口状态,带宽利用率,CPU、内存利用率)
3. 响应各种突发性网络故障,快速准确进行故障定位,并进行有效排错,恢复网络的正常运行。
4. 根据企业的发展规划和当前网络的运行状态,制定合适的网络升级规划方案。
网络维护行为
主动性网络维护:按照计划(每天、每周、每月)执行任务。
1、2、4
故障驱动性:在收到故障报告后解决问题。
3
维护模型
1、PPDIOO模型CISCO生命周期服务
准备规划设计(根据需求,进行规划设计)
实施(组建)
运行(管理、调试)
优化(监控网络运行、优化改进)
2、FCAPS模型ISO定义的网络维护模型
故障管理、配置管理、记帐管理、性能管理和安全管理。
排错方法和流程
现在, 网络的故障排除比过去任何时候都更为重要。
随着网络规模的不断扩大,服务的不断增多,网络出现故障的机率以及排错的难度都在不断加大,网络的正常运行也更需要有超强故障排除技能的网络工程师。
排错的理论基础:
OSI七层参考模型
TCP/IP协议
故障排除过程:
一、故障报告(医院:病人向医生说明病情,病历本)
来自用户的故障报告一般都缺乏足够的信息,需进一步了解故障情况,并编制一份故障工单。
标明:
什么时间,什么地点,什么出了问题,故障影响的范围有多大。
二、收集症状信息(医生:望、闻、问、切;化验,CT )
收集与故障相关的信息,集中精力有针对性地收集适当网络设备(如路由器、交换机、服务器或客户端)的信息,避免花费大量时间收集无用信息。
1 询问终端用户问题
什么不工作了?什么时间第一次注意到故障?最后一次工作后改变了什么?
2 查看故障
查看设备的指示灯;溶化的绝缘体或烧坏部件的烧焦气味;电缆连接错误;模块和板卡的安装错误。
3 命令调试
ping 目标IP,查看连通性。
不通,到哪里可以通?
traceroute 跟踪到目标的路径。
sh ip route
sh ip ospf neigh
debug
三、检查收集到的信息(化验单,CT, B超)
收集到足够多的信息之后,就要检查这些信息。
有效性、全面性。
四、分析症状,排除潜在的故障原因(分析病情,排除某些病因)
根据自己的网络知识以及对收集到的信息的理解,开始排除故障的潜在原因。
检查完所收集到的信息之后,就可以根据这些数据形成初步推论,其中某些推论能暗示故障的潜在原因,而某些推论则可以排除某些潜在原因。
排错方法:(各种方法配合使用)
自下而上:从物理层开始
自上而下:从应用层开始
分而治之:用ping界定问题是下三层,还是上四层。
(推荐)
跟踪流量路径法:在前往目标的路径中,逐跳进行检测。
能到哪里,不能到哪里?
对比配置法:1、相同的环境,一个设备正常,一个设备故障,则可将两个设备的配置文件和各项参数进行对比;2、当前数据与之前的基线数据进行对比;3、同一链路两端设备的配置进行对比(对等性原则)。
组件替换法:替换后,故障消失,则集中精力解法该故障设备。
应用以前的经验:富有经验的工程师,对某些故障可能会直接确定原因。
五、推断根本性故障原因(确定根本性病因)
在排除了故障的众多潜在原因之后,就剩下一个或少数几个可能引起故障的根本性原因,此时就可以思考并推断产生故障的最可能原因。
六、验证推断,并制定详细的故障解决方案。
(开药方)
确定了最可能的故障根源后,需要制定详细的故障解决方案来解决故障。
关键点:用文档记录下每个操作步骤,这样不仅可以避免遗漏某些实施步骤,而且在解决方案失效后还可用于实施回退计划。
如果方案实施后,仍无解决问题,或产生了新问题,就应该执行回退计划,将网络恢复到先前状态。
然后,重新评估之前推断的故障原因,确定故障并制定新的解决方案。
在生产性网络中,实施故障解方案有时可能会给其它用户造成临时性网络中断。
如果造成的影响大于故障的紧急成程度,则应等到下班后再进行。
(例如:1000M主路径down,已自动切换到100M低速路径)
七、故障解决(复查)
网络故障得到解决之后,应将故障解决情况报告给当事人,让用户确认故障已消失。
同时,应将解决方案记录到网络文档中。
1. 对网络管理进行改进,避免出现同样的故障。
2. 为故障排错提供经验。
故障排错工具
网络维护和故障排错工具:
1. IOS命令
R# ping 172.16.8.1
R# tracert 172.16.8.1
R# sh run |b route
# sh ip int brief
# sh ip protocol
# sh ip route
# debug ip ospf event
# sh process cpu
# sh process memory
2. 日志服务
调试时弹出:console telnet
保存,方便以后查看:本地存贮(buffer 4096字节)Syslog服务器
3. NTP网络时间协议
R 、SW、服务器、PC 全网时间保持一致
4. 端口镜像SPAN
对交换型网络流量进行监控。
5. SNMP网络管理服务
通过网络运维管理平台,对CISCO、H3C、服务器统一进行管理,监控设备的CPU、内存利用率,接口带宽利用率等。
并且可以对设备的配置文件、访问网络的用户、设备告警等进行管理。
CISCO:CISCO Works
H3C:IMC智能管理中心
HP:HP Open View
SolarWinds: SolarWinds管理平台
6. NetFlow
各个接口的网络流量统计,确定各种流量的大小,接口带宽利用率。
物理层排错
物理层将比特从一台计算机传输到另一台计算机上, 该层是唯一与有形物质如线缆、板卡相关的层次。
物理层位于最底层,该层出现故障,其以上组件都不能正常工作。
物理层常见故障:
1.网线线序不对。
2.网线不通。
3.接触不良。
4.网卡坏了。
(物理正常、MAC不冲突、IP正确)
5.速率不匹配。
10 100 1000 不匹配:down
6. 接口物理性关闭。
(忘记no shut )
通过观察交换机接口的LED指示灯的状态:正常,绿色。
非正常,不亮或橙色。
测线工具:测线仪。
排错方法:组件替换法。
物理层性能欠佳问题:
如果运行欠佳,网络是可运行的,但性能会一直或间歇性地低于预期的级别。
常见原因如下:
一条劣质的线缆,或长度超过设计要求(双绞线100米);
双工不匹配;全半
过多的流量通过一条低速的LAN或W AN链路,可能引起流量被丢;网络拥塞过载的服务;链路带宽过载CPU 内存
电磁干扰。