网络故障与排查思路及方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
故障诊断与排查
谢茂楠 2017年9月10日
1
掌握学习的金钥匙-全身心的帮助他人,成就他人
2
互联网的便利
3
场景1
1、遇到故障我要怎么去思考,怎么去处理?
2、在处理故障的过程中我需要关注什么?
4
课程的目标
• 熟悉故障处理流程
• 掌握故障诊断的方法与步骤
5
课程的主要内容
1.概念及目的 2.故障排查流程 3.故障定位核心思想
20
2.6.6. 充分利用以前的经验
⑴ 不要忽略过去已经排除的故障
⑵ 创建电子日志,记录故障
21
2.7 OSI七层网络模型处理网络故障
一种是从低层开始排查,适用于局域网不够成熟稳定的情况,例如组建新的局 域网、重新调整网线、增加新的网络设备;另一种是从高层开始排查,适用于 局域网相对成熟稳定的情况,例如硬件设备没有变动。无论哪种方式,最终都 能达到目标,只是解决问题的效率有所差别 物理层:网络设备电源通电情况(断电、电压不稳定、UPS是否供电)、网 线(水晶头是否坏了、网线是否断了) 数据链路层:主机网卡(驱动、插槽、接口、本身故障、系统本身是否启 用)、交换机(交换机端口、交换机死机或者交换机数据配置出错)、ARP攻 击 IP(IP地址配置、TCP/IP协议是否安装启用、DHCP与DNS配置是否正确)、 路由器(设备的路由数据配置是否正常) 传输层:防火墙数据配置中是否允许TCP或者UDP端口通过或者端口号是否 遭到攻击
13
2.2.6. 排障结果的评估
故障排除计划实施后,测试是否实现了预期目的。当排错行动没有产生预期的效 果时,我们首先应该撤销在试图解决问题过程中对系统做过的修改,如果保留了 这些修改,则可能会导致出现另外一些人为故障。
14
2.3故障定位核心思想
搜集现象的各个方面,分析现象找到核心,分段排查,缩小范围,定位故障 点,最快解决故障,最终想方法防止同类或者相似故障的发生,提升系统稳定 性与效率
4.定位角度分析
5.诊断工具
6.诊断的原则
7.OSI七层网络模型处理网络故障
6
1、概念与目的 概念
运维故障诊断是以业务系统相关的硬件、网络、服务器、系统、应 用及业务使用等为知识基础。从故障现象出发,以诊断工具为手段 获取诊断信息,确定故障点,查找问题的根源,排除故障,恢复
目的
有三方面的目的:确定业务系统的故障点,寻找业务系统运行的方 法;发现业务系统规划和配置及使用过程中欠佳之处,改善和优化 业务系统的性能;观察业务系统的运行状况,及时预测业务系统使 用质量,并合理调配资源。
15
2.4定位角度分析
故障的内容(单 个业务模块、部分业务模块、所有业务模块) 故障频率(偶尔、经常、一直) 故障范围(单台、部分、所有、内网、外网)
物理环境(网络设备供电情况、网络设备连接情况)
16
2.5 诊断工具
硬件工具
网络工具:测线仪 系统测试工具:笔记本、手机 硬件工具:硬件诊断卡
应用层:(包括会话层与表示层):主要表现为网络应用程序被破坏而导致, 可以通过重装操作系统或者安装杀毒软件及应用程序修复重装等方式完成
22
谢谢!
11
2.2.4 缩小故障原因的范围
可根据出错的可能性把这些原因按优先级别进行排序,一个个先后排除。不 要根据一次测试,就断定某一点是运行正常还是异常。另外,也不要在自己 认为已经确定了的第一个错误上就停下来,应该把自己所列出的所有可能原 因全部检查一遍为止。
12
2.2.5. 制订并实施排障计划
当确定了导致问题产生的最有可能的原因后,要制定一个详细的故障排除操作 计划。在确定操作步骤时,应尽量做到详细,计划越详细,按照计划执行的可 能性就越大。一旦制定好计划,就要按步骤实施这个计划。
⑴ 收集相关故障现象的信息内容,并对故障现象进行详细描述,在这个过程 当中要注意细节,因为问题wenku.baidu.com般出在小的细节方面。
⑵ 把所有的问题都记录下来。
⑶ 不要匆忙下定论。
10
2.2.3列举可能导致故障的原因
应当列举可能的原因: 服务器硬件(网卡、内存、硬盘) 网络(交换机、路由器、网线) 操作系统(内核配置、防火墙) 应用程序(配置参数、版本变更) 等
⑶ 每次只可以替换一个设备。在替换第二个设备之前,必须确保 前一个设备的替换已经解决了相应的问题。
19
2.6.5. 寻求技术支持
⑴ 收集相关设备信息 为了更有效地诊断故障,应该尽可能提供与故障相关的信息。 这些信息包括软件的版本号、操作系统的版本、设备的型号 以及设备的序列号等。 ⑵ 排除与设备无关的因素 为了更快地分析故障的原因,找到排除故障的有效途径,需要从各种情 况中排除与设备无关的因素,突出局域网设备可能产生故障的东西。 (3) 联系厂家。比如在硬件打DELL的电话,在软件打金蝶的400电话寻求 帮助。
软件工具
网络工具:ping\tracert\netstat\arp\ipconfig\route print ,wireshark,tcpdump,lanSee 数据库工具:Idera.SQL.Check、 sql server studio、,toad for oracle 内存分析工具:windbg2 、httpwatc 日志分析工具:秋氏iis日志分析工具 http 分析工具:httpwatch、谷歌浏览器
17
2.6诊断的原则
2.6.1. 排除用户错误
在开始排除故障时,应该确认用户的操作是否完全正确,用户很 容易犯错误而误认为是局域网出了问题。
2.6.2 确定故障的范围
通常,业务系统的问题可以限定一天什么时候出现。一旦确定了故障的范围,试 着重现故障的症状,如果可能,可以尝试严格按照发现故障人的操作步骤进行故 障症状重现,要注意有些故障症状只有在特殊的环境下才能重现。
7
2、故障排查流程
8
2.2.1 识别故障现象
⑴ 故障现象发生时,正在运行什么进程?业务有什么反应
⑵ 这个进程以前运行过没有?
⑶ 以前这个进程的运行是不是可以成功?
⑷ 这个进程最后一次成功运行是什么时候?
⑸ 从最后一次成功运行起,哪些进程发生了改变?
9
2.2.2 对故障现象进行描述
对故障现象的详细描述显得尤为重要,如果仅凭用户对故障表面的描述,有 时并不能得出结论。这时就需要我们亲自操作运行一下导致故障的程序,并 注意相关的出错信息; 可以参考以下几个建议:
2.6.3 考查整个业务系统中涉及到的软硬件或者人为操作的变化
比如网络、服务器硬件、软件版本、软件升级发布、人为的操作、业务变更等变 化
18
2.6.4 替换故障设置
值得说明的是: ⑴ 只有在找到能够正常工作的设备的条件下,才可以替换发生故 障的同类设备。
⑵ 在对设备进行替换之前,要确保局域网现用配置文件的可恢复 性。
谢茂楠 2017年9月10日
1
掌握学习的金钥匙-全身心的帮助他人,成就他人
2
互联网的便利
3
场景1
1、遇到故障我要怎么去思考,怎么去处理?
2、在处理故障的过程中我需要关注什么?
4
课程的目标
• 熟悉故障处理流程
• 掌握故障诊断的方法与步骤
5
课程的主要内容
1.概念及目的 2.故障排查流程 3.故障定位核心思想
20
2.6.6. 充分利用以前的经验
⑴ 不要忽略过去已经排除的故障
⑵ 创建电子日志,记录故障
21
2.7 OSI七层网络模型处理网络故障
一种是从低层开始排查,适用于局域网不够成熟稳定的情况,例如组建新的局 域网、重新调整网线、增加新的网络设备;另一种是从高层开始排查,适用于 局域网相对成熟稳定的情况,例如硬件设备没有变动。无论哪种方式,最终都 能达到目标,只是解决问题的效率有所差别 物理层:网络设备电源通电情况(断电、电压不稳定、UPS是否供电)、网 线(水晶头是否坏了、网线是否断了) 数据链路层:主机网卡(驱动、插槽、接口、本身故障、系统本身是否启 用)、交换机(交换机端口、交换机死机或者交换机数据配置出错)、ARP攻 击 IP(IP地址配置、TCP/IP协议是否安装启用、DHCP与DNS配置是否正确)、 路由器(设备的路由数据配置是否正常) 传输层:防火墙数据配置中是否允许TCP或者UDP端口通过或者端口号是否 遭到攻击
13
2.2.6. 排障结果的评估
故障排除计划实施后,测试是否实现了预期目的。当排错行动没有产生预期的效 果时,我们首先应该撤销在试图解决问题过程中对系统做过的修改,如果保留了 这些修改,则可能会导致出现另外一些人为故障。
14
2.3故障定位核心思想
搜集现象的各个方面,分析现象找到核心,分段排查,缩小范围,定位故障 点,最快解决故障,最终想方法防止同类或者相似故障的发生,提升系统稳定 性与效率
4.定位角度分析
5.诊断工具
6.诊断的原则
7.OSI七层网络模型处理网络故障
6
1、概念与目的 概念
运维故障诊断是以业务系统相关的硬件、网络、服务器、系统、应 用及业务使用等为知识基础。从故障现象出发,以诊断工具为手段 获取诊断信息,确定故障点,查找问题的根源,排除故障,恢复
目的
有三方面的目的:确定业务系统的故障点,寻找业务系统运行的方 法;发现业务系统规划和配置及使用过程中欠佳之处,改善和优化 业务系统的性能;观察业务系统的运行状况,及时预测业务系统使 用质量,并合理调配资源。
15
2.4定位角度分析
故障的内容(单 个业务模块、部分业务模块、所有业务模块) 故障频率(偶尔、经常、一直) 故障范围(单台、部分、所有、内网、外网)
物理环境(网络设备供电情况、网络设备连接情况)
16
2.5 诊断工具
硬件工具
网络工具:测线仪 系统测试工具:笔记本、手机 硬件工具:硬件诊断卡
应用层:(包括会话层与表示层):主要表现为网络应用程序被破坏而导致, 可以通过重装操作系统或者安装杀毒软件及应用程序修复重装等方式完成
22
谢谢!
11
2.2.4 缩小故障原因的范围
可根据出错的可能性把这些原因按优先级别进行排序,一个个先后排除。不 要根据一次测试,就断定某一点是运行正常还是异常。另外,也不要在自己 认为已经确定了的第一个错误上就停下来,应该把自己所列出的所有可能原 因全部检查一遍为止。
12
2.2.5. 制订并实施排障计划
当确定了导致问题产生的最有可能的原因后,要制定一个详细的故障排除操作 计划。在确定操作步骤时,应尽量做到详细,计划越详细,按照计划执行的可 能性就越大。一旦制定好计划,就要按步骤实施这个计划。
⑴ 收集相关故障现象的信息内容,并对故障现象进行详细描述,在这个过程 当中要注意细节,因为问题wenku.baidu.com般出在小的细节方面。
⑵ 把所有的问题都记录下来。
⑶ 不要匆忙下定论。
10
2.2.3列举可能导致故障的原因
应当列举可能的原因: 服务器硬件(网卡、内存、硬盘) 网络(交换机、路由器、网线) 操作系统(内核配置、防火墙) 应用程序(配置参数、版本变更) 等
⑶ 每次只可以替换一个设备。在替换第二个设备之前,必须确保 前一个设备的替换已经解决了相应的问题。
19
2.6.5. 寻求技术支持
⑴ 收集相关设备信息 为了更有效地诊断故障,应该尽可能提供与故障相关的信息。 这些信息包括软件的版本号、操作系统的版本、设备的型号 以及设备的序列号等。 ⑵ 排除与设备无关的因素 为了更快地分析故障的原因,找到排除故障的有效途径,需要从各种情 况中排除与设备无关的因素,突出局域网设备可能产生故障的东西。 (3) 联系厂家。比如在硬件打DELL的电话,在软件打金蝶的400电话寻求 帮助。
软件工具
网络工具:ping\tracert\netstat\arp\ipconfig\route print ,wireshark,tcpdump,lanSee 数据库工具:Idera.SQL.Check、 sql server studio、,toad for oracle 内存分析工具:windbg2 、httpwatc 日志分析工具:秋氏iis日志分析工具 http 分析工具:httpwatch、谷歌浏览器
17
2.6诊断的原则
2.6.1. 排除用户错误
在开始排除故障时,应该确认用户的操作是否完全正确,用户很 容易犯错误而误认为是局域网出了问题。
2.6.2 确定故障的范围
通常,业务系统的问题可以限定一天什么时候出现。一旦确定了故障的范围,试 着重现故障的症状,如果可能,可以尝试严格按照发现故障人的操作步骤进行故 障症状重现,要注意有些故障症状只有在特殊的环境下才能重现。
7
2、故障排查流程
8
2.2.1 识别故障现象
⑴ 故障现象发生时,正在运行什么进程?业务有什么反应
⑵ 这个进程以前运行过没有?
⑶ 以前这个进程的运行是不是可以成功?
⑷ 这个进程最后一次成功运行是什么时候?
⑸ 从最后一次成功运行起,哪些进程发生了改变?
9
2.2.2 对故障现象进行描述
对故障现象的详细描述显得尤为重要,如果仅凭用户对故障表面的描述,有 时并不能得出结论。这时就需要我们亲自操作运行一下导致故障的程序,并 注意相关的出错信息; 可以参考以下几个建议:
2.6.3 考查整个业务系统中涉及到的软硬件或者人为操作的变化
比如网络、服务器硬件、软件版本、软件升级发布、人为的操作、业务变更等变 化
18
2.6.4 替换故障设置
值得说明的是: ⑴ 只有在找到能够正常工作的设备的条件下,才可以替换发生故 障的同类设备。
⑵ 在对设备进行替换之前,要确保局域网现用配置文件的可恢复 性。