交换机CPU使用率高问题定位

合集下载

CPU占用率高的定位思路

CPU占用率高的定位思路

CPU 占用率高的定位思路常见原因CPU 占用率,就是一个时间段内,CPU 执行代码的时间与时间段总长度的比率。

CPU占用率常常是衡量设备性能的重要指标之一。

CPU 占用率高,是设备本身的一种现象,直观表现为display cpu-usage 命令查询结果中整机CPU 占用率“CPU usage”偏高,如超过70%。

或者产生告警basetrap_1.3.6.1.4.1.2011.5.25.129.2.4.1 hwCPUUtilizationRisingAlarm,默认超过90% 会产生此告警。

但是在网络运行中CPU 高常常会导致其他业务异常,如BGP震荡、VRRP频繁切换、单板复位、甚至设备无法登录。

业务异常的故障,请根据具体表现查看相应的故障处理章节。

以下讨论的原因及步骤基于CPU 占用率高这个现象。

通常,整机CPU 占用率过高,是由于某些任务的CPU 占用率居高不下导致的。

具体导致某任务CPU 占用率高的可能原因:l 上送CPU 报文过多,如环路或DoS 报文攻击l STP网络频繁震荡,收到大量TC 报文,造成设备频繁删除MAC表和ARP 表项l 设备产生海量日志,占用大量CPU 资源故障诊断流程详细处理流程如图3-1 所示。

图3-1 CPU 占用率高故障诊断流程图故障处理步骤说明请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。

以下的步骤之间并没有严格的顺序关系,实际操作中并不一定要遵守文中所给的顺序。

设备型号不同,以下步骤中命令的显示信息也会有差异,请以设备实际显示信息为准。

文中示例旨在告诉读者如何查看相关信息。

操作步骤步骤1 检查占用CPU 高的任务名称执行命令display cpu-usage,查看主用主控板各任务的CPU 占用率。

执行命令display cpu-usage slot slot-id 查看接口板各任务的CPU 占用率。

记录CPU 占用率超过70%的任务名称。

CPU利用率高的定位思路和方法

CPU利用率高的定位思路和方法

CPU利用率高的定位思路和方法一、确定CPU利用率高的原因:1.1 监测CPU利用率:使用操作系统或第三方的监控工具来实时监控CPU利用率。

可以使用Windows操作系统的任务管理器、Linux操作系统的top命令、第三方工具如SolarWinds等。

1.2分析CPU利用率:根据监测结果,分析CPU利用率的波动趋势、峰值出现的时间、对应的进程或服务等,找到CPU利用率异常高的原因。

二、定位CPU利用率高的可能原因:2.1进程或服务过多:检查系统中运行的进程或服务数量是否过多,特别是一些占用较多CPU资源的进程或服务,如数据库服务、网络服务等。

2.2病毒或恶意软件:使用杀毒软件对系统进行全面扫描,查杀病毒或恶意软件。

2.3资源竞争:检查系统中的其他资源使用情况,如内存、硬盘、网络等,是否存在资源竞争现象,导致CPU利用率高。

2.4CPU风扇散热不良:检查CPU风扇是否正常运转,散热是否良好。

如果CPU温度过高,会导致CPU频繁降频,进而导致CPU利用率上升。

2.5软件升级或安装问题:检查是否有最近安装或升级的软件可能引起了CPU利用率高的问题。

如果有,可以尝试回滚或卸载该软件,观察是否有改善。

2.6执行任务过多或任务调度不当:检查系统中是否有大量线程或进程同时执行,如果任务调度策略不合理,可能导致CPU利用率高。

可以调整任务的调度策略或限制任务的并发数。

三、解决CPU利用率高的方法:3.1优化进程或服务:分析CPU利用率高的进程或服务,优化其代码或配置,减少对CPU资源的占用。

3.2执行资源清理工作:定期清理系统中不需要的临时文件、日志文件、缓存文件等,释放磁盘空间和内存资源。

3.3增加硬件资源:如果CPU利用率高的原因是因为系统资源不足,可以考虑增加硬件资源,如增加CPU核心数、内存容量等。

3.4优化任务调度:根据实际需求和系统性能,调整任务的优先级和调度策略,合理分配CPU资源。

3.5部署负载均衡:如果是因为并发请求过多导致CPU利用率高,可以考虑使用负载均衡的方式将请求分散到多台服务器上,减轻单台服务器的负载压力。

S5800交换机频繁出现CPU利用率高问题案例分析

S5800交换机频繁出现CPU利用率高问题案例分析

案S5800交换机频繁出现CPU利用率高问题案例分析∙0推荐,1035浏览∙3收藏,我的收藏问题现象某局点反馈,S5800设备使用过程中,CPU利用率突然上升到100%,之后客户业务马上受到影响,登录设备查看进程发现arp占79%,但过了几分钟后CPU又回到原来水平了。

该故障情况不定时出现,每次出现持续一段时间。

原因分析1、根据诊断信息,可以确定占用CPU最多的进程是ARP任务。

现场通过抓包确认,CPU高时,设备收到较多ARP报文。

2、查看设备配置,发现配置了arp detection功能。

在配置了ARP Detection功能后,设备会将收到的ARP报文重定向到CPU进行检查,这样可能会导致当网络中存在攻击者恶意构造大量ARP报文发往设备,会导致设备的CPU负担过重,从而造成其他功能无法正常运行甚至设备瘫痪。

这种情况下,可以启用ARP报文限速功能来控制上送CPU的ARP报文的速率。

但现场配置arp报文限速功能后,cpu依然很高,后来关闭了arp detection功能后,故障仍然存在。

3、继续排查,通过现场在CPU高时打印上送cpu的报文,以及收集如下信息查看arp进程的具体调用栈情况。

[S5800]_h[S5800-hidecmd]dis task 110 slot 1 cpu 0[S5800-hidecmd]dis task 110 slot 2 cpu 0通过查看任务调用信息,发现下面的配置导致ARP进程偏高:arp anti-attack source-mac filterarp广播报文默认上cpu处理,而arp 单播回应报文只有目的mac是设备本身才会上送cpu,默认情况下目的mac不是自己的不上,配置该命令后,导致过路的arp也会上送cpu。

该命令的作用是:使能源MAC地址固定的ARP攻击检测之后,该特性会对上送CPU的ARP报文按照源MAC地址和VLAN进行统计。

当在一定时间(5秒)内收到某固定源MAC地址的ARP报文超过设定的阈值,不同模式的处理方式存在差异:在filter模式下会打印Log信息并对该源MAC地址对应的ARP报文进行过滤;在monitor模式下只打印Log信息,不过滤ARP报文。

交换机CPU使用率过高的原因分析及探讨

交换机CPU使用率过高的原因分析及探讨
制作网线时没有压好线、或者网线表皮有磨损 导致的短路可能会引起交换机的端口阻塞。因为大 多数交换机都是使用存储转发技术,它的工作原理 是对某一段数据包进行分析、判断、寻址,并进行转 发。在发出前数据包均存储在交换机的缓冲区内, 当网线发生短路时,该交换机将接收到大量的不符 合分装原则的数据包,造成交换机 CPU工作繁忙, 数据包来不及转发,从而导致缓冲区溢出产生丢包 现象,最后产生广播风暴。 1.1.5 网络环路
ARP攻击能够在网络中产生大量的 ARP通信 量使网络阻塞,攻击者只要持续不断地发出伪造的 ARP响应包,就能更改目标主机 ARP缓存中的 IP- MAC条目,造成网络中断或中间人攻击。ARP攻击 主要存在于局域网网络中,局域网中若有一台计算 机感染 ARP木马,则感染该 ARP木马的系统会试图 通过“ARP欺 骗 ”手 段 截 获 所 在 网 络 内 其 他 计 算 机 的通信信息并造成这些计算机出现通信故障。 1.3 高 CPU利用率的正常情况
当网络中存在物理环路时,会造成每一帧数据 都在网络中重复广播,引起广播风暴。要消除这种 网络循环连接带来的网络广播风暴可以使用 STP协 议(生成树协议),以网络中一台交换机为节点生成 一棵转发树,这样所有的数据都只在这棵树所指示 的路径上传输,就不会产生广播风暴———因为树型 结构没有环路。但由于 STP算法对交换机来说占用 资源太大,因此一般交换机都默认未启用该协议。 1.2 ARP攻击
集线器不具备交换功能,集线器对数据包的处 理方法是将数据包复制并放大,然后送到连接该集
收稿日期:2018-05-02 作者简介:蔡昱(1990—),男,江西省新余人,助理工程师,从事计算机软件、网络开发及维护工作。
第 38卷第 2期
蔡昱,朱忠琼,李丽华:交换机 CPU使用率过高的原因分析及探讨

5.华为交换机故障定位及处理方法

5.华为交换机故障定位及处理方法

常用的调试命令(二)
– display task 该命令必须在隐藏模式下执行,占用CPU时间CPU Time : 10/135 ,分子10为当前占用的时间,分母135为启动以来占 用CPU最长的时间;如果在CPU占用率高的情况时当前占用CPU 时间最长的任务就是有问题的任务。 [Quidway-hidecmd]display task ID Name Priority Status CPU Time 1 WEIL 10 Ready 3/10 2 STmr 225 Ready 1/4 3 SYST 180 Ready 0/2
案例1:速率不匹配导致链路时断时 通(二)
• 可能原因分析 – 网线问题,需检查网线的好坏; – 检查Sun E450网卡的好坏和3026E 接口的好坏; – 从告警可以估计到与传输速率有关,需进行配置分析。因 为3026E以太网口默认情况是自适应的,而SUNE450的网 卡也是自适应的,两者很可能因为速率不匹配,造成网络 的物理连接时通时断。 • 处理过程 – 监测网线,正常 – 监测Sun E450网卡,正常
常用的调试命令(四)
– display hwfib 该命令在系统模式下执行,显示硬件中的最长匹配转发表, 即配置或学习的缺省路由、间接网段路由和虚接口网段 (路由较多时,只有部分虚接口网段写入最长匹配转发 表)。 [Quidway]display hwfib Hardware fib entry information: Destination/Mask RtIf VTag Port Mac 0.0.0.0/1 2 2 Ethernet0/2 00e0-fc05-07c0 128.0.0.0/1 2 2 Ethernet0/2 00e0-fc0507c0 这时,要注意3526e的规格,3526e硬件路由表项只有16 条,超过16条则未解析的报文上cpu处理。

路由器交换机高CPU利用率排错文档

路由器交换机高CPU利用率排错文档

Troubleshooting High CPUUtilization翻译:陈丹丹武洋这篇文档包含如下几个部分:⏹CPU利用率概述⏹何时高CPU利用率有隐患⏹判断根本原因⏹有用信息⏹文档获取和提交服务请求CPU利用率概述当交换机启动后,交换机CPU会同时执行两项任务:⏹相应系统进程的各种中断请求⏹接收发送数据包当系统进程的中断请求或需要转发的数据包增加时,CPU利用率就会增加。

在正常的操作环境下,一个非堆叠交换机的CPU利用率在5%一下。

对于堆叠交换机,CPU 利用率最小会在7%-8%之间,CPU利用率只由主交换机测量,并且交换机堆叠的数量也会影响CPU利用率。

由于Cisco系统的后台计时器每秒会运行很多次,即使在最简单的部署中,CPU利用率也不会显示0%。

提醒正常的包转发是由硬件完成的,并不涉及CPU,所以包的转发不会受高CPU利用率的影响。

当需要CPU处理的数据包很多,或系统进程占用了过长的CPU处理时间,CPU负载就会过高。

当任何一种使用CPU资源的交换机功能受到攻击时,CPU负载也会过高。

例如:如果网络中存在广播风暴,CPU就会接收到过多的数据包,并处理它们,进而使其他系统进程得不到CPU处理。

查看CPU利用率,输入show cpu processes sorted命令。

输出会显示过去5秒、一分钟、5分钟的CPU利用率。

输出也会显示每个系统进程在各个周期下的利用率。

Switch# show processes cpu sortedCPU utilization for five seconds: 5%/0%; one minute: 6%; five minutes: 5%PID Runtime(ms) Invoked uSecs 5Sec 1Min 5Min TTY Process1 4539 89782 50 0.00% 0.00% 0.00% 0 Chunk Manager2 1042 1533829 0 0.00% 0.00% 0.00% 0 Load Meter3 0 1 0 0.00% 0.00% 0.00% 0 DiagCard3/-14 14470573 1165502 12415 0.00% 0.13% 0.16% 0 Check heaps5 7596 212393 35 0.00% 0.00% 0.00% 0 Pool Manager6 0 2 0 0.00% 0.00% 0.00% 0 Timers7 0 1 0 0.00% 0.00% 0.00% 0 Image Licensing8 0 2 0 0.00% 0.00% 0.00% 0 License Client N9 1442263 25601 56336 0.00% 0.08% 0.02% 0 Licensing Auto U10 0 1 0 0.00% 0.00% 0.00% 0 Crash writer11 979720 2315501 423 0.00% 0.00% 0.00% 0 ARP Input12 0 1 0 0.00% 0.00% 0.00% 0 CEF MIB API<output truncated>在输出中,过去5秒CPU利用率显示了两个数值(5%/0%)。

无线设备CPU利用率高问题故障排查

无线设备CPU利用率高问题故障排查

版权所有:杭州华三通信技术有限公司无线设备CPU利用率高问题故障排查一、开始CPU 超负荷运行时会造成很多问题,此时设备会出现丢包现象,从而导致正常业务受到很大的影响。

定位故障的思路是: 1.判断当前CPU 是否正常。

2.判断近期操作是否影响到CPU 。

3.判断具体是哪个进程长时间占用CPU。

1、查看当前设备CPU状态查看当前设备CPU信息是否正常,以便明确下一步操作。

命令:display cpu-usage例如:通过命令查看,可以确认当前CPU是否处于正常状态(长期高于70%表示异常)。

2、查看各进程占用CPU情况命令:进入隐藏模式 display cpu-usage task reset task-runtime-max display task例如:通过命令查看,可以确认具体是哪些进程大量占用CPU,下表列出常见CPU进程具体含义。

版权所有:杭州华三通信技术有限公司版权所有:杭州华三通信技术有限公司版权所有:杭州华三通信技术有限公司版权所有:杭州华三通信技术有限公司3、了解当前网络是否存在重大操作例如:(1)AP升级操作。

(2)设备新上网管软件。

(3)整网重大变动。

(4)在网设备掉电、重启、异常均可能影响到无线在网设备。

(5)在线的一些实时操作,包括AP手动重启、开关服务模板等。

4、反馈当前操作收集信息(1)将了解到的现场操作与可以收集到的历史信息结合到一起分析,有助于判断问题。

例如:第一、AP升级操作。

第二、设备新上网管软件。

第三、整网重大变动。

第四、在网设备掉电、重启、异常均可能影响到无线在网设备。

第五、在线的一些实时操作,包括AP手动重启、开关服务模板等。

(2)由于当前设备恢复正常,因此只能及时收集现有的历史信息供分析。

命令:display cpu-usage history [AC]display diagnostic-information 进入隐藏模式 display cpu-usage task reset task-runtime-max display task例如:通过命令查看,可以确认近一个小时的CPU利用率具体情况。

交换机CPU使用率高问题定位

交换机CPU使用率高问题定位

网络吞吐量下降
过高的CPU使用率会限制 交换机的转发性能,导致 网络吞吐量降低。
潜在安全隐患
01
安全策略失效
CPU使用率过高可能导致交换机无法及时应用或执行安全策略,如访问
控制列表(ACL)、防火墙规则等。
02
漏洞利用风险
攻击者可能会利用CPU使用率高的漏洞,通过发送大量恶意流量来耗尽
交换机资源,从而实施拒绝服务攻击(DoS)等网络攻击。
03
数据泄露风险
在CPU使用率过高的情况下,交换机可能无法及时处理或转发敏感数据,
导致数据泄露的风险增加。
02 原因分析及常见场景
硬件故障或配置不当
交换机硬件故障
交换机过载
如主板、电源、风扇等硬件故障,可 能导致CPU使用率异常。
连接的设备数量过多或者流量过大, 超出了交换机的处理能力,也会导致 CPU使用率升高。
未来发展趋势
未来交换机CPU使用率高问题将更加受到关注,相
网络设备智能化
云计算和虚拟化技术
未来网络设备将更加智能化,具备更强的 数据处理和自我管理能力。
云计算和虚拟化技术的应用将推动网络设 备向更高效、更灵活的方向发展。
AI和机器学习
新技术带来的机遇与挑战
电磁干扰
电磁干扰可能影响交换机硬件的正常工作,导致 数据传输异常,引发CPU使用率异常。
3
设备老化
交换机长时间使用后,硬件性能可能逐渐下降, 导致处理效率降低,CPU使用率升高。
03 诊断方法与步骤
收集相关日志信息
系统日志
检查交换机的系统日志, 了解是否有异常事件或错 误报告。
性能日志
收集CPU使用率、内存占 用率等性能数据,分析是 否存在资源瓶颈。

交换机故障现象-CPU高

交换机故障现象-CPU高
Jan 10 2009 22:11:04-05:13 SAJG-H3728TP %%01DEFD/4/CPCAR_DROP_MPU(l)[13]:Some packets are dropped by cpcar on the MPU. (Protocol=nd, Drop-Count=0696222)
Jan 10 2009 22:31:04-05:13 SAJG-H3728TP %%01DEFD/4/CPCAR_DROP_MPU(l)[6]:Some packets are dropped by cpcar on the MPU. (Protocol=arp-request, Drop-Count=013692251)
Jan 10 2009 22:31:04-05:13 SAJG-H3728TP %%01DEFD/4/CPCAR_DROP_MPU(l)[1]:Some packets are dropped by cpcar on the MPU. (Protocol=nd, Drop-Count=0471909)
Auto-duplex, Auto-speed, media type is 10/100BaseTX
input flow-control is off, output flow-control is unsupported
ARP type: ARPA, ARP Timeout 04:00:00
Jan 10 2009 22:31:04-05:13 SAJG-H3728TP %%01DEFD/4/CPCAR_DROP_MPU(l)[5]:Some packets are dropped by cpcar on the MPU. (Protocol=dhcp-client, Drop-Count=012)

Cat6500交换机高CPU利用率分析报告

Cat6500交换机高CPU利用率分析报告

Catalyst 6500/6000 Switch High CPU Utilization2009.9目录CATALYST 6500/6000 SWITCH (1)HIGH CPU UTILIZATION (1)第1章序言 (4)第2章广播风暴 (5)第3章ARP攻击 (7)第4章善意或恶意攻击 (9)第5章附件–参考文档 (19)Contents (19)Introduction (20)Prerequisites (20)Requirements (20)Components Used (20)Conventions (20)Difference Between CatOS and Cisco IOS System Software (20)Understand CPU Utilization on Catalyst 6500/6000 Switches (21)Situations and Features That Trigger Traffic to Go to Software (22)Packets That Are Destined to the Switch (22)Packets and Conditions That Require Special Processing (22)ACL-Based Features (23)NetFlow-Based Features (24)Multicast Traffic (25)Other Features (25)IPv6 Situations (25)LCP Schedular and DFC Module (26)Common Causes and Solutions for High CPU Utilization Issues (27)IP Unreachables (27)NAT Translations (27)Use of CEF FIB Table Space in the Flow Cache Table (27)Optimized ACL Logging (29)Rate Limit of Packets to the CPU (29)Physical Merger of VLANs Due to Incorrect Cabling (31)Broadcast Storm (31)BGP Next-Hop Address Tracking (BGP Scanner Process) (31)Non-RPF Multicast Traffic (32)show Commands (33)Exec Processes (34)L3 Aging Process (35)BPDU Storm (35)SPAN Sessions (36)%CFIB-SP-STBY-7-CFIB_EXCEPTION : FIB TCAM exception, Some entries will be software switched (36)Copper SPFs (36)Modular IOS (37)Check CPU Utilization (37)Utilities and Tools to Determine the Traffic That Is Punted to the CPU (38)Cisco IOS System Software (38)CatOS System Software (42)Recommendations (43)第1章序言从目前很多案例看,引起CPU高的原因,按先后次序如下:1、内网广播风暴引擎:比如,客户曾经因其他问题开case到思科,思科售后工程师发现,客户65已持续一个月CPU 100%,经查明是广播风暴2、物理环路:多链路互联2个设备时、链路捆绑但配置错误时3、ARP检测:现在,80%的安全隐患来自内往,ARP欺骗/攻击就是其中一种,将导致内网网络设备CPU过高4、无意/恶意攻击行为:比如常见的为:SQL蠕虫病毒攻击和大量Syn flood攻击5、其他行为第2章广播风暴从交换机原理看网络广播风暴的几种原因:一、交换机基础知识交换机的定义:交换机是一种基于MAC(网卡的硬件地址)识别,能完成封装转发数据包功能的网络设备。

juniper ISG2000 CPU 使用率过高的排查方法

juniper ISG2000 CPU 使用率过高的排查方法

juniper ISG2000 CPU 使用率过高的排查方法一、CPU利用率历史记录查看nsisg2000(M)-> get performance cpu detailAverage System Utilization: 28%Last 60 seconds:59: 50* 58: 47 57: 46 56: 54* 55: 42 54: 4753: 49 52: 39 51: 36 50: 43 49: 33 48: 4347: 45 46: 41 45: 42 44: 44 43: 33 42: 3941: 43 40: 30 39: 35 38: 43 37: 33 36: 4335: 39 34: 40 33: 37 32: 39 31: 34 30: 4129: 34 28: 35 27: 39 26: 39 25: 37 24: 4223: 37 22: 42 21: 41 20: 38 19: 37 18: 4517: 37 16: 42 15: 44 14: 44 13: 38 12: 4811: 37 10: 40 9: 46 8: 38 7: 40 6: 465: 37 4: 43 3: 46 2: 36 1: 40 0: 46Last 60 minutes:59: 41 58: 39 57: 39 56: 46 55: 40 54: 3853: 38 52: 38 51: 38 50: 38 49: 39 48: 3847: 39 46: 41 45: 34 44: 39 43: 39 42: 3741: 38 40: 37 39: 36 38: 38 37: 39 36: 3735: 38 34: 37 33: 35 32: 38 31: 37 30: 3629: 35 28: 34 27: 38 26: 43 25: 37 24: 3723: 36 22: 41 21: 39 20: 42 19: 41 18: 4617: 59* 16: 40 15: 38 14: 33 13: 39 12: 3811: 35 10: 34 9: 34 8: 38 7: 36 6: 345: 34 4: 36 3: 39 2: 39 1: 39 0: 39Last 24 hours:23: 38 22: 23 21: 22 20: 26 19: 54* 18: 54*17: 50* 16: 29 15: 10 14: 9 13: 9 12: 911: 9 10: 9 9: 9 8: 9 7: 10 6: 115: 16 4: 46 3: 46 2: 55* 1: 74**0: 53*从设备输出显示中可以看到,在过去的24小时中,曾经出现过CPU利用率接近一个较高水平的情况。

交换机CPU使用率高的原因

交换机CPU使用率高的原因

交换机CPU使⽤率⾼的原因交换机CPU的功能1.管理已配置的软件协议,例如:– ⽣成树协议(STP)– 路由协议,例如OSPF和EIGRP– 热备路由协议(HSRP)– 思科发现协议(CDP)– 端⼝聚合协议(PAgP)– VLAN中继协议(VTP)– 动态中继协议(DTP)2.将配置/动态条⽬编程到硬件ASIC,例如:– 访问控制列表(ACL)– CEF条⽬3.内部管理各种组件,例如:– 以太⽹供电(PoE)线卡– 电源– 风扇架4.管理对交换机的访问,例如:– Telnet– 控制台– 简单⽹络管理协议(SNMP)5.通过软件路径转发数据包,例如:– Internetwork Packet Exchange(IPX)路由的数据包,仅在软件路径中受⽀持– 最⼤传输单元(MTU)分段查看CPU使⽤率的常⽤命令1.show processes cpu----查看CPU使⽤率2.show process cpu sorted----显⽰进程CPU排序3.show platform healt----查看哪些平台特定的进程使⽤CPUshow platform health | exc 0.00----过滤掉0%的4.show processes cpu sorted | section iosdIOSd: This is the Cisco IOS daemon that runs on the Linux kernel. It is run as a software process within the kernel.常见的CPU⾼利⽤率问题常见的CPU⾼利⽤率问题1.由于使⽤不完整的ARP进⾏K5L3审核作业⽽导致的CPU⾼利⽤率。

如Switch# show platform health%CPU %CPU RunTimeMax Priority Average %CPU TotalTarget Actual Target Actual Fg Bg 5Sec Min Hour CPU!--- Output suppressed.K5L3FlcMan FwdEntry 2.00 27.51 15 14 100 500 25 26 20 4454:02K5L3Unciast IFE Revi 2.00 31.28 15 10 100 500 26 26 21 4695:14K5L3UnicastRpf IFE R 2.00 31.41 15 7 100 500 26 26 20 4659:172.RSPAN导致CPU使⽤率⾼尽管RSPAN VLAN不会学习任何MAC地址,但是带有未知源MAC的数据包副本仍会发送到CPU并在CPU处丢弃。

快速定位华为交换机故障工具分享--产品实现

快速定位华为交换机故障工具分享--产品实现

常用信息采集快速定位华为交换机故障1、一键采集信息通过display diagnostic-information命令可以获取交换机的诊断信息,它集合了多条常用display命令的输出结果,包括交换机的启动配置、当前配置、接口信息、时间、系统版本等,是一键采集的好方法。

华为交换机提供了display diagnostic-information [ file-name ]命令,该命令可以将交换机目前运行的诊断信息输出到屏幕或txt文件。

包含启动配置、当前配置、接口信息、时间、系统版本等大量有用信息。

该命令使用方法如下:<HUAWEI> display diagnostic-information dia-info.txtThis operation will take several minutes, please wait............................................................................................................Info: The diagnostic information was saved to thedevice successfully.txt文件的缺省保存路径为cfcard:/,用户视图下使用dir命令可以确认文件是否正确生成。

采用直接在屏幕的显示方式,如命令输出的诊断信息较长,可以通过按Ctrl+C停止。

另外,该命令主要用于问题定位,搜集系统诊断信息,搜集时可能会影响系统的性能(例如CPU占用率升高等)。

因此,在系统正常运行时不建议执行该命令。

并且,严禁在连接到交换机的多个终端上同时执行该命令,否则可能造成交换机的CPU占用率明显增高,导致交换机性能下降。

目前常用的终端配置软件都提供了将显示信息输出到文件的功能,如Windows自带的超级终端:“传送 > 捕获文字”,输入保存的文件名后点击“启动”即可。

H3C路由器异常cpu利用率高故障排查

H3C路由器异常cpu利用率高故障排查

故障描述:外网路由器CPU不固定时间飙高100%,导致内网用户无法上网。

1、查看故障信息display cpuUnit CPU usage:18% in last 5 seconds18% in last 1 minute17% in last 5 minutesdisplay cpu hi100%| #########95%| #########90%| #########85%| #########80%| #########75%| #########70%| #########65%| #########60%| #########55%| #########50%| #########45%| #########40%| #########35%| #########30%| ######### #25%| ########## ## ### #20%|## ################## # ##### #############################15%|############################################################10%|############################################################5%|############################################################------------------------------------------------------------10 20 30 40 50 60 (minutes)cpu-usage last 60 minutes(SYSTEMsystem-view_hdisplay cpu taskTaskName CPU Runtime(CPU Tick High/CPU Tick Low)VIDL 37% 0/ cae5c4bTICK 0% 0/ 2235e0STMR 1% 0/ 591153DrTF 52% 0/119800edDrTm 0% 0/ 1032dIPCM 0% 0/ 335fINFO 0% 0/ 23dcfDEV 0% 0/ 126ecSOCK 6% 0/ 2518b55SFLW 0% 0/ 532fACL 0% 0/ 75ecLAGG 0% 0/ 3617MSTP 0% 0/ 30acGARP 0% 0/ 21e15CLST 0% 0/ ebbbNDP 0% 0/ 6113NTDP 0% 0/ 29ddHABP 0% 0/ 22d5LLDP 0% 0/ 291eACFP 0% 0/ 37eARP 0% 0/ 1f14dIP 0% 0/ 156450NQA 0% 0/ 1a1f11FSLH 0% 0/ 1f55FSLR 0% 0/ 1d2c7NTPT 0% 0/ 3bd7VTYD 0% 0/ 2a170ND 0% 0/ 33a61PBR 0% 0/ 10eaCWMP 0% 0/ 7329ACM 0% 0/ 1427dLS 0% 0/ 253bcRDSO 0% 0/ 164beSC 0% 0/ a2faIKE 0% 0/ 110edcL2TP 0% 0/ 1a064ULOG 0% 0/ 20ed4BFD 0% 0/ 18493MFIB 0% 0/ 438STND 0% 0/ f33bROUT 0% 0/ 196fbcIPP 0% 0/ 23c6SIP 0% 0/ 1518fTSsm 0% 0/ 149daWIDS 0% 0/ 17427IFNT 0% 0/ 309bvt2 0% 0/ 3ba146display taskDisplay task 18抓取信息交予H3C 400 分析cpu不稳定增高并到100%,导致业务不正常,查看进程DrTF 52% 0/119800ed为系统转发进程。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets)
-------------------------------------------------------------------------------
arp-miss
0
0
0
0
arp-reply
注意,查看统计时,需要关注协议冲击位于哪个槽位,即“Statistics on slot x”。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
10
第三步:按协议类型分别处理-1
ARP
通过display interface检查哪些接口存在Broadcast数量异常,并在此接口配置广播流量抑 制,限制单个接口广播速率(例如限制为50pps):
中的arp-request类型。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
4
display logbuffer
<Quidway>display logbuffer Logging buffer configuration and contents : enabled Allowed max buffer size : 1024 Actual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 395
0
35
0
……
通过cpu-defend统计查询功能,确认哪类协议存在冲击情形,可以通过各类协议的Drop列计数进 行确认。如果某类协议Drop计数非常大,且Drop列计数相对于Pass列计数占比较高(例如达到20% 以上),则认为属于此类协议存在冲击CPU情况。例如上表中的arp-request,后续按照第三步中的 ARP协议对应处理方式进行处理。
Feb 28 2012 16:37:40 Quidway %%01SNMP/4/DECODE_ERR(l):Failed to login th rough SNMP, because of the decoded PDU error. (Ip=10.71.109.69, Times=4) …… Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(40%), SNPG(30%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) ……
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
11
第三步:按协议类型分别处理-2
TCP/ARP-MISS
此种情况一般是由于网络中存在针对不存在的某些直连网段IP地址进行扫描导致的. 当有数 据报文发送到这些不存在的IP地址时,会将数据上送CPU处理,以触发ARP学习过程,建议 此时在每个vlanif接口下调整ARP学习延迟时间:
<Quidway>display cpu-defend statistics all
Statistics on slot 0:
-------------------------------------------------------------------------------
Packet Type
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
9
第二步:确认报文类型
<Quidway>display cpu-defend statistics all
Statistics on slot 0:
-------------------------------------------------------------------------------
IPCQIPC task for single queue
10%
0/ ecb2fc
SOCKPacket schedule and process
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
3
display cpu-defend statistics
384
0
6
0
arp-request
346825664
83619584
5419151
1306556
dhcp-client
0
0
0
0
dhcp-server
1427
0
4
0
……
igmp
2240
0
35
0
nap
0
0
0
0
nd
1424
0
16
0
snmp
0
0
0
0
tcp
0
0
0
0
telnet
0
0
0
0
ttl-expired
0
0
bcmRX
0%
0/
0
CHAL
23%
0/ 5a876
FTS
0%
0/
0
MOD Module Management
通过故障现象中的告警信息,可以确认CPU占用率TOP任务中包含有bcmRX、FTS报文收取任务, 基本可以确认属于协议收报过多导致CPU占用率上升。
可以通过CPU使用率查询功能进一步核实TOP任务中是否包含有收包任务;可以通过slot指明查询的 槽位号。
0
0
unknown-multicast
0
0
0
0
……
-------------------------------------------------------------------------------
对于报文冲击导致CPU高的情形,可进一步通过cpu-defend统计查询功能确认具体的协议类型。 协议上送过多判断标准:该协议对应的Drop列有大量计数,且相对于Pass计数占比较高,例如上表
CPU Usage Stat. Cycle: 60 (Second)
CPU Usage
: 85% Max: 99%
CPU Usage Stat. Time : 2001-04-25 16:15:00
CPU utilization for five seconds: 90%: one minute: 85%: five minutes: 86%
定位思路 故障举例 第一步:检查CPU占用率TOP任务 第二步:检查上送过多的协议类型 第三步:按协议类型分别处理
CPU使用率高问题信息采集
定位思路
CPU使用 率检查
确认 TOP 任务
确认 报文 类型
协议 分类 处理
其它情 形信息 采集
最常见协议冲击CPU致使用率高主要表现在bcmRX、FTS、SOCK等任务上。 bcmRX是设备硬件中断触发的的收包任务,它会将收取到的报文立刻转交软件层面的FTS任务进行
0%
0/ dad772
BOX Output
0%
0/
0
Infinite loop event task
0%
0/
0
Exception Agent Task
15%
8/b51c8f1b
DOPRA IDLE
0%
0/ 91e2d7f
0%
0/
0
CLKI
0%
0/ 12202d9
DEV Device
5%
0/ cb817af
# broadcast-suppression pps 50. #
DHCP
请确认本机是否需要开启DHCP,如果不需要请在全局undo dhcp enable; 如果需要,建议在下行接口开启dhcp error-down功能(具体信息请参考用户手册): # dhcp snooping check dhcp-rate enable dhcp snooping check dhcp-rate trigger error-down # 并建议通过基于dhcp报文的流量统计功能,来发现哪个接口发送了过多的DHCP报文。
Max CPU Usage Stat. Time : 2008-05-26 09:30:07.
TaskName
CPU Runtime(CPU Tick High/Tick Low) Task Explanation
BOX
0%
0/ 35090
BOX Output
_TIL
0%
0/
0
Infinite loop event task
分发处理。 对于属于三层协议处理的报文,往往还伴随有SOCK任务占用率高的情况出现。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
7
故障举例
故障描述:交换机产生CPU_USAGE_HIGH告警:
Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(27%), VPS(15%), bcmRX(5%). (CpuUsage=99%, Threshold=80%)
相关文档
最新文档