专题五:交换机CPU使用率高问题定位
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Huawei Confidential
3
display cpu-defend statistics
<Quidway>display cpu-defend statistics all Statistics on slot 0: ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) ------------------------------------------------------------------------------arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 … … igmp 2240 0 35 0 nap 0 0 0 0 nd 1424 0 16 0 snmp 0 0 0 0 tcp 0 0 0 0 telnet 0 0 0 0 ttl-expired 0 0 0 0 unknown-multicast 0 0 0 0 … … ------------------------------------------------------------------------------
bcmRX是设备硬件中断触发的的收包任务,它会将收取到的报文立刻转交软件层面的FTS任务进行
分发处理。 对于属于三层协议处理的报文,往往还伴随有SOCK任务占用率高的情况出现。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
7
故障举例
故障描述:交换机产生CPU_USAGE_HIGH告警:
对于报文冲击导致CPU高的情形,可进一步通过cpu-defend统计查询功能确认具体的协议类型。
协议上送过多判断标准:该协议对应的Drop列有大量计数,且相对于Pass计数占比较高,例如上表 中的arp-request类型。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 4
第二步:确认报文类型
<Quidway>display cpu-defend statistics all Statistics on slot 0: ------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets) ------------------------------------------------------------------------------arp-miss 0 0 0 0 arp-reply 384 0 6 0 arp-request 346825664 83619584 5419151 1306556 dhcp-client 0 0 0 0 dhcp-server 1427 0 4 0 dhcpv6-reply 0 0 0 0 dhcpv6-request 0 0 0 0 icmp 0 0 0 0 icmpv6 0 0 0 0 igmp 2240 0 35 0 … …
ARP协议对应处理方式进行处理。
注意,查看统计时,需要关注协议冲击位于哪个槽位,即“Statistics on slot x”。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 10
第三步:按协议类型分别处理-1
ARP
通过display interface检查哪些接口存在Broadcast数量异常,并在此接口配置广播流量抑 制,限制单个接口广播速率(例如限制为50pps):
Feb 28 2012 16:37:40 Quidway %%01SNMP/4/DECODE_ERR(l):Failed to login th rough SNMP, because of the decoded PDU error. (Ip=10.71.109.69, Times=4) … … Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(40%), SNPG(30%), bcmRX(5%). (CpuUsage=99%, Threshold=80%) … …
# broadcast-suppression pps 50. #
DHCP
请确认本机是否需要开启DHCP,如果不需要请在全局undo dhcp enable;
如果需要,建议在下行接口开启dhcp error-down功能(具体信息请参考用户手册): # dhcp snooping check dhcp-rate enable dhcp snooping check dhcp-rate trigger error-down # 并建议通过基于dhcp报文的流量统计功能,来发现哪个接口发送了过多的DHCP报文。
CPU
Runtime(CPU 0% 0% 0% 15% 0% 0% 0% 5% 0% 23% 0%
Tick High/Tick Low) Task Explanation 0/ dad772 BOX Output 0/ 0 Infinite loop event task 0/ 0 Exception Agent Task 8/b51c8f1b DOPRA IDLE 0/ 91e2d7f 0/ 0 CLKI 0/ 12202d9 DEV Device 0/ cb817af bcmRX 0/ 0 CHAL 0/ 5a876 FTS 0/ 0 MOD Module Management
CPU使用率高往往还伴有告警、日志出现,可以通过查看日志缓冲区的历史记录,搜索 CPU_USAGE_HIGH日志,以便确认CPU占用率TOP 3的任务。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
5
目录
诊断工具 报文冲击导致的CPU使用率高问题
通过故障现象中的告警信息,可以确认CPU占用率TOP任务中包含有bcmRX、FTS报文收取任务, 基本可以确认属于协议收报过多导致CPU占用率上升。 可以通过CPU使用率查询功能进一步核实TOP任务中是否包含有收包任务;可以通过slot指明查询的 槽位号。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential 9
备注: 如果网管需要主动监测CPU使用率,可通过OID:1.3.6.1.4.1.2011.5.25.31.1.1.1.1.5获取。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
8
第一步:检查CPU占用率及TOP任务
<Quidway>display cpu-usage [ slot x ] CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 85% Max: 99% CPU Usage Stat. Time : 2001-04-25 16:15:00 CPU utilization for five seconds: 90%: one minute: 85%: five minutes: 86% Max CPU Usage Stat. Time : 2001-04-24 17:17:07. TaskName BOX _TIL _EXC VIDL TICK CLKI DEV bcmRX CHAL FTS MOD
空闲任务
任务描述
0% 25% 0% 10% 0/ 0/ 0/ 0/ 0 416 10105f ecb2fc FOAM FTS IPCQIPC task for single queue SOCKPacket schedule and process
HUAWEI TECHNOLOGIES CO., LTD.
<Quidway>display cpu-usage CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 40% Max: 54% CPU Usage Stat. Time : 2008-05-27 09:21:46 CPU utilization for five seconds: 50%: one minute: 49%: five minutes: 47% Max CPU Usage Stat. Time : 2008-05-26 09:30:07. TaskName BOX _TIL _EXC bcmRX VIDL TICK … … FOAM FTS IPCQ …… SOCK CPU 0% 0% 0% 2% 50% 0% Runtime(CPU Tick High/Tick Low) Task Explanation 0/ 35090 BOX Output 0/ 0 Infinite loop event task 0/ 0 Exception Agent Task 0/ 3b69a bcmRX 0/af3cd700 DOPRA IDLE 0/ 1414bb
定位思路 故障举例
ห้องสมุดไป่ตู้
第一步:检查CPU占用率TOP任务
第二步:检查上送过多的协议类型 第三步:按协议类型分别处理
CPU使用率高问题信息采集
定位思路
CPU使用 率检查
确认 TOP 任务
确认 报文 类型
协议 分类 处理
其它情 形信息 采集
最常见协议冲击CPU致使用率高主要表现在bcmRX、FTS、SOCK等任务上。
display logbuffer
<Quidway>display logbuffer Logging buffer configuration and contents : enabled Allowed max buffer size : 1024 Actual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 395
通过cpu-defend统计查询功能,确认哪类协议存在冲击情形,可以通过各类协议的Drop列计数进 行确认。如果某类协议Drop计数非常大,且Drop列计数相对于Pass列计数占比较高(例如达到20%
以上),则认为属于此类协议存在冲击CPU情况。例如上表中的arp-request,后续按照第三步中的
Security Level:
交换机CPU使用率高问题定位
www.huawei.com
HUAWEI TECHNOLOGIES CO., LTD.
目录
诊断工具
display工具 log工具
报文冲击导致的CPU使用率高问题
CPU使用率高问题信息采集
display cpu-usage [ slot x ]
Feb 28 2012 16:35:36 Quidway %%01VOSCPU/4/CPU_USAGE_HIGH(l)[126]:Slot=5;The CPU is overloaded, and the tasks with top three CPU occupancy are FTS(27%), VPS(15%), bcmRX(5%). (CpuUsage=99%, Threshold=80%)