且看贵州TL-NVR6400画面严重卡顿的问题是如何一步步解决的
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
且看贵州TL-NVR6400画⾯严重卡顿的问题是如何⼀步步解决的遇到什么问题呢?
2018年11⽉15⽇,铜仁⽯阡县的TP-LINK⼯程商来电,反馈⾃⼰做的⼀个⼤型监控项⽬出现卡
顿掉线问题。
安装⼀个⽉之前,效果⾮常给劲,所以就等着甲⽅验收,没想到验收前两天出现
这档⼦事⼉。
认识拓扑
我们了解问题之前,务必认识这个拓扑,⽅便后续的问题分析和定位:
该项⽬是⼀期⼯程,使⽤我司48台H.264 C系列200W摄像机,通过如上⽹络中的8条光纤汇集
到核⼼交换机,NVR为两台TL-NVR6400,分别叫做NVR A和NVR B,为了⽅便两个地⽅监
控,两台NVR分别添加了48路IPC。
问题现象
在正常使⽤⼀个⽉后,1号光纤下的19台IPC出现严重的画⾯卡顿、掉线,其他光纤下⾯的IPC
没有问题,并且A、B任意⼀台NVR添加这些IPC也可以正常使⽤。
出现问题时,很多通道掉线、卡顿
⼯程商技术⼩李联系到我们,希望提供技术⽀持。
开始排查
接到该问题后,我们迅速安排⼯程师对接,根据问题现象:两台NVR卡顿、单台NVR正常、1
号光纤异常,那不就是常见的主⼲线路传输速率不⾜吗?带着这个最可能的因素,开始了排
查:
⾸先,⽤诊断⼯具确定延迟
⼀般情况下,⽹络视频监控中出现卡顿、掉线、花屏,绝⼤部分情况是⽹络传输引发问题,我
们优先通过ping进⾏快速诊断。
Ping可以直观的确定⽹络链路的延迟,从⽽可以判断⽹络线路
质量。
录像机上⾃带诊断⼯具(推荐使⽤),下⾯来看看录像机上ping的结果。
1号光纤下的19台IPC⽆⼀例外的ping延迟都在3000ms左右,但2~8号光纤下的29台IPC的ping
延迟都是1ms。
有线⽹络中,ping延迟⼀般不会超过1ms,到这⾥能说明什么呢?⼤家的想法可
能是⼀致的,所谓英雄所见略同,那就是:会不会是1号光纤出了问题呢?
怀疑1号光纤传输线路问题
做过⼀定规模的⼯程商朋友,都应该对交换机千百兆选型有⼀定认识,当IPC上传的视频流量⼤
于70M就选择1000M接⼝的交换机,只有这样才能有效保证传输的稳定。
实际中也有特别多⽤
户使⽤百兆交换机带着三五⼗个摄像头,出现严重掉线、花屏的问题。
针对这个现场,我们做个快速的计算:⼀个摄像头接近4M(启⽤H.264+),19个总共不超过
80M,那么每⼀台NVR单独添加IPC都正常,但同时添加就达到160M以上的视频流量,就出现
严重的卡顿,会不会是1号光纤速率没有达到1000M呢?
我们就试着删除两台NVR上的通道,删除到⼀定程度,ping的延迟确实下降了,降低效果如
下:
当然,删除到1号只有⼏台IPC的时候,ping延迟⼀样可以降低到1ms左右(偶尔波动到
10ms)。
排查1号光纤
既然现象上看到是1号光纤下的传输延迟如此的是曾相识,那么到这⾥,检查⼀下⼀号光纤的情况理所当然了。
⼩李是⼀位经验⽼到的技术能⼿,现场配合⾮常给⼒。
通过光纤功率计检测确定光纤没有太⼤问题。
⽽且从1号光纤的B端连接PC进⾏ping操作也没有问题(在拔掉8⼝千兆交换机的情况下测试)。
但如果接⼊交换机后,也就是PC跨8⼝交换机再去ping NVR就出现很⼤的延迟,此时就⽆法准确定位是交换机问题,还是光纤的问题。
排查1号交换机
1号光纤下的B端光纤收发器连接着千兆交换机,我们将PC连接到8⼝全千兆交换机上,对下⾯的IPC和NVR进⾏ping操作,延迟依旧⾮常⼤。
但是PC直接连接下级交换机,ping操作正常(当然,此时交换机上没有视频流量)。
难道是千兆交换机的问题?
⼩李赶紧拿了两台交换机,分别是8⼝千兆和24⼝千兆上去,问题依旧,只是24⼝千兆稍微⽐8⼝轻微⼀些。
⾄此,交换机、1号光纤都没问题,那为什么1号的延迟这么⼤呢?问题陷⼊僵局。
晚上,谨慎的⼩李依旧不放⼼光纤,就和经理更换了1号光纤(光纤长度约65⽶),经过熟练地布线、熔纤操作,重新布了⼀条光纤,但问题依旧。
第⼆天中午,联系到我们说明情况。
我们⽴即安排⼯程师到现场排查。
出差现象
为了保证客户交付,我们优先从就近省会安排⼯程师,总部技术进⾏远程指导排查。
到了现场后,⽴即开展排查:为了给⼤家更直观的介绍处理,我们不⼀⼀介绍现场的繁复操作,总的来说现场先对关键节点的设备进⾏了更换:
更换核⼼交换机为TP-LINK交换机,1号光纤下的延迟降低了⼀个等级,但依旧很卡;
更换光纤收发器为TP-LINK⼯业级千兆收发器,问题没有改善。
更换8⼝千兆交换机为全千兆24⼝,问题有所缓解,但依旧很卡。
通过各种删减摄像机,没有看出什么明显的问题,1号光纤铁打不动ping延迟严重,但2~8号⼀直稳定。
到这⾥,问题现象⽆法解释,需要灵光⼀现。
发现端倪-NVR没有协商到千兆速率
排查过程中,我们注意到,ping两台NVR的时候,NVR A的延迟始终⼩于1ms,但NVR B的延迟却上升到5~6ms了(需要强调的是,前⼀天排查时延迟在1~5ms跳动)。
这不是⼀条千兆的光纤吗?怎么会有这么⼤的延迟,⼲脆先看看这条线路的问题。
如果删减摄像头到⼀定数量,延迟就⾃然降了下来,说明这条链路有问题。
下⾯是删除数量不等的IPC时ping的结果:
注意:以上ping IPC的延迟是更换了TP-LINK传输设备后的延迟。
根据直觉经验,NVR的主线延迟极有可能是主线没有到达对应速率,⼯程师本能的检查了NVR 的以太⽹接⼝协商速率,发现竟然是100M!⾄此,问题明⽩了,那就是NVR B的链路质量较差,影响到了下⾯的链路,1号光纤是被带坏的,⽽不是⾃⾝有问题。
NVR上可以直接查看到⾃⾝的端⼝协商速率,对于⼯程商朋友排查问题⾮常有帮助,可以在【⽇志信息】-【系统信息】-【⽹络信息】中查看到。
峰回路转-都是⽼⿏惹的祸
既然NVR⾃⾝的接⼝速率被协商为100Mbps,说明和NVR连接的光纤收发器或者线路有问题。
就开始对B端进⾏检查,⼩李惊奇的发现,B端接⼝处的⽹线被⽼⿏咬断了⼏根线…..。
那么问题原因就清楚了,NVR的主线路被⽼⿏“破坏”,速率没有达到千兆,在传输48个IPC(约200M)的流量时,超出端⼝转发能⼒、流量延迟上升,出现“连锁效应”导致下⾯的交换机出现卡顿(原因我们单独介绍)。
纠正⽅法-重新打⽹线
⼩李熟练地三两下打好⽹线,再次接⼊,ping延时瞬间恢复正常,现场画⾯⾮常流畅稳定。
此时观察画⾯,两台NVR 分别添加后,稳定的⼀塌糊涂。
原因分析
到这⾥,已经是晚上8:00了,问题也已经圆满解决,⼩李和⼯程师对现场IPC、NVR进⾏批量在线升级。
这⾥相信⼤家也有不少疑问,为什么偏偏是1号光纤有问题?为什么1号光纤ping延迟这么⼤?为什么会有连锁反应?
我们介绍下原因:传输设备(交换机等设备)在发送速率⼩于接收速率且缓存⽆法完全缓存来不及转发的数据时,就会发出流控信号给下级发送设备,提⽰其慢点发送,如此⼀级⼀级的传递。
流控对于监控⽹络是⾮常有意义的,可以应对监控数据的特殊流量模型,让数据传输更稳定。
在这个⽹络中,核⼼交换机转发不出去数据,就会知会1~8慢点发,那么这个信息会⼀直“传递”给所有交换机,最终出现链路延迟升⾼。
就好⽐道路塞车,前车会⾼速后车慢点,⼀级⼀级传递,最终整条道路都拥堵住了。
如下图:
流控⽰意图
经验总结
⼀只⽼⿏会坏了⼤事,但没办法责怪⽼⿏。
⽹络监控的传输卡顿,问题绝⼤部分情况出现在⽹络,所以要沉下⼼、注意丝毫异常、进⾏推断并针对性的排查和调整,必能定位问题。
本监控⽹络中,值得⼤家留意的是:
两台或多台NVR添加同样的IPC,务必保证交换机上联线路能承载这部分翻倍的流量,即⼤于70M,推荐⽤千兆交换机。
H.264+启⽤后码率可以降低到⼀定程度,但H.265+的码率更低,约为H.264+的1/4,所以
H.265+对交换⽹络的适应能⼒更强,该项⽬如果使⽤H.265+的摄像机,即使出现类似线路的问题,也可以正常使⽤。
局域⽹ping延迟检测是⾮常有效的⼯具,NVR⾃带的诊断⼯具可以便于⼤家现场排障。
纯有线的监控⽹络中,任何设备之间的ping延迟⼀般不超过1ms,超过则意味着该线路有⼀定的不稳定性。
以上是该项⽬问题跟进的总结,⼀些问题的分析和处理思路、经验总结。
⼤多数问题到最后,其原因就是那不起眼的因素造成,需要⼤家善⽤⼯具发现、解决问题。
项⽬介绍
该项⽬是贵州铜仁⽯阡北坪⽣态农业园区⼀期项⽬,该园区是发展绿⾊产品、科技推⼴、⽣态采摘、观光休闲、度假体验、品尝⼀体化的⽣态农业观光园,北坪⽣态农业园是该县重点招商引资项⽬。
项⽬使⽤TP-LINK全系列监控设备。
在此感谢⽯阡经销商⼩李的配合!。