流氓ONU处理方法汇编

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

流氓ONU处理方法汇编
一、华为厂家:
故障现象:某局点报障OLT 0/5/6 pon口下绝大多数ONT无法上线,现场更换分光器后,ont正常上线一会儿,约10分钟时间后故障再次出现,之后PON口下大量ONT全部处于离线状态。

处理过程:
1. 查看PON口下ont状态,绝多数光猫均处于离线状态,个别ont在线。

0/5/6 0 1047-80E3-0C58 active offline initial initial no
0/5/6 1 AC4E-91EC-3217 active offline initial initial no
0/5/6 2 AC4E-91EB-A553 active offline initial initial no
0/5/6 3 4CB1-6C9A-8D34 active online normal mismatch no
0/5/6 8 1047-80E1-646E active online normal mismatch no
0/5/6 16 FCC8-9714-52EE active offline initial initial no
0/5/6 17 344B-5080-BAF6 active offline initial initial no
0/5/6 18 AC4E-91E9-3D2D active offline initial initial no
0/5/6 24 04C1-B967-F0D8 active offline initial initial no
0/5/6 32 04C1-B967-A452 active offline initial initial no
0/5/6 40 04C1-B967-CB80 active offline initial initial no
0/5/6 41 AC9C-E4BD-46BD active offline initial initial no
0/5/6 42 04C1-B967-E052 active offline initial initial no
2. 根据客户反馈的故障现象,怀疑PON口下存在流氓ont。

查看pon口状态,系统检测显示pon口下存在非法入侵的流氓ont,且查看到ont最后一次下线原因为LOSi。

如下:
XJ-ALT--MA5680T-2(config-if-epon-0/5)#display port state 6
----------------------------------------------------------------------------
F/S/P 0/5/6
Optical Module status Online
Port state Online
xPON MAC chipset state Normal
Low time lapse -
Last down cause -
Last up time 2014-04-17 18:01:32+08:00
TX power(dBm) 4.81
Illegal rogue ONT Existent//显示存在流氓ont
Max rate(Kbps) 1300000
Max Distance(Km) 20
Wave length(nm) 1490
Fiber type Single Mode
Signal detect Normal
TX fault Normal
Identifier SFP
选取某个ONT,查看它最后一次离线原因为LOSi。

XJ-ALT-FY-ZXJ-MA5680T-2(config)# display ont info 0 5 6 8
-----------------------------------------------------------------------------
F/S/P : 0/5/6
ONT-ID : 8
Control flag : active
Run state : online
Config state : normal
Match state : mismatch
……
Last down cause : LOSi
Last up time : 2014-04-17 18:52:29+08:00
Last down time : 2014-04-17 18:51:31+08:00
Last dying gasp time : 2014-04-15 01:48:00+08:00
ONT online duration : 0 day(s), 0 hour(s), 2 minute(s), 38 second(s)
3. 进入单板模式,进入pon板,将该PON口0/5/6下所有ont全部deactivate,然后逐个逐个执行ont active操作,故障依旧,所有ont均无法激活。

4. 全局模式下执行命令anti-rogueont autodetect on 打开系统自动隔离检测到的流氓ONT功能开关。

几分钟后,设备显示alarm相关告警信息如下:
ALARM 919736 故障告警警告 0x2e314022 硬件设备类 2014-04-17
18:42:47+08:00
告警名称:ONT是流氓ONT
业务影响:影响业务
参数信息:机框号: 0, 槽位号: 5, 端口号: 6, ONT ID: 3
告警描述:ONT光模块常发光,ONT是流氓ONT
告警原因:ONT光模块常发光
修复建议:(1)隔离ONT
(2)替换ONT
5. 派人前往现场手工清除更换该流氓ont后,PON口下其他ont均陆续正常上线,用户业务恢复正常。

此时设备alarm告警如下:
ALARM 919766 恢复告警清除 0x2e324021 硬件设备类 2014-04-17
18:57:31+08:00
告警名称:端口下的非法入侵流氓ONT已经被清除
业务影响:不影响业务
参数信息:机框号: 0, 槽位号: 5, 端口号: 6
告警描述:端口下的非法入侵流氓ONT已经被清除
告警原因:端口下非法入侵的流氓ONT已被替换
修复建议:无需处理
6. 执行命令anti-rogueont autodetect off 关闭设备自动隔离检测到的ont 功能开关。

问题解决。

对于流氓ONU的判定,还可以通过U2000网管进行判断
登录U2000网管客户端,进入设备面板查看PON口状态,可以看到PON下时候存在流氓ONU的显示:
解决方法:
现场手工清除更换掉该ont后,pon口所有ont全部正常上线,问题解决
总结和建议:
关于流氓ont问题,总结如下:
1. 流氓ont定义:由于PON上行时分复用,每个ONT根据OLT分配的时间戳向上行方向发送数据包。

当某个ONT在没有分配时间戳的时候发光的话,就会与其他ONT的发光信号发生冲突。

我们把这种不按照分配的时间戳向上发送光信号的ONT 叫流氓ONT。

2. 流氓ONT主要分为以下两种:
1).长发光流氓ont:ont一直在发光(任何时刻都在发光)。

2).乱发光流氓ont:在非OLT分配的时间戳内发光,可能是提前发光,或者是延迟关断等。

3. 流氓ONT常见故障现象:
1).如果该ONT已上线,会导致同一PON口下其他某个ONT或者所有ONT下线(离线)或者大部分ONT频繁上下线。

2).如果该ONT未配置,会导致OLT设备下其他未配置的ONT无法正常自动发现。

4. 流氓ont问题常见解决办法:
当怀疑PON口下存在流氓ont时,一般在PON口下将所有ont全部deactivat 然后逐个逐个active的方法往往并不能解决问题,现网常见的解决问题办法如下:
1)对于长发光流氓ont,处理起来比较简单,如上案例。

一般采取在OLT设备上自动隔离检测流氓ont的方法。

命令为:anti-rogueont autodetect on (OLT配置该命令后,系统检测到流氓
ONT时,上报告警信息并将该流氓ONT设置为隔离状态。

处于隔离状态的流氓ONT
只能接收信息,不能发送数据。

(命令使用限制条件:1、系统只能检测长发光的流氓ONT。

2)对应PON口下的ONT必须全部要支持华为扩展PLOAM消息(GPON);或扩展OAM消息(EPON))。

另外注意:
1. GPBC单板仅支持长发光流氓ONT检测,不支持排查和隔离。

2. EPBA单板不支持长发光ont检测。

2).对于乱发光流氓ont,需要通过现场手工逐个排查的方法来解决。

a. 现场在分光器处将分支光纤全部拔掉,然后一根光纤一根光纤的插。

插入第一根分支光纤,ont正常上线后,再插入第二根分支光纤。

依次进行,当插入
某根分支光纤后,PON口下其他ont出现离线故障,证明该分支光纤有问题或者
下挂ont是流氓ont。

b. 现场在分光器侧使用光功率计来测量ont的发送光功率,以此来判断流氓ont的存在。

光功率计波长选择1310nm,逐个测量ont上行发送给OLT设备的光功率值。

在1分钟之内观察光功率计读数情况变化。

如果光功率计一直没有读数,说明不存在流氓ont;如果光功率计一直有读数,证明存在长发光的流氓ont;
如果光功率计时而有读数,时而没有读数,则该测量处存在乱发光的流氓ONT。

二、中兴厂家:
流氓ONU定义:正常情况下ONU发光时隙是由OLT控制的,但是当ONU发光时隙不再受OLT控制并且其光模块处于长发光或乱发光状态。

这样的ONU就叫流氓ONU。

2、在C300上打开流氓ONU检测开关
(config-pon)#rogue-onu-detect 5 enable locate enable auto-shutdown enable //此处的数字5代表槽位号,locate enable表示打开流氓ONU定位开关,auto-shutdown enable表示自动关闭流氓ONU
3、在C300上查看流氓ONU告警(由于C300对ONU的检测是采用逐个ONU顺序检查的方法,需要等一段时间后再查看告警)
ZXAN#show logging alarm | include Rogue
ONU
An alarm 35279 level 0 occurred at 18:47:49 08/10/2012 UTC sent by MCP GPON a
larm Rogue ONU detected: shelf 1 slot 5 olt 1 onu 1 level 0 on
当C300检查到该流氓ONU后,会自动关闭该ONU,长发光ONU被关闭之后,其他正常ONU会自动上线,后续需要将检测到的流氓ONU进行更换,排除隐患。

4、在OLT上启用检测流氓onu 的功能(该功能需要onu支持)
rogue-onu-detect 2 enable locate enable auto-shutdown disable
第一个参数2是槽位号,locate 是长发光onu位置使能,也就是长发光告警的位置(定位为哪个onu长发光),auto-shutdown是自动关闭长发光的onu,enable是关闭,disable是不关闭。

三、贝尔厂家:
故障现象:
OLT下带的PON用户(对应OLT PON端口1/1/2/2,该PON带大约25个ONT用户)不定时出现闪断,故障表现为ONT用户不停上线下线,闪断频率时快时慢,没有规律,且误码率增长非常迅速,具体log信息如下:
15/02/09 01:29:11 major alarm occurred for ont 1/1/2/2/36 (service
affecting) : ONT is inactive
15/02/09 01:29:11 major alarm occurred for ont 1/1/2/2/27 (service
affecting) : ONT is inactive
15/02/09 01:29:14 major alarm occurred for ont 1/1/2/2/25 (service
affecting) : ONT is inactive
15/02/09 01:29:16 major alarm occurred for ont 1/1/2/2/23 (service
affecting) : ONT is inactive
15/02/09 01:29:16 major alarm occurred for ont 1/1/2/2/18 (service
affecting) : ONT is inactive
15/02/09 01:29:16 major alarm occurred for ont 1/1/2/2/16 (service
affecting) : ONT is inactive
15/02/09 01:29:16 major alarm occurred for ont 1/1/2/2/15 (service
affecting) : ONT is inactive
15/02/09 01:29:16 major alarm occurred for ont 1/1/2/2/13 (service
affecting) : ONT is inactive
15/02/09 01:29:16 major alarm occurred for ont 1/1/2/2/5 (service affecting) : ONT is inactive
15/02/09 01:29:16 major alarm occurred for ont 1/1/2/2/3 (service affecting) : ONT is inactive
15/02/09 01:29:16 major alarm occurred for ont 1/1/2/2/2 (service affecting) : ONT is inactive
15/02/09 01:29:16 major alarm cleared for ont 1/1/2/1/21 (service affecting) : 1490 Optical signal level too low
15/02/09 01:29:16 major alarm cleared for ont 1/1/2/2/25 (service affecting) : Signal Degraded from ONT
15/02/09 01:29:16 major alarm cleared for ont 1/1/2/2/18 (service affecting) : Signal Degraded from ONT
ZZLY-NKeSuo-7360-33.227>#show pon ber-stats 1/1/2/2
=======================================================================
ber-stats table
=======================================================================
pon-idx |ont-num|bit-err-down|bit-err-up|ranged-ind
---------+-------+------------+----------+----------------------------------------------------------------------------
1/1/2/2 1 204 2077 ranged
1/1/2/2 2 417 1552461 ranged
1/1/2/2 3 229 183526 ranged
1/1/2/2 4 212 8361 ranged
1/1/2/2 5 405 3645598 ranged
1/1/2/2 6 1099 18100 not-ranged
1/1/2/2 7 185 5089591 ranged
1/1/2/2 8 278 5352530 not-ranged
1/1/2/2 9 57 2787475 ranged
1/1/2/2 10 189 3068826 ranged
1/1/2/2 11 217 3962846 not-ranged
1/1/2/2 12 229 2728350 not-ranged
1/1/2/2 13 360 4562798 ranged
1/1/2/2 14 243 4956220 not-ranged
1/1/2/2 15 269 1176529 ranged
1/1/2/2 16 228 5148 not-ranged
1/1/2/2 17 262 5392128 ranged
1/1/2/2 18 41 5137896 ranged
1/1/2/2 19 238 2276648 not-ranged
1/1/2/2 20 259 5904572 not-ranged
1/1/2/2 21 210 5086538 ranged
1/1/2/2 22 243 4734875 not-ranged
1/1/2/2 23 182 3672936 ranged
故障分析
PON技术是一种点对多点的光纤传输和接入技术,下行OLT将全部信号广播出去,通过ODN分配到各ONU。

每个ONU接受到所有信号,但只取出属于自己的信号。

上行则采用TDMA的传输方式,每个ONU在各自预定的时隙内发送光信号。

所有ONU的突发光信号通过ODN汇合后形成包括所有ONU信息的突发光信号。

OLT接收所有信号后再根据协议处理。

结合PON工作原理及本次故障现象,分析故障原因为:
1.所有故障只集中在1/1/2/2这一个PON口上,当ONT用户发生闪断时,OLT对
应的PON口1/1/2/2能看到大量的误码存在(其他PON均没有误码),且一直快速增长,累计可达几十万。

而在正常情况下,该部分数值应该为0或偶尔增长最多累计到几十几百的数量级。

因此可以确定是因为误码快速变化导致了整个PON 口下的ONT集中发生闪断。

2.分析产生误码的原因:在PON 网络中,导致误码快速增长的可能原因有:流氓ONT(某台ONT长发光或乱发光),或中间光路问题,或PON口光模块问题。

而故障发生后该PON 口的主干光路及分光器等均做过替换,因此光路应该没问题,但故障依旧反复,因此基本判断是流氓ONT导致了故障。

处理过程
流氓ONT处理过程相对较复杂,并且可能需要用户方面的配合,下面简述此故障的现场排查过程:
1.通过流氓ONT排查命令admin pon diagnostic 1/1/2/2 mode init-onofftest 诊断流氓ONT(中断命令为admin pon diagnostic 1/1/2/2 mode stop),但没能成功定位故障ONT。

2.长时间跟踪告警打印log,没能发现某台ONT导致其他ONT跟随中断和误码迅速增长的规律。

3.人工对整个故障PON口进行排查(PON 1/1/2/2光路情况为: PON出来经1:2分光器分两路到不同的主箱):
1)在主分光器位置,把其中一个主箱(假设A路)下的所有ONT光路拔掉,观察发现另外一主箱(假设B路)下部分ONT端口的误码仍然快速在增长;
2)恢复A路,拔掉B路,发现A路下面的用户误码没有增长,初步判断是B路引起;
3)对B路ONT用户分段排查后发现,ONT 1/1/2/2/16异常。

隔离该ONT后1/1/2/2 PON误码不再增长;把1/1/2/2其他用户恢复后,观察误码没有再快速增长。

而把ONT 1/1/2/2/16接上后误码又迅速增长。

4)在该用户家测量OLT发过来光功率大约在-20dbm,判断光路没有问题。

更换该ONT后观察,该PON所带ONT均正常运行,没有再出现闪断。

而该PON下误码迅速大量增长的情况也未再出现。

流氓ONT排查思路
针对现场流氓ONT的排查思路如下:
1.判断此类故障的主要手段是检查故障PON下的误码率是否快速大量的增长(几秒钟内成千成万数量级的增长)。

2.用命令admin pon diagnostic X/X/X/X mode init-onofftest诊断流氓ONT,但需要注意该命令有时诊断不出来流氓ONT,需要再人工排查。

3.跟踪网管或CLI告警信息,如果发现某ONT inactive或dying gsap后其他ONT紧随着都开始掉线,则可以判断此ONT为疑似流氓ONT(如下例中的1/1/1/3/48),可以尝试用命令configure equipment ont interface X/X/X/X/X ont-enable disable将此ONT配置断光,然后再观察PON口误码的变化情况。

15/04/10 09:18:59 major alarm occurred for ont 1/1/1/3/48 (service
affecting) : ONT is inactive
15/04/10 09:19:01 major alarm occurred for ont 1/1/1/3/47 (service
affecting) : ONT is inactive
15/04/10 09:19:08 major alarm occurred for ont 1/1/1/3/46 (service
affecting) : ONT is inactive
15/04/10 09:19:16 major alarm occurred for ont 1/1/1/3/44 (service
affecting) : ONT is inactive
15/04/10 09:19:19 major alarm occurred for ont 1/1/1/3/42 (service
affecting) : ONT is inactive
4.用光功率计在主干分光器位置测量从ONT侧发过来的光,因为ONT侧发光应为OLT触发后才产生,因此如果能测量到发光,则判断存在长发光的流氓ONT。

下一步可以通知局方通过逐段测量发光来找到长发光的ONT。

5.有时流氓ONT表现为乱发光,并且通过上述方法不能定位的,则要在分光器侧逐个对ONT断纤并同步在OLT侧做误码检查来进行排查,从而排查出流氓ONT。

相关文档
最新文档