LTE-FDDeNB应急恢复三板斧及典型场景处理指导书V1.00
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
eNB问题快速恢复典型场景处理指导书
华为技术有限公司
修订记录
目录
1阅读指南 (1)
2基本思路 (1)
3常用恢复手段 (2)
3.1Reset---复位(小区、单板、基站),倒换、更换(拔插) (2)
3.2Repair---修复外部异常(传输、CN等) (2)
3.3Recover---数据回退 (2)
3.4Rollback---版本/补丁回退 (2)
3.5Reconfig---配置调整 (3)
4典型场景快速恢复定位指导 (4)
4.1KPI恶化类问题 (4)
4.1.1需要确认的问题 (4)
4.1.2应急处理流程图 (4)
4.1.3现象分类及恢复办法 (6)
4.2升级断链类问题 (7)
4.2.1需要确认的问题 (7)
4.2.2应急处理流程图 (8)
4.2.3现象分类及恢复办法 (8)
4.3传输安全类问题 (9)
4.3.1需要确认的问题 (9)
4.3.2应急处理流程图 (9)
4.3.3现象分类及恢复办法 (9)
4.4接入类问题 (1)
4.4.1需要确认的问题 (1)
4.4.2应急处理流程图 (2)
4.4.3现象分类及恢复办法 (1)
4.5切换类问题 (1)
4.5.1需要确认的问题 (1)
4.5.2应急处理流程图 (3)
4.5.3现象分类及恢复办法 (1)
4.6小区类问题 (1)
4.6.1需要确认的问题 (1)
4.6.2应急处理流程图 (1)
4.6.3现象分类及恢复办法 (1)
4.7硬件单板类问题 (2)
4.7.1需要确认的问题 (2)
4.7.2应急处理流程图 (3)
4.7.3现象分类及恢复办法 (3)
附A 应急保障系列文档阅读说明 (7)
1阅读指南
本文档为事故处理SOP应急处理的说明,主要目的是描述常见典型事故场景的应急手段,指导二线、三线事故恢复分析思路。
本文第二节描述事故处理的基本思路。
第三节介绍常用的恢复手段。
第四节收集了常见典型事故场景,描述了特定场景下的建议应急处理手段。
2基本思路
【基本目标】
以尽快恢复业务,缩短中断时长作为首要目标。
【基本思路】
1、与客户交流,了解客户感知和诉求,完成问题现象、组网方式、网元版本、影响范围等基
本信息收集;
2、通过M2000或WebLMT查看告警,检查是否有设备故障、小区退服等问题;
3、通过M2000或WebLMT查看KPI记录,检查是否存在接入、切换、掉话等KPI恶化。
4、根据对问题现象的识别跳转到相应的典型场景进行问题的恢复/处理,如下图:
5、按照应急流程采集数据发回总部处理。
3常用恢复手段
3.1Reset---复位(小区、单板、基站),倒换、更换(拔插)
eNB提供的复位:小区、单板、基站。
在故障范围比较明确的情况下,复位操作一般从小到大进行,以避免影响扩大化。
在单板主备情况下,倒换单板能够恢复大多数单板硬件故障和部分软件故障引起的业务中断。
倒换单板不影响业务,通常情况下会优先尝试。
(单板倒换命令:SWP BRD。
目前只支持主控板倒换,时耗约在30分钟以上。
不支持基带板倒换。
)
对于不能通过倒换恢复的硬件故障,需要进行故障单板的更换。
事故处理时需要考虑硬件更换所需要的备件、人员、时间等因素,及时作出安排。
部分单板异常需要通过掉电进行恢复,此时需要进行拔插单板。
3.2Repair---修复外部异常(传输、CN等)
对于外部设备(传输、CN等)异常引起的业务中断,一般通过及时修复这些设备来恢复业务。
具体的修复方法可能包括复位、替换、数据重配等,需要对应设备的维护人员来分析和实施。
3.3Recover---数据回退
在明确怀疑某些参数更改引起系统异常时,可以通过相应的MML命令进行数据回退。
对于大量数据操作后系统出现异常且不能锁定到具体的参数修改时,可以通过备份的数据库文件进行数据回退。
详细操作参见第四章3.备份数据。
3.4Rollback---版本/补丁回退
对于版本/补丁升级后业务异常问题,版本/补丁回退是恢复业务的一种手段。
版本/补丁回退具体操作请参见随版本发布的《升级指导书》。
3.5Reconfig---配置调整
主要有两类:
1、对故障的链路进行删除、再重新增加操作;
2、根据问题定位的初步结果进行相应的配置调整。
例如打开或关闭某些算法开关,更改无线层算法参数,调整负荷分担门限等。
4典型场景快速恢复定位指导
4.1KPI恶化类问题
4.1.1需要确认的问题
4.1.2应急处理流程图
KPI性能类问题,主要是指在商用网运营过程中,通过话统观察到某一项或几项KPI出现明显变差。
通常这些KPI主要是:RRC建立成功率,ERAB建立成功率,掉话率,系统内切换成功率(切换出/切换入),系统间切换成功率等。
遇到这类问题时,首先是基于话统数据进行分析(需要采集近三天/一周的数据进行分析),目的是把问题现象和规律分析清楚,进行初步隔离,根据话统分析结论指导进一步分析思路。
话统分析的总体思路如下:
4.1.3现象分类及恢复办法
4.2升级断链类问题4.2.1需要确认的问题
4.2.2应急处理流程图
4.2.3现象分类及恢复办法
4.3传输安全类问题
4.3.1需要确认的问题
4.3.2应急处理流程图
针对传输问题,其紧急问题处理流程如下所示:
4.3.3现象分类及恢复办法
以下告警和现象都可判断为传输故障,传输引起的事故,一般基站出现如下告警ID:告警ID范围:ALM-25880 ~ALM258902
可能上报事故的常见告警
1、 MAC错帧超限告警:ALM-25881
2、 SCTP链路故障告警:ALM-25888
3、 IKE协商失败告警:ALM-25891
4、远程维护通道故障告警:ALM25901
传输易发的故障点:
▪关注基站侧参数的配置(端口配置、IP层配置、安全参数配置、应用层配置等)
▪交换机传输参数配置(VLAN、QinQ等)
▪路由器传输参数配置(VRRP功能配置、IP地址、IP路由、MTU)
▪安全网关参数配置(证书、安全参数配置、通信矩阵)
▪SAE/M2000参数配置(IP层配置、应用层配置等)
紧急情况下可先进行恢复故障的操作如软复位基站,再执行信息收集动作。
1)离基站最近的设备上抓包文件,或近端登陆基站进行MAC抓包的抓包文件。
2)安全场景下,若IPSEC协商失败,可跟踪IPSEC协议并反馈跟踪文件。
3)基站的一键式日志和配置文件。
4) PING测试结果(若现场允许执行)。
2015-6-23 华为机密,未经许可不得扩散第2页, 共41页
4.4接入类问题
4.4.1需要确认的问题
4.4.2应急处理流程图
4.4.3现象分类及恢复办法
2015-6-23 华为机密,未经许可不得扩散第1页, 共41页
2015-6-23 华为机密,未经许可不得扩散第2页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第3页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第4页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第5页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第6页, 共41页
LTE事故预防和应急处理指导书内部公开4.5切换类问题
4.5.1需要确认的问题
LTE事故预防和应急处理指导书内部公开
LTE事故预防和应急处理指导书内部公开4.5.2应急处理流程图
LTE 事故预防和应急处理指导书
内部公开
2015-6-23 华为机密,未经许可不得扩散
第1页, 共41页
4.5.3 现象分类及恢复办法
说明:一线需要完成“切换类相关日志的采集”、“1.1路测数据排查”、“2.1告警处理(按告警恢复指导书处理)”。
其他步骤由三线分析并给出恢复方法。
特别注意:如果核心网或者切换的源基站或切换的目标基站为非我司的
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第2页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第3页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第4页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第5页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第6页, 共41页
LTE事故预防和应急处理指导书内部公开
2015-6-23 华为机密,未经许可不得扩散第7页, 共41页
LTE事故预防和应急处理指导书内部公开4.6小区类问题
4.6.1需要确认的问题
4.6.2应急处理流程图
4.6.3现象分类及恢复办法
LTE事故预防和应急处理指导书内部公开
1、查询小区信息(DSP CELL,LST CELL),尝试重新激活小区,保存返回错误原因。
2、查询告警日志(M2000->Monitor->Query Alarm Logs―>Save―>Save All Records),检查是否存在基带板、S1链路、光传输、RRU等故障告警。
3、NIC采集小区不可用场景数据。
4、采集基站一键式日志返回。
4.7硬件单板类问题
4.7.1需要确认的问题
LTE事故预防和应急处理指导书内部公开4.7.2应急处理流程图
4.7.3现象分类及恢复办法
一、远端操作维护:
LTE事故预防和应急处理指导书内部公开MML(DSP BRD; DSP BRDVER; LST ALMAF;)
配置数据备份(ULD CFGFILE;)
问题单板掉电复位(RST BRDPWROFF),检测是否恢复
最后整站复位(RST ENODEB),检测是否恢复
二、上站操作维护:
1、上站需要带的设备
便携(网线,备份好的配置文件,FTP软件,IPOP等)
目标版本的主控板,基带板,光纤,光模块等
2、在近端操作时,一般需要再插拔单板尝试,并校验机框背板指针是否正常,无弯曲、缺失等现象,检测单板上器件是否有明显损坏。
3、换板
主控板可以拔插一下,测试是否恢复。
其他板子一律换板。
LTE事故预防和应急处理指导书内部公开
LTE事故预防和应急处理指导书内部公开
LTE 事故预防和应急处理指导书 内部公开
2015-6-23
华为机密,未经许可不得扩散 第7页, 共41页 附A 应急保障系列文档阅读说明
1、 事故发生前(平时),请按照《LTE-FDD eNB 事故预防和准备工作指导书》做好准备工作,并
参考《LTE-FDD eNB2.1应急恢复日志采集指导》第3节内容定制NIC 采数场景。
2、 事故发生前(平时),请熟悉《LTE-FDD eNB 应急恢复三板斧及典型场景处理指导书》里的事
故场景。
3、 事故发生时,请按照《LTE-FDD eNB 问题快速恢复流程》动作,并填写、反馈《LTE-FDD eNB
问题上报描述模版》。
4、 事故处理时,若需要收集数据,请参考《LTE-FDD eNB2.1应急恢复日志采集指导》。
5、 事故处理时,请参考《LTE-FDD eNB 应急恢复三板斧及典型场景处理指导书》,看看是否有可
以借鉴的内容。
6、 事故处理时,如果需要求助,可以查看《LTE-FDD eNB 应急保障人员列表》。