移动网csfb用户“双活”问题分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2020·5(上)《科技传播》
102
作者简介:李慧敏,高级技术主管,山东省联通公司,研究方向为移动通信核心网。

刘寿梅,高级技术主管,山东烟台联通公司,研究方向为移动通信核心网。

蒋尚文,高级技术主管,山东烟台联通公司,研究方向为移动通信核心网。

移动网CSFB用户“双活”问题分析
李慧敏,刘寿梅,蒋尚文
摘 要 双活即同一移动网CSFB 用户同时在两个MSC 局下存在注册数据。

随着移动核心网MSC 全网组POOL 后,
CSFB 用户容易双活的属性便日益凸显。

文章从双活产生的场景、形成的原因及应急恢复措施等方面着手,结合日常维护经验,对此做简单分析总结。

关键词 CSFB 用户;双活;流控;被叫异常
中图分类号 TN91 文献标识码 A 文章编号 1674-6708(2020)258-0102-02
随着移动通信网络的高速发展,各运营商建设了LTE(Long Term Evolution,长期演进)网络来满足人们快速增长的无线数据业务需求。

语音是电信网络的一个基本功能,因此,需要考虑为用户提供LTE 数据业务的同时继续为用户提供高质量的语音服务。

在部署移动IMS 网络之前,CSFB 成为最优的语音过渡方案。

CSFB 即CS(Circuit Switch) FallBack 业务,上网在LTE 网络、语音业务需回落至2/3G 网络完成。

随着CSFB 用户的增加,尤其是移动核心网CS 域MSC(Mobile Switch Center)组POOL 后,CSFB 用户容易双活的属性便日益凸显。

本文从双活产生的场景、形成的原因及应急恢复措施等方面着手,逐一进行分析。

1 “双活”概述
当CSFB 用户A 在MSC-A 和MSC-B 设备局下均存在签约数据,归属HSS 记录用户A 在MSC-B 上注册,但用户A 实际在MSC-A 下进行注册活动,我们称用户A 便是一个“双活”用户。

发生“双活”故障后,当用户A 做被叫时,HSS(Home Subscriber Server 归属签约用户服务器)根据自己保存的A 用户登陆MSC-B GT(Globe title,全球码)通过provide roaming number 响应消息回给GMSC,导致用户A 被叫异常;而主叫用户短信中心根据寻址到的被叫MSC-B GT 进行下发短信时也会导致A 用户无法接收短信。

由于HSS 侧记录的MSC GT 与用户活动的MSC 不一致,同样也会导致BOSS 侧订阅类消息无法下发至活动MSC-A,从而无法对用户进行欠费停机等操作。

2 移动网用户“双活”场景
移动网用户“双活”通常有HSS 侧、传输层
或MSC 侧超负荷三大方面原因,并引发链路负荷过载、流控启动等一系列高警,从而引发cancel location 消息丢弃导致,上述问题一般出现在下面几个重要环节:
1)核心侧:HSS 网元割接,需进行上百万用户数据迁移;交换端局存储用户数据的单板重启,需在操作前将该局下用户全部迁出,重启单板后,将用户重新迁回。

用户数据迁移过程中,瞬间上报的大批量位置更新消息,易造成C/D 口链路负荷过载等告警。

2)传输IPRAN(IP Radio Access Network,无线接入网IP 化)操作:根据网络规划,现网enodeB 基站通过IPRAN 接入4G 网络,若IPRAN 双平面异常或无法进行倒换,则4G 基站瞬断后,导致短时间内大量用户在2/3G 网络下重新发起位置更新,引发网络冲击;恢复之后大量用户又重新回到4G 进行注册,再次引发冲击。

3)IP 承载网故障,导致端局与HSS 中断。

当业务恢复后,短时间内大批量用户重新发起位置更新,造成网络冲击。

4)BSC/RNC(基站控制器/无线网络控制器)进行批量操作,引发批量2/3G 基站掉站。

业务恢复后,同样短时间内大批量用户发起位置更新,造成网络冲击。

5)HSS 与注册端局MSC 之间传输中断、某段链路中断或其他原因引发消息包丢失。

严重情况下,上述告警出现的同时引发HSS 侧启动“流控”。

3 移动网用户“双活”案例分析
3.1 故障现象
“双活”用户投诉被叫业务异常或无法接收短信。

HLR 查询用户登陆MSC GT 显示为MSC-B ;MSC/
2020·5(上)
103
信息科技探索
VLR 上查询用户状态:MSC-A 和MSC-B 局都存在用户数据,但用户最新活动时间MSC-A 的记录要晚于MSC-B 的记录,这表明该用户当前实际在MSC-A 下。

同时,用户在MSC-A 登陆状态为附着,而在MSC-B 上登陆状态为分离。

3.2 故障原因分析
当IPRAN 故障导致eNodeB 与MME 断连,eNB 在传输中断的情况下,会进行去激活操作,导致所有CSFB 用户瞬间回落。

首先手机会使用TMSI 在CSFB 局点进行位置更新(MME 上进行相应数据配置及IMSI 的Hash 算法,用户CSFB 后会找到固定对应的MSC-A 局点),瞬时大量位置更新请求超过MSC-A 的处理能力,甚至触发MSC-A 的流控,造成手机位置更新失败。

按照3GPP 24008协议规定,当手机位置更新请求失败4次之后,手机会清除存储的前TMSI 和前位置区,在MSC POOL 内,NNSF 节点按照网络负荷均衡的原则重新选择一个MSC。

一旦新选择的MSC 与CSFB 局点不一致时,如用户在MSC-B 局以IMSI 从3G 网络重新发起位置更新,按照3GPP 23012协议规定,位置更新携带前位置区为空(或者非本局位置区)的情况下,MSC 判断此次位置更新为局间位置更新,会将VLR 中HLR 证实标志置为未证实,发起到HLR 的位置更新。

用户在MSC-B 下发起位置更新请求,HSS 上登陆MSC/VLR GT 更新为MSC/VLR-B GT,且HSS 向MSC-B 下插数据成功,MSC-B 下存在该用户数据;在HSS 向MSC-B 插入用户数据的同时,HSS 会向MSC-A 发送Cancel Location 消息。

但由于HLR 和MSC-A 之间的链路出现异常(拥塞、中断或者闪断)、HSS 启动流控或者MSC 业务过载,导致MSC-A 没有收到Cancel Location 消息,MSC-A 上用户数据被保留。

位置更新信令流程如图1

图1
EnodeB 基站断连恢复后,用户返回eNB,MME
按照Hash 算法将用户重新分发到MSC-A 上(CSFB 局点),用户再次从MSC-B 返回MSC-A,由于在MSC-A 上面已经存在该用户数据,因此MSC-A 不会再向HLR 发送Update Location 请求消息,这样HLR 上仍然记录用户登陆GT 为MSC/VLR-B。

用户在MSC-B 下无活动更新直至超过隐式分离时间,用户被置为分离(关机)态。

由于用户被叫时,HSS 根据登记的MSC-B GT 向B 局取漫游号码,
因此呼叫被路由到MSC/VLR-B,从而听到关机提示音或暂时无法接通。

同时,用户在MSC-A 下更新活动正常,因此用户主叫正常、发送短信正常。

4 用户发生“双活”后应急措施
网络产生“双活”故障后,为避免大量用户投诉,通常应急恢复方法如下:
1)在MSC 上把所有的4G 用户置为位置未证实,触发到HSS 位置更新。

此种方式将MSC 下所有的CSFB 用户置为未证实,短时间内会造成C/D 口的流量突增, 因此现网并不建议使用。

2)HSS 发送reset 指令,触发用户发起到HSS 的位置更新。

若发现网络拥塞造成流控并导致消息丢失,可在话务闲时(一般凌晨操作),从HSS 上向所有端局VLR、SGSN、MME 发送reset 指令。

发送reset 指令会影响C/D 口负荷,因此HSS 发送reset 应有时间间隔。

3)采用HSS 发送reset 方式进行应急恢复虽然恢复彻底,但只能等到话务闲时(一般凌晨)操作。

紧急情况下,我们可提取各MSC 注册的全部用户信息,将各MSC 的用户信息比对,如果一个用户在两个MSC 上有注册信息,则判断为双活用户,再结合HLR 上的MSC/VLR GT 数据和两个MSC 下用户的登陆状态,分情况处理:(1)若HSS 上登陆MSC GT 与用户最新活动时间所在的MSC 一致,且状态为附着,则删除分离状态所在的MSC 上的用户数据;个别用户存在双附着情况,是由于其中不活动的MSC 用户未达到隐式分离时间导致,此时保留最新活动时间所在MSC 的数据,删除另一个MSC 用户数据。

如此该用户主被叫均不会受影响。

(2)若HSS 上显示的登陆MSC GT 与用户最新活动时间所在的MSC 不一致,则说明用户此时只能主叫,无法被叫和接收短信;在两个MSC 上删除用户数据,同时在HSS 上发送SND CANCELC 指令,清除用户位置信息。

如此用户发起主叫业务或位置更新时,业务即可恢复正常。

5 结论
移动用户对运营商通信网络的感知性非常高,网络异常易引发大量的投诉。

尤其是对于无法接收短信的故障,极易引发用户的追责。

以上通过对双活产生的场景、原因的分析及可行性应急措施的列举,可帮助相关维护工程师及早规避问题,并能针对用户反映的问题及时进行故障定位,在一定程度上降低移动网络用户“双活”故障的概率,缩短故障处理时间,从而提升用户对网络的感知度。

参考文献
[1]李岳梦,赵绍刚.TD-LTE网络部署运营关键技术[M].北京:
电子工业出版社,2014.
[2]李伟章.移动数据通信技术与业务[M].北京:人民邮电出版
社,2006.。

相关文档
最新文档