核心网运行质量分析指南及优化
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
核心网运行质量分析指南
及优化案例
目录
1 概述 (3)
1.1 核心网运行质量分析的主要内容与意义 (3)
1.2 数据来源 (4)
2 GPRS专业 (5)
2.1 网络设备运行质量分析 (5)
2.2 网络容量分析 (6)
2.2.1 SGSN分析 (6)
2.2.2 GGSN分析 (11)
2.2.3 FW容量利用率/NAT利用率分析 (12)
2.3 网络质量分析 (13)
2.4 业务质量分析 (13)
3 互联网专业 (14)
3.1 网络质量分析 (14)
3.2 链路峰值利用率预警分析 (14)
4 撰写报告 (16)
5 核心网优化案例 (17)
5.1 案例一SGSN鉴权参数优化 (17)
5.2 案例二SIP后INTER RAU成功率低的问题 (18)
参考文献 (19)
1概述
本文介绍了省公司核心网运行质量分析工作的主要内容和流程,通过分析GPRS和互联网两大板块各种数据指标,对核心网运行质量作出整体评估,最后以《核心网运行质量分析周报》的形式呈现本工作成果。
报告和相关表格样式见附件:核心网运行质量分
析周报0923.docx
数据源分析模板201
20924.xlsx
周报问题PDCA跟进
表0924.xls
1.1核心网运行质量分析的主要内容与意义
1)GPRS专业
●网络设备运行质量分析:通过对GPRS核心网设备的运行告警进行统计分析,定
位网络中健康状态最差的设备,有助于找出和排除网络设备隐患;
●网络容量分析:通过对GPRS核心网设备容量的分析,针对容量利用率、板卡负
荷较高的设备和容量分布不均衡的情况发出预警和建议,排除网络容量瓶颈,确
保网络健康高效运行;
●网络质量分析:分析GPGS核心网设备各项质量指标,针对PDP激活成功率、
附着成功率、SGSN间路由区更新成功率较低的片区和网元发出预警和建议,确
保网络质量优良;
●业务质量分析:从各种业务的角度去评估网络质量,使提升网络整体质量的优化
工作更加有针对性;分析的业务包括:HTTP、WAP2.0、FTP、QQ以及飞信业务;
2)互联网专业
●互联网络质量分析:通过对移动家客、移动集客、WLAN、电信联通出口的质量
统计分析,找出网络质量最差的地市,定位网络质量短板,有助于提升整体网络
质量;
●链路峰值利用率:统计分析NAT链路、集团出口链路、BR/XIR互联链路和地市
城域网出口链路的峰值利用率,对超过预警值的链路做出预警,对预防网络拥塞、
合理调整链路资源,确保网络健康运行有着重要意义。
1.2数据来源
1)网络设备运行质量分析数据来源:
●省公司监控室下发:《GPRS业务4类网元每周告警2012XXXX》;
2)GPRG专业的网络容量和网络质量分析、互联网链路峰值利用率预警分析数据来源:
●话务网管4期
http://10.243.170.37/GmccWeb/Login.aspx?ReturnUrl=%2fgmccweb%2fDefault.aspx
●有线网络优化平台
:8080/sso/service/logon.form?service=:8080/
wno/
●综合分析系统/ods2/login.jsp
3)GPRS业务质量分析、互联网质量分析数据来源:
●省公司其他部门下发:《综合拨测小组周报》
2GPRS专业
2.1网络设备运行质量分析
通过对GPRS核心网设备的运行告警进行统计分析,用TOP N法定位网络中健康状态最差的设备,有助于找出和排除网络设备隐患。
网络指标告警TOP N统计分析:
●数据来源:《GPRS业务4类网元每周告警2012XXXX》
●处理方法:在表中创建如下数据透视表(图2-1)
行标签:对象名;
数值:计数项:告警发生次数;
报表筛选:告警标题;
图2-1
筛选出“不含用户原因PDP激活成功率低于阀值告警次数最多的网元”、“GGSN ping 防火墙Gi/Gn接口地址丢包率告警发生次数最多的网元”、“GGSN网元至WAP网关侧链路丢包率高告警发生次数最多的网元”、“爱立信防火墙切换监控告警次数最多的网元”等,对这些网元发起预警。
2.2网络容量分析
通过对现网GPRS核心网设备的容量进行分析,对容量利用率、负荷较高的设备和容量分布不均衡的情况发出预警,提出扩容、割接或者业务调整等建议,提前排除网络容量短板,确保网络健康运行。
首先要了解容量的含义,掌握基本思路和统计方法。
对于特定网元设备而言,其所具有的软硬件资源是一个定值,而用户模型则决定了对设备资源的具体消耗情况,不同用户模型会导致不一样的设备资源消耗。
也就是说,任何设备的标称用户容量,只有与特定用户模型相结合才具有确切涵义。
[1](这里指的任何设备,包括SGSN、GGSN和防火墙等)
省公司所重点关注的容量指标和制定的预警值都是针对现网用户模型总结经验得出来的。
2.2.1SGSN分析
SGSN的容量主要受到CPU处理能力、内存容量、数据转发能力、数据库或数据存储容量等因素综合制约。
而当移动台处于不同的MM状态或PDP状态时,SGSN所做的处理工作有所区别,因此不同的事件对SGSN物理能力的消耗是不相同的。
在省移动现网用户模型中,大量附着用户数导致SGSN内存不足和PAPU或数据转发处理板CPU的处理能力超负荷,是造成SGSN容量瓶颈的关键性因素。
因此,省公司要求SGSN容量分析的重点是“Attach用户数”和“PAPU负荷或数据转发处理板CPU 负荷”;另一方面,各设备的负荷各不相同,用于宏观反映片区整体均衡程度的指标“SGSN 容量利用均衡度”,也有重要意义。
由于SGSN厂商设计用户模型与现网实际用户模型存在偏差,省公司经研究规定做出以下统计和分析:
●SGSN容量利用率= 实时处理的平均附着用户数/ 厂商标称附着数容量,单个
设备SGSN容量利用率预警值为90%,片区SGSN容量利用率预警值为50%;
●PAPU负荷或数据转发处理板CPU负荷的预警值为75%;
●SGSN容量利用均衡度,反映了整个片区各网元容量利用的均衡程度,均衡度越
小表明该片区各网元利用率差异越大,该指标对业务调整和割接有重要参考价值。
最后,根据以上三个指标,为片区SGSN运行状况作出总体评价,如作出预警或扩容建议。
2.2.1.1S GSN容量利用率分析
统计六大片区SGSN容量利用率,根据本周的附着用户数按照容量利用率50%来计算出片区所需容量,对比现网容量,确保网络健康运行,做出相应的预警和扩容建议。
●数据来源:综合分析系统-报表报告-数据网-业务量-SGSN附着用户数报表-分网
元日报;导出全部网元一周忙时数据,保存在Excel表《数据源分析模板》的Sheet 表“SGSN附着用户数(源数据)”里。
●处理方法:
1)根据“SGSN附着用户数(源数据)”中的数据,计算SGSN周平均附着用户
数,输出到Sheet表“周平均附着用户数”中;
2)根据“周平均附着用户数”中的数据,计算实时数据的设备利用率,完成Sheet
表
“SGSN容量利用率”;如下图2-2:
图2-2
3)根据Sheet表“SGSN容量利用率”的数据,完成Sheet表“区域SGSN容量利用
率”和“SGSN容量利用率TOP”的全部内容;
4)预警SGSN容量利用率在50%以上的片区、SGSN附着容量利用率超过90%
的网元,做出相应预警和扩容建议。
2.2.1.2S GSN容量利用均衡度分析
计算公式:
网元容量利用均衡度指数F m=SUMSQ(E m-E n)
SGSN容量利用均衡度B=1-SQRT(SUM(F m:F n-1)/(n-m))
说明:公式中出现的函数均为Excel函数;
E m表示该网元的设备容量利用率,在Excel表中位于第m行;
E n表示该网元所在片区的SGSN平均容量利用率,在Excel表中位于第n行;
SUM(F m:F n-1)表示本片区各网元容量利用均衡度指数之和;
(n-m)表示本片区所统计的网元数量。
从公式可以看出,均衡度指数反映了单个网元的容量利用率与本片区SGSN平均容量利用率的差异性,该指标越小表明本网元的利用率越接近片区平均值、差异性越小;
SGSN容量利用均衡度反映了整个片区各网元容量利用的均衡程度,均衡度越小表明该片区各网元利用率差异越大;当均衡度为1时,表明本片区所有网元容量利用率完全一致。
SGSN容量利用均衡度反映了片区容量利用的均衡程度。
在片区内某些网元的容量利用率高,而片区SGSN容量利用均衡度低的情况下,可以考虑业务分布的调整,使业务量在各个网元中得以均衡分布。
用调整业务的方式解决部分容量问题,而不是一味的扩容硬件设备,既确保网络健康运行,又节省大笔资源。
这才是该指标分析的真正意义所在。
(容量利用均衡度的计算中,只选取业务量大的、具有达标性的部分网元,具体网元以模板为准)
●数据来源:Sheet表“SGSN容量利用率”;
●处理方法:根据数据处理模板和以上公式,计算SGSN容量利用均衡度,完成
Sheet表“SGSN均衡度”;再分析与上周相比,造成片区均衡差异较大的原因。
如图2-3;
图2-3
2.2.1.3S GSN PAPU负荷分析
对SGSN PAPU负荷高的网元做出预警,确保网络安全、有效地运行。
●数据来源:有线网络优化平台-质量分析-报表管理-GPRS容量祥表;导出所有网
元近期数据,输出到Sheet表“GPRS容量详表(源)”;
●处理方法:运用VLOOKUP函数,根据“GPRS容量详表(源)”的数据,完成“有
线网优平台PAPU负荷”表。
预警PAPU负荷超过75%的网元;
2.2.1.4S GSN分析经典案例
●案例分析:
时间:2012年9月17日-2012年9月23日(第39周);
现象:
1、深圳、广州和佛山片区的SGSN容量利用率超过50%预警值,如下图2-4;
图2-4
2、PAPU 负荷或CPU 数据转发板的负荷在75% 以上:GZSGSN303BEr(78.75%)
分析:
按SGSN容量利用率预警值(50%)和本周平均附着用户数来计算,本周深圳所需的容量为1354万,容量缺口为214万;佛山所需容量为1047万,容量缺口72万;广州所需容量为1882万,容量缺口176万,如表2-1
表2-1
从片区SGSN容量均衡度(图2-5)来看,佛山均衡度最高,表明该片区各SGSN的容量利用率非常接近,每台设备的利用率与片区平均利用率相差很小,附着用户数分布非常均衡,建议扩容;
深圳和广州片区中,部分SGSN容量利用率超过90%或接近该预警值,个别设备的“PAPU 负荷或CPU 数据转发板的负荷”也超过75%,从均衡度看深圳、
广州片区业务均衡度有待提升,是可以通过业务调整可以缓解部分网元设备压力,但是从整体来看深圳和广州片区人口稠密、用户数量大,从长远考虑,扩容SGSN
设备是比较好的选择。
解决建议:确保网络健康运行,建议深圳扩容三台SGSN,广州扩容两台SGSN,佛山扩容一台SGSN。
2.2.2GGSN分析
GGSN分析与SGSN分析总体思路相似,着重关注的指标有:GGSN容量利用率(PDP 激活用户数利用率)、GGSN容量利用均衡度、CMWAP地址池利用率和CMNET地址池利用率。
2.2.2.1G GSN容量利用率分析
统计六大片区GGSN容量利用率,预警高负荷网元,确保网络健康运行。
●数据来源:综合分析系统-报表报告-数据网-业务量-GGSN激活用户数报表-分网
元日报;导出全部网元一周忙时数据,保存在Excel表《数据源分析模板》的Sheet
表“GGSNPDP激活用户数(源数据)”里;
●处理方法:与“SGSN容量利用率分析”的处理方法大致相同,参见章节2.2.1.1
SGSN容量利用率分析;
●注意:深圳华为设备以及广州部分设备在综合分析系统中无数据,该部分数据来
源于有线网络优化平台,即可从“GPRS容量详表(源)”取。
2.2.2.2G GSN容量利用均衡度分析
GGSN容量利用均衡度的数据来源、处理方法和分析方法,均于SGSN容量利用均
衡度的类似,参见章节2.2. 1.2 SGSN容量利用均衡度分析。
2.2.2.3C MWAP/CMNET地址池利用率分析
CMWAP地址池利是内部私网地址段,用于给CMWAP用户分配私有地址,现网实时CMWAP用户数与CMWAP地址池容量的比值叫CMWAP地址池利用率,预警CMWP 地址池利用率80%以上的网元,排除因地址池造成的容量瓶颈。
CMNET地址池利用率与CMWAP地址池利用率概念类似,预警值也是80%。
●数据来源:Sheet表“GGSN实时容量利用率”;
●处理方法:运用VLOOKUP函数,根据“GGSN实时容量利用率”的数据,完成
“CMWAPcmnet地址利用率”表。
列出利用率Top10,预警利用率80%以上的网元。
如图2-4、图2-5;
图2-4
图2-5
2.2.3FW容量利用率/NAT利用率分析
FW容量利用率是指Gi防火墙会话数利用率,是FW实时会话数与License会话容量的比值。
NAT协议(Network Address Translation)将网络内部用户的私有地址转换成外网的公有地址。
现网NAT利用率是指CMNET激活产生的会话数与NAT转换容量的比值,由于不同厂商设备型号与版本不同,再结合现网用户模型,制定了不同的NAT利用率计算公式。
FW容量利用率和NAT利用率的预警值都是80%。
●数据来源:Sheet表“GPRS容量详表(源)”;
●处理方法:从将Gi防火墙会话数从“GPRS容量详表(源)”输入到“NAT地址
利用率”中;根据公式计算利用率:
NAT地址利用率=会话数/NAT地址池量/系数
FW容量利用率= 会话数/License会话量;
●注意:华为设备端口可以复用,话数超过200万才做预警;广州LAN11的设备
用私网IP端口号+映射NAT公网IP端口号+目标IP来标识不同用户,容量大幅
提升,故不作预警。
2.3网络质量分析
分析GPRS核心网关键的质量指标,关注PDP激活成功率、附着成功率、SGSN间路由区更新成功率较低的片区和网元,并及时发出预警和建议,确保网络质量优良。
●数据来源:综合分析系统-报表报告-数据网-质量-GPRS关键指标报表;
●处理方法:导出近期“全网日报”和“分网元日报”,在Sheet表“质量指标”
中进行汇总;对比近期数据,对各项质量指标连续下降的片区或网元发出预警;
如图2-6
图2-6
2.4业务质量分析
从各种业务的角度去评估网络质量,使提升网络整体质量的优化工作更加有针对性;分析的业务包括:HTTP、WAP2.0、FTP、QQ以及飞信业务。
●数据来源:省公司其他部门下发的《综合拨测小组周报》
●处理方法:因数据来源于报告,只需做简单整理。
3互联网专业
3.1网络质量分析
通过对移动家客、移动集客、WLAN、电信联通出口的质量统计分析,找出网络质量最差的地市,定位网络质量短板,有助于提升整体网络质量。
●数据来源:省公司其他部门下发的《综合拨测小组周报》
●处理方法:因数据来源于报告,只需做简单整理。
3.2链路峰值利用率预警分析
统计分析NAT链路、集团出口链路、BR/XIR互联链路和地市城域网出口链路的峰值利用率,对超过预警值的链路做出预警,对预防网络拥塞、合理调整链路资源,确保网络健康运行有着重要意义。
●数据来源:有线网络优化平台-质量分析-报表管理有线优化报表-CMNET报表
-CMNET流量报表;如图3-1。
图3-1
●处理方法:导出本周CMNET流量报表,以“集团出口峰值利用率”为例,简述
处理方法:创建如下数据透视表;
行标签:电路名称;
数值:平均值项:峰值利用率;
报表筛选:链路组名;
在报表筛选中选中“集团出口”,如图3-2所示;
图3-2
NAT链路峰值利用率预警值为90%;
集团出口链路峰值利用率预警值为75%;
BR/XIR互联链路峰值利用率预警值为80%;
地市城域网出口链路的峰值利用率预警值为50%。
4撰写报告
本分析工作最后的成果以《核心网运行质量分析周报》及相关表格呈现出来。
根据上述各项数据分析,完成《数据源分析XXXXXXXX》和《周报问题PDCA跟进表XXXX》;做出本周核心网运行质量小结,罗列出本周存在的主要问题并做出分析与建议,撰写《核心网运行质量分析周报》。
5核心网优化案例
5.1案例一SGSN鉴权参数优化
●现状:
SGSN对用户进行鉴权时会向HLR(AuC)获取鉴权参数,大部分厂商设备默认一次取5组,SGSN每次鉴权会使用一组,5组用完再重新向HLR获取;HLR一次最多只能向SGSN传送4组参数;
因此SGSN申请5组参数,则HLR需传送2次才能完成,一定程度上影响HLR 鉴权响应成功率,增加Gr链路负荷。
●优化方案:
将SGSN申请的鉴权组数调整为3;使HLR向SGSN传送鉴权参数只需一次即可完成。
华为设备
参数名称:MAXA VN 每次取最大鉴权5元组数
调整方法:命令控制SET MAPFUNC: MAXA VN=5;
中兴设备
参数名称:鉴权组数
调整方法:在“OMC专业维护->变量控制->分组域安全参数”中设置修改。
●优化结果:
以潮州某次优化结果为例,HLR鉴权响应成功率提升27%,达到95%;Gr链路负荷(忙时)最大下降19.78%;如图5-1
图5-1
5.2案例二SIP后INTER RAU成功率低的问题
●现象:
佛山SIP(SGSN in Pool)组建完成后,在提升网络容灾性能、降低切换和信令负荷方面取得显著效果。
相比SIP之前,忙时Inter RAU次数下降了92.7%,忙时Gr链路平均负荷下降了67%,Pool内各SGSN负荷偏高度为0.38%。
但是SIP组建之后,各SGSN的Inter RAU成功率下降非常明显,由92%降至55%,给业务连续性和用户感知带来很大影响。
●问题分析:
通过实践分析发现,当用户从一个POOL移动到另一个POOL时,会出现部分Inter RAU失败,失败的CauseCode是#9 MS identity cannot be derived by the network,无法从网络获得MS ID;子CauseCode是#133 GTP:sending of messag towards SGSN failed,旧SGSN向新SGSN发送用户context消息失败;如图5-2。
图5-2
●问题定位:
见图5-3。
图5-3
●解决建议:
在各个LAN的Gn防火墙增加源端口2123,目的端口是随机大端口(33825-36529)的GTP Service,方通这种访问方式的策略解决问题。
参考文献
[1] 李威,任志强,袁捷,董江波. SGSN设备现网实际容量研究[J]. 电信工程技术与标准化,2006,7.。