中国移动互联网业务端到端感知分析白皮书V2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
移动互联网业务端到端感知分析白皮书
(V1.0)
中国移动通信有限公司网络部
2014年3月
目录
1总述 (2)
2整体分析思路 (2)
314年工作的突破点 (4)
4感知评估 (5)
4.1业务分类 (5)
4.2通用质量评估指标 (5)
4.3分业务的质量评估指标 (6)
5关联定界 (7)
5.1端到端感知关联定界理论和总体分析思路 (7)
5.2端到端业务质量关联定界方法 (9)
6后续试点内容 (12)
移动互联网业务端到端感知分析白皮书
1总述
移动互联网业务端到端感知分析是集中性能管理的核心应用,主要用于对客户在使用移动互联网业务时进行端到端的客户感知评估,并对客户感知问题关联定界到终端-网络-平台的某一端到端环节。
移动互联网端到端感知分析主要包括两大内容,一是通过每用户每业务过程的解析和客户感知评估,实现总体客户感知和业务质量的评估;二是对客户感知问题进行端到端环节的关联定位。
对移动互联网端到端感知分析的应用主要包括两大方面,一是客户感知的实时监控,主要包括对重要客户的感知及重要业务质量的实时告警监控,预处理和派单;二是客户感知的专题分析,包括对总体客户感知情况,各重要业务质量的分析。
2整体分析思路
目前端到端感知分析整体上有两类方法:
经研讨,各省一致认为基于KPI自下向上模拟用户感知的评估方法不能直观反映用户感知,且准确性难以验证,而基于KQI自上而下的方法更能直观反映客户感知,并能进行性能问题的钻取和关联定界,最终落地到终端、网络、SP三个维度的问题,相对更好。
因此,建议后续分析主要采用自上而下的方法。
具体到感知评估、问题定界,思路如下:
1、感知评估方法:
(1)针对全网感知评估考核,建议采用简单统一的指标,比如成功率、时延和下载速率等。
(2)针对热点业务精细专题分析,考虑到不同业务的特点有较大的不同,建议建立针对不同业务类型的指标体系。
例如浏览类业务评估5项指标(首页响应成功率、首页响应时长;页面刷新成功率、页面刷新时长;页面下载速率)、视频业务评估5项指标(播放成功率、播放等待时长;停顿次数、停顿时长占比、播放中断率)。
2、关联定界程度:
集中性能管理团队开展端到端分析发现性能问题,定界到质差网元、质差小区、质差用户、质差终端、质差SP;
专业维护团队进一步关联信令、话统、拨测、投诉、告警等进行根因溯源,分析定位问题原因,可将成熟的关联分析规则梳理前移至性能管理系统。
314年工作的突破点
14要重点围绕4G移动互联网业务,开展端到端感知分析。
与以往传统的端到端的信令监测分析相比,14年要实现3个突破:
(1)要实现真正KQI统计分析。
以时延为例,传统是按照单一事务操作关联统计Get时延、Post时延等指标,现在是按照完整业务过程关联统计打开页面时延等KQI指标,精准表征客户感知。
(2)要直观反映客户感知。
以往是基于KPI建模模拟客户感知,现在是直接基于KQI反映客户感知。
(3)从面向网络向面向业务转变,且能更精准的定界问题。
以往是面向网络、网元、小区聚合指标,基于均值寻找问题,可发现网络自身问题,但对终端和业务平台引发的一些问题,不能及时发现,也不能精准地定界。
例如:某业务平台的服务器由于拥塞,导致其TCP链接成功率仅50%,该业务质量劣化明显,但从网络来看,总体的TCP链接成功率达99%,该业务的质量劣化就被淹没在大量成功TCP链接中而不易被发现。
今年要从面向网络向面向用户转变,实现每用户每业务的感知评估,并总结自上而下的溯源关联规则,实现精准的
问题定界定位。
4感知评估
通过对移动互联网业务进行分类,对每类业务制定相应的贴近客户感知的KQI指标,对每用户每业务过程进行KQI计算,实现客户感知的评估。
4.1业务分类
业务的分类可以随着移动互联网的发展而不断更新,对每一种移动互联网业务应将其归为其中某一类。
详情见《业务分类和DPI识别需求规范》。
根据4G业务大带宽的特点和目前现网4G业务的模型,重点关注四类移动互联网业务,即网页浏览类、视频类、即时通信类、应用下载类。
4.2通用质量评估指标
针对全网感知评估考核,建议采用简单统一的指标,比如成功率、时延和下载速率等。
通过紧扣关键感知点建立用户感知评估标准,将不同业务的感知(网页能否打开、网页打开快慢、视频能否打开、视频播放是否流程、业务登录是否成功等)聚类成3类感知评估指标。
1、http业务建立成功率;
2、小流量http业务时延;
3、大流量http下载速率。
4.3分业务的质量评估指标
业务端到端感知指标体系设计的目的是让用户真实体验能通过指标进行量化,并使指标对于用户和业务人员易于理解。
从用户感知角度,虽然各种客户端的实现机制各有不同,但用户可观察到的体验指标应基本一致。
从客户主观角度,“信息交互的可用性”、“信息交互的及时性”和“信息交互的稳定性”是衡量业务质量和客户感知的三个关键维度。
从3个关键维度出发,不同业务类型建议业务质量KQI指标分类如下:
四类重点业务的KQI指标描述如下:
5关联定界
关联定界,是通过采集相关信令、网管等数据,对感知问题定位到终端、无线网、核心网及业务平台的一个或几个环节,并对问题原因进行初步的描述。
5.1端到端感知关联定界理论和总体分析思路
用户手机上网按时间先后要经过附着(ATTACH),PDP激活,DNS解析,
TCP链接,HTTP业务的五个过程。
这五个过程可以分为两类,一类是附着(ATTACH)这一过程,这是所有手机用户能够实现上网业务的前提过程,附着过程不与业务过程相关联,可以单独分析,并且附着目前已经有了较为完善的根据错误码定界的规则。
另一类过程是其余PDP激活,DNS解析,TCP链接,HTTP业务四个过程,在用户发起业务时需经历这四个过程,在发生业务质量问题时需要进行联合分析。
图:用户上网过程(以2/3G为例)
“信息交互的可用性”、“信息交互的及时性”和“信息交互的稳定性”是衡
量业务质量和客户感知的三个关键维度,对应于“信息交互的成功性”和“信息交互的稳定性”,为成功率和掉线率类问题,表征业务是否可用和持续可用,而对应于“信息交互的及时性”是时延速率类问题,通常是业务使用时延过大,下载速率过低的问题。
手机上网流程涉及终端、无线网、核心网、CMNET和内容平台五个环节,链条长、环节多,任何一个环节和信令交互出错均会导致用户无法上网。
但是上网的流程基本都遵循统一规范的信令流程。
当用户发生成功率和掉线率类问题时,可根据信令协议,确定用户在PDP激活,DNS解析,TCP链接,HTTP业务中的哪个过程失败,再通过错误码定位问题环节。
当用户发生时延速率类问题时,对于时延类指标,时延长涉及PDP激活,DNS解析,TCP链接,HTTP业务四个过程,可分别钻取四个过程的时延,对异常时延过程,再钻取到无线、核心网、业务平台等环节;而对于速率类(信息交互的持续性)指标,通常影响速率的是TCP过程和HTTP业务过程,HTTP承载在TCP之上。
根据前期的现网实验,TCP时延和下载速率具有强相关性。
对于速率类指标,根据TCP的分段时延进行定界。
5.2端到端业务质量关联定界方法
根据上文阐述的总体关联定界思路,将端到端业务质量问题分为两类:一类为事件型,另一类为非事件型。
事件型问题通过协议首先确定用户业务失败在PDP激活,DNS解析,TCP 链接,HTTP业务的哪个过程,在根据错误码关联定界到无线、核心和业务平台的某一段。
非事件型问题可以通过分段时延的对比查找异常环节。
5.2.1成功率和掉线率类问题问题关联定界
用户上网业务主要包括附着,PDP激活,DNS解析,TCP链接,HTTP业务的五个阶段,当发生成功率和掉线率类问题时,首先通过信令过程确定业务失败在哪个过程,然后根据这个过程中出现的错误码对问题进行关联定界。
图:成功率类问题定界过程(以2/3G为例)
5.2.2速率时延型问题关联定界
对于时延类(信息交互的及时性)指标,时延长涉及PDP激活,DNS解析,TCP链接,HTTP业务四个过程,可分别钻取四个过程的时延,对异常时延过程,再钻取到无线、核心网、业务平台等环节;而对于速率类(信息交互的持续性)指标,通常影响速率的是TCP过程和HTTP业务过程,HTTP承载在TCP之上。
根据前期的现网实验,TCP时延和下载速率具有强相关性。
对于速率类指标,根据TCP的分段时延进行定界。
对于时延型问题,由于时延长涉及PDP激活,DNS解析,TCP链接,HTTP 业务四个过程,可分别钻取四个过程的时延,对异常时延过程,可以根据时域迭代模型,分别计算无线侧、核心网侧(SGSN-GGSN侧)、业务平台侧(GGSN-SP)的分段时延,根据异常时延关联定界。
对于速率型问题,通常影响速率的是TCP过程和HTTP业务过程,对异常时延过程,而HTTP承载于TCP之上,可以根据时域迭代模型,分别计算无线侧、核心网侧(SGSN-GGSN侧)、业务平台侧(GGSN-SP)的分段TCP时延,根据异常时延关联定界。
图:速率时延类问题定界过程(以2/3G为例)
6后续试点内容
请各试点省从感知评估方法、关联定界方法、手段需求、应用规范4个方面进一步展开试点探索,具体包括9项内容:
一、感知评估方法方面
1、对于每类业务的KQI指标,通过试点确定明确的计算算法,并进行试点验证后完善,14年4月底输出移动互联网KQI指标集合和定义。
二、关联定界方法方面
2、对与成功率类KQI的关联定界,通过试点,对附着(ATTACH),承载建立,DNS解析,TCP链接,HTTP业务五大过程在4G网络中的关联定界过程丰富完善,14年4月底输出首批4G网络下的事件型问题的关联定界规则,并在后续试点中不断丰富完善。
3、对于速率时延类KQI的关联定界,通过试点验证通过时域迭代模型对速率、时延类问题关联定界的可能性,并确定不同类业务不同时延速率类KQI的分过程、分段的异常时延门限。
14年5月底输出首批4G网络下非事件型问题的关联定界规则,并在后续试点中不断丰富完善。
三、手段需求方面
4、通过试点,明确对4G移动互联网业务质量分析需采集的信令接口,每个接口采集哪些信令,这些信令数据的保存周期,14年5月底输出4G网络下的分析手段需求。
四、应用规范方面
5、针对4G视频、浏览、即时通信、下载等关键业务,积极运用感知评估和关联定界方法,开展端到端质量的常态化分析,发现影响客户感知的问题,定
位质差小区、网元、终端、内容源等问题环节,开展优化提升。
各省通过端到端监控和分析发现的网络相关问题,通过性能工单流程实现闭环管理;涉及终端、业务平台的问题,应与省内业务部门建立沟通渠道,协同开展问题排查和联合优化,并将共性问题及时上报总部。
从5月起,每月底根据下表专题研究计划按本白皮书评估和关联定界算法开展分析,并上报试点进展情况,包括方法和规则研究进展、端到端分析报告、性能问题联合优化方案和解决进展等。
6、通过试点,结合实际生产需要,总结4G移动互联网分析的专题分析,对于每个专题,明确分析需求,分析思路、分析步骤、分析输出和后续流程,14年7月输出移动互联网专题分析规范。
7、通过试点,明确哪些KQI指标需要实时监控,哪些指标需要摘挂牌管理,哪些指标需要进行缓变分析。
14年8月输出移动互联网实时监控和摘挂牌KQI 指标集。
8、对于需要实时监控的KQI指标和摘挂牌,分别确定实时监控的时间粒度、异常门限等实时告警监控规则和摘挂牌规则,并尽可能的总结告警预处理经验。
14年9月输出实时监控和摘挂牌指标规则和预处理手册。
9、10月底前系统总结试点经验,包括感知监控和分析方法、问题关联定界规则、分析手段需求、应用规范和流程等,形成《移动互联网业务端到端感知分析规范》并上报总部。