业务性能监测分析系统建设方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•终端用户对系统的抱怨超过70%和性能相关,但IT监控显示系统资源正常 •用户投诉中超过70%场景无法重现,因而无法解决
2019/6/23
4
1.2、为什么业务性能监测难度大
Business Transaction
Other Services
Web Portal
Boss
OA
Apps1
Apps2
Business Services and Activities
网站日志分析
•通过标记对每个网页进行分析 •定期下载web日志到专用分析服务器 •日志越详细,系统开销越大 •主要用于对网页使用的分析 •没有用户和会话的概念
F8PMS采用的技术: 终端数据采集 + 系统侧网络数据采集 相结合方式
2019/6/23
福莱特信息技术有限公司
12
2.4、主要技术比较(续)
•访问了那些系统、栏目、页面或者请求? •访问了那些重点内容? •什么页面/请求最慢?资源开销最大? •出现了那些错误,那些错误最频繁? •那些页面最大?那些页面占传输最大? •客户端、服务端、网络端时间怎样? •那些DNS查找时间最慢?连接时间最慢?
哪里 Where
何时 When
•用户来自哪里?
•哪里出错?(客户端、服务器、 JS脚本)? •那个系统、那个栏目流量大? •那个系统、那个栏目用户多?
内存等终端性能数据。 端到端:表示数据来源终端侧数据测量,涵盖从终端出发到WEB服务响应完成的整体情况,代表端到端感受; 采集指标扩展性:表示可以支持新增指标种类的采集,例如:需要增加对Flash、JavaScript或者其他的web2.0应用事件的监视、性能测
量的扩展功能。
2019/6/23
回复内容大小
响应状态码
Cache
Cookies
请求头、响应头
查询字符串
POST数据
2019/6/23福莱特信息技术有限公司
15
3.3.2、性能指标—页面数据
v 基本信息
页面编号 用户编号 开始时间
URL 标题 渲染开始时间 页面Load时间 Http加载时间 上载字节 下载字节
•
用户使用感受和体验是业务系统的性能服务能力的重要体 现。
• 用户对业务平台服务的认同,是用户使用感受和体验的过 程所决定的。
•
用户与业务平台互动的过程决定成败,不再是单纯的产品 功能。
•
如何保障业务平台长时间稳定、高效的性能服务能力的提 供成为IT维护部门关注的重点。
•
期望能建立实时的业务性能监测数据收集、分析、评估系 统。
谁 Who
•真实用户,IP地址、用户组、部门 •那些是最不满意的用户 •那些是最忙的用户 •重点用户情况怎样 •那些是最不满意的部门 •重点关注部门
如何 How
•如何快速准确定位错误? •那些用户受到那些影响? •那些系统受到那些影响? •如何分析问题出现哪里? •如何优化、提升应用?
什么 What
快速定位问题 掌握体验变化
实时收集访问问题,提供问题快速定位 缩短故障处理时间,提高服务满意度
全面实时掌握用户访问业务系统的体验变化 实现服务水平的有效评价
业务优化建议 分析存在问题,提供业务优化建议
2019/6/23福莱特信息技术有限公司
优化、提升
分析、比较、评估
数据收集
9
2.1、F8PMS系统结构
可用性 Availability
用户遭遇到的可用 性错误
—DNS查找失败 —服务器连接失败 —服务不可用等
业务系统访问异常视 图
业务系统的可用率视 图
用户访问成功率排名
出现错误的定位: DNS不通、网络连接失 败、WEB服务不可用、
那个服务器、那个页面、 那个请求等
2019/6/23
福莱特信息技术有限公司
2019/6/23
3
1.1、面临的问题——难以分清责任界面
第三方支持
终端用户
•网络响应太慢 •OA无法访问 •下载速率太慢 •交易失败
•系统规模扩大 •复杂程度高 •为网络太慢到处奔波 •无法定位关键点
IT支撑
•内部网络问题? •中间链路问题? •业务系统问题? •数据库系统问题? •中间件问题 •浏览器问题? •操作不当?
前端数据展示
关系型数据库 非关系型数据库 分布式文件系统
趋势分析
统计报表来自百度文库
数据挖掘
大数据分析模型
KPI指标预警模型 KPI指标量化、统计模型
关联分析模型
业务系统数据 分析模型
终端用户数据 分析模型
大数据预处理(ETL)
终端插件数据处理
探针数据处理 汇总层 整合层 接口层
F8PMS
• 在浏览器上安装插件,从
操作系统CPU利用率 浏览器CPU利用率 物理内存 已用内存 内存利用率 ……
包括: 具体http请求列表
2019/6/23福莱特信息技术有限公司
16
3.3.3、性能指标—关键对象
业务系统/栏目/重点内容
综合指标
可用率(成功请求数/总请求数)
活动时间
页面访问量/慢页面访问量
福莱特信息技术有限公司
13
三、 F8PMS 性能指标
N1
network N4
WEB Server
A1
A3
DataBase Server
N2
A2 N3
• 业务平台的服务性能监测期望获取用户使用感受和体验的
真实反应
• 用户使用感受和体验:从用户触发一个页面请求到这个页
面被完全展示的时间,代表用户感受体验的关键指标。
7
1.5、现有IT管理技术并不有效
满意度达不到用户的期望……
……但往往我们并不能及时知道
IT用户遭遇的主要问题?
怎样知道问题的发生?
2019/6/23
福莱特信息技术有限公司
8
二、F8PMS解决方案
终端用户的使用体验是管理信息系统业务服务水平的重 要体现,通过对用户端到服务端进行全程业务性能监测分析, 可以协助维护人员及时发现、定位和解决问题,从而提升业 务平台服务能力,改善用户使用感知,提高用户办公效率。
1. 业务系统层次架构、网络 环境复杂
2. WEB应用问题诊断困难
3. 客户端环境难于监控
4. 应用开发商管理困难
2019/6/23
Boss
OA
Others
中间件 虚拟机
数据库
服务器
存储器
Services Cloud
其他 服务
湖南福莱特信息技术有限公司 5
1.3、关注的问题
•终端用户在什么时间、做了什么? •他们是否完成了交易? •他们对业务平台的服务性能满意度如何? •那些页面/请求导致了服务性能满意度下降? •那里的页面/请求导致了最大的服务压力? •那些服务器负担最重? •业务平台服务性能趋势变化如何?是否向好的方向发展还是向坏的方向发展? •那些页面/请求引起的服务性能变化? •那里导致了最多的问题?那些问题出现最多? •出现的问题影响了那些用户? •用户究竟遭遇了那些问题?是否和WEB服务有关?是否是JS问题? •如何快速定位业务平台问题的根源? •帮助维护人员尽快解决?
WEB Server
具体信息
时间信息
开始时间
结束时间
URL
Reference URL
重定向URL
客户端IP
客户端端口
服务器名称
服务器IP
服务器端口
http协议(http/https)
请求方法(GET/POST/HEAD等)
http版本
请求内容大小
项目
全面
监测
真实 数据
终端数据 多样化
端到端
采集指标 扩展性
终端侧数据采集
√
√
√
√
√
系统侧网络数据采集
√
√
─
─
─
代理仿真数据采集
─
网站日志分析
○
页面标签技术
○
─
─
─
─
√
─
─
─
√
─
─
√
√:支持; ○:部分支持;─:不支持;
全面监测:具有对所有时间,所有用户,所有交易的监测能力; 真实数据:采集的数据来源自终端用户日常访问行为,不是“模拟”的访问业务行为; 终端数据多样化:可以获取除页面/请求访问的数据外,还可以获取到页面加载时间、渲染开始时间、JS运行错误、ActiveX性能数、CPU、
页面请求信息
请求数 成功数 失败数 Cache数 DNS查找次数 DNS时间 Block次数 Block时间 Tcp连接次数 Tcp连接时间 Send次数 Send时间 Wait次数 Wait时间 Recv次数 Recv时间
页面访问时的系统信息
2019/6/23
福莱特信息技术有限公司
6
1.4、如何衡量用户的满意度
满意度的 基本维度
基本KPI
管理视图
技术视图
性能 Performance
可访问性 Accessibility
•用户页面打开时间 (满意、忍耐、愤怒)
•下载时间 •用户数 •用户终止数
•业务系统/栏目/重点 内容满意度
•用户组/部门/用户满 意度
用户端收集业务系统访问
的性能指标以及业务访问
数
中出现的问题;
据 分 析
• 通过在服务器前端部署 Http分析探针,从服务器
平
端收集业务系统访问性能
台
指标。
• 结合两者采集到数据完成 端到端的业务性能分析。
大数据采集
终端插件数据采集
探针数据采集
2019/6/23
福莱特信息技术有限公司
10
2.2、业务平台的服务性能监测基本维度
业务性能监测分析系统建设方案
目录
1 背景及面临的问题 2 F8PMS解决方案 3 F8PMS性能指标 4 F8 PMS功能 5 总结
2
一、背景
• 信息化技术的发展、企业对业务系统平台的依赖程度越高。
• 随着业务访问的数据量、用户量日益增加,系统规模不断 扩大 , 复杂性不断增加 ,业务系统的性能和服务质量显得 越来越重要。
页面平均/最大/最小请求数
请求访问量/Cached请求访问量/错误请求访问 量
用户数/受影响用户数
部门数/受影响部门数
平均/最大/最小页面装载时间
平均/最大/最小HttpLoad时间
平均/最大/最小渲染开始时间
平均/最大/最小DNS查找时间
平均/最大/最小TCP连接时间
•不同时间的访问曲线? •不同时间的比较情况? •指标变化情况? •什么时间的错误? •数据回溯
2019/6/23
福莱特信息技术有限公司
11
2.3、主要技术比较
终端侧数据采集
•通过在客户端安装插件或者企业浏览器实 现 •监视页面、请求性能数据 •采集更多指标,如:DNS、TCP Connect、 PageLoad,RenderStart •真实代表用户体验性能数据和满意度
• 用户使用体验时间=网络时间+应用响应时间+浏览器处理时间 • 网络时间:DNS时间,TCP连接时间,页面页面请求与下载时间
2019/6/23
福莱特信息技术有限公司
14
3.3.1、性能指标—请求数据
浏览器 DNS
Wait
TCP Connect TCP Send
TCP Recv
• 基本信息 • 请求编号 • 页面编号 • 页面序号 • 用户编号
•满意度排名、趋势
•客户端 VS 网络 VS服务 器端时间
•消耗资源最大的请求 •最慢的请求 •最大的请求
用户遭遇到的系统 性错误—网络、WEB 服务器、JS错误等 出错数
业务系统/栏目/重点 内容可用率
用户组/部门/用户成 功率
出错率的变化趋势
出现错误的定位:那个 服务器、那个页面、那个 请求,客户端还是服务器 端等 出错的请求参数等细节
系统侧网络数据采集
•通过部署专用探针分析网络数据 •一般部署在WEB服务器前端 •收集Http请求性能数据 •不是从客户端进行数据收集和度量 •缺少DNS查找时间、页面加载时间、 渲染开始时间等指标采集、分析。
代理仿真数据采集
•活动代理模拟最终用户按预定时间间隔 发送模拟交易来测量响应时间 •主要用于监测网站定制的服务水平 •给系统带来压力和不是真实的用户体验
平均/最大/最小发送时间
平均/最大/最小服务等待时间
平均/最大/最小接收时间
平均/最大/最小客户端时间
平均/最大/最小网络时间
请求类型分布(分为:文档/脚本/CSS等)
时间分布
请求状态分布
用户组/用户/部门
综合指标 成功率(成功请求访问量/总请求访问量) 活动时间 页面访问量/慢页面访问量 页面平均/最大/最小请求访问量 请求访问量/Cached请求访问量/错误请求访问量 平均/最大/最小页面装载时间 平均/最大/最小HttpLoad时间 平均/最大/最小渲染开始时间 平均/最大/最小DNS查询时间 平均/最大/最小TCP连接时间 平均/最大/最小发送时间 平均/最大/最小服务等待时间 平均/最大/最小接收时间 平均/最大/最小客户端时间 平均/最大/最小网络时间 请求类型分布(分为:文档/脚本/CSS等) 时间分布 请求状态分布