APM应用性能监控解决方案01
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
APM应用性能监控解决方案
现状与需求分析
随着分布式应用、云计算的不断深入发展,业务系统的逻辑结构正变得越来越复杂,应用已经演变成系列服务的形式,运行在不同平台上。应用的复杂性和灵活性加大了运维的难度,如何保障IT应用系统能够稳定、高效率的运行问题越来越受到了用户重视。
传统的IT监控解决方案主要关注资源监测、资源协调和纠错,但由于这种面向网络、主机、数据库、应用软件的平台级监控系统都是孤立、单独的监控与管理,通常都无法识别和解决应用性能问题的根源。我们需要一种新的技术手段,真实感知最终用户体验,主动发现应用性能问题,快速定位到问题组件,最终实现以预防为主的主动式应用性能监控。
.1
解决方案概述
Broadview APM基于网络镜像数据包,是一种有效的非侵入式解决方案,适用于企业内部业务系统,以核心业务系统和关键交易为主要监控目标,可对业务系统及关键交易性能进行深入分析,是一款基于用户体验的主动式应用性能管理方案。
.2
图1 整体解决方案
.3
Broadview APM为IT人员提供了IT基础架构之上观测应用系统的逻辑结构、负载量、健康度和可用性的方法,以业务拓扑图、时序图的形式可视化展现各服务组件、环节的运行状态。通过Broadview APM,IT 人员可以对要观察的IT基础架构有一个总体了解,从而可以更快地响应问题。
Broadview APM支持完整业务交易链的监控。通过在应用系统中设定关键交易点,可以实现对这些关键交易应用性能指数、最终用户体验的持续跟踪。Broadview APM还支持以Live视图形式串联关键交易形成完整的业务交易链。
Broadview APM还是一个高速摄像机,能够自动记录应用系统运行过程中出现的各类异常信息,包括错误码、异常原因及调用参数,帮助开发人员还原问题发生时的运行场景。
解决方案优势与特色
主动感知真实用户体验
.4
系统实时跟踪业务系统、关键交易的真实用户体验,形成Apdex指数、平均响应时间、吞吐量、成功率和用户数5大关键指标。其中,Apdex指数更是遵循标准,基于平均响应时间计算得出的用户满意度,是国际标准。
图2用户体验跟踪
.5
全面透视业务应用架构
应用完整交付链需要感知业务交易过程中的各个环节。应用拓扑以最直观的形式对系统维护人员呈现业务系统的运行方式。系统支持业务拓扑节点的自发现,并提供图形化配置界面,依据自发现的各服务节点应用组件,快速绘制应用拓扑图。
业务仪表板以应用拓扑图为中心,实时呈现各业务组件的关键性能指标,集中体现服务运行质量。借助时间轴技术,还可以快速根据最近一个月内的每分钟运行情况进行快速定位,方便回放故障演变过程。
.6
图3 应用拓扑图
.7
实时跟踪关键业务交易
可从识别出的所有业务交易中筛选出感兴趣的交易作为关键交易。系统除实时统计关键交易的Apdex指数、吞吐量、平均响应时间、成功率、用户数5大关键指标,还实时监测不满意用户数、不满意的访问数,便于快速确定业务影响范围。
.8
图4 关键交易跟踪
性能瓶颈定位与预警
APM系统具备定位关键业务故障到IT基础架构的能力。通过服务组件间、监控指标间的关联分析,确定各组件、各指标间的内在关联关系,用于问题初步定位、根源分析、回溯分析及趋势预测等。与协同座谈会相比,该方法将极大减少运维人员确定故障环节的时间。
系统每分钟生成的运行快照,可用于回溯分析。利用时间轴技术,运维人员可对业务系统及关键交易监控指标历史数据进行智能分析、挖掘、检索等,完整还原某个历史时点业务系统运行情况。
关系分析和回溯分析可帮助问题初步定位。当业务系统运行发生的问题后,系统在应用拓扑图中定位至具体的服务组件,提供与问题关联的具体监控指标,为问题根源分析奠定基础。
问题初步定位后,运维人员即可针对问题组件使用各种专项工具对问题根源进行分析。
.9
图5 故障定位与告警
.10
应用问题重现与优化
Broadview APM除提供WEB端最慢的访问页面外,还可以查看最慢的SQL语句,方便开发人员优化。
.11
图6 最慢的页面
图7 慢SQL跟踪解决方案收益
.12
Broadview APM专为以下用户设计:
业务管理人员
全盘把握实时业务性能,实时了解用户访问性能
进行主动性能管理,持续提升用户体验
IT运维人员
当业务运行出现潜在风险时即预警,而不是出现故障时
发现主机监控、日志分析等检测不到的潜在问题
快速故障域隔离,查找故障根源
IT 开发人员
查看最慢的页面、最慢的SQL
.13
查看错误码信息和页面调用参数,修正程序BUG
定位性能瓶颈节点,持续提升性能
.14