利用大数据分析重新定义企业服务质量(PPT45页)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

静态研究
需要了解被管理业务的逻辑拓扑,建立 业务模型
通过监控工具获得性能数据,获得KPI数 据,更有效的性能管理需要结合动态性能基线来判 断业务偏离
先进仪器
借助于各种先进的仪器,目的是弄清病 因、发现病灶,找准病位:
资源监控、模拟交易、用户真实交易体验等管理工 具
10
© 2014 IBM Corporation
▪ Application component deep dive — 单一领域,基于应用环境上下文的的深入分析,和 问题诊断
▪ IT Operation Analytics(ITOA) — 将数据整合、格式化、分类后,通过关联和智能分析 来提供更准确的业务管理能力
摘自: GARTNER G00263442 (28 May 2014)
9
看着宕机恶果蔓延有如烧钱一般...
© 2014 IBM Corporation
传统业务管理与基于IT运维分析(ITOA)进行业务管理的区别
基于ITOA 方案
传统方案
状态考察
客户业务系统的应用日志包含准确、 详细的交易信息,真实、全面的体现了用户 业务系统的状态
望闻问切
将非结构化的业务系统的应用日志, 通过大数据技术进行高效收集、格式化、索 引、分析,将业务系统的应用性能状态准确、 及时的体现出来,并结合认知技术、逻辑算 法,实现故障的提前预警
6
© IBM Corporation
IBM Software Group
…需要分析很多数据并结合业务拓扑,才能识别问题
© IBM Corporation
预防性管理的时代已经到来
IT环境爆炸性增长的数据(日志通常包含了最准确、最真实的关键信息) • 拥有5000台服务器的企业每天产生超过1.3 TB 的数据
我们要处理 什么样的数据?
11
© 2014 IBM Corporation
运维管理的需求与焦点转向敏捷与简洁
IT运维是一种典型大数据挑战
• 典型的大型企业: 5000 服务器 + 网络 + 存储 + 中间件,每天产生大 约1.3 TB 的可用性和性能管理数据 • 跨国公司及服务提供商则拥有超过20,000服务器, … 每天产生大约4.5 TB数据 • Web及移动应用所要求的研发与敏捷开发,产生的数据量则大到难以 统计
利用大数据分析 重新定义企业服务质量
杨振宇 yangzy@cn.ibm.com 软件部技术顾问
议程: 我们的数据从哪里来? 我们要处理什么样的数据? 我们要如何处理这些数据? 基于大数据的企业服务管理之道 案例分享
问题:除了他,任何人都必须用数据来 说话!
我们的数据从哪里来?
IBM Software Group
• APM文摘2013: 75%的高级IT总监对传统的管理方 式感到不满意, 30%表示他们无法预测潜在的宕机威胁
运维和业务线需要洞察 …
可用性?
性能?
容量?
使用率?
构成?
智慧的基础设施带来大数据的机遇
• 典型的企业产生数以万计的工单和服务申请 来管理他们核心的资产 – 约每天 1 TB非结构化数据
Rave
Watson
应用性能管理(APM)
系统 & 日志监控
事件管理
运维环境
15
Applications | Systems | Workloads | Wireless | Network | Voice | Security | Mainframe | Storage | Assets © 2014 IBM Corporation
▪ 大多数企业只是在业务中断时被动应对
▪ 企业的信息孤岛,分离的工具,以及数据的复杂性及如此浩瀚,加大 了诊断故障的难度
▪ 系统宕机与变坏将造成数以百万计美元的损失,伤害品牌、客户印象 及忠诚度
▪ 管理层从严要求其团队:事先预防,而不是事后补救
8
© 2014 IBM Corporation
运维团队做不到预防性管理的主要障碍
• 海量数据,无法进行人工分析 • 现行分析技术如标准阈值分析法,无法实现预防目的 • 无法诊断到正在发生的问题(在造成业务损失之前) • 阈值要么定得太高,在完全宕机之前没有足够的警告 • 阈值要么定得太低,噪音太多,所有一切都忽略掉了
如果在宕机前没有"预先诊断"的话,运维团队则只能被动应对,眼睁睁
• 库存与资产 • 用户文档与技术文档
搜索
…取得洞察力
13
预测
… 提供洞察力
优化
… 基于洞察力
© 2014 IBM Corporation
我们要如何处理 这些数据?
14
© 2014 IBM Corporation
IBM持续对分析领域进行投资,并在此基础上构建运维分析能力
业务成果
主动规Hale Waihona Puke Baidu宕机
快速解决问题
宕机成本超过以往任何时候 • 关键性业务的宕机会给企业造成每小时数以百万计美元的损失:券商 ~$5-7百万/每小时,信用卡机构
~$2-3百万/每小时,移动业务服务提供商 ~$66万/每小时,民航代理 ~$9万/每小时。
相对于迅猛增长的要求而言,IT员工的水平则在下滑或没有起色
▪ 很少有公司是真正以预防为主的
性能优化
Predict
Search
Optimize
能力
问题发生之前进行预测
在海量的数据中进行快速搜索
IT应用基础架构优化
IBM 大数据平台
IBM 或者第三方
解决方案
IBM SmartCloud Analytics
Streams
SPSS
Cloud Insights
InfoSphere BigInsights
• 智能的网络资产自身就会产生大量数据: 电源, 温度, 流量 … • 用户需要提供对资产性能, 可用性及成本管理的洞察和趋势
运维大数据的来源:包括结构化、非结构化数据
• 网络流量与事务处理 • 日志文件 • 警告/报警与事件 • 性能指标 • 核心文件与内存痕迹 • 配置文件
• 服务请求 • 故障通知单 • 社交媒体
数据的来源:企业业务管理的五个维度
▪ End-user experience monitoring — 捕捉应用或服务的终端用户体验
▪ Runtime application architecture modeling — 发现应用所依赖的软硬件基础设施,以 及它们之间在运行时的通信关系。
▪ User-defined transaction flow monitoring — 对指定交易,在执行的过程中,穿越的各 逻辑节点,所占用的资源和响应时间能够跟踪
相关文档
最新文档