统一运维大数据分析平台建设和应用综合解决方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统一运维大数据分析平台建设和应用综合解决方案2020年3月30
统一运维大数据分析管理平台
建
设
方
案
目录
第1章.方案概述 (4)
1.1.项目背景 (4)
1.2.需求分析 (5)
1.3.建设目标 (7)
1.3.1.建立统一运维门户 (7)
1.3.2.建立IT异构资源的全面集中化管理 (7)
1.3.3.建立全面准确的资产配置管理 (8)
1.3.4.建立符合最佳实践的服务流程管理 (9)
1.3.5.建立IT资源全面直观的可视化管理 (9)
第2章.解决方案 (10)
2.1.系统设计原则 (10)
2.1.1.实用性和模块化原则 (10)
2.1.2.一致性和开放性原则 (11)
2.1.3.安全性与可靠性原则 (11)
2.2.系统安全设计 (12)
2.2.1.用户安全机制 (12)
2.2.2.SSO统一认证 (12)
2.2.3.权限分权分域 (12)
2.3.系统建设方法 (13)
2.3.1.体系架构 (13)
2.3.2.功能架构 (17)
2.3.3.技术架构 (17)
2.3.4.部署架构 (18)
第3章.功能概述 (19)
3.1.运维监控系统 (19)
3.1.1.统一运维管理 (19)
3.1.2.资源监控管理 (23)
3.1.3.拓扑管理 (45)
3.1.4.IP地址管理 (59)
3.1.5.告警管理 (61)
3.1.6.业务管理 (66)
3.2.3D机房管理 (70)
3.2.1.监控可视化管理 (72)
3.2.2.资产管理可视化 (76)
3.2.3.机房3D图形化展示 (78)
3.2.4.配线可视化管理 (80)
3.2.5.容量可视化管理 (82)
3.2.6.资源分配情况管理 (84)
3.2.7.上下架可视化 (85)
3.2.8.自定义动画 (86)
3.2.9.交互式演示汇报 (87)
3.3.配置文件管理 (87)
3.3.1.巡检管理 (88)
3.3.2.机房虚拟现实展现 (91)
3.3.3.资产管理系统 (95)
3.3.4.供应商管理 (96)
3.3.5.配置建模管理 (97)
3.3.6.空间资源管理 (99)
3.3.7.配置项导入 (101)
3.3.8.配置项管理 (102)
3.3.9.配置项视图 (105)
3.4.运维流程管理系统 (107)
3.4.1.服务台 (107)
3.4.2.服务设计 (115)
3.4.3.服务产品设计向导 (116)
3.4.4.服务流程管理 (135)
3.4.5.服务量化管理 (169)
3.4.6.值班管理 (186)
3.4.7.任务管理 (192)
3.4.8.公告管理 (193)
3.4.9.移动终端运维 (194)
3.4.10.报表统计分析 (196)
3.4.11.第三方接口 (201)
3.4.12.运维知识库系统 (203)
3.5.统一运维大数据管理分析系统 (210)
3.5.1.统一运维大数据基础系统 (210)
3.5.2.统一运维数据分类管理 (210)
3.5.3.运维大数据检索与展现 (215)
3.5.4.海量日志文件分析 (219)
3.5.5.指标动态基线预测 (223)
3.5.6.运维支撑能力评估 (226)
第1章. 方案概述
1.1.项目背景
运维大数据分析系统是一套深度分析和挖掘多种异构数据源运维数据的大数据平台。
通过对运维过程中每分每秒产生的亿万条海量数据进行挖掘,它可以提取和生成有价值的运维分析数据,帮助企事业单位用户找到问题根源和优化改进的关键点,从而对当前业务系统及运维系统多角度精准评估和把控。
随着运维精细化要求的日益提升,企事业单位需要积累更多的能力辅助智能化运维场景和策略,实现更多管理途径的扩展。
异构化环境的复杂化,导致企事业单位用户对数据分析的要求越来越高。
借助海量的运维数据优化改进当前工作方法,建立在大数据分析基础上的智能化运维时代已经来临。
将大数据技术与运维管理系统无缝结合,对运维过程中产生的大量数据进行关联挖掘、周期预测、行为学习、规律分析等,为用户提供更加精确且符合企业业务的解决方案,提前定位和预知各类故障,从而进行趋势预测、业务分析和多角度评估。
传统的运维,通过各类运维工具或网管软件来实现日常管理,数据格式各不相同,告警内容及规则各异。
勤智ITBA运维大数据能够将各个独立分散的系统进行整合,并提供标准接口。
运维整合,体现在数据的采集、分析、汇总、处理、总结、预案等几个层面。
运维以“让运维更智能,让业务更高效”为理念,在业界率先提
出基于运维大数据的智能化解决方案,通过OneCenter平台中的运维大数据分析系统,帮助运维人员预防故障发生和快速解决故障,也可为运维决策提供预测依据。
1.2.需求分析
通过对客户的信息化建设和运维管理现状的调研和深入分析后,了解到目前客户IT运维发展的现状:
❖公司IT应用不断扩大,越来越多的应用和业务在网络上运
行,对网络的依赖越来越大,缺少一套针对IT软硬件的统一
监控系统,无法及时了解IT软硬件设备的运行趋势,无法快
速故障定位,故障处理效率低;
❖业务服务的规模增大,规划、维护、安全、管理等分工更加细致,缺乏对业务系统健康状况和运行趋势的监测,无法判定
业务系统是否存在运行瓶颈、是否需要扩容或网络调优;
❖无法对多种设备系统、业务系统的运行信息、告警信息进行集中管理,并对以上信息进行智能化分析、统计,得出有利于
网络管理和维护的数据,达到高效、快捷处理问题的目的;
❖全网资产配置情况、使用状况和分布情况难以及时了解;
❖缺乏对数据中心机房多样化资产可视化再现能力,不利于运维管理人员对机房资源的全面掌控;
❖前端视频监控设备建设规模的不断扩大,缺乏有效的视频监控手段,无法诊断视频质量及内容,影响安全防护工作的开
展;
❖面对复杂的IT环境,缺乏规范化、自动化的运维管理流
程,缺乏完善的故障处理和快速修复机制;
❖管理人员不断增多,管理流程日益复杂,管理成本不断上
升,没有建立统一、规范、层次化的服务管理流程和技术管理
体系,同时缺乏对IT部门运维人员量化考核的依据;
❖缺乏能够真实反映设备和业务运行情况与运行质量的统计分析报表,无法为决策层提供数据依据。
通过对客户信息化和运维管理现状的深入了解,其运维服务需要改变传统的运维管理模式,变被动式为主动式运维,切实达到7*24小时不间断运维,进而保障客户的业务系统正常运转。
因此该客户的信息中心运维服务管理平台的具体要求如下:
❖能够全面详细地监视系统中所有IT资源的运行情况,提供
一致的系统管理风格
❖能够实时监视网络和业务的性能状况,能够通过客观数据分析当前系统性能状况和长期系统性能变化规律和趋势,为系统
升级和扩容提供科学的依据。
❖具有全面而深入的数据库管理功能,保证数据库系统的可靠和高性能运作,从而使数据库变成最优的后台支撑系统。
❖提供运营商级IT系统中所需要的各种功能,及集成化的管
理模式,可降低系统管理的成本
❖实现业务可视化管理,分析深层次原因等问题
1.3.建设目标
根据轨道集团数据中心信息化现有的建设和运维管理现状,此次OneCenter一体化智能运维管理平台的建设目标有:
1.3.1.建立统一运维门户
通过建设统一的运维门户Portal,作为整个一体化智能运维管理平台的统一入口,具备统一认证、单点登录、自定义首页工作界面、分权分域管理等功能,统一建立用户账号,实现简单化用户管理。
OneCenter一体化智能运维管理平台提供运维管理门户网站、移动APP、个人工作台、自助服务台等多种形式的服务窗口。
❖向上对接上级轨道集团门户,实现从上级门户到运维门户的访问流程;
❖向下对接集成展示动环监控、云平台监控、其他第三方系统等内容,并实现轨道集团信息系统的统一用户管理,实现统一认
证登录;
❖平台提供资源监控管理,运维服务流程管理等功能,在一个统一界面上形成快速呈现工作内容,提高工作效率。
1.3.
2.建立IT异构资源的全面集中化管理
随着IT信息化规模的发展和信息化建设水平的提高,轨道集团信息化建设已达到相当规模,设备种类多且规模大(网络设备、服务器、存储等);涵盖不同厂家,各种型号的IT设备,涉及传统的物理设备和云计算平台。
通过OneCenter一体化智能运维管理平台,以统一监控管理为中
心,实现对数据中心信息化IT基础设施的集中监控管理,提供数据中心基础软硬件资源及各类应用的监控管理,包括对网络设备、安全设备、服务器、存储、数据库、中间件、业务应用系统、虚拟化资源、网络服务等性能采集和事件处理,同时支持与第三方系统(如动环系统、安防系统、应急指挥系统等)对接,构建统一集成的系统资源监控平台,主动、及时地发现问题,解决被动服务的局面,提供集中的监控告警管理及监控性能数据展示。
此外,通过OneCenter一体化智能运维管理平台的自动化运维功能,管理平台能够在故障发生时自动获取故障设备相关的各项指标数据及指标状态,确保相应告警和事件发生时的状态能够详细记录并关联,在必要时能够实现自动恢复、自动化巡检、批量操作作业等运维自动化场景。
1.3.3.建立全面准确的资产配置管理
做好数据中心的IT运维管理,首先必须对种类繁多、规模庞大的IT资源进行有效管理,以免信息的更新不及时,造成信息难以统计、查询、分析和利用。
理清IT资产配置台账,梳理配置项之间的关联关系,做好资产生命周期管理,这是实现数据中心一体化运维管理的基础。
通过统一的配置管理库(CMDB),实现对云数据中心所有IT资源的配置信息管理,保证配置项的完整性和精准性,构建运维管理元数据,帮助用户建立统一的IT基础设施台帐。
通过一系列配置建模、自动采集、调和、变更控制等手段,保证IT生产环境中配置项的完整性和精准性,为资源监控和服务流程提供数据支撑。
1.3.4.建立符合最佳实践的服务流程管理
OneCenter一体化智能运维管理平台的流程管理提供了面向于最终用户的服务目录及服务级别管理,并提供规范的ITIL服务支撑流程及资产管理流程。
通过流程管理系统进行IT运维服务的流程化、规范化管理;通过与底层统一监控系统的集成,实现了IT运维的自动化;通过完善知识库建设,实现知识库共享;从而提高信息服务效率,提高用户的满意度,帮助用户有效管理人员、信息、资产和知识库,为IT服务管理的规范化建立基础。
1.3.5.建立IT资源全面直观的可视化管理
通过OneCenter一体化智能运维管理平台,用户可以实时查看管理对象的日常运行情况,操作简单,界面直观明了。
在信息集成的基础上,通过提供的各种运行分析和性能报告,形成全网统一管理数据视图,提供关键绩效指标体系所需数据基础,管理人员能根据这些数据准确评估整个IT环境运行情况,及时发现故障隐患和评估威胁。
平台预留了符合国家信息技术服务标准(ITSS)的多种对外标准接口,能够实现和第三方系统的功能或数据集成对接,包括短信系统、邮件系统等,有效整合信息展示。
通过3D可视化管理功能,能够以3D技术实现对数据中心的真实展现,实现基于三维环境对数据中心、机柜和各类设备的管理功能,构建数据中心环境、设备和管理信息的可视化平台,实现所有资产对象的管理及相关监控信息整合展示,让相关管理人员清晰直观的掌握IT运营中的有效信息,实现透明化与可视化的管理。
第2章. 解决方案
勤智运维通过多年来在电信、金融、政府等行业的应用开发与维护经验,在国内首创基于ITIL的企业级业务服务管理平台。
针对企、事业单位的IT支持和管理部门,OneCenter一体化智能运维管理平台基于ITIL的IT服务管理思想,整合了系统监控、应用监控、网络监控、机房监控、虚拟化资源管理、工作流、ITIL式报表和门户等多种技术手段,帮助用户解决IT支持与管理过程中的难题,提高IT服务水平和工作效率。
OneCenter一体化智能运维解决方案是在基础架构管理、应用管理、业务服务管理的基础上,通过IT流程管理,帮助客户建立以ITIL流程为框架的一体化智能运维管理系统,实现自动化和规范化管理。
2.1.系统设计原则
本次一体化智能运维管理平台项目建设与实施方案遵循如下设计原则:
2.1.1.实用性和模块化原则
一体化智能运维管理平台应满足实用性和模块化原则,其提供的功能将保证满足轨道集团数据中心管理的实际需求,具备良好的实用性,从根本上减轻系统管理人员的工作负担,提高工作效率。
同时采用灵活的模块化设计,可以方便系统管理人员对平台进行管理,实现灵活的管理权限分配,具备良好的系统访问权限控制策
略。
2.1.2.一致性和开放性原则
一体化智能运维管理平台应满足一致性和开放性原则,支持目前业界开放标准协议,如CORBA、J2EE、DCOM等,支持标准网络传输、加密和网管协议,如TCP/IP、SNMP(V1,V2,V3)、RMON(1、2)、RPC、CMIP/CMIS等。
采用开放式API接口和高度模块化设计,方便用户进行二次开发以及与轨道集团数据中心其他系统进行无缝集成,从而实现管理资源整合,构建完善的一体化智能运维服务管理平台。
2.1.
3.安全性与可靠性原则
一体化智能运维管理平台应满足安全性与可靠性原则,保证系统的运行速度和数据可靠性,对现有的各类应用业务的正常运行不产生影响。
一体化智能运维管理平台安全体系架构主要包括以下内容:
❖用户登陆过程中通过用户名、密码进行身份认证,可配置只允许固定IP地址访问;
❖对于用户所作的任何配置信息应能够采用加密方法进行本地存储;
❖采用加密的登录过程(即SSH),保障远程登录的安全性;
❖能通过在主机安装防火墙和防病毒软件的方式来保证一体化智能运维管理平台的安全;
❖系统具备分权分域功能。
2.2.1.用户安全机制
OneCenter一体化智能运维管理平台的自身安全性是保证用户管理工作正常进行的基本因素,因此在进行产品架构设计时,充分考虑了管理系统的安全性,具体措施包括:
❖系统支持https方式访问;
❖用户登录失败次数限制;
❖采用严格的权限控制机制,细划了每个用户的权限和管理范围;
❖对用户的操作做详细的日志记录,满足安全审计要求;
❖系统应经过权威的安全漏洞扫描测试,并提供测试证明;
❖系统中所有涉及到的被管设备的连接信息采用密文存储。
2.2.2.SSO统一认证
OneCenter一体化智能运维管理平台采用SSO(Single Sign On)单点登录方式,即对所有用户实现统一界面登录,支持与ActiveDirectory,LDAP的用户同步。
2.2.
3.权限分权分域
OneCenter一体化智能运维管理平台可根据组织架构设置多用户管理权限;按照账户角色,实现资源分类、分级管理,可以实现多人同时操作,互不影响,并具有良好的审核和避免冲突的机制。
一体化智能运维管理平台不仅可划分到具体的设备类型管理域,也可以划分到具体某台设备,实现了完整的分权、分域管理目标。
2.3.1.体系架构
一体化智能运维管理平台分为三个层次,即数据采集层、数据分析和处理层、数据展示层。
平台采用模块化设计,模块之间松耦合。
新模块可以直接接入平台中,模块之间通过接口、消息队列等方式进行通信。
数据采集层是整个管理平台的基础,负责采集平台运行需要的数据。
数据采集层通过多种网络协议,包括SNMP、SSH、TELNET、PING、JDBC、JMX、SMI-S等,从被管设备里获取需要的指标信息,将采集的数据放到缓存进行解析和运算,然后存入数据库,供上层平台进行分析和展示。
平台内置可扩展的资源能力库模型,对于不满足的厂家、型号和指标,系统无需二次开发即可通过系统配置实现,支持通过SNMP方式、JDBC方式、JMX方式等方式实现监控指标的自定义扩展。
数据分析和处理层包括资源监控、服务流程管理、配置管理、资产管理、运维大数据分析等多个子系统,所有系统均为勤智运维自主研发,具有同一品牌软件著作权,拥有完全自主知识产权。
各个子系统独立工作又数据联动,具备良好的兼容扩展性。
❖OneCenter一体化智能运维管理平台资源监控,通过业务管理、资源管理、拓扑管理、巡检管理、报表管理、告警管理等
功能对IT资源环境进行全面的管理,提供了大量的统计和分
析数据以及展示页面,满足用户日常工作的需要。
❖OneCenter一体化智能运维管理平台具备与云平台、动力环境系统等其他平台集成的能力,提供多种数据集成方式,并可
利用大数据平台构建运维指数评估分析模型,按照历史数据变
化规律,挖掘业务、指标、故障等关联信息,帮助运维人员找
到问题根源改进点。
在平台中进行一体化的监控信息、告警信
息的呈现,并进行业务关联分析、告警关联分析。
❖OneCenter一体化智能运维管理平台服务流程遵循
ITIL/ITSS等IT服务管理标准,建立以客户为中心的运维模
式,将人、技术与流程进行有效地融合。
通过流程管理平台,
制定内部运维流程,将运维团队的服务产品化、标准化。
OneCenter一体化智能运维管理平台提供服务过程的设计、过
程记录、监督与考核等事务的管理能力,及对IT的各项服
务、能力进行整合的职能。
❖OneCenter一体化智能运维管理平台通过数据中心3D可视
化展示,从三维可视化的角度呈现机房及设备信息,提供美观
形象的可视化展示平台,包括机房环境可视化、资产可视化、
监控可视化、配线可视化、容量可视化、演示可视化,帮助运维管理人员准确掌握IT运行态势与运维服务水平。
最上层是B/S架构的展示层,是整个服务管理平台的统一门户,通过统一的用户认证、单点登录,用户可以按不通角色权限通过浏览器轻松访问监控运维系统,查看各个系统、功能模块以及统计数据。
同时系统还提供大屏展示的汇总数据和页面,可以满足多元化的监控管理需求。
统一门户通过数据及页面集成、页面自定义可以统一呈现网络设备、服务器、操作系统、数据库、中间件、视频摄像头、业务服务、日志、标准服务、集群的状态和信息,统一展现网络拓扑、业务管理、地图拓扑、流量分析、大数据分析结果、配置管理、巡检管理、工单管理、值班管理、巡检管理、知识库管理、我的工作、我的报表、3D机房、2D机房等。
第三方系统所使用的菜单名称、菜单图标、呈现位置等可以在页面直接设置。
统一门户提供灵活的配置。
监控对象的范围、支持的指标、业务流程、表单、报表、视图、首页呈现的内容、首页呈现的设备/告警/统计信息等都可以进行配置,以适应用户现场的不同需求。
配置方式通过浏览器页面直接进行可视化配置,系统采用纯JS方式进行配置页面的开发,用户可以简单方便的进行配置,不需要进行软件修改和开发。
资源能力库模型可以直接通过页面配置等方式进行扩展,对于不满足的厂家、型号和指标,系统无需二次开发即可实现。
对应网络设备、服务器、操作系统、数据库、中间件、应用等都可以通过配置的方式支持。
通过自定义OID的配置方式、自定义脚本、自定义SQL 语句、自定义URL地址、自定义JMX内容等方式支持指标的扩展。
系统还提供第三方标准数据接口,提供开放的API接口,支持二次开发,可随需扩展开发所需功能,可以接收包括云计算平台在内的第三方系统的数据或者发送数据给第三方系统,进行一体化整合,实
现IT资源的集中统一管理。
同时也可以结合短信平台、邮件系统、桌面客户端等,进行故障、工单等信息的消息通知发送。
系统提供数据整合、接口整合、页面整合等方式,可以集成第三方系统的告警、监控、流程、资产、动环、3D等数据,也可以集成页面,并可以通过接口调用完成告警集成、工单自动生成、3D机房集成、动环数据集成、云平台监控数据集成、云平台配置等操作集成等,有效复用已有系统,不用重复投资。
提供与华为云平台、阿里云平台接口集成的方式,统一汇总云平台监控数据、告警数据,在OneCenter 一体化智能运维管理平台中进行一体化的监控信息、告警信息的呈现,并进行业务关联分析、告警关联分析。
系统提供多种提醒及通知方式,包括:短信、邮件、电话、告警客户端、RTX等方式。
告警客户端用户本地安装即可使用,当有新告警、新工单产生时,自动弹出提示,并可以在客户端中查看告警情况、工单情况,并可以直接进行关联处理,不同告警级别提供不同的声音提示。
图 2.3-1平台体系架构
2.3.2. 功能架构
OneCenter 一体化智能运维管理平台采用多层架构及模块化的设计模式,包括运维监控管理、运维流程管理、资产管理、运维自动化管理、运维大数据分析等多个子系统,所有系统均为勤智运维自主研发,具有同一品牌软件著作权,拥有完全自主知识产权。
各个子系统独立工作又数据联动,可根据不同客户需求自由组合。
同时
OneCenter 系统具备良好的扩展性,可以通过第三方数据接口、数据总线、大数据接入分析系统等方式接入第三方平台数据,并提供对数据的深入挖掘和对运维能力的整体评估。
图 2.3-2平台功能架构
2.3.3. 技术架构
OneCenter 一体化智能运维管理平台采用J2EE 架构,全图形化B/S 模式,可移植性强,可基于不同操作系统(Windows 、Red Hat Linux
、国产麒麟等)实现了跨平台部署。
统一开放的监控管理平台
支持多种数据库(MySql 、Oracle 、国产神州通用等),支持国产的中间件如TongWeb ,支持OpenJDK ,提供符合国家信息技术服务标准(ITSS )的第三方系统集成接口。
图2.3-3技术架构
2.3.4. 部署架构
OneCenter 一体化智能运维管理平台分为Portal 服务层、DHS
(信息处理)服务层、DCS (信息采集)服务层,每层可根据客户IT 环境的实际情况部署在相同或不同的主机上;可以根据客户的管理对象规模,采用单个或多个DCS 进行管理容量规划,通过集中式或分布式部署,实现对企业内/外网、总部/分支等复杂结构的IT 资源灵活管理。
图 2.3-4
部署架构
第3章. 功能概述
3.1.运维监控系统
3.1.1.统一运维管理
统一运维门户作为OneCenter一体化智能运维管理平台的统一入口,具备统一认证,单点登录,自定义首页工作界面等功能。
统一运维门户包括资源监控管理,运维服务流程管理,资产配置管理等系统,快速呈现工作内容,提高工作效率;支持对云计算平台、动环监控等第三方系统的集成,实现对第三方系统的数据集中展示和告警统一推送。
通过统一认证功能,用户能够在单一界面上对其他系统的用户账号进行管理,对不同角色权限进行修改和配置,并添加用户账号。
图 3.1-1首页统一门户
为了简化运维工作,聚焦工作核心事务,运维平台独创了极简模式运维,将复杂的操作与配置等功能隐藏在极简的设计中。
系统根据。