IT综合运维管理平台项目立项报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IT综合运维管理平台




目录
1 立项背景 (2)
1.1 背景和依据 (2)
1.2 信息化建设现状 (2)
2 建设意义 (5)
2.1 面向业务管理的发展趋势 (5)
2.2 面向业务管理的重要性 (5)
2.3 建设综合IT运维管理平台的必要性 (6)
3 建设目标 (9)
3.1 综合IT运维管理平台需求分析 (9)
3.2 综合IT运维管理平台建设目标 (9)
4 建设需求 (11)
4.1 总体需求 (11)
4.2 系统需求 (12)
4.3 技术要求 (14)
4.3.1 面向关键业务系统的监控管理 (14)
4.3.2 业务系统模拟监测 (15)
4.3.3 网络资源的监控管理 (16)
4.3.4 应用服务资源的监控管理 (19)
4.3.5 统计分析与报表 (20)
4.3.6 运维知识库的建设和管理 (22)
4.3.7 基于ITIL的IT服务管理 (22)
4.3.8 IT运维管理咨询服务 (24)
5 效益分析 (27)
1立项背景
1.1 背景和依据
在“做大做强”、“两个十多个”战略的指导下,国内大市场、大品牌的格局将越来越明显,竞争亦将越发激烈。

在这轮竞争中信息化手段将扮演重要的角色,企业对信息化的依赖起来越强,对IT服务水平的要求将越来越高。

在信息系统的生命周期中,一般系统建设的时间大约为一年,而系统使用运维的时间大约四到七年或更长,因此,业界提出了“三分建设,七分管理”的说法。

经过大致两轮的信息化建设后,企业信息化将逐步趋于成熟,走向稳定,后续信息化工作的重点之一便是做好系统的运维工作,保障系统平稳运行,支撑业务发展。

1.2 信息化建设现状
随着公司信息化建设的持续推进和发展,网络设备的种类越来越多,网络环境随之越来越复杂,业务系统的应用也越来越广泛和深入,保障企业网络环境、网络设备、业务应用系统、办公应用系统的7X24稳定正常运行已经成为信息部门的头等大事,因为信息化的保障工作将关系到全公司业务运营、日常办公的各个方面,一旦出现重大故障将对公司造成不可预估的影响和损失。

面对当前现状和今后持续发展的目标,我们也注意到保障信息化的能力和水平必须要得到进一步完善和提高,目前尚存在一些欠缺之处,主要表现在:
1)缺乏统一的、面向业务集中监控与管理平台
日常运行管理条块分割,网络、应用、IT基础环境等基本上是各管一摊,缺乏一个统一的、主动的监控平台,既浪费了人力资源,也难以做到快速发现故障;当网络设备发生变化时,无法迅速的适应。

各类业务应用系统缺乏针对性的管理平台,单从独立的网元和资源个体进行管理的角度无法解决业务系统的监控要求,因为业务系统是由多个关联资源及其关联关系组成,一旦业务系统出现运行过慢、无法登录、应用报错等问题时,难以排查具体的故障点,从而影响业务系统故障恢复,也不利于业务系统的性能调优。

2)缺乏面向业务系统自动化资产管理工具
随着公司业务的发展,其IT资产管理面临如下问题和挑战:
各IT资产统计困难:在以网络技术为依托的扩展服务,业务驱动下,公司IT 资产被不断购置,数量激增,地域分布广且资产变化频繁,各部门资产信息、包括资产成本统计困难。

信息安全要求:IT资产所携带的信息,由于涉及内部操作信息乃至客户信息、,因此对信息安全要求更加严格。

IT资产管理中的任何疏忽,都可能带来信息泄露,给公司造成不可挽回的损失。

成本压力:由于资产分布分散,进行全面资产管理的成本始终居高不下,成为公司亟待解决的问题之一。

3)缺乏标准化的IT运维管理工具
目前IT运维管理来一直处于手工处理维护的状况,各种运维工作仍处于一种被动的状态之中。

随着各类应用系统的推广规模、建设速度迅猛发展,IT人员的数量、维护能力和知识水平日显不足,在实际工作中只能采取
“头痛医头、脚痛医脚”的维护方式,只能等到设备及应用系统出现问题造成故障时,才能进行维护。

因此,如何更有效地利用现有的资源,建立高
效、规范的一体化运行维护体系,提高IT运行维护服务水平,确保IT系统的稳定安全运行是客户面临的普遍问题和考验。

4)缺乏对机房环境的智能化监控
没有很好地实现对机房的智能化管理,机房环境中一旦出现安全隐患仅仅靠人力监控是难以快速发现、快速反应的,一旦发生安全问题后果不堪设想。

5)缺乏量化运行质量的统计报表
缺乏一套能与实际的网络、业务系统、机房环境等多方面相结合的运行质量考核工具,因缺少必要的报表数据支撑而无法对信息化建设中各环节的运行进行数据层面的量化和考核,也不利于对软、硬件及应用服务的运行趋势进行统计、分析、汇总工作。

6)缺乏知识共享平台
目前的技术知识比较分散,解决某一类专业问题时对专人的依赖性强,无法实
现相关知识的积累和共享,不利于运维人员整体技术能力的提高和新人的快速成长。

在解决相同类别的故障时,无法快速查找相关解决方案,影响故障解决的时效性,不利于快速恢复故障。

长期以来,公司在信息化建设方面的投入主要着重解决从无到有的基础设施和系统的构建,而忽视了系统建设完成以后的运行维护。

长期持续建设的惯性导致对运行维护工作投入不足。

殊不知,高效的运行维护才能保证系统的应用效果和产出效益。

投入的失衡,导致运行维护成为政务系统生命周期中的短板,在很大程度上压制了系统建设的效果和效益。

可以看到,如何在有限的投入下尽快建立高效、规范的综合IT运维管理平台,实现以业务为核心的监控管理系统,从而提高信息部门的运维管理水平,改善IT 系统的运行质量,为打造核心竞争力提供助力,已经成为当前我公司信息部门面临的重要问题。

2建设意义
2.1 面向业务管理的发展趋势
面对网络环境日益复杂,业务应用越来越多,传统的网络管理系统已经向着平台化、智能化、集成化、高效性、高可靠性的方向发展。

网络管理系统历经了简单的网元管理;面向网络环境的集成化平台化管理等,到现在面向业务、应用,符合ITIL、ISO20000等国际标准的管理阶段。

这一阶段对管理功能要求更加完善和成熟。

完整而理想的管理平台,可以实现IT基础设施环境的集中维护、集中监控和集中管理,能够适应当前网络设备及环境与业务系统的关系越来越紧密,各种业务的运行维护都要结合网络管理来实现的发展趋势。

由此,管理软件正朝着以业务为中心的集中综合管理的方向发展。

要更好地管理不同的业务应用系统,就需要从全局角度对业务应用系统所关联的资源进行统一管理,由于目前的网络设备等对网络管理系统的开放程度不一,有的仅支持其自身的管理软件,IT部门往往需要采购不同的管理软件,造成管理分散,管理界面不统一,使管理工作变得更加复杂。

因此,需要具备集成性的综合管理平台,将不同厂商的网络和应用管理产品在界面级、消息级和数据级集成起来。

通过多方面管理技术的高度融合,建立整体业务管理架构,实现统一管理,从而改变以往管理监控产品分散、监控系统脱节的局面,使得运维工作更加顺畅。

综合IT运维管理平台是保证我公司网络和业务系统高效、正常和安全运行的关键,符合我公司网络系统运行管理和业务保障的特点。

2.2 面向业务管理的重要性
业务系统的正常运行是保障公司办公、运营等方面的基础和核心,随着业务系统的深入应用和不断扩增的发展趋势,面向业务系统的管理方式和方法也愈加重要,主要表现在以下的几方面:
1) 以业务系统为管理单元的重要性
业务系统对于用户而言就是一个独立的应用单位,任何影响业务系统应用的故障在用户看来都属于这一个业务系统存在的问题,细节的故障分类例如:交换机、服务器、数据库等对于用户而言都是没有意义的。

因此,对业务系统的运维管理也应该从用户的角度出发,打破以网元为单位的管理方式,把业务系统做为管理单元进行管理,在此基础上确定业务系统的管理范围,在此范围内排查影响业务系统的因素,从而实现实时高效的管理目标。

2) 关注业务系统内部关联关系的重要性
业务系统关联的所有资源都会影响整体的运行和性能,因此这些资源之间看似是独立运行的,但是对于业务系统而言却是息息相关的。

资源之间的关联关系会对业务系统的正常运行产生联动作用,从而影响业务系统的整体性能。

只有充分了解各资源之间的关联关系才能做到快速定位故障,从根本上解决某一因素对业务系统的不利影响。

3) 侧重管理业务系统内关键资源的重要性
每个业务系统具有各自的属性特点,关联范围内的各类资源虽然对业务系统都有影响,但同时存在更为关键的资源和设备,直接决定了业务系统的“存活”。

因此,在管理策略的制定上应当有所侧重,对所有的资源设备进行“一视同仁” 的管理方式既不科学也不适用。

应该根据它们对业务系统的影响能力来判断权重比,把握业务系统中核心资源和设备的重点监控和管理。

4) 及时了解业务系统运行趋势的重要性
随着各种业务系统逐步运行在IT系统环境下,对业务系统管理能力的高低直接影响到公司效益的实现。

可见,要想真正让业务系统发挥价值增值的作用,必须通过有效的管控手段使“黑箱”转变为“白箱”,将使整个业务系统的运行过程透明化,通过实时监控信息与历史监控数据的有效结合,及时分析业务系统的运行趋势,准确发现并解决业务系统运行过程中存在的瓶颈,从而提高业务系统的效率,最终改善公司信息化的绩效。

5) 3建设综合IT运维管理平台的必要性
从某种角度上来看,传统的信息部门管理模式是随着技术的进步和自身需求的不断增加而逐渐发展的。

但是,这样的一种面向需求的设备购买方式为今天的管理工作带来了不少的弊端。

首先,在传统的单点管理技术下(如:独立的网络管理、服务器管理、数据库管理、应用管理),各管理产品相互独立,每个运维管理人员只熟悉某一方面、某一平台的计算机资源管理,偃难从宏观上全面了解公司的整个计算机环境,例如:有哪些关键业务,这些业务所需的管理和服务水平如何,某一关键业务由哪些应用软件组成,这些应用软件的用户分布情况,应用软件的数据库分布在哪些服务器上,这一业务运行在内部网的什么网段上……,这些造成运维管理人员无法制定出一个信息部门的计算机系统整体管理策略和管理方法,无法从为信息部门的业务发展提供服务的角度了解计算机系统管理所应涵盖的方面以及所需达到的目标,不能满足信息部门对信息系统的管理要求。

其次,运维管理人员对业务系统角度的管理范围和资源分布缺乏了解。

在传统的管理模式下,网络管理人员只知道网络使用状态,数据库管理人员只知道数据库使用状态,偃难全面掌握业务系统中网络、服务器、数据库、应用等资源的配置、分布和使用情况,例如会出现这样的情景:当某一业务或应用程序性能下降时,我们不知道其关键原因在何处?是网络带宽无法满足需求?是网络结构不合理,导致部分网段拥塞?服务器性能不够,瓶颈是在cpu、内存还是i/o?数据库性能未进行优化?…,从而不能决定采取何种方式解决问题:是升级服务器的cpu 还是内存?是升级网络设备还是重新配置网段?是否需要重新优化数据库性能?这些都会造成信息部门在业务系统的管理和信息化建设的投资方面的盲目性。

第三,在传统的管理模式中,一方面缺乏相应的数据报表,不利于进行历史数据的分析汇总,另一方面运维人员依自己的管理经验处理问题,没有统一的知识积累,不利于知识的共享和技术人员能力的提高。

缺少这些基本的数据和信息支撑,不能满足信息部门量化运行质量、提高人员技术能力方面的需求。

所以,在信息化建设时,应考虑采用全新的、面向业务的管理模式和解决方案,实现对各种资源(包括:网络、机房环境、服务器/客户机、数据库、应用软件、用户)全面、统一、集中的管理,确保信息部门运维下的业务系统得到快速稳定发
展,从而面向全公司提供可靠、高效、安全的信息服务。

3建设目标
3.1 综合IT运维管理平台需求分析
我公司目前对IT物理环境及其中所有设备的运行状况没有统一、规范的管理,无法及时清楚的掌握IT系统运行状况和设备运行状态,无法做到对IT系统状况的统计和分析,不能及时发现潜在问题对业务系统的影响,维护工作基本上处于被动的救火队状态,不利于知识共享和知识积累。

鉴于网络系统和业务系统的正常运行对公司业务的重要意义,信息化建设同时要立足于工具层面的保障和管理手段进行统一的监控和管理。

从而改变现有的运维模式,结束被动救火的运维策略,从而对网络和系统故障提前预知、提前防范,在故障出现时第一时间快速反映、迅速定位,借助技术工具和不断提高运维人员自身的技术能力这两个方面相结合更好地保障网络环境和业务系统安全、稳定运行。

针对上述问题,为加强对我公司信息化建设成果中的所有资源进行统一管理,需要为信息中心配备包含网络管理、业务管理、机房管理、服务管理等在内的管理平台软件。

即对网络、应用、安全、运维流程等方面进行综合IT运维的管理平台,通过软件工具能够完整了解自己全网的资源信息,及网络与业务的运行情况,还可以优化网络,有效的利用系统资源,能够实现对机房环境的智能化管理,提前预知安全隐患,通过构建标准化服务管理软件使得所有的服务请求可以实时跟踪管理。

从而实现系统运行维护的自动化与规范化,大幅度地降低网络与系统机械式的运行维护工作量,提高运维人员的工作效率。

使管理员能够实时的掌握核心网络的运行状况和设备的运行状态,能够对网络设备、业务系统进行实时监控和性能指标的统计,方便管理员通过历史数据对网络状况、设备运行状况和业务运行状况进行分析,及时发现和解决潜在问题,规避风险,优化网络,最终使我公司的核心网络、核心业务处于良好的运行状态。

3.2 综合IT运维管理平台建设目标
按照高起点、高标准、高质量的要求,采用先进的IT管理技术对我公司现
有的网络运行环境、业务系统资源进行信息采集、管理和监控,并在此基础上构
建一个平台化、智能化、集成化、标准化、高可靠性的综合IT运维管理平台,
提升整个信息部门的监控管理水平。

项目的建设要实现如下目标:
1) 管理手段实现质的飞跃
采用综合的IT运维管理解决方案,从根本上改变以往管理工作只能依靠技术人员凭经验去操作、问题出现后紧急救火、甚至于面对系统无能为力的被动局面。

从技术手段上保证计算机信息系统性能指标的可视性,预防问题出现、真正实现统一管理、集中监控,变被动为主动,在管理方面实现质的飞跃。

2)从技术上保证IT环境的运行质量、提高服务水平
实现综合管理的目标,根据采集的各类数据,集中、形象、快速地展现网络、机房环境、应用系统以及业务的状态及变化,并快速地发现、定位网络系统的各种问题、变化和隐患,方便有效地对其进行分析研究,快速地隔离、解决这些问题。

从而提高网络系统的可靠性,改善系统性能,提高处理效率。

3)实现对关键业务系统为核心的监控管理模式
以关键业务为驱动,直观的展现业务系统关联的资源视图,从业务角度出
发,关注业务系统涉及的资源和设备的运行状态,根据依赖关系分析、快速定位受影响的业务。

从而保证业务系统的稳定运行,提高公司的核心竞争力。

4)分析系统运行趋势,量化运行数据,提供数据支持
通过具体的指标量化网络设备、物理环境、业务系统等的运行质量,结合实时监控与历史数据进行系统运行趋势的统计分析,为信息化建设策略的制定提供数据依据和支持。

5)实现知识共享和积累,搭建技术学习平台
要实现综合管理的目标,一方面是借助工具层面的管理,另一方面还要与技术人员的技术能力提高相结合,通过知识的共享和积累来实现技术的互动和流通,将学习平台搭建在IT综合运维管理平台之上。

4建设需求
4.1 总体需求
本项目充分考公司信息部门现有资源、业务需求和业务系统运行特点进行搭建。

综合运维管理平台是用来监控、管理各种IT资源和运维流程的系统的,若不能保证它的健壮性,还需要人工对“监控平台”作稳定性监控,就失去了平台建设的意义,所以,平台的建设,要以稳妥、健壮为优先原则,在没有情况发生时,这个平台对技术人员是透明的,但有情况发生时,能直正地给技术人员提供有力的监控数据。

在此基础上,实现以下的总体要求:
1)严谨的安全防范策略
平台应充分考虑到对数据安全和访问权限的严格限制和管理措施,从产品设计之初就制定严谨的数据安全和访问权限的策略,要确保数据在采集、传输过程中的安全;确保平台在管理过程中的数据安全;确保敏感数据在存储过程中的数据安全。

2)全方位集中式监控平台
平台能够实现对IT环境中各类基础设施的监控,包含有网络、系统、安全设备、数据库、中间件、业务系统、存储设备和机房环境等系统的监控管理,实现IT基础设施的集中式监控管理等功能。

3)面向业务的管理平台
平台应着眼于在业务系统的关联关系、整合和呈现,通过业务评估模型,从保障关键业务的运行角度出发,来透视和管理各种基于IP网络的IT资源,有效提升IT业务服务质量。

4)标准化运维流程管理平台
平台针对当前IT运维管理平台的需求,遵循先进的ITIL最佳实践,适合当前发展水平的企业级IT运维管理软件。

最大化满足客户的IT运维需求,将运维
管理流程与日常IT工作电子化、自动化,从而降低运营成本,实现高效运维,
不断提高运维质量和管理水平。

5)统一告警控制平台
平台应基于开放式的事件关联整合技术、事件自动建模技术的统一告警控制平台,采用先进的基于规则库的事件识别与归并处理引擎,高性能的收集和处理能力来自不同厂商、不同设备、不同软件系统发出来的管理信息,自由定义告警的类型、级别,归并和压缩规则,拒绝大量垃圾告警,快速定位故障本源。

6)高交互性和可视化效果的界面
平台在设计上应注重先进的交互性、可视化展现模型,提高了技术人员在WEB 平台上的交互式操作能力。

在展现内容上,提供模块化、可定义的浏览视窗,适合匹配高清大屏进行集中展现。

7)易装易用的产品平台
平台应本着易装易用的原则,需要支持B/S方式的操作、浏览、查看、
4.2 系统需求
在满足总体要求的前提下,监控平台的产品选型还需满足以下具体的系统和服务要求:
1)硬件和软件平台
为了方便管理,要求综合监控平台安装在一台独立的服务器上,软件平台为Windows Server 2012 中文企业版,全中文界面,在统一的管理界面中可以实现网络、服务器、数据库、中间件和业务系统的集中监测和管理。

2)架构灵活
综合监控管理平台放在现有服务器安全区域,支持防火墙穿越,可以无障碍对全网全系统进行监测。

3)安全稳定
为了保障原有系统的稳定性和安全性,所有监测都无需在监测对象上安装客户端。

产品提供商须作出书面的风险控制保证。

4)报警平台
(1)科学的报警机制,有效防止误报和重复报警,提供声音、远程声音、Email、手机短信息、语音电话等多种报警方式。

(2)直观展现故障从出现到修复的全过程,为管理人员提供快速查询和诊断分析的数据。

具备报警信息记录和查询功能。

(3)对以前日期的监控日志的查询结果,展现的形式和内容要和当时展示的完全一样,特别是在内容方面,要如实详尽地展示当时显示的结果。

5)直观展示
可方便的添加、删除被监控对象,可将网络设备、服务器、数据库、中间件
和应用等分组管理,提供如地图一样的简略视图和如资源管理器一样的树型视图
二种展现方式;
支持用户个性化定义的管理视图配置,可以导入主流的图片格式,支持设备
管理视图、机房管理视图、业务系统流程图、逻辑结构图、物理结构图等,可多
种图形并存,所有视图能够进行关联,用户能够在一张监测总图中定位所有视
图,一旦发生故障,能够从总图逐层定位,直到最终的故障点。

6)多用户权限划分
(1)支持多用户权限划分,可以进行功能权限和设备监测权限的单独划分,允许通过指定的IP地址进行访问,并具有详细的操作审核机制。

用户的任何配置信息全部采用(不低于)128位EDS加密方法进行本地存储,保障用户配置的帐户信息的安全。

(2)用户管理模块必须要足够灵活,可以增加、修改、删除用户,也可以给不同用户赋予不同权限。

实现分组管理,组内人员自动拥有该组的权限。

最高级别的系统管理员可以为其它系统管理人员配置不同的用户名、密码和权限。

权限设置覆盖所有功能,包括监测器,报警,报告和诊断工具等。

不同的系统管理员用不同的用户名和密码登录系统,只能看到各自权限范围内的监测内容,系统管理职责不同的人拥有不同权限,权责分明,以便系统管理规范化。

7)快速迁移
系统必须提供简便的备份与恢复机制,能实现系统主机在操作系统、数据库。

相关文档
最新文档