IT运维管理规范

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一部分IT运维管理规范
总则
一、为加强IT运维管理能力,保障业务系统正常、高效、安全运行,根据行业规范,并结合IT运维工作实际情况,制定本规范。

二、IT运维包含以下七个子项:
1、业务应用系统运维;
2、服务器、数据库、中间件运维;
3、机房及弱电
4、网络系统运维;
5、计算机终端运维;
6、视频会议系统运维;
7、信息安全运维。

三、IT运维管理的主要内容包括:运维资产管理、运维人员管理、运维流程管理、运维安全管理和运维绩效管理等。

1、运维资产管理是对已正式投入使用的信息化基础设施、软件等资产
的动态更新和配置管理。

2、运维人员管理是对参与运维工作的人员的资格、能力、运维行为以
及其对应的运维流程和权限的管理。

3、运维流程管理是对资产及对应运维人员的事件、问题、变更等运维工作流
程权限进行设计规划和实施过程。

4、运维安全管理是在运维过程中为保障信息的机密性、完整性和可用
性而对信息安全的职责、制度、标准和流程的管理
5、运维绩效管理是科学评价运维过程和运维结果,发现问题并提出改
进措施。

四、IT运维管理原则:
1、标准化:通过制定、发布和实施IT运维标准,达到统一管理的目标;
2、痕迹化:通过IT运维综合管理平台的使用体现运维管理工作的痕迹
化原则;
3、平台化:使用IT运维综合管理平台,作为运维管理的集中支撑平台,
提供量化的运维管理数据便于刻画和评价运维工作;
流程管理制度
一、所有工单的创建、处理应符合规范要求。

工单的填写必须包含:故障或问题的现象、故障问题根源分析、故障问题处理方案、故障问题处理结果。

工单的处理还必须包括:运维项及资产关联、故障问题严重等级、重要处理工程的更新说明、升级关闭的理由。

二、对于需要多个外协单位协同处理的综合故障排除或运维任务,由运维总协调人通过协同工单协调外协单位共同处理。

三、运维人员有责任及时创建工单、处理和关闭工单,从而尽量真实的反映运维工作的时效性。

对于有承诺的运维项或信息系统资产,工单的处理时间必须符合时间。

对于超过承诺范围的工单,IT运维综合管理平台将通过逐级告警的机制引入更高层面的介入以促进运维管理服务水平达到要求。

四、对于公共基础设施的信息系统,所有变更必须按照变更申请、变更测
试评估、变更审批、变更实施和评估的流程进行。

涉及到费用的信息系统变更也需要通过变更审批流程来实施。

变更应做到有计划,有方案,有评估,有应急预案。

从而降低运维变更所产生的风险。

公共基础设施的变更还必须通过公告形式预先通知相关单位运
维人员,以便及时进行必要的应急处理。

运维资产管理
一、信息系统资产管理是运维管理工作的基础。

运维工作、运维人员以及
运维过程的管理都应该围绕信息系统的资产进行。

信息系统资产的在IT运维
综合管理平台中录入和动态维护是实现信息化、流程化运维综合管理的基础工作。

信息系统资产按照七个运维子项进行分类录入和管理。

二、资产管理员负责资产信息的清理、录入、资产状态的变更审核;各运
维项负责人负责对应运维项资产信息的录入和维护工作。

共同建立完善的资产信息数据库,并与财务部门统计数据保持一致。

录入的资产应尽量反应到本单位的详细拓扑图,拓扑图应根据变化及时更新。

三、信息系统资产属性包括资产的基本属性、运维属性和财务属性。

资产管理员及运维项负责人应及时有效的对资产属性进行维护和管理。

1、基本属性描述资产的固有特征信息,包括资产类别、名称、型号、厂商、
资产编号等信息。

资产管理员及运维项负责人应IT运维综合管理平台中维护管理最新的资产基本属性。

2、运维属性描述除基本属性外,运维工作关心的资产信息。

如资产的物理位
置、资产运维负责人及联系方式、资产状态(运行、维修、报废等)、资产的技术属性(如软件版本,运行参数,硬件配置参数等)。

3、资产的财务属性描述财务部门关心的信息。

如采购合同号、供应商名称、
保修期限等。

四、涉及到资产的责任人、技术属性、物理位置、所属部门、状态等的变更应通
过变更流程审批后完成。

五、所有运维工作应在IT运维综合管理平台中与资产进行关联,建立完善的关
联资产运维信息数据库。

运维人员管理
一、明确运维管理职责,定期制定运维管理岗位流程规范,制定运维人员专业能力
评定标准,组织实施运维人员能力培养、考核和准入等工作。

二、根据运维管理岗位职责,及时梳理制定相应的运维人员工作流程权限
并实施。

通过监督管理使运维人员的工作和行为符合运维管理技术规范。

三、根据运维岗位职责特点,制定运维人员接替方案,在人员岗位职责发
生变化时及时更新流程和相应权限。

四、运维人员通过建立人工和自助服务台受理业务部门的运维事件。

运维
人员的业务部门的事件处理应接受业务部门的服务评价。

通过运维评价实现闭
环的运维工作管理。

五、加强运维人员的管理工作。

运维人员对本单位信息安全负有责任,应与运维人员签订保密协议,防止其对本单位文件、数据的擅自复制、修改和带离现场。

运维人员发生变化的应对其运维账户权限及时进行变更或删除
考核与奖惩
一、考核主要采用定性的指标和定量的指标相结合的考核原则。

考核周期
分为月度、季度和年度考核。

对运维体系的考核结果进行不定期通报。

定量指标包括资产信息录入完善程度、工单及流程规范性、工单平均处理时间、
业务部门满意度、信息系统可用性等关键数据。

第二部分IT运维技术规范
术语定义和缩略语
1、IT运维工作
IT运维工作是指综合利用各种IT运维支撑工具,提供的确保IT系统正常、安全、高效、经济运行的服务。

2、IT运维管理流程
IT运维管理流程是指为了支持IT运维工作的实现和提供,以确定的方式执行或发生的一系列有规律的行动或活动。

3、IT运维人员
参与IT运维工作的各级人员,IT运维人员根据管理权限、负责运维工作的范围的不同,划分为不同的运维角色。

4、IT运维管理工具
IT运维工作中使用的对不同运维项进行监控的工具,目前包括网络基础
设施监控工具、业务应用监控工具、机房监控工具、计算机桌面安全管理工具。

5、运维项
根据IT运维实际情况,信息系统运维对象统一划分为服务器/数据库/中间件系统运维、计算机终端运维、机房及弱电系统运维、网络系统运维、业务应用系统运维、视频会议系统运维、信息安全系统运维七个类别。

所有信息系统运维对象应归类在这七个类别中来进行运维管理。

由信息系统运维对象分类形成的七个类别,可以分别设定为不同的运维项。

运维项包含了对信息系统资产的归类及授权的维护管理工作分类。

运维管理人员根据授权维护管理自己范围的信息系统及对应设备资产。

运维项必须遵照本标准规定的运维对象类别进行分类归口。

6、运维质量保证(SLA)
运维质量保证(SLA)是运维主管或运维管理员根据本地实际情况和运维对象的重要性,规定的运维服务质量承诺。

即代表完成某个运维对象的某种运维任务所限定的时间。

通常为故障处理恢复的完成时间。

各分公司可对不同的运维对象,相应的运维人员制定不同的运维质量保证参数,超过运维质量保证的
任务可能导致告警/运维工作考核不合格/或者按照相应商务合同规定下的处
7、ISO
InternationalOrganizationforStandardization国际标准化组织。

8、IT
InformationTechnology的缩写,意为信息技术。

9、信息系统
信息系统是指在商业系统运行的各种信息化设备、软件系统、终端以及支
撑这些设备、软件系统、终端运行的其他设备系统(如机房、弱电等)。

主要由计算机硬件、网络和通讯设备、计算机软件、信息资源、信息用户和规章制度组成的以处理信息流为目的的人机一体化系统。

10、ITIL
InformationTechnologyInfrastructureLibrary的缩写,意为IT基础架
构库,是CCTA(英国国家计算机和电信局)开发的一套IT服务管理标准库,旨在提高IT资源的利用率和服务质量。

之后演变成为ISO2000a目前已经成为业界通用的事实标准。

是业界普遍采用的一系列IT服务管理的实际标准及
最佳实践指南,包含了如何管理IT基础设施的流程描述;它以流程为向导、以客户为中心,通过整合IT服务与企业服务,提高企业的IT服务提供和服务支持的能力和水平。

ITIL可以引导组织高效和有效地使用技术,让既有的信息化资源发挥更大的效能。

运维管理工作技术规范总则
随着信息化建设的不断深入,IT运维工作越来越重要,建立科学规范、协同高效的信息化运维管理体系,是行业信息化上水平的迫切要求,为此需要按照“统一标准、分级负责、逐级考核、流程规范、高效运行”的原则,确定运维管理职责,梳理运维管理流程,制定运维管理规范。

运维工作的总体目标
IT运维的总体目标就是要树立面向业务服务的IT运维管理理念,建立科
学合理的绩效考核指标,向精细化的运维管理转变;实现集中统一的IT运维
管理模式;建立统一的、高效、智能的IT运维综合管理;建立规范标准的IT运维管理流程,实现由职能管理向流程管理转变;应用先进的、实用、高效的IT运维管理工具,实现被动管理向主动管理转变。

通过IT运维综合管理制度的实施,按照ITIL运维管理最佳实践标准,结合实际和需要,遵循立足需求、统一规划、保障重点、分步实施、务求实效的原则,建立一套融合组织、制度、流程、人员、技术、工具的IT运维管理体系,制定规章制度,规范管理流程,明确职责分工,强化技术支撑,实现对IT系统的综合管理监控和日常技术支持,快速响应和及时解决信息系统运行过程中的各类隐患和故障,确保信息系统的正常、稳定、高效运行。

适用范围
本规范面向IT运维各级运维管理人员设计,适用范围包括各级运维人员,以及参与IT运维外包的外协公司有关人员。

IT系统运维项分类
根据信息系统实际情况,信息系统运维项统一划分为:
1、服务器/数据库/中间件系统运维。

2、计算机终端运维。

3、机房及弱电系统运维。

4、网络系统运维。

5、业务应用系统运维。

6、视频会议系统运维。

7、信息安全系统运维。

所有IT信息系统运维对象应归类在这七个运维项类别中来进行运维管理。

运维工作等级划分及SLA定义规则
IT运维综合管理通过流程进行处理的工作(包括事件,问题,变更,以及任务等),都应当根据工作性质赋予相应的工作等级。

同时,根据不同运维项的不同工作等级对信息系统的重要程度,还应当对每个运维项对应的工作等级赋予相应的SLA IT运维工作(对应IT运维综合管理平台中的事件、问题、变更工单)分为严重、
重要、一般三个级别。

运维人员在IT运维综合管理平台中应当根据运维项的特性确定工单的等级。

运维工作(工单)的等级划分原则如下:
1、严重等级。

对核心业务或工作造成严重影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为严重等级。

例如:核心业务应用系统、骨干网络、核心业务应用服务器/数据库/中间件、机房系统等中断或严重影响正常业务的事件、问题或变更工作(工单)确定为严重等级。

各运维项的严重监控告警将自动产生严重等级的工单,并且工单等级不能更改。

2、重要等级。

对业务部门或工作造成重要影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为重要等级。

例如:核心业务应用系统、骨干网络、核心业务应用服务器/数据库/中间件、机房系统等不稳定或存在较大隐患的事件、问题或变更工作(工单)确定为重要等级。

各运维项的重要监控告警将自动产生重要等级的工单,并且工单等级不能更改。

3、一般等级。

对业务部门或工作不会造成较大影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为一般等级。

例如:普通计算机终端故障、局部接入网络的异常、以及各运维项一般性监控告警等产生的事件、问题或变更工作(工单)确定为一般等级。

IT运维工作必须根据各运维项特性,对不同等级的事件、变更工单定义相应的SLA 数值。

SLA数值代表处理相应事务(工单)时的最长时间要求(以小时计)。

IT运维综合管理平台将对超过约定SLA的工作(工单)产生告警,并统计运维人员工作(工单)超过约定SLA的数量。

SLA的超时告警将按照约定的阀值自动通过通告及短信/邮件等方式通知上级运维管理人员。

SLA的超时告警通常设置一级通告告警、二级通告告警和三级通告告警三个级别。

一级通告告警通常设定为通知监理公司或负责运维项的运维管理人员;二、三级
通告告警通常设定为通知负责运维项的运维管理人员或更高级别的运维管理人员。

可按照如下示例规则,根据所属运维项特点制定约定的SLA要求:
运维管理工作的考核KPI制定
根据目前信息系统结构和组织架构,制定统一考核KPI指标,以促进信息系统运维管理工作的规范化,信息化,主动化。

运维管理工作考核KPI分为如下几类:
1、运维平台的使用及工作量。

各类运维对象资产录入数量,事件/问题/变更工单数量,知识库贡献数量。

2、信息系统运行可用性。

各类运维对象的整体可用性,单位设备/系统故障次数。

3、运维管理工作质量。

平均工单处理时间(事件/问题/变更),平均故障恢复时间。

4、主动运维。

KPI绩效考核是一项综合性的考核。

需要全面、灵活考核运维人员对事件、问题、变更的处理情况,同时不同的KPI考核指标在不同的运维项中的权重并不相同。

针对不同运维项的特点和重要性,可按照如下规则制定针对具体人员的
KPI考核指标:
1、服务器/数据库/中间件系统运维。

针对运维人员绩效考核指标:
系统可用性
平均故障时间
平均故障恢复时间
SLA通告统计
针对外协人员KPI绩效考核指标:
平均故障恢复时间
处理的工单数量
工单的平均处理时间
知识库贡献
配置项录入数量
SLA超时工单统计
SLA通告统计
在服务器/数据库/中间件系统运维的实际工作中,对运维人员应该以提高系统的可用性为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比等KPI所占考核权重应该较高;对外协厂商应该以平均故障恢复时间、
工单数量,SLA符合情况等为主,进行综合考核。

2、计算机终端运维。

针对运维人员绩效考核指标:
平均故障时间
用户满意度
针对外协人员KPI绩效考核指标:
处理的工单数量
工单的平均处理时间
知识库贡献
配置项录入数量
SLA超时工单统计
SLA通告统计
用户满意度
在计算机运维的实际工作中,对外协厂商应该以处理工单数量、平均故障恢复时间、SLA和用户满意度等为主进行综合考核。

3、机房及弱电系统运维。

针对运维人员绩效考核指标:
可用性统计
平均故障时间
平均故障恢复时间
SLA通告统计
针对外协人员KPI绩效考核指标:
平均故障时间
平均故障恢复时间
处理的工单数量
工单的平均处理时间
知识库贡献
配置项录入数量
SLA超时工单统计
SLA通告统计
在机房及弱电系统运维的实际工作中,对运维人员应该以保证系统的正常运行为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以平均故障恢复时间、工单数量和SLA等为主,进行综合考核。

4、网络系统运维。

针对运维人员绩效考核指标:
可用性统计
平均故障时间
平均故障恢复时间
SLA通告统计
针对外协人员KPI绩效考核指标:
平均故障时间
平均故障恢复时间
处理的工单数量
工单的平均处理时间
知识库贡献
配置项录入数量
SLA超时工单统计
SLA通告统计
在网络系统运维的实际工作中,对运维人员应该以保证系统的正常运行为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比、平均故障恢复时间、工
单数量等为主进行综合考核。

5、业务应用系统运维。

针对运维人员绩效考核指标:
可用性统计
平均故障时间
平均故障恢复时间
用户满意度
SLA通告统计
针对外协人员KPI绩效考核指标:
平均故障时间
平均故障恢复时间
处理的工单数量
工单的平均处理时间
知识库贡献
配置项录入数量
SLA超时工单统计
SLA通告统计
用户满意度
在业务应用系统系统运维的实际工作中,应该以保证系统的正常运行和用户的正常使用为主,所以系统可用性指标、变更工单处理时间,主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比、平均故障恢复时间、工单的平均处理时间、工单数量及SLA
等为主,进行综合考核。

6、视频会议系统运维。

针对运维人员绩效考核指标:
可用性统计
平均故障时间
平均故障恢复时间
用户满意度
针对外协人员KPI绩效考核指标:
平均故障恢复时间
处理的工单数量
工单的平均处理时间
SLA超时工单统计
SLA通告统计
7、信息安全系统运维。

针对运维人员绩效考核指标:
安全事件工单数量
平均安全策略变更工单处理时间
安全定期巡检任务完成情况
针对外协人员KPI绩效考核指标:
安全事件工单数量
处理工单的平均处理时间
SLA超时工单统计
SLA通告统计
资产配置管理规范
1、所有信息系统设备资产(包括在运行的设备/软件,备件,暂停使用的设备/软件)
都需要录入运维平台。

桌面计算机安全管理工具,网络监控工具,服务器/数据
库/中间件监控工具将把被监控的设备/系统资产信息同步到运维平台中。

资产
管理人员需要录入相应的管理信息或商务信息。

另外,对于不被监控的设备或
系统,资产配置管理人员应将其手工录入IT运维综合管理平台。

资产配置信息
可以制作表格经资产配置管理员审查后进行批量导入。

2、资产编码需要根据行业标准YC/T387—2011《行业固定资产分类与统
代码编制规则》,在IT运维综合管理平中进行手工录入
3、资产编码应录入在IT运维综合管理平的配置项的“资产编号”字段中,此字段已
由系统检测编码位数,以及资产编码中的组织机构代码是否正确,必须符合《行业固定资产分类与统一代码编制规则》的要求
4、固定资产编码共由22位数字组成:
a)第一部分组织机构代码,根据YC/T190编制的各单位组织机构代码,用8位数字表示。

b)第二部分总公司固定资产分类代码,用4位数字表示,是总公司固定资产大类(2位)+中类编码(2位)。

c)第三部分固定资产分类代码,用4位数字表示,是结合固定资产管理需要在固定资产分类标准基础上编制的再分类编码,是固定资产小类(2位)+细目
编码(2位)。

d)第四部分顺序码(即流水码),用6位数字表示,在直属公司代码系统中统一注册赋码,从“000001”至“999999”。

e)固定资产编码规则如下:
5、资产配置管理员应定期对资产进行审计,确保资产管理信息的严肃性和可靠性。

行业固定资产分类与统一代码编制规则
运维流程设计规范
一、系统运维管理工作内容
1、固定资产管理
企业对固定资产的管理,主要体现在固定资产购置、管理、使用、折旧、转让等方面。

部门主要负责实时记录固定资产变动情况和定期统计本部门固定资产使用使用并提交资产统计表。

运维部固定资产包括三个部分:办公自动化设备、机房内部设备、库房资产。

1)办公自动化设备使用人员不得擅自拆装更换设备,并且有妥善保管义务,定期对设备进行维护、检查其使用情况。

设备添加、更换、升级、和故障,使用人员应及时更近资产统计表信息,并注明事由。

2)机房设备应有固定人员进行维护管理,非工作人员未经许可不得进入。

机房设备如出现变更,要及时汇报给上级部门和相关部门,协同处理问题,尽快的恢复正常运营。

3)库房存储的资产应及时做好进出库记录,并定期对库房进行盘点核实库房资产统计。

附表:
固定资产清单统计表
库房资产统计表
2、网络、安全系统运维管理
1)网络系统的运维管理从三个方面实现:网络的连通性、网络的性能、
网络的监控管理。

网络系统运维的前期准备,需要有整个网络拓扑图,机房网络拓扑图,核心设备端口平面详图,接入设备端口平面详图,办公区域端口平面详图,并且需要对网络设备、网络端口、连接线路做与拓扑和平面详图相对应的标示。

前期准备工作,可以做为公司的技术文档的一部分,也可以为公司运维管理带来更加准确的网络基础依据。

网络连通性需归纳到每天的主干网络日常巡检工作范畴内,连通
性测试可以确认网络平台的正常运作,并可以及时检查出网络的连通故障,缩小问题出现时间差,根据的网络基础数据和测试得到的数据,更快更准确的确定网络的故障点,排除故障,恢复网络的正常运行。

工程师定期通过日常网络巡检,网络安全硬件日志,对网络问题、网络运
行状况进行周期性检查和数据分析后,总结出网络的性能。

日常运维工作中,除去网络的连通性和网络性能的监测,还需要对终端使用网络的情况有定的掌控,如服务器的日常访问量、网络数据传输峰值、工作用机日常对网络的使用情况等。

对网络负载能力、网络畅通性、网络运行瓶颈、网络常见问题根源等方面。

相关文档
最新文档