IT运维管理规范教材

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IT运维管理规范教材
第一章、总则
一、为加强 IT运维管理能力,保障业务系统正常、高效、安全运行,根据行业规范,并结合 IT运维工作实际情况,制定本规范。

二、 IT运维包含下列七个子项:
1、业务应用系统运维;
2、服务器、数据库、中间件运维;
3、机房及弱电
4、网络系统运维;
5、计算机终端运维;
6、视频会议系统运维;
7、信息安全运维。

三、IT运维管理的要紧内容包含:运维资产管理、运维人员管理、运维流程管理、运维安全管理与运维绩效管理等。

1、运维资产管理是对已正式投入使用的信息化基础设施、软
件等资产的动态更新与配置管理。

2、运维人员管理是对参与运维工作的人员的资格、能力、运
维行为与其对应的运维流程与权限的管理。

3、运维流程管理是对资产及对应运维人员的事件、问题、变
更等运维工作流程权限进行设计规划与实施过程。

4、运维安全管理是在运维过程中为保障信息的机密性、完整
性与可用性而对信息安全的职责、制度、标准与流程的管理。

5、运维绩效管理是科学评价运维过程与运维结果,发现问
题并提出改进措施。

四、 IT运维管理原则:
1、标准化:通过制定、公布与实施IT运维标准,达到统一管
理的目标;
2、痕迹化:通过IT运维综合管理平台的使用表达运维管理工
作的痕迹化原则;
3、平台化:使用IT运维综合管理平台,作为运维管理的集中
支撑平台,提供量化的运维管理数据便于刻画与评价运维工作;
第二章、流程管理制度
一、所有工单的创建、处理应符合规范要求。

工单的填写务必包含:故障或者问题的现象、故障问题根源分析、故障问题处理方案、故障问题处理结果。

工单的处理还务必包含:运维项及资产关联、故障问题严重等级、重要处理工程的更新说明、升级关闭的理由。

二、关于需要多个外协单位协同处理的综合故障排除或者运维任务,由运维总协调人通过协同工单协调外协单位共同处理。

三、运维人员有责任及时创建工单、处理与关闭工单,从而尽量真实的反映运维工作的时效性。

关于有承诺的运维项或者信息系统资产,工单的处理时间务必符合时间。

关于超过承诺范围的工单,IT 运维综合管理平台将通过逐级告警的机制引入更高层面的介入以促进运维管理服务水平达到要求。

四、关于公共基础设施的信息系统,所有变更务必按照变更申请、
变更测试评估、变更审批、变更实施与评估的流程进行。

涉及到费用的信息系统变更也需要通过变更审批流程来实施。

变更应做到有计划,有方案,有评估,有应急预案。

从而降低运维变更所产生的风险。

公共基础设施的变更还务必通过公告形式预先通知有关单位运维人员,以便及时进行必要的应急处理。

第三章、运维资产管理
一、信息系统资产管理是运维管理工作的基础。

运维工作、运维人员与运维过程的管理都应该围绕信息系统的资产进行。

信息系统资产的在IT运维综合管理平台中录入与动态保护是实现信息化、流程化运维综合管理的基础工作。

信息系统资产按照七个运维子项进行分类录入与管理。

二、资产管理员负责资产信息的清理、录入、资产状态的变更审核;各运维项负责人负责对应运维项资产信息的录入与保护工作。

共同建立完善的资产信息数据库,并与财务部门统计数据保持一致。

录入的资产应尽量反应到本单位的全面拓扑图,拓扑图应根据变化及时更新。

三、信息系统资产属性包含资产的基本属性、运维属性与财务属性。

资产管理员及运维项负责人应及时有效的对资产属性进行保护与管理。

1、基本属性描述资产的固有特征信息,包含资产类别、名
称、型号、厂商、资产编号等信息。

资产管理员及运维项负责人应IT运维综合管理平台中保护管理最新的资产基本属性。

2、运维属性描述除基本属性外,运维工作关心的资产信息。

如资产的物理位置、资产运维负责人及联系方式、资产状态(运行、维修、报废等)、资产的技术属性(如软件版本,运行参数,硬件配置参数等)。

3、资产的财务属性描述财务部门关心的信息。

如采购合同
号、供应商名称、保修期限等。

四、涉及到资产的责任人、技术属性、物理位置、所属部门、
状态等的变更应通过变更流程审批后完成。

五、所有运维工作应在IT运维综合管理平台中与资产进行关
联,建立完善的关联资产运维信息数据库。

第四章、运维人员管理
一、明确运维管理职责,定期制定运维管理岗位流程规范,制定运维人员专业能力评定标准,组织实施运维人员能力培养、考核与准入等工作。

二、根据运维管理岗位职责,及时梳理制定相应的运维人员工作流程权限并实施。

通过监督管理使运维人员的工作与行为符合运维管理技术规范。

三、根据运维岗位职责特点,制定运维人员接替方案,在人员岗位职责发生变化时及时更新流程与相应权限。

四、运维人员通过建立人工与自助服务台受理业务部门的运维事件。

运维人员的业务部门的事件处理应同意业务部门的服务评价。

通过运维评价实现闭环的运维工作管理。

五、加强运维人员的管理工作。

运维人员对本单位信息安全负有责任,应与运维人员签订保密协议,防止其对本单位文件、数据的擅自复制、修改与带离现场。

运维人员发生变化的应对其运维账户权限及时进行变更或者删除
第五章、考核与奖惩
一、考核要紧使用定性的指标与定量的指标相结合的考核原则。

考核周期分为月度、季度与年度考核。

对运维体系的考核结果进行不定期通报。

定量指标包含资产信息录入完善程度、工单及流程规范性、工单平均处理时间、业务部门满意度、信息系统可用性等关键数据。

第二部分 IT运维技术规范
第六章、术语定义与缩略语
1、IT运维工作
IT运维工作是指综合利用各类IT运维支撑工具,提供的确保IT 系统正常、安全、高效、经济运行的服务。

2、IT运维管理流程
IT运维管理流程是指为了支持 IT运维工作的实现与提供,以确定的方式执行或者发生的一系列有规律的行动或者活动。

3、IT运维人员
参与 IT运维工作的各级人员,IT运维人员根据管理权限、负责
运维工作的范围的不一致,划分为不一致的运维角色。

4、IT运维管理工具
IT运维工作中使用的对不一致运维项进行监控的工具,目前包含网络基础设施监控工具、业务应用监控工具、机房监控工具、计算机桌面安全管理工具。

5、运维项
根据 IT运维实际情况,信息系统运维对象统一划分为服务器/数据库/中间件系统运维、计算机终端运维、机房及弱电系统运维、网络系统运维、业务应用系统运维、视频会议系统运维、信息安全系统运维七个类别。

所有信息系统运维对象应归类在这七个类别中来进行运维管理。

由信息系统运维对象分类形成的七个类别,能够分别设定为不一致的运维项。

运维项包含了对信息系统资产的归类及授权的保护管理工作分类。

运维管理人员根据授权保护管理自己范围的信息系统及对应设备资产。

运维项务必遵照本标准规定的运维对象类别进行分类归口。

6、运维质量保证(SLA)
运维质量保证(SLA)是运维主管或者运维管理员根据本地实际情况与运维对象的重要性,规定的运维服务质量承诺。

即代表完成某个运维对象的某种运维任务所限定的时间。

通常为故障处理恢复的完成时间。

各分公司可对不一致的运维对象,相应的运维人员制定不一致的运维质量保证参数,超过运维质量保证的任务可能导致告警/运维
工作考核不合格/或者者按照相应商务合同规定下的处罚。

7、ISO
International Organization for Standardization国际标准化组织。

8、IT
Information Technology的缩写,意为信息技术。

9、信息系统
信息系统是指在商业系统运行的各类信息化设备、软件系统、终端与支撑这些设备、软件系统、终端运行的其他设备系统(如机房、弱电等)。

要紧由计算机硬件、网络与通讯设备、计算机软件、信息资源、信息用户与规章制度构成的以处理信息流为目的的人机一体化系统。

10、ITIL
Information Technology Infrastructure Library的缩写,意为IT基础架构库,是CCTA(英国国家计算机与电信局)开发的一套IT服务管理标准库,旨在提高IT资源的利用率与服务质量。

之后演变成为ISO20000。

目前已经成为业界通用的事实标准。

是业界普遍使用的一系列IT服务管理的实际标准及最佳实践指南,包含了如何管理IT基础设施的流程描述;它以流程为向导、以客户为中心,通过整合IT服务与企业服务,提高企业的IT服务提供与服务支持的能力与水平。

ITIL能够引导组织高效与有效地使用技术,让既有的信息化资源发挥更大的效能。

第七章、运维管理工作技术规范总则
随着信息化建设的不断深入, IT运维工作越来越重要,建立科学规范、协同高效的信息化运维管理体系,是行业信息化上水平的迫切要求,为此需要按照“统一标准、分级负责、逐级考核、流程规范、高效运行”的原则,确定运维管理职责,梳理运维管理流程,制定运维管理规范。

一. 运维工作的总体目标
IT运维的总体目标就是要树立面向业务服务的IT运维管理理念,建立科学合理的绩效考核指标,向精细化的运维管理转变;实现集中统一的IT运维管理模式;建立统一的、高效、智能的IT运维综合管理;建立规范标准的IT运维管理流程,实现由职能管理向流程管理转变;应用先进的、有用、高效的IT运维管理工具,实现被动管理向主动管理转变。

通过IT运维综合管理制度的实施,按照ITIL运维管理最佳实践标准,结合实际与需要,遵循立足需求、统一规划、保障重点、分步实施、务求实效的原则,建立一套融合组织、制度、流程、人员、技术、工具的IT运维管理体系,制定规章制度,规范管理流程,明确职责分工,强化技术支撑,实现对 IT系统的综合管理监控与日常技术支持,快速响应与及时解决信息系统运行过程中的各类隐患与故障,确保信息系统的正常、稳固、高效运行。

二. 适用范围
本规范面向 IT运维各级运维管理人员设计,适用范围包含各级运维人员,与参与IT运维外包的外协公司有关人员。

三. I T系统运维项分类
根据信息系统实际情况,信息系统运维项统一划分为:
1、服务器/数据库/中间件系统运维。

2、计算机终端运维。

3、机房及弱电系统运维。

4、网络系统运维。

5、业务应用系统运维。

6、视频会议系统运维。

7、信息安全系统运维。

所有IT信息系统运维对象应归类在这七个运维项类别中来进行运维管理。

四. 运维工作等级划分及SLA定义规则
IT运维综合管理通过流程进行处理的工作(包含事件,问题,变更,与任务等),都应当根据工作性质给予相应的工作等级。

同时,根据不一致运维项的不一致工作等级对信息系统的重要程度,还应当对每个运维项对应的工作等级给予相应的SLA。

IT运维工作(对应IT运维综合管理平台中的事件、问题、变更工单)分为严重、重要、通常三个级别。

运维人员在IT运维综合
管理平台中应当根据运维项的特性确定工单的等级。

运维工作(工单)的等级划分原则如下:
1、严重等级。

对核心业务或者工作造成严重影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为严重等级。

比如:核心业务应用系统、骨干网络、核心业务应用服务器/数据库/中间件、机房系统等中断或者严重影响正常业务的事件、问题或者变更工作(工单)确定为严重等级。

各运维项的严重监控告警将自动产生严重等级的工单,同时工单等级不能更换。

2、重要等级。

对业务部门或者工作造成重要影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为重要等级。

比如:核心业务应用系统、骨干网络、核心业务应用服务器/数据库/中间件、机房系统等不稳固或者存在较大隐患的事件、问题或者变更工作(工单)确定为重要等级。

各运维项的重要监控告警将自动产生重要等级的工单,同时工单等级不能更换。

3、通常等级。

对业务部门或者工作不可能造成较大影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为通常等级。

比如:普通计算机终端故障、局部接入网络的特殊、与各运维项通常性监控告警等产生的事件、问题或者变更工作(工单)确定为通常等级。

IT运维工作务必根据各运维项特性,对不一致等级的事件、变更工单定义相应的SLA数值。

SLA数值代表处理相应事务(工单)时的最长时间要求(以小时计)。

IT运维综合管理平台将对超过约定SLA的工作(工单)产生告警,并统计运维人员工作(工单)超过约定SLA的数量。

SLA的超时告警将按照约定的阀值自动通过通告及短信/邮件等
方式通知上级运维管理人员。

SLA的超时告警通常设置一级通告告警、二级通告告警与三级通告告警三个级别。

一级通告告警通常设定为通知监理公司或者负责运维项的运维管理人员;二、三级通告告
警通常设定为通知负责运维项的运维管理人员或者更高级别的
运维管理人员。

可按照如下示例规则,根据所属运维项特点制定约定的SLA要求:
五. 运维管理工作的考核KPI制定
根据目前信息系统结构与组织架构,制定统一考核KPI指标,以促进信息系统运维管理工作的规范化,信息化,主动化。

运维管理工作考核KPI分为如下几类:
1、运维平台的使用及工作量。

各类运维对象资产录入数量,事件/问题/变更工单数量,知识库奉献数量。

2、信息系统运行可用性。

各类运维对象的整体可用性,单位设备/系统故障次数。

3、运维管理工作质量。

平均工单处理时间(事件/问题/变更),平均故障恢复时间。

4、主动运维。

KPI绩效考核是一项综合性的考核。

需要全面、灵活考核运维人员对事件、问题、变更的处理情况,同时不一致的KPI考核指标在不一致的运维项中的权重并不相同。

针对不一致运维项的特点与重要性,可按照如下规则制定针对具体人员的KPI考核指标:
1、服务器/数据库/中间件系统运维。

针对运维人员绩效考核指标:
➢系统可用性
➢平均故障时间
➢平均故障恢复时间
➢SLA通告统计
针对外协人员KPI绩效考核指标:
➢平均故障时间
➢平均故障恢复时间
➢处理的工单数量
➢工单的平均处理时间
➢知识库奉献
➢配置项录入数量
➢SLA超时工单统计
➢SLA通告统计
在服务器/数据库/中间件系统运维的实际工作中,对运维人员应该以提高系统的可用性为主,因此系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比等KPI所占考
核权重应该较高; 对外协厂商应该以平均故障恢复时间、工单数量,SLA符合情况等为主,进行综合考核。

2、计算机终端运维。

针对运维人员绩效考核指标:
➢平均故障时间
➢用户满意度
针对外协人员KPI绩效考核指标:
➢处理的工单数量
➢工单的平均处理时间
➢知识库奉献
➢配置项录入数量
➢SLA超时工单统计
➢SLA通告统计
➢用户满意度
在计算机运维的实际工作中,对外协厂商应该以处理工单数量、平均故障恢复时间、SLA与用户满意度等为主进行综合考核。

3、机房及弱电系统运维。

针对运维人员绩效考核指标:
➢可用性统计
➢平均故障时间
➢平均故障恢复时间
➢SLA通告统计
针对外协人员KPI绩效考核指标:
➢平均故障时间
➢平均故障恢复时间
➢处理的工单数量
➢工单的平均处理时间
➢知识库奉献
➢配置项录入数量
➢SLA超时工单统计
➢SLA通告统计
在机房及弱电系统运维的实际工作中,对运维人员应该以保证系统的正常运行为主,因此系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以平均故障恢复时间、工单数量与SLA等为主,进行综合考核。

4、网络系统运维。

针对运维人员绩效考核指标:
➢可用性统计
➢平均故障时间
➢平均故障恢复时间
➢SLA通告统计
针对外协人员KPI绩效考核指标:
➢平均故障时间
➢平均故障恢复时间
➢处理的工单数量
➢工单的平均处理时间
➢知识库奉献
➢配置项录入数量
➢SLA超时工单统计
➢SLA通告统计
在网络系统运维的实际工作中,对运维人员应该以保证系统的正常运行为主,因此系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以主动的问题工单数量处理多及导致故障事件工单数量下
降趋势的对比、平均故障恢复时间、工单数量等为主进行综合考核。

5、业务应用系统运维。

针对运维人员绩效考核指标:
➢可用性统计
➢平均故障时间
➢平均故障恢复时间
➢用户满意度
➢SLA通告统计
针对外协人员KPI绩效考核指标:
➢平均故障时间
➢平均故障恢复时间
➢处理的工单数量
➢工单的平均处理时间
➢知识库奉献
➢配置项录入数量
➢SLA超时工单统计
➢SLA通告统计
➢用户满意度
在业务应用系统系统运维的实际工作中,应该以保证系统的正常
运行与用户的正常使用为主,因此系统可用性指标、变更工单处理时间,主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比、平均故障恢复时间、工单的平均处理时间、工单数量及SLA等为主,进行综合考核。

6、视频会议系统运维。

针对运维人员绩效考核指标:
➢可用性统计
➢平均故障时间
➢平均故障恢复时间
➢用户满意度
针对外协人员KPI绩效考核指标:
➢平均故障时间
➢平均故障恢复时间
➢处理的工单数量
➢工单的平均处理时间
➢SLA超时工单统计
➢SLA通告统计
7、信息安全系统运维。

针对运维人员绩效考核指标:
➢安全事件工单数量
➢平均安全策略变更工单处理时间
➢安全定期巡检任务完成情况
针对外协人员KPI绩效考核指标:
➢安全事件工单数量
➢处理工单的平均处理时间
➢SLA超时工单统计
➢SLA通告统计
六. 资产配置管理规范
1、所有信息系统设备资产(包含在运行的设备/软件,备件,暂
停使用的设备/软件)都需要录入运维平台。

桌面计算机安全管理工具,网络监控工具,服务器/数据库/中间件监控工具将把被监控的设备/系统资产信息同步到运维平台中。

资产管理人员需要录入相应的管理信息或者商务信息。

另外,关于不被监控的设备或者系统,资产配置管理人员应将其手工录入
IT运维综合管理平台。

资产配置信息能够制作表格经资产配置管理员审查后进行批量导入。

2、资产编码需要根据行业标准YC/T 387—2011《行业固定资产
分类与统一代码编制规则》,在IT运维综合管理平中进行手工录入
3、资产编码应录入在IT运维综合管理平的配置项的“资产编号”
字段中,此字段已由系统检测编码位数,与资产编码中的组织机构代码是否正确,务必符合《行业固定资产分类与统一代码编制规则》的要求
4、固定资产编码共由22位数字构成:
a)第一部分组织机构代码,根据YC/T 190编制的各单位组织
机构代码,用8位数字表示。

b)第二部分总公司固定资产分类代码,用4位数字表示,是
总公司固定资产大类(2位)+中类编码(2位)。

c)第三部分固定资产分类代码,用4位数字表示,是结
合固定资产管理需要在固定资产分类标准基础上编制的再
分类编码,是固定资产小类(2位)+细目编码(2位)。

d)第四部分顺序码(即流水码),用6位数字表示,在直属
公司代码系统中统一注册赋码,从“000001”至“999999”。

e)固定资产编码规则如下:
5、资产配置管理员应定期对资产进行审计,确保资产管理信息的
严肃性与可靠性。

行业固定资产分类与统一代码编制规则
第八章、运维流程设计规范
一、系统运维管理工作内容
1、固定资产管理
企业对固定资产的管理,要紧表达在固定资产购置、管理、使用、折旧、转让等方面。

部门要紧负责实时记录固定资产变动情况与定期统计本部门固定资产使用使用并提交资产统计表。

运维部固定资产包含三个部分:办公自动化设备、机房内部设备、库房资产。

1)办公自动化设备使用人员不得擅自拆装更换设备,同时有妥善保管义务,定期对设备进行保护、检查其使用情况。

设备添加、更换、升级、与故障,使用人员应及时更近资产统计表信息,并注明事由。

2)机房设备应有固定人员进行保护管理,非工作人员未经许可不得进入。

机房设备如出现变更,要及时汇报给上级部门与有关部门,协同处理问题,尽快的恢复正常运营。

3)库房存储的资产应及时做好进出库记录,并定期对库房进行盘点核实库房资产统计。

附表:
固定资产清单统计表
库房资产统计表
2、网络、安全系统运维管理
1)网络系统的运维管理从三个方面实现:网络的连通性、网络的性能、网络的监控管理。

网络系统运维的前期准备,需要有整个网络拓扑图,机房网络拓扑图,核心设备端口平面详图,接入设备端口平面详图,办公区域端口平面详图,同时需要对网络设备、网络端口、连接线路做与拓扑与平面详图相对应的标示。

前期准备工作,能够做为公司的技术文档的一部分,也能够为公司运维管理带来更加准确的网络基础根据。

网络连通性需归纳到每天的主干网络日常巡检工作范畴内,连通性测试能够确认网络平台的正常运作,并可与时检查出网络的连通故障,缩小问题出现时间差,根据的网络基础数据与测试得到的数据,更快更准确的确定网络的故障点,排除故障,恢复网络的正常运行。

工程师定期通过日常网络巡检,网络安全硬件日志,对网络问题、网络运行状况进行周期性检查与数据分析后,总结出网络的性能。

相关文档
最新文档