机房运维方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机房运行维护工作建议书
为加强********单位数据中心机房各系统的运行维护和管理工作,保证系统长期稳定、高效运行。

根据**************信息化工作管理规定,编制适合于******机房运维方案。

1.运维现状分析
******数据中心机房目前由*******部门管理,由指定的外协公司承接
基本运维工作,其职能限定于出入安全、配件管理、设备管理、运行物理环境管理。

对于设备本身及其运行维护、软件运行维护等工作,仍由各个供应商按项目签订的协议提供免费服务,目前这些免费服务大部分处于过期或者即将到期的状态。

目前机房运维没有涵盖桌面终端、大楼综合布线、楼层配线间与设备间等,未构成一个完整的运维体系。

1.1.故障连带现象
多方运维导致机房出现中断或者服务不良的情况时有发生。

********公司机房由于始终未能受到规范统一的运维管理,加上机房作为数据核心,由各种外部单位组成的运维团队无论在数据安全性、人员责任感、技术全面性等方面,都难以保持机房的持续性运转。

我们没有精确的数据来说明机房的运行情况,这也是目前运维工作尚未达标的一种表现,同样,这也导致我们对现状无法进行精确描述。

但是,通过一些现象仍然可以发现机房运维工作应该大幅度改进。

1.1.1.长时间断网
具体原因不详,但由于机房服务器大部分无法接通,成都地区的二级单位网络依赖的DHCP服务无法使用等现象持续多个小时,发现晚,响应慢。

1.1.
2.上班时间网速慢
具体原因不详,但简单归结为SEP或者人多并不能完全的解释网速慢的问题,由于网络是信息化建设的基础,充分发挥机房内部与外部的资源是运维工作的重要职责。

1.1.3.服务意外退出
当虚拟机系统开始引入后,我们时常发现挂载在虚拟机系统上的一些服务器无故宕机且不知道任何原因,当用户需要使用时,由于无法自动恢复,影响正常工作。

1.1.4.不易寻找责任人
机房是一完整的整体,涉及到环境、网络、服务器、存储、操作系统、数据库、应用软件等,当一个故障发生时,难以判定故障原因,而目前机房是各个外协单位各施其责,最终造成故障排除时间缓慢,相互推诿的情况时有发生。

1.2.半自动化运维现状
目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。

因为这种IT运维仍然是等到IT故障出现后再由运维人员采取
相应的补救措施。

这些传统式被动、孤立、半自动式的IT 运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:
1.2.1.运维人员被动、效率低
在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。

目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。

1.2.2.缺乏一套高效的IT运维机制
目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。

1.2.3.缺乏高效的IT运维技术工具
随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。

出现这些问题部分原因是企业缺乏事件监控和诊断工具
等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。

因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。

例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。

而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。

因此, 对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。

1.3.规范制度不健全
IT系统三分建、七分管,运维管理十分复杂,技术要求高,涉及范围广,实施难度大,突出有“三难”。

1.3.1.职责难明
IT系统运维管理离不开使用、建设、运维三方的共同努力。

不能将所有运维责任归于运维部门,运维部门与其他部门相互配合程度低,导致运维人员压力大,处理事务多。

哪些由使用部门负责,哪些由运维部门负责,难有明确的职责界定。

1.3.
2.资料难全
网络设备价格和系统集成复杂度不断降低,部门自建“网中网”、“小系统”现象愈加普遍,资料准确性和完整性不断降低,给清查设备和排查故障带来很大困难,运维部门掌控系统资源越来越难,运维管理资料难求完整。

1.3.3.绩效难估
运维部门有个“两难”境界:系统问题越多,工作量越多,但有人认为维护水平越低;维护水平越高,问题越少,但别人认为工作量越少。

运维部门绩效评估难以用业务部门类似的指标来衡量,不能受到公平评估。

因此运维人员积极性越来越低,人员流失率高。

2.总体目标
2.1.机房运维管理规范化、流程化、制度化
鉴于最终用户对信息化服务持续性供应的要求,******数据中心机房运维工作急需由被动式变更为主动式,针对以下内容进行规范化管理,确保其持续运行时间与工作性能满足生产需求。

机房环境,包括温度、湿度、供电、防雷、消防、承重等;
机房设备,包括服务器、交换机、存储、网络安全、通讯等设备;
机房链路,包括骨干光缆、机房跳线、收发与中继等;
机房应用软件的运行监控,包括门户、办公、生产、财务、网络等应用软件等;
机房软性资源,包括IP地址、VLAN等。

对于以上各个项目类别,基本上都包括监察、报警、故障排除、优化等工作,由于应用软件等受到供应商的限制,其故障排除与优化往往只能由供应商提供,但对其运行进行实时监控仍然是机房运维职责范围内的工作。

2.2.统一管理和集中授权
机房运维目前存在的诸多问题,导致工作较为混乱,职责不清,相互推诿时有发生,这与运维本身所需要的快速排除事故,综合性根本性的解决潜在问题的要求是不一致的。

除了技术上需要一个中央平台以外,显然管理上也应该形成一个统一的运维团队,这个团队应该对机房内各项内容都承担相应的职责,这种职责是深入的,而不仅仅是简单的遇到事故时一个通知者的角色。

设备厂商、应用软件开发商都是在不断变化中的,而运维管理团队却是不变的。

地研院信息中心认为,运维管理团队应该保障运维行为的合理性。

不允许在事故排除、问题诊断、持续改进的过程中,出现互不承担责任,尤其在一些业务交叉点上;
对运维配置项的识别方法是统一的,工作单、知识库等的格式是标准一致的;
对石油钻探行业的知识理解是一致的,包括不同应用的重要性等级、不同部室数据的安全性等级等;
团队内应共同对运维服务工作的推进承担责任;
内部区分不同的安全等级,比如管理员账号与密码属于高安全级,而外部人员的工作则是适度授权的。

在业务与管理上达到集中统一的要求后,就形成了“******数据中心机房运维一体化”的工作模式,由于这种模式加强了运维内部凝聚力,因此易于在运维流程、技术等方面进行持续改进,从而不断提高********公司在信息化运维工作上的能力,也就为********公司信息化建设解除了后顾之忧。

那么,我们再看一看现在的现状,可以反射出多方运维所形成的一些后果。

2.3.集中监控平台
机房是公司的信息化核心,无论是应用服务、核心网络、骨干链路,都将牵动全公司的信息化使用。

而机房的软硬件通常都是由不同的渠道采购的,这就造成了多厂商与多供应商共同维护的局面,由于不同厂商有不同的管理平台,不同集成商有不同的运维方式,运维队伍良莠不齐,在运维的及时性、有效性、安全性上,都无法满足********公司的业务需要。

事实上,我们需要如下所述的一个平台。

统一而且固化可执行的流程,保证无论何人来都可以按标准执行,以减少运维风险;
集中的监控预警系统,通过集成机房环境、网络、服务器等系统,任何系统出现故障,都将在第一时间发现并报警,同时,管理人员也只需在一个统一门户上进行操作管理,而无需面对各种各样的管理体系,在减缓学习曲线的同时也提高运维品质;
1)集中的知识库,知识包括历史实施过程、技术方案、原始资料等,由于运维
的延续性非常重要,因此,具有高度参考价值的历史运维资料是一笔相当宝贵的财富;
2)集中的运维队伍管理;
3)统一规范的基础配置项数据库。

4)只有通过一个中心平台,封装不同厂商与集成商所提供的不同内容,最终达
到运维工作可执行,业务延续而不受到厂商或者集成商的过度牵制。

5)但是,业务上或者说技术上只是提供了一个系统,而运维要落地仍然需要各
类人员来完成,那么,保证运维工作的实施与落地就需要统一的管理。

2.4.运维自动化
首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。

其次,IT运维流程的自动化能提高透明度。

因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。

再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。

3.建设方案
******数据中心机房的运维是一个整体化的工作,无论在电信、金融等信息化程度较高的行业,都是由一个运维团队来承担运维工作,鉴于行业信息安全的需求,通常是由一个内部服务机构进行统一管理,外协单位辅助来统一开展工作。

地研院信息中心作为距离******数据中心机房较近,信息化人员有一定运维经验,有足够的意愿为******数据中心机房运维提供良好的支持,目前地研院信息中心与一些有经验的外协单位通力合作,正在努力向ISO/20000标准所要求的运维服务规范化流程化的方向前进,并根据自身对机房运维工作的理解,已经开发出一些流程与制度,为机房运维奠定足够的基础。

3.1.自顶向下设计
机房运维涉众自顶向下牵系到各个层面的诉求,******数据中心机房的运维是一种分层次的服务,整个运维过程将会涉及多类人员。

根据********公司的现状与实际情况,我们分析以下人员将构成整个运维生命周期中的干系人,并行使各自的角色权利。

3.1.1.终端用户
终端用户是我们的最终客户,其满意度是我们运维工作是否良好的主要评判标准。

终端用户不局限于大楼内的办公用户,也包括骨干网络联通的对端用户、机房服务器上各类应用的使用者、集团公司的远程网络管理者,等等。

终端用户也是运维费用的承担者,我们的职责就是让其满意度逐步提升。

3.1.2.内部服务管理部门
公司信息管理部作为内部服务管理部门,承担了保证终端用户满意度的责任。

由于内部服务管理部门承担了大量的管理工作,再承担运维服务工作事实上不具有可行性。

因此,信息管理部应承担运维的管理工作,包括选择运维工作承担单位、审批管理流程、传递集团公司管理规范或者制定公司内部的企业规范,等等。

内部服务管理部门也是运维费用的评定方与支付方,为整个运维工作履行管理职责。

3.1.3.运维承接单位
地研院将作为运维工作的承接单位,将贯彻落实服务管理部各项指标,并为终端用户提供服务界面。

运维承接单位必须是中石油内部单位,其一是由于信息安全的要求,其二是为了更好的遵循企业规范,其三是不断提升内部队伍的运维水平。

运维承接单位本质上还是一个内部服务单位,在一些技术与业务无法支撑的情况下,需要外部协作单位提供运维技术工作的支撑。

3.1.
4.外部协作单位
外部协作单位为运维工作提供了附加的人力资源与技术专家服务,是整个运维工作的重要组成部分,其通常会承担实际工作的执行者角色。

作为外部协作单位,必须遵守公司的规范与要求,并按需提供相应的数据资料与过程文档。

由于机房的技术复杂性,外部协作单位可能不只一家,这些外协单位将由运维承接单位进行统一的管理,形成统一的运维团队。

3.1.5.供应商与厂商
供应商与厂商,包括软件与硬件,这两部分都需要他们提供配件服务与修复服务,无论在免费服务期还是收费服务期,这些商家都属于运维体系中的一部分。

供应商与厂商,也包括一些项目研究与测试阶段的参与者,这些商家也必须遵守机房相应的管理规定。

3.2.采用自底向上与自顶向下相结合
******数据中心机房运维目前处于一种被动式的工作状态,距离主动式运维还有很长一段距离,这是由于各个运维单位没有标准的工作流程与数据规范,导致基础数据极度欠缺,这些工作目前都必须一步一步通过坚实的工作来逐渐补充和完善。

同时,我们不能将运维工作简单当作一个软件系统或者平台,我们必须要按照ITILv3等国际标准,结合********公司实际,制定自已的标准,这样展开工作才有章可循,有法可依。

按照这自底向上与自顶向下结合的原则,我们建议采用如下步骤来实施******数据中心机房运维。

3.2.1.建设运维团队
运维团队的建设主旨,就是满足运维工作的PDCA循环,结合内部与外部工作人员,构建一个良性的不断自我成长的运维生态圈。

由于对IT运维的不够重视,很多企业并没有建立良好的运维团队来系统而规范的进行运维管理,这在一定程度上引发了IT运维人员的流失,使得企业的IT运维无法在质量上得到最大限度提升。

此外,随着企业IT应用的深入,运维已无法单纯依靠几个“运维先锋”以及“技术大鳄”来解决。

运维专业化的细分,需要企业能够充分了解IT运维以及运维人员的特性,才能让运维人员在合适的细分空间不断进行运维经验的积累,从而提升运维质量。

而这恰恰是很多企业无法正视的问题,运维中总是采取消极应对的态度,使得众多“运维先锋”以及“技术大鳄”也因为受重视程度不够等诸多原因选择离开。

在运维管理中,团队质量直接影响着服务质量,只有持续投入管理精力,建立相应晋升培训机制方能确保较高的服务水平和较稳定的服务质量。

我们将在后续章节详解我们的运维团队组成计划,由于工作都是由人开展的,所以这是最急迫的工作,也是******数据中心机房运维工作的重要部分。

由于中石油属于国家战略行业,我们必须在考虑到人员技术性的同时,也要考虑到内外部人员的信息安全性。

3.2.2.建立规章制度
加强IT系统运维制度建设事半功倍,通过运维工作制度化,全面落实各项管理责任,可有效保证IT系统的安全、稳定、可靠运行。

随着IT系统在各行各业的迅猛普及,IT部门工作重点,逐渐由系统建设转向运维管理,确保IT系统高效稳定运行、提高服务水平成为重心。

近年来,IT系统运维管理发展了一些先进理论方法,诸如以ITIL为核心的IT服务管理十大流程、IT外包等,推进了信息化服务水平的提高。

但是,对于IT系统规模较小、功能简单的单位来说,运维部门人力弱,经费投入少,运用实施这些理论办法存在着较大的难度。

因此,解决运维管理“三难”问题,惟一的办法就是建立较为完整的运维管理制度,形成一套职责、流程和指标,做到事事有章可循、有规可依。

根据********的实际情况,参照行业内的一些经验,我们已经拟定了一些规章制度的初稿,可以在后续章节中看到。

不过仍需要在实践过程中不断改进,以适应我们的实际情况。

3.2.3.采集基础配置项数据库
******数据中心机房运维的基本工作欠缺较多,尤其是在基础数据方面,一直难以提供一份完整的资料,对运维工作的开展造成巨大的障碍。

配置项管理数据库即CMDB,通过识别、控制、维护,检查企业的IT资源,从而高效控制与管理不断变化的IT基础架构与IT服务,并为其它流程,例如事故管理、问题管理、变更管理、发布管理等流程提供准确的配置信息。

随着IT技术的进步与发展,企业的IT环境越来越复杂。

数量庞大、品
种繁多的IT设备很难被有效的管理,更不用说管理以这些IT设备为基础的
各种IT服务。

同时,企业的IT环境在不断变化,如何评估某个设备或服务
发生的事故或变更所造成的影响,以及如何为其它流程提供IT资源当前准确的配置信息都是企业面临的重大挑战。

CMDB正是为了解决以下这些问题而
诞生的。

3.2.3.1.信息整合
如何将众多IT设备、IT服务、甚至使用它们的部门与人员整合在一个完整的库中?这样整合的信息将使有效与高效的管理IT设备与服务成为可能。

可自动发现各种主机、网络设备、应用。

同时支持全网发现、指定子网、指定配置项三种发现方式。

3.2.3.2.关系映射
如何将硬件、软件以及IT服务之间的物理和逻辑关系映射可视化?使得IT人员可以看到其互相之间的依赖关系,并确定该IT组件对客户带来的潜在影响。

若IT人员可以实时看到其对公司或客户业务的影响,将大大有助于提高IT服务水平。

展示IT资源、部门、人员之间的关联关系,实现关联关系的定义与维护。

CMDB不仅仅存储IT资源的属性与关联关系,还自动关联IT 资源与其发生过事故、问题、变更、发布。

3.2.3.3.流程支持
如何为其它IT运维流程提供准确的IT设备、IT服务的配置信息(包括当前设备或服务发生过的事故、问题、变更、发布等信息)对服务台、事故管理、问题管理、变更管理、发布管理来说,准确的配置信息将极大的提高流程的运作效率。

在服务台、事故、问题、变更、发布流程中,均可以快速查看当前流程涉及到的IT资源的全面、准确的信息。

3.2.3.
4.软件库与硬件库
如何保证应用到IT环境的软件与硬件均是经过授权与测试的?这是保
证IT环境质量与提供稳定IT服务的前提条件。

通过支持DSL(Definitive
Software Library,最终软件库)与DHS(Definitive Hardware Store,最终硬件库),保证在发布管理中使用的软件与硬件均是通过授权与测试的。

CMDB是IT运维的一个关键,但是因为每个企业对CMDB的要求都会有些差别,因此CMDB的灵活性很重要。

********公司机房的配置项虽然不比电信或者互联网应用服务商,但由于其具有远比电信、互联网应用的复杂性,在分析、采集CMDB资料时,将面临更多的挑战。

3.2.
4.研发********运维平台
******数据中心机房运维,如果仍然延续大量的人工,规章制度、业务流程难以落地,执行时容易偏离,大量基本数据无法采集或者采集困难,造成好的运维理念最终仍然无法贯彻。

随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。

面对越来越复杂的业务,面对越来越多样化的用户需求,不断扩展的IT 应用需要越来越合理的模式来保障IT服务能灵活便捷、安全稳定地持续保障,这种模式中的保障因素就是IT运维(其他因素是更加优越的IT架构等)。

从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。

其中,自动化最开始作为代替人工操作为出发点的诉求被广泛研究和应用。

IT运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。

自动化对IT运维的影响,
已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面,IT运维团队的构成,也从各级技术人员占大多数发展到业务人员甚至用户占大多数的局面。

因此,IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。

可以说自动化一定是IT运维最高层面的重要属性之一,但不是全部。

3.3.运维团队的最低配备满足PDCA循环
运维团队的构成与职责分配是******数据中心机房运维是否能够达到
预期目标的一种保障,根据********公司的组织结构与信息化建设现状,结合ISO/20000标准,我们以一个完整的PDCA循环作为建立团队组织构成的
依据,建立一个完整成体系的运维队伍。

以上图示表达了整个团队的基本配备情况,每个环节都承担相应的职责不可或缺,在图中并未表达在机房运维过程中可能出现的供应商与厂商人员,但一旦出现,也同样纳入团队的管理规程中,并形成相应的制度与评估考核体系。

3.3.1.客服人员
客服工作人员是与用户沟通的主要渠道之一,需具备一定的话术要求和基本技能。

要保障7x24小时的不间断服务质量,需要至少4名员工进行轮班工作,人员需求量相当较大。

鉴于******数据中心机房目前的运行需求,可以安排。

相关文档
最新文档