某机房运维方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机房运行维护工作建议书
为加强********单位数据中心机房各系统的运行维护和管理工作,保证系统长期稳定、高效运行。根据**************信息化工作管理规定,编制适合于******机房运维方案。
1.运维现状分析
******数据中心机房目前由*******部门管理,由指定的外协公司
承接基本运维工作,其职能限定于出入安全、配件管理、设备管理、运
行物理环境管理。对于设备本身及其运行维护、软件运行维护等工作,仍由各个供应商按项目签订的协议提供免费服务,目前这些免费服务大
部分处于过期或者即将到期的状态。
目前机房运维没有涵盖桌面终端、大楼综合布线、楼层配线间与设
备间等,未构成一个完整的运维体系。
1.1.故障连带现象
多方运维导致机房出现中断或者服务不良的情况时有发生。
********公司机房由于始终未能受到规范统一的运维管理,加上机房作
为数据核心,由各种外部单位组成的运维团队无论在数据安全性、人员
责任感、技术全面性等方面,都难以保持机房的持续性运转。
我们没有精确的数据来说明机房的运行情况,这也是目前运维工作
尚未达标的一种表现,同样,这也导致我们对现状无法进行精确描述。但是,通过一些现象仍然可以发现机房运维工作应该大幅度改进。
1.1.1.长时间断网
具体原因不详,但由于机房服务器大部分无法接通,成都地区的二级单位网络依赖的DHCP服务无法使用等现象持续多个小时,发现晚,响应慢。
1.1.
2.上班时间网速慢
具体原因不详,但简单归结为SEP或者人多并不能完全的解释网速慢的问题,由于网络是信息化建设的基础,充分发挥机房内部与外部的资源是运维工作的重要职责。
1.1.3.服务意外退出
当虚拟机系统开始引入后,我们时常发现挂载在虚拟机系统上的一些服务器无故宕机且不知道任何原因,当用户需要使用时,由于无法自动恢复,影响正常工作。
1.1.4.不易寻找责任人
机房是一完整的整体,涉及到环境、网络、服务器、存储、操作系统、数据库、应用软件等,当一个故障发生时,难以判定故障原因,而目前机房是各个外协单位各施其责,最终造成故障排除时间缓慢,相互推诿的情况时有发生。
1.2.半自动化运维现状
目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT 运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:
1.2.1.运维人员被动、效率低
在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。
1.2.2.缺乏一套高效的IT运维机制
目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。
1.2.3.缺乏高效的IT运维技术工具
随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。
现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此, 对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。
1.3.规范制度不健全
IT系统三分建、七分管,运维管理十分复杂,技术要求高,涉及范围广,实施难度大,突出有“三难”。
1.3.1.职责难明
IT系统运维管理离不开使用、建设、运维三方的共同努力。不能将所有运维责任归于运维部门,运维部门与其他部门相互配合程度低,导致运维人员压力大,处理事务多。哪些由使用部门负责,哪些由运维部门负责,难有明确的职责界定。
1.3.
2.资料难全
网络设备价格和系统集成复杂度不断降低,部门自建“网中网”、“小系统”现象愈加普遍,资料准确性和完整性不断降低,给清查设备和排查故障带来很大困难,运维部门掌控系统资源越来越难,运维管理资料难求完整。
1.3.3.绩效难估
运维部门有个“两难”境界:系统问题越多,工作量越多,但有人认为维护水平越低;维护水平越高,问题越少,但别人认为工作量越少。
运维部门绩效评估难以用业务部门类似的指标来衡量,不能受到公平评估。因此运维人员积极性越来越低,人员流失率高。
2.总体目标
2.1.机房运维管理规范化、流程化、制度化
鉴于最终用户对信息化服务持续性供应的要求,******数据中心机房运维工作急需由被动式变更为主动式,针对以下内容进行规范化管理,确保其持续运行时间与工作性能满足生产需求。
机房环境,包括温度、湿度、供电、防雷、消防、承重等;
机房设备,包括服务器、交换机、存储、网络安全、通讯等设备;
机房链路,包括骨干光缆、机房跳线、收发与中继等;
机房应用软件的运行监控,包括门户、办公、生产、财务、网络等应用软件等;
机房软性资源,包括IP地址、VLAN等。
对于以上各个项目类别,基本上都包括监察、报警、故障排除、优化等工作,由于应用软件等受到供应商的限制,其故障排除与优化往往只能由供应商提供,但对其运行进行实时监控仍然是机房运维职责范围内的工作。
2.2.统一管理和集中授权