IT运维问题分析报告 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

IT运维问题分析报告

为提高IT运维用户服务感知满意度，提高运维工作效率，完善运维基础设施建设，现对IT运维工作中存在的紧迫性问题进行分析总结，报告如下：

一、运维现状

******承担了我局****平台、****系统、****系统辅助审批、****系统的基础环境运维，涉及到了硬件、网络、系统、安全等各个方面。

详细信息见附件一《IT运维简介》。

二、问题分析

根据IT运维现状，以及用户和中心各部对IT运维工作的意见和建议，参照《信息安全等级保护》三级标准，结合中心实际，对IT运维工作存在的问题分析总结如下：

(一)制度保障缺失

1.全局无《信息系统管理制度》，局用户没有信息化操作约束，运维团队无执行

依据。

2.没有指导开展IT运维工作的保障制度，如《机房管理制度》、《密码管理制度》、

《数据备份管理制度》、《系统管理制度》等。不能有计划有目的地开展it运维工作。

(二)工作边界不清晰

各IT运维相关部门岗位职责划分不够细，造成运维工作有交叉，工作边界不清晰。例如：

1.数据备份工作。涉及到数据部和******，甚至全局所有用户。

2.信息系统涉密检查。应有涉密主管部门牵头处理，涉及到IT运维的由运维

团队配合处理。

3.系统安全运维。涉及到运维管理和数据管理，工作界定不清晰，工作有交叉。

4.系统管理。应用系统基础环境搭建、系统开发、测试、运维,会涉及业务运

维和技术运维团队。

(三)基础运维环境不完善

1.缺少统一的运维监控平台。

中心现已部署大量系统，每个系统都会涉及到一台甚至多台服务器，无统一的监控平台会导致服务器硬件、操作系统、应用服务、网络设备链路状态等关键部分出现故障时，无法第一时间发现并排查问题，运维的响应时间会变长。同时也不能提前预防事件的发生。

2.缺少必要的安全防护。

专网缺少防火墙，所有用户和服务器处于同一网络中，服务器面临威胁。

没有漏洞补丁服务器，专网与因特网是隔离的，内网的计算机操作系统不能及时更新补丁。

缺少准入控制系统，本单位和外单位人员可以随意接入****专网，没有统一的用户身份认证，数据安全面临威胁。

3.缺少日志审计系统。

系统出现问题后无法追踪问题的根源并找到问题的最佳解决办法。对服务器所作的修改无日志记录，出现问题后无法界定责任人。

(四)服务意识有待加强

1.目前缺少监控平台，无法对即将发生的重大事件做预测，也无法做到在用户发

现问题之前将问题解决。

2.应用系统研发质量良莠不齐，故障不能快速定位，导致处理问题时间较长。

3.服务响应速度有待提高。

4.服务质量应有监管。

三、解决方案

(一)制度保障

1.制定IT运维管理制度。

2006年以来，运维团队根据实际工作需求陆续制订了《******信息系统管理制度》、《******机房管理制度》、《网络安全管理责任制度》、《信息安全管理与培训制度》、《信息资产和设备管理制度》等IT运维管理制度，但未经正式签发。

2.建立规范的it运维保障制度，让运维人员实施运维时有制度支撑。

2006年以来，陆续建立了《数据备份管理制度》、《服务器密码管理制度》、《服务器与数据库日常维护》、《服务器帐号密码权限配置策略》、《计算机日常维护管理》、《系统网络与信息安全总体策略》、《信息系统变更及发布管理制度》等IT运维技术管理制度，未经中心审议正式执行，仅作工作参考执行。

(二)明确工作边界

1.明确业务运维、技术运维和基础设施运维的工作边界。

业务运维主管业务流程中****业务处置服务；技术运维负责********;基础设施运维负责****信息系统运转所依赖的基础环境的运维，包括终端、网络、服务器、存储、安全等设施。

2.明确数据安全和IT运维之间的工作边界

中心IT安全工作有IT安全运维和数据安全管理两块，数据安全与IT安全运维是相互包含、相辅相成的关系，目前两块工作分工不明确，工作有交叉和阻碍。

3.明确各部门的职责，做到权责分明。

(三)建设一个平台、二个系统，完善基础设施运维环境

1.建立统一的运维监控平台，对机房环境、服务器硬件、操作系统、应用系统、

计算机网络等关键部分实施监控，在事件发生前检测并处理故障，逐步由被动救火变为主动防御。

2.部署准入控制系统、硬件防火墙和补丁分发服务器，对所有接入专网的用户进

行授权访问，保证边界及系统安全。

3.部署日志审计系统，对所有的服务器和网络设备日志进行审计，分析可能存在

的系统问题或性能问题。审计用户的操作，以便出现问题可追踪和还原。(四)建立三个服务机制和运维联系卡，加强巡检密度，提升用户服务

感知满意度

1.建立IT运维事件告知机制

结合日常运维巡检，将提前发现的运维事件告知相关运维责任部门，提前沟通协调解决，该工作已开展一个月。

附件二：《IT运维事件告知单》

2.建立IT运维分析报告机制

建立IT运维月度报表机制，统计每月IT工作情况，分析总结月度运维事件，向领导汇报，给出合理化建议，并对IT运维月电力能源消耗进行记录，该工作已经开展半年。

附件三：《IT运维报表》

3.增加巡检的密度，在发现潜在问题时及时向用户发出事件告知单进行处理。该

工作已开展半年。

附件四：《机房日常健康检查表》

4.建立定期走访机制，搜集用户对******的满意度和意见调查，以进一步提高服务

质量。服务行为质量调查工作已开展8年。

附件五：《服务行为报告单》

附件六：《服务行为报告单统计报告》

5.建立终端设备运维联系卡

附件七：《终端设备运维联系卡》