服务器维护规范2016

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

服务器维护规范

1、预防性维护服务

定期预防性维护也就是日常的一般性维护,是一种基于预防性维护的主动服务。定期对系统进行预防性维护,是确保系统正常健康运行的重要预防措施。通过该服务及时检查、发现故障隐患,更换与排除故障部件,调整系统参数,尽量减少系统故障及宕机时间,保持业务持续性运行。

1.1预防性维护服务周期

每三个月预防性维护服务一次,对系统软硬件进行预防性检查维护,尽量将隐患消除在萌芽之中。

1.2预防性维护服务内容

*系统运行环境检查,包括机房温度、湿度和零地电压、零火电压等

*系统硬件运行情况检查

*系统错误日志分析

*超级用户邮件分析,清理过期邮件

*对磁带机、光驱和软驱做读写测试和必需的清洗

*文件系统空间使用情况检查

*系统运行状态、性能检查和优化,包括CPU、内存和交换区使用情况,硬盘和网络的IO 情况检查

*记录系统存储空间的逻辑结构

*双机系统软件配置检查及有效性测试

*操作系统版本及微码检查

*设备除尘处理。

*检查如发现有隐患的部件将及时更换

1.3预防性维护服务维护的方法

*主机和磁盘阵列的物理状态检查,具体包括电源、风扇状态、LED状态灯检查等。

主要部件的状态检查,具体操作如下:

*适配卡状态(包括SCSI卡、网卡等):检查是否处于Available状态。

*内存状态:检查是否处于Available状态以及内存容量是否与机器原始配置相同。

*CPU状态:检查是否处于Available状态

*硬盘状态:检查是否处于Available状态

*网络通讯状态统计:检查其中Ierr和Oerr基本为0

*磁盘空间使用情况检查,要求已经使用空间在80%以下,并且至少有12MB以上的剩余空间。

软驱、光盘驱动器、磁带机的可用性检查,具体操作如下:

*光盘驱动器:装入一张光盘,检查光盘的内容是否正确。

*磁带机:把一个文本文件写入空白磁带再读回,检查与原始文件是否一致。

*检查系统错误日志,主要检查其中是否存在永久性不可恢复的硬件错误;读取root邮件等,检查是否有需要处理的部件故障。

系统性能情况检查,具体操作如下:

*检查系统内存使用和cpu使用的性能情况。

*检查磁盘I/O的性能情况。

*检查系统交换空间的使用情况。

*检查系统用于网络通讯的缓冲区使用情况。

1.4第一次预防性维护服务服务内容及步骤

为了详细了解保修设备的硬件及系统状况,以便更好的维护服务,将对承保的设备做第一次检查,主要内容包括:

运行环境

*电源环境:电压,零地电压,UPS功率,预计断电保护时间等

*运行环境:温/湿度计检查

系统硬件

*检查系统具体配置是否与保修合同一致,并以此作为配件准备的依据

*在检查过程中,发现有配件损坏的,和成都通卡确认后更换。若该故障发生在合同生效前,则维修所需备件费用由成都通卡承担。

系统软件

*主要是熟悉应用的构成,比如系统的应用由IBM双机软件、数据库等业务应用组成,我们逐项了解:

WINDOWS、LINUX部分:

*操作系统版本

*主要的文件系统,逻辑卷,以及用户构成,主要注意备份关键目录

*具体安装的软件包

*上一次备份时间,讨论是否再作备份

2、系统软件维护

除提供全天硬件服务外,还提供7*24小时的电话或现场的软件维护服务,对WINDOWS、LINUX操作系统软件的故障维护及性能调整。

2.1系统软件维护内容

*对使用过程中遇到的疑难问题进行支持

*对授权软件进行支持

*对系统性能优化提供建议及支持

*对系统安全、网络配置提供建议及支持

*现场进行疑难问题解决

*现场进行性能优化

*现场进行系统配置

3、服务响应时间及方式

3.1服务响应与到达现场时间

提供7*24小时专人支持维护服务,响应时间在半小时以内。

3.2故障恢复时间

故障分级定义:

一级故障:“紧急”(系统无法使用)立即电话支持,接到服务请求后1小时内到达现场。

二级故障:“严重”(系统遭到严重破坏)接到服务请求后15分钟内回电话,在12小时之内到达现场。

三级故障:“不要紧”接到服务请求后15分钟内回电话,根据用户安排,协商到达现场。注:

1)对于用重装系统或打Patch、修改配置不能解决的软件故障,需要更长的时间用于跟踪、分析,可能会延长故障解决时限。

2)以上的恢复时限,指承保的硬件和操作系统恢复时间,不包含应用系统。

3)上述时间不包含工程师到现场后等待客户安排停机的时间。

3.3现场故障解决

解决故障时在严格按照铁路总公司制定的“三不动,三不离”原则指导下进行。

(1)确保客户数据已经备份,没备份的要做备份。

(2)确保应用系统已经备份,没备份的要做备份。

(3)确保操作系统已经备份,没备份的要做备份。

(4)一般情况下要关闭设备,拔掉电源。特殊情况不需要关闭设备的除外。

(5)更换部件之前必须带上防静电手腕释放自身的静电。

(6)更换部件时要按照Service Guide给出的步骤进行。

(7)更换部件后,拔掉电源的要仔细插好电源。

(8)启动设备后,需要恢复操作系统、应用系统或客户数据的要及时恢复。

(9)最后需要测试的必须进行测试,包括更换的部件、操作系统和应用系统等。发现问题要及时解决。

(10)填写《技术支持与客户服务报告》,并请客户负责人签字。

3.4解决故障后

(1)填写“小型机设备维护数据库”,该数据库记录用户、维护设备、错误代码、错误信息、故障部件及其序列号、新更换部件及其序列号、日期及解决方法等信息。

(2)将《技术支持与客户服务报告》交予服务调度整理存档。

4、系统技术支持方案

在进行系统维护保修中,有多种灵活的技术支持方式和手段,以便当系统出现故障时,能在第一时间内给于客户快捷的支持,主要有以下方式:

4.1电话热线支持服务

如果客户的计算机系统在系统维护期内出现一些不是非常严重的故障,我们的技术响应中心在接到故障信息后将立即以电话热线的方式进行支持。这种服务的优点是:能够对系统故障作出快速反应,而且成本较低。

技术支持中心设有7*24小时的专门热线电话,提供7*24小时的现场技术支持。一旦接到客户现场技术支持请求,技术支持中心即派经验丰富的专业系统维护工程师以最快的交通工具到达客户现场服务,进行故障检测、定位、维护,尽快恢复客户系统正常运行。

现场技术支持包括:

*紧急现场故障处理

*系统安装与调试

*定期的预防性维护服务检查

*安装补丁及系统升级

*更换与维修部件等。

相关文档
最新文档