服务器故障处理预案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务器故障处理预案
公司
信息系统服务器故障应急处理预案(初稿)
第一部分服务器故障的处理响应 (3)
第二部分服务器硬件故障的诊断和处理..6 第三部分服务器软件故障的诊断和处理10 第一部分服务器故障的处理响应
(一)、服务器故障的定义本预案所指的服务器故障是指公司管理信息系统范围内的网络服务器设备
的故障。包括因设备质量原因导致的系统故障、
人为因素和网络系统外界因素而导致的系统故
障、计算机病毒感染及遭受黑客或恶意代码攻击
而导致的应用系统故障等。
涉及本预案的服务器设备包括小型机和
PC 服务器,设备清册参见附表1。
(二)、服务器故障的分类以服务器设备的故障性质和故障可能涉及的范围,按照以下的标准进行分类:服务器硬件故障:服务器硬件故障,包括服务器的底板故障、10板及IO设备故障、CPU 板及CPU 故障、内存板及内存故障、磁盘阵列及磁盘故障以及磁带库故障等。这类故障将直接影响服务器的正常运行,情况严重的,将使服务器陷于瘫痪状态,基于该服务器的所有应用将无法正常使用。如果该服务器承担的是网络的控制和管理职能,将对整个管理信息系统造成极为严重的影响;如果该服务器承担的是单个或多个应用系统的运行和管理,那么,这些应用系统将无法提供
正常的服务。
服务器系统软件故障:服务器的系统软件故障,
包括操作系统故障、网络控制和管理系统故障、集群管理系统故障等等。严重的服务器系统软件故障,同样会使服务器陷入瘫痪状态。故障造成的影响,视该服务器承担的应用系统的不同而不同,如果该服务器承担了网络的控制管理或关键应用职能,将有可能造成非常严重的后果。
关键应用服务故障:关键应用服务故障,包括Oracle 数据库故障、SQL Server 数据库故障、PI 数据库故障、OA 故障、WEB 服务故障、邮件服务故障等。这些应用服务软件的故障,对于相关的应用系统将产生一定的影响,其影响范围和损害程度随故障的性质和严重程度而定,严重的,将引起系统瘫痪。
(三)、服务器故障响应处理流程
第二部分服务器硬件故障的诊断和处理
一、硬件故障诊断
硬件故障的诊断一般是在服务器操作系统无法引
导启动的情况下进行,可以通过对主机BIOS 配置、主板故障指示灯、面板状态屏幕、面板LED 指示灯提供的信息进行,如条件允许(如光驱引导启动正常),还应使用设备制造厂家提供的专用诊断软件进行检查和分析。
二、识别硬件故障的方法
1.电源故障。电源故障的现象一般
为:电源部件开关在“合”状态、指示灯不
亮;面板状态屏幕不亮;按电源开关机器无反
应、主机电源LCD 指示灯不亮;无任何报警
声。
2.如果在开机后出现错误代码或“哔”
声错误信息,则应对照该型服务器的用户手册
中有关的错误信息列表进行判别。
3.如果服务器的前面板有显示主机状态
的液晶屏幕,应根据屏幕显示的信息对照用户
手册中相应的内容进行判别。
4. 如果服务器的底板、CPU 板、内存
板上有显示状态的LED 指示灯,一般都可以在
机箱内找到代表指示灯意义的说明贴纸,可依
此进行判别。
5. 服务器一般都自带用于对硬件系统进
行检测的诊断程序光盘,在服务器可以用该光
盘进行引导启动的情况下,应使用该光盘进行系统测试。
三、故障排除顺序
1.如果系统无法上电,可按以下步骤进行操作:
(1)检查以确保电缆和电源线都牢固插进相应
的插座。
(2)检查以确保系统所有部分均已打开并已正
确调整。
(3)如果服务器电源线插入带开关的多插座接
线盒,应确保接线盒上的开关已打开。
(4)将另一个电气设备电缆或电源线插入电源
插座,并打开该设备。
(5)断开电源线,等待20 秒,然后再次插入
电源线并重新启动系统。
2.如果系统可以上电,但无法完成开机自检测试,可按以下步骤进行操作:
(1)如果系统发出一系列哔声,则表示系统
有错误,应参阅该型服务器的用户手
册中的“错误信息”章节进行判别。或与产
品供应商联系维修。
(2)如果系统无法运行开机自检测试,且屏幕
显示错误信息,应参阅该型服务器的用户手
册中的“错误信息”章节进行判别。如果手
册推荐的方法无法解决问题,应与产品供应
商联系维修。
3.如果系统通过开机自检测试,但不运行,可按以下步骤进行操作:
(1)检查以确保服务器在安装实用程序中配置
正确。
(2)如果服务器仍无法工作,应关机并卸下除
显示器和键盘以外的所有外围设备。测试服
务器,并注意现在是否正常工作。
(3)如果服务器仍不工作,应关闭显示器、服
务器和所有外围设备,然后按(4) 条执行。
4.检查内置硬件:
(1) 断开的电源线,卸下服务器主机盖。
(2) 检查所有附件板是否牢固地固定在各自的
插槽中。
(3)确保所有磁盘驱动器电源电缆和数
据电缆已牢固并正确地联接。使用机内配置
的布线和开关配置图,查对海量存储器配
置。
(4)检查并确保内存条和内存扩展板牢固地固
定在各自的插槽中,且添加的内存条符合要
求。
(5)重新装上服务器盖板,并锁定系统。
(6)重新装上所有电源线和电源电缆。
(7)打开服务器电源,查找错误信息。
(8)经以上步骤检查,仍无法得到有意义的
错误信息,应与产品供应商联系维修。
第三部分服务器软件故障的诊断和处理
一、服务器软件故障分析和诊断软件故障分析和诊断主要通过对主机运行状况、服务与进程、网络连接状况、系统端口、事件日志记录进行检查,这种检查的必要条件是服务器操作系统可以引导启动,并可以提供相应的检查界面。
1.主机运行状况的检测服务器主机的CPU 、内存、磁盘的使用情况对服务器的性能影响很大,如果出现问题,将直接影响到服务器的正常运行,进而对服务器上正在运行的重要的应用系统带来不可预料的后果。因此,处理服务器软件故障前,对主机的CPU 、内存、磁盘资源使用情况进行检测是一个非常重要的步骤,往往可以在第一时间发现主机基本性能的状态异常。