服务器巡检流程表

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

服务器巡检流程

一.准备工作

1.电话与客户联系,确定巡检的具体时间、地点,并了解服务器型号、规格,数量,服

务器有无出现过故障现象,并作好详细记录。

2.准备相关工具(比如螺丝刀、钳子、刷子)与必要的备品备件(如硬盘、CPU、电源、

内存等)。

二.现场操作步骤

第一步:检查服务器的是否有报警声,指示灯面板是否有红灯和黄灯显示(电源指示灯除外)若有,则表示指示灯对应的该部件有故障,需要仔

细检查此部件,直至将故障排除(指示灯一般正常为绿灯)第二步:根据客户所用操作系统的不同,分别予以说明:

WINDOWS操作系统

a.检查系统CPU利用率

通过windows操作系统“任务管理器”,检测三次,每次5分钟,记录大约平

均的利用率。CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。

另外内存使用率应低于65%。

b. 在“控制面板→管理工具”中找到“事件查看器”,查看有无明显异常Logging信息。

c. 网络连接信息

在命令行提示符窗口中,输入“ipconfig /all”,查看。若采用了网卡容错,

则需查看主备网卡的flag状态是否为UP,同时检查ip地址和netmask是否正

确。最后使用ping [ip address]检查网络是否通畅,是否有掉包或返回时间是

否较大(内网返回时间值一般为1至2毫秒,外网返回值一般不超过10毫秒

为正常)。

d.磁盘信息:

在“运行”对话框中手工键入“diskmgmt.msc”,打开“磁盘管理”对话框,查看

每一个逻辑分区状态是否为正常状“状态良好”,若为其他出错信息的话,则说明

该块磁盘可能存在故障。需更换做或做其他进一步检测。

Linux操作系统

a.查看CPU和内存使用率

# top

在命令输出行的第三行和第四行分别显示CPU和内存的使作率。检测三次,每

次5分钟,记录大约平均的利用率。CPU 5分钟平均利用率低于70%,无进程

占用大量资源为正常。另外内存使用率应低于65%。

b. 网卡的状态

: # ifconfig –a

查看网络连接信息。若采用了网卡容错,则需查看主备网卡的flag状态是否为UP,同时检查ip地址和netmask是否正确。最后使用ping [ip address]检查网络是否通畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,外网返回值一般不超过10毫秒为正常)。

UNIX操作系统:

a.查看CPU使用率

# sar –u 5 50

查看每个CPU使用率,CPU的idle(空闲)值至少应大于25%。

b.查看内存信息:

#memsize

查看内存的大小。

# sar –r 5 50

其中freemem的平均值与使用memsize命令查看到内存值的比值不应小于20%

c. 网卡的状态:

# ifconfig –a

查看网络连接信息。若采用了网卡容错,则需查看主备网卡的flag状态是否为

UP,同时检查ip地址和netmask是否正确。最后使用ping [ip address]检查网络

是否通畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,

外网返回值一般不超过10毫秒为正常)。

d. 查看硬盘信息:

# sar –d 2 10

其%busy平均值不应低于1%,avque值不应高于5%。若这两项值都较高,则说明硬盘传输速度较慢,需调整或检验是否存在坏道。

三、查看阵列信息。(若没有配置阵列,则无需进行如下操作)

为准确检验阵列是否正常运行,查看是否已存在有损坏硬盘。需开机后进入阵列BIOS 中进行查看。

第一步:关机:

windows系统:开始----重新启动-----Y

Linux系统:#shutdown –r now

Unix系统:# init 6

第二步:系统自检完成后,根据阵列卡厂商的不同,按相应热键进入raid Utility

(屏幕上会有相应提示信息,一般BM阵列卡按Ctrl+I , Adaptec阵列卡按Ctrl+A, AMI或LSI阵列卡按Ctrl+M),进入后,查看raid状态,正常是optimal,

若为其他状态(如degrade),则表明阵列中可能存在有坏硬盘,需进入physical

Hard中查看,每块硬盘正常状态应为online,若为0ffline,则说明此硬盘已坏(一般情况下此硬盘灯也会亮黄灯或者红灯),则需更换。

第二步:更换坏硬盘

严重声明:在更换坏硬盘前,一定要让客户做好所有数据的备份工作!!!

注:1. 更换损坏硬盘前,必须查看阵列的当前状态,保证除损坏的硬盘外,其他硬盘处于正常的ONLLINE在线状态。

2. 更换的新硬盘必须是完好的。

3. 新更换的硬盘容量应至少等于或大于被更换的坏硬盘容量。

4. 在阵列数据重建完成之前,不能插拔任何硬盘。

支持热插拔的硬盘

(Raid 5级别的阵列都支持硬盘的热插拔)

直接将坏硬盘取下后,插上好硬盘,插好后,会看见新更换的硬盘指示灯亮绿灯,并不停的闪,表明此时正在往硬盘里写数据信息。

对于不支持热插拔的硬盘,则需系统关机后,取下坏硬盘,然后再换上好硬盘。开机并进入raid Utility中,重新对更换的硬盘作rebuild, 作完后即可重新启动进入系统。

相关文档
最新文档