服务器巡检流程表
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务器巡检流程表
服务器巡检流程
一( 准备工作
1. 电话与客户联系,确定巡检的具体时间、地点,并了解服务器型号、规格,数量,服务器有无出现过故障现象,并作好详细记录。
2. 准备相关工具(比如螺丝刀、钳子、刷子)与必要的备品备件(如硬盘、CPU、电源、内存等)。
二( 现场操作步骤
第一步:检查服务器的是否有报警声,指示灯面板是否有红灯和黄灯显示(电源指示灯除外)若有,则表示指示灯对应的该部件有故障,需要仔
细检查此部件,直至将故障排除(指示灯一般正常为绿灯)
第二步:根据客户所用操作系统的不同,分别予以说明:
WINDOWS操作系统
a. 检查系统CPU利用率
通过windows操作系统“任务管理器”,检测三次,每次5分钟,记录大约平均的利用率。CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。
另外内存使用率应低于65%。
b. 在“控制面板?管理工具”中找到“事件查看器”,查看有无明显异常Logging信息。
c. 网络连接信息
在命令行提示符窗口中,输入“ipconfig /all”,查看。若采用了网卡容错,
则需查看主备网卡的flag状态是否为UP,同时检查ip地址和netmask是否正
确。最后使用ping [ip address]检查网络是否通畅,是否有掉包或返回时间是
否较大(内网返回时间值一般为1至2毫秒,外网返回值一般不超过10毫秒为正常)。
d. 磁盘信息:
在“运行”对话框中手工键入“diskmgmt.msc”,打开“磁盘管理”对话框,查看
每一个逻辑分区状态是否为正常状“状态良好”,若为其他出错信息的话,则说明
该块磁盘可能存在故障。需更换做或做其他进一步检测。
Linux操作系统
a. 查看CPU和内存使用率
# top
在命令输出行的第三行和第四行分别显示CPU和内存的使作率。检测三次,每次5分钟,记录大约平均的利用率。CPU 5分钟平均利用率低于70%,无进程占用大量资源为正常。另外内存使用率应低于65%。
b. 网卡的状态
: # ifconfig –a
查看网络连接信息。若采用了网卡容错,则需查看主备网卡的flag状态是否为UP,
同时检查ip地址和netmask是否正确。最后使用ping [ip address]检查网络是否通
畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,外网返
回值一般不超过10毫秒为正常)。
UNIX操作系统:
a. 查看CPU使用率
# sar –u 5 50
查看每个CPU使用率,CPU的idle(空闲)值至少应大于25%。
b. 查看内存信息:
# memsize
查看内存的大小。
# sar –r 5 50
其中freemem的平均值与使用memsize命令查看到内存值的比值不应小于20%
c. 网卡的状态 :
# ifconfig –a
查看网络连接信息。若采用了网卡容错,则需查看主备网卡的flag状态是否
为
UP,同时检查ip地址和netmask是否正确。最后使用ping [ip address]检查网络
是否通畅,是否有掉包或返回时间是否较大(内网返回时间值一般为1至2毫秒,
外网返回值一般不超过10毫秒为正常)。
d. 查看硬盘信息:
# sar –d 2 10
其%busy平均值不应低于1%,avque值不应高于5%。若这两项值都较高,则说明硬盘传输速度较慢,需调整或检验是否存在坏道。
三、查看阵列信息。(若没有配置阵列,则无需进行如下操作)
为准确检验阵列是否正常运行,查看是否已存在有损坏硬盘。需开机后进入阵列BIOS 中进行查看。
第一步:关机:
windows系统: 开始 ----重新启动 -----Y
Linux系统 :# shutdown –r now
Unix系统 :# init 6
第二步:系统自检完成后,根据阵列卡厂商的不同,按相应热键进入raid Utility (屏幕上会有相应提示信息,一般BM阵列卡按Ctrl+I , Adaptec阵列卡按Ctrl+A,
AMI或LSI阵列卡按Ctrl+M),进入后,查看 raid状态,正常是optimal, 若为其他状态(如degrade),则表明阵列中可能存在有坏硬盘,需进入
physical
Hard中查看,每块硬盘正常状态应为online,若为0ffline,则说明此硬盘已坏(一般
情况下此硬盘灯也会亮黄灯或者红灯),则需更换。
第二步:更换坏硬盘
严重声明:在更换坏硬盘前,一定要让客户做好所有数据的备份工作~~~注:1. 更换损坏硬盘前,必须查看阵列的当前状态,保证除损坏的硬盘外,其他
硬盘处于正常的ONLLINE在线状态。
2. 更换的新硬盘必须是完好的。
3. 新更换的硬盘容量应至少等于或大于被更换的坏硬盘容量。
4. 在阵列数据重建完成之前,不能插拔任何硬盘。
支持热插拔的硬盘
(Raid 5级别的阵列都支持硬盘的热插拔)
直接将坏硬盘取下后,插上好硬盘,插好后,会看见新更换的硬盘指示灯亮绿灯,并不停的闪,表明此时正在往硬盘里写数据信息。
对于不支持热插拔的硬盘,则需系统关机后,取下坏硬盘,然后再换上好硬盘。开机并进
入raid Utility中,重新对更换的硬盘作rebuild, 作完后即可重新启动进入系统。