服务器日常维护及常见故障排除方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Inspur group 2014/1/13
源自文库 5
服务器硬件维护注意事项
只有合格的技术人员才可以对主板进行设置 系统电源开关:系统前面板上的直流电源开关并不能关闭系统电源的交流 输入,系统中尚有8mA的伺服电流,在设置之前,必须拔下系统交流电源电 缆
系统外界设备:必须拔下系统外接网线和 Modem 等外接设备,否则 可能会对人员或设备造成意外伤害 静电释放和静电释放保护措施:静电释放会对主板、硬盘、板卡和 系统的其它部件造成损害,在您要对系统硬件进行设置时,最好在 防静电环境下进行(一端接地) 静电释放和板卡持拿:因为板卡上的芯片对静电特别敏感,持拿板 卡必须小心,只能接触主板的边沿。当板卡暂时不用时,必须把它 放回专用的防静电袋中,芯片朝上放在接地平台上 机箱盖:为了系统正常散热和空气流通,在系统上电前一定要安装 机箱盖,否则会对系统部件造成损害,机架式服务器要特别注意
2014/1/13
10
主要内容
故障维修注意事项 常见故障处理及调试
Inspur group
2014/1/13
11
常见故障处理及调试
硬盘相关故障 开机无显 机器不加电 意外重启 风扇故障 前面板状态灯相关说明 系统相关故障 数据读写缓慢 网络相关故障
Inspur group
2014/1/13
12
Inspur group
2014/1/13
14
硬盘相关故障:硬盘检测问题
Sata硬盘的识别问题更多表现在bios设置上,例如NF190/NF280G2/NF190E bios 中相关sata参数设置
Inspur group
2014/1/13
15
硬盘相关故障:硬盘检测问题
例如NF190D/NF280D bios中相关sata参数设置
Inspur group
2014/1/13
8
排除非浪潮部件干扰非常重要
硬件故障并不单单指硬件有问题,它也指硬件之间不兼 容。因为服务器的正常运作需要各部件之间的大力协调。 建议大家在采购各元件时,都采用同一品牌原装的,并 且要采用能发挥服务器性能的元件(上例中的旧式网卡 即使正常也会严重影响服务器性能),这样才不会发生 莫明其妙的故障
Inspur group
2014/1/13
21
硬盘相关故障-硬盘掉线
对于硬盘频繁掉线的故障,首先校验硬盘是否有坏道,如确定有坏 道建议立即更换而不是通过其他修正的方法 经过校验确认硬盘没有坏道,但此硬盘频繁掉线,同样需要更换硬 盘,然后依次考虑背板、主板或raid卡、数据线、终结器故障。
Inspur group
2014/1/13
22
常见故障处理及调试
硬盘相关故障 开机无显 机器不加电 意外重启 风扇故障 前面板状态灯相关说明 系统相关故障 数据读写缓慢 网络相关故障
Inspur group
2014/1/13
23
开机无显的维护思路
Clear CMOS 检查供电环境,零-火;零-地电压? 检查电源指示灯,如果亮,正常吗? 按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗? 是否更换过显示器,更换另一台显示器。 去掉增加内存 去掉增加的CPU 去掉增加的第三方I/O卡 检查内存和CPU 插的是否牢靠 主板是否有显示屏蔽的跳线 更换主要备件,如主板,内存和CPU
Inspur group
2014/1/13
26
开机无显-内存最小化
单条内存插法: 1.NF280G2/NF190单内存插在靠近主板边缘的A1或B1槽位 2.NF190D/NF280D单内存插在靠近主板内部的DIMM 1A槽位上 主板power开关跳线位置: NF280D/NF190D:
Inspur group
关于windbg
Inspur group
2014/1/13
33
Dump文件生成
当一个核心态错误发生的时候, windows缺省的方式是产生一个带有 报错代码的蓝屏。 有三种类型的dump文件:
完全内存转储 核心内存转储 最小内存转储
Inspur group
2014/1/13
34
Windbg 设置
Inspur group
2014/1/13
16
NF190D/NF280D ESB2 SATA
3种模式:Compatible、AHCI、HostRaid
Inspur group
2014/1/13
17
NF190D/NF280D SATA RAID
关于SATA HostRAID有如下限制:
RAID-0
Inspur group
2014/1/13
31
关于系统蓝屏故障的分析
关于 windbg
Dump文件的生成,及设置 Windbg 设置
如何分析dump文件 具体案例分析
Inspur group
2014/1/13
32
什么是windbg 微软在DDK和SDK中提供的一个调试工具,既能调试驱动程序也能调试应用 程序。同时可以对系统进行调试,对于蓝屏后产生的dump文件也有很强大 的分析能力,帮助我们找到在蓝屏发生的最后一刻,系统在执行什么操作。 Windbg下载 http://www.microsoft.com/whdc/devtools/debugging/default.mspx 分析性能如何 1,如果是软件原因造成的,尤其是杀毒软件防 火墙原因造成,确定的 成功率可以达到90%以上。 2,如果是硬件原因造成的蓝屏,不能唯一确定到哪个硬件,但是可以 大体上判定问题出现在哪一路上
Inspur group
2014/1/13
29
常见故障处理及调试
硬盘相关故障 开机无显 机器不加电 意外重启 风扇故障 前面板状态灯相关说明 系统相关故障 数据读写缓慢 网络相关故障
Inspur group
2014/1/13
30
意外重启
查看bios相关日志及系统日志考虑相关因素 如果是蓝屏重启,可查看dump日志进行分析 与系统有关,重装系统 内存和主板是导致硬件蓝屏的主要原因,可对内存进行校验,或对内 存进行最小化测试
Inspur group
2014/1/13
24
开机无显-清cmos
NF190/NF280G2清cmos方法:用跳线帽将跳线2的b-c短接,保持5秒钟;重启机 器使设置生效;关掉机器,将跳线帽接回原先位置即可。
Inspur group
2014/1/13
25
开机无显-清cmos
NF190D/NF280D清cmos方法:用金属物体(如小螺丝刀)将JBT1的两个脚点短接 即可。
18
NF190D/NF280D SATA
Compatible Mode: IDE0Mas, IDE0Sla, SATA0,SATA2 or SATA1,SATA3,支持 Windows, Linux, no driver required Enhance IDE Mode: IDE0Mas, IDE0Sla, SATA0,SATA1,SATA2,SATA3,支持 Windows, no driver required Enhance Mode (AHCI or RAID enabled): IDE0Mas, IDE0Sla, SATA0, SATA1, SATA2, SATA3, SATA4, SATA5, driver is required.
7
关于最小化和还原出厂配置
遇到复杂问题时,需要进行机器的最小化操作来进行问 题定位,笼统的讲,最小化指单cpu、单内存或双内存 (根据主板要求决定)、主板、电源接显示器开机测试, 其他的板卡、跳线等都去掉。
但由于机型的差异,通过一些案例分析,我们真正做到 最小化了么?
还原到出厂配置要求保证原厂的部件,去掉用户自己扩 配的部件,甚至要求bios版本的还原。
Inspur group
2014/1/13
9
外设故障不可小看
这些外设部件往往是最容易被忽 略的,但这些故障会被引起以下 故障: 蓝屏-切换器导致 开机报错-键盘导致 开机报警-鼠标线缆被老鼠咬 了!!!-键盘故障 显示器-安装as4.6死机,安装其他 系统没问题。 必要时要替换测试
Inspur group
Min 2 drives, max 4 drives. RAID-1 Min 2 drives, max 2 drives. RAID-10
Min 4 drives, max 4 drives.
the same limitation with SCSI HostRAID
Inspur group
2014/1/13
Inspur group 2014/1/13
6
硬件维修注意事项
确保在机箱和主板之间不存在短路 把和主板相连接的线缆断掉,包括键盘和鼠标 移走所有的外插板卡 安装一颗 CPU (确保安装牢固) 连接机箱扬声器连线和电源指示灯LED连线到主板 检查主板等部件的跳线设置是否正确
Inspur group
2014/1/13
磁盘相关故障-硬盘亮红灯
很多机器背板有硬盘故障检测功能,如硬盘亮红灯一般 意味着硬盘掉线、背板检测到硬盘存在故障隐患,此时 可以从raid卡配置界面中查看硬盘的状态,如果处于非掉 线状态,需要安装对应的管理软件, 从管理软件中查看 是否有磁盘media error,有一点需要强调,硬盘亮红灯并不 一定意味着硬盘掉线。
Inspur group
2014/1/13
19
硬盘相关故障:开机自检硬盘报错
检测到硬盘时报错:smart error 、disk I/O error 或预期错误 1.使用现有的硬盘控制器校验硬盘。 2.出现此类报错时背板或主板也是故障原因但几率较小。
Inspur group
2014/1/13
20
硬盘相关故障
硬盘无法识别 1.检测不到硬盘 2.可检测到硬盘数量不正确 开机自检硬盘报错 检测到硬盘时报错:smart error 或disk I/O error
硬盘亮红灯 阵列中硬盘频繁掉线
Inspur group
2014/1/13
13
硬盘相关故障:硬盘检测问题
硬盘无法识别问题可从以下几个方面考虑 1.重新拔插硬盘电源及数据线缆 ,注意是否有接触不良的问题。 2.更换硬盘至原先可正常检测到的槽位,如果仍然检测不到则可能存 在硬盘损坏故障。 3.可检测到硬盘数量不正确实的情况要注意先确定bios中是否设置了正 确的参数,然后再排除上述1.2问题。 4.硬盘背板故障。 5.磁盘控制器可能存在故障。
Inspur group
服务器日常维护及常 见故障排除方法
2014/1/13
2
主要内容
故障维修注意事项 常见故障处理及调试
Inspur group
2014/1/13
3
故障维修注意事项
服务器故障排错的基本原则
服务器硬件维护注意事项
关于最小化和还原出厂配置
Inspur group
2014/1/13
4
服务器故障排错的基本原则
1. 尽量恢复系统缺省配置 a:硬件配置:去除第三方厂商备件和非标配备件; b:资源配置:清除CMOS,恢复资源初始配置; c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序; d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗? 2. 从基本到复杂 a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常 后再接入网络运行,观察故障现象变化并处理。 b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系 统为止。 c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统 为止。 3. 交换对比 a:在最大可能相同的条件下,交换操作简单效果明显的部件; b: 交换NOS载体,既交换软件环境; c:交换硬件,既交换硬件环境; d:交换整机,既交换整体环境
2014/1/13
27
常见故障处理及调试
硬盘相关故障 开机无显 机器不加电 意外重启 风扇故障 前面板状态灯相关说明 系统相关故障 数据读写缓慢 网络相关故障
Inspur group
2014/1/13
28
主机不加电
确定外插电源线是否正常,更换电源线测试
清cmos、最小化 拔插相关部件 在确定外部电源没有问题的情况下,将电源单独取出,插上电源线后 短接电源24针插座的绿、黑接口,看电源风扇是否转动来确认电源故 障。(台达的一些电源有空载保护机制,不能通过此方法进行测试, 还有一些电源有节电功能,必须在电源内部温度达到一定阀值才启动 风扇,如NP110D共享工程机器,所以也不能用此方法测试) 更换主板测试,(依照现场更换情况定位最终故障)
相关文档
最新文档