IBM-x 系列服务器报修及日常维护指南

合集下载

IBM小型机日常操作维护手册

IBM小型机日常操作维护手册

附件六IBM小型机日常操作维护手册目录一、报修 (3)二、开关机 (3)1 开机 (3)A 无分区: (3)B 有分区: (3)2 关机 (4)A 无分区 (4)B有分区 (4)三、日常维护 (4)四、系统备份(仅rootvg备份) (6)一、报修如果碰到硬件或者软件故障,请打IBM 800免费报修电话IBM硬件报修电话8008106677IBM软件报修电话8008101818-5004报修前需要准备:1)机器序列号(如9117-570 06348DA)2)客户单位3)客户联系人及电话4)机器所在城市5)问题描述6)相关日志二、开关机1 开机A 无分区:1)检查电源是否插好2)液晶面板出现“OK”字样,指示灯2秒钟闪烁一次,表示机器此时处在关机状态。

3)按下前面板上白色按钮后,主机会进入硬件自检和引导阶段;液晶面板会显示开机过程码,每一代码表示自检或引导的不同阶段,引导结束时,液晶面板代码消失,终端上有显示,进入AIX操作系统初始化,最后会出现登录提示。

4)如果主机长时间停留在某一代码上(大于20分钟),说明主机或操作系统有故障,请打IBM硬件保修电话8008106677,并提供相关代码。

B 有分区:5)检查电源是否插好6)在HMC中看Service Management里面对应服务器的状态,应为Power off状态7)选中对应的服务器,选中Power On, 选项为Partition to Standby,点击OK8)主机开始硬件自检,启动结束后,在HMC中看到对应的服务器为Standby状态9)选中该主机的对应分区,点击“Active”,启动分区2 关机A 无分区1)停应用2)shutdown -F停操作系统,如果机器全分区,液晶面板会显示停机过程码,最后出现“OK”字样,指示灯2秒钟闪烁一次。

表示停机过程结束。

如果只是需要重新启动,用“shutdown -Fr”命令。

B有分区1)停相关分区应用2)shutdown -F停相关分区3)在HMC中选中对应的服务器,选中Power Off,点击OK4)对应服务器的状态最终应为Power off状态三、日常维护首先对于机器的日常维护来说,要先观察机器的黄色报警灯是否亮起,如果报警灯亮起则登入操作系统使用以下的步骤进行查看:1)#errpt –dH(查看硬件错误日志,一般关心P、H类型的错误)ERROR_IDENTIFIER TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION0E017ED1 0405131090 P H mem2 Memory failure其中,TIMESTAMP代表日期,以MMDDhhmmYY格式;如0319131008表示2008年3月19日13时10分T(Type)一栏中,P表示永久性错误,T 表示零时性错误,U 表示不能决定是什么错误,I 表示信息而非错误。

服务器日常维护及常见故障排除方法

服务器日常维护及常见故障排除方法

4
服务器故障排错的基本原则
1. 尽量恢复系统缺省配置 a:硬件配置:去除第三方厂商备件和非标配备件; b:资源配置:清除CMOS,恢复资源初始配置; c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序; d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗? 2. 从基本到复杂 a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常 后再接入网络运行,观察故障现象变化并处理。 b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系 统为止。 c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统 为止。 3. 交换对比 a:在最大可能相同的条件下,交换操作简单效果明显的部件; b: 交换NOS载体,既交换软件环境; c:交换硬件,既交换硬件环境; d:交换整机,既交换整体环境
Inspur group
服务器日常维护及常 见故障排除方法
2022/3/23
2
主要内容
故障维修注意事项 常见故障处理及调试
Inspur group 2022/3/23
3
故障维修注意事项
服务器故障排错的基本原则 服务器硬件维护注意事项 关于最小化和还原出厂配置
Inspur group 2022/3/23
Inspur group 2022/3/23
14
硬盘相关故障:硬盘检测问题
Sata硬盘的识别问题更多表现在bios设置上,例如 NF190/NF280G2/NF190E bios中相关sata参数设置
Inspur group 2022/3/23
15
硬盘相关故障:硬盘检测问题
例如NF190D/NF280D bios中相关sata参数设置

IBM小型机操作系统日常维护手册

IBM小型机操作系统日常维护手册

日常维护手册一.AIX操作系统常用命令1系统开关机AIX引导分为多用户(NORMAL)和单用户(SERVICE)引导两种。

多用户(NORMAL)引导:在主机液晶面板显示“OK”情况下,按下主机前面板的白色电源按钮;单用户(SERVICE)引导:将AIX第一张系统光盘放入CDROM,按下主机前面板的白色电源按钮,在屏幕出现显示后,第二声喇叭声响起之前,按下“5”键。

系统关机命令及顺序:1.将应用顺序及数据库系统停止;2.利用#shutdown指令;2设备查看命令a)lsdev命令该命令用来查看系统设备信息。

#lsdev –Cc 设备类型常用的设备类型有:processor, disk, adapter, tape,memory, tty等。

b)lspv命令用来查看系统硬盘信息。

#lspv 硬盘名用来查看具体硬盘的信息,#lspv -l 硬盘名用来查看硬盘上逻辑卷信息,#lspv –p 硬盘名查看该硬盘物理分区的信息。

c)lscfg命令该命令用来查看设备配置信息。

#lscfg –vl 设备名d)lsattr命令该命令用来查看设备的属性信息。

#lsattr -El设备名3逻辑卷操作命令a)lsvg该命令用来查看系统定义的VG(卷组)。

#lsvg -o查看系统当前激活的VG (卷组)。

#lsvg VG名查看该VG(卷组)的信息,包括PP大小、多少,已使用(分配)的空间,自由空间大小等信息。

#lsvg -l VG名查看该VG(卷组)已经定义的逻辑卷。

#lsvg -o |lsvg -il列出所有系统mount上的逻辑卷。

4文件系统操作命令a)lslv该命令用来列出该逻辑卷所有属性。

b)smitty crjfs该命令用来创建一个文件系统。

c)mount该命令用来查看已安装的文件系统。

#mount 文件系统名用来安装一个文件系统。

#mount -a用来安装所有定义的文件系统#unmount 文件系统名用来卸载一个文件系统。

IBM AIX简单故障维护手册

IBM AIX简单故障维护手册

AIX简单故障维护手册由于IBM RS6000机器机型多,出现故障的情况有很多种类。

为了规范故障维护步骤,简化维护过程,编写本手册以供参考。

由于AIX故障种类多,不能一一列举,这里简单介绍部分故障判断,定位,解决方法。

一.故障的定义.弄清楚系统发生了什么问题?.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。

检查机器是否存在故障一般情况下,可以通过以下几种方法来收集错误信息1、查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。

当指示灯的状态不正常时,需要引起注意。

比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。

2、查看系统故障记录收集信息errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。

故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。

也可以使用errpt 命令来查看(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久;T 临时; U 未知(永久性的错误应引起重视)P:Permanent;T:Temporary;U:Unknow。

关于IBMX3650M2日常维护注意事项

关于IBMX3650M2日常维护注意事项

关于IBMX3650M2日常维护注意事项对于一个初次接触IBM X3650M2服务器的用户来说,可能会比较迷茫,怎么来维护这台服务器。

其实维护IBM服务器很简单,只需注意下面一些事项就可以。

1、机房环境机房的环境,对于服务器来讲是一个不小的影响环境。

灰尘,温度,湿度,电压对服务器的性能和稳定性都是比较大的影响。

所以机房最好是干净,灰尘少,温度在20左右,电压要稳,还要防静电,防火,防潮。

2、散热方面很多用户都以为服务器是上下散热。

X3650M2服务器是采用从前面吸冷风进,经服务器从后面出热风,所以最好不要挡住服务器的前面和后面,确保服务器散热流畅。

3、定期巡检很多用户觉得把机放在机房里,装好了用应就OK了,就再不去过问这台机器了。

只有等机器宕机了,或出现严重的故障是才去机房。

其实IBM服务哪个部件有问题,会通过前面板光通路诊断的告警灯来提醒你,告警灯的颜色为桔黄色。

如下图的为前面的面板。

提前发现问题,提前处理,能减少我们很大影响。

所以定期巡检机房是很有必要的。

4、故障分析如果发现机器故障灯,也不用慌。

首先把前面的光通路诊断的面板拉出来,看面板上是哪个部分亮的告警灯。

如上图,面板上有一排一排的文字,在机器的上面盖板上有对应的解释,解释每个告警是哪个部件出了故障,利于快速定位故障。

当你还不知道怎么处理的时候,也不用着急,可以拔打我们的技术热线:83697192,或打IBM800热线:8008101818,但你没有把握处理故障,请不要随便拆机处理。

5、软件环境保证帐户安全,网络上的安全不受攻击,及时给系统打全补丁。

ibm维修服务注意事项

ibm维修服务注意事项
Business Unit or Product Name
维修服务注意事项
V1.0
© 2005 IBM Corporation
TSS
日常维护注意事项 (1)
接报修后要立刻联系客户,详细了解故障情况,收集尽可能多的数据以作 故障判断。千万不可清除系统故障记录。
了解客户是否有特别的服务要求,如服务合同规定的高于一般标准的到场 时间和恢复时间。按照合同规定的标准严格执行。
机器修复后必须作详细的检查,确保故障已经修复,如做慢启动检查,运 行诊断程序,log repair action,清除crontab警告,close HMC event等。 在现场等待客户恢复业务,确保业务运行正常后才可离开。
长时间加班后,如通宵后,在休息前要把相关情况向接替的同事交接清楚。 同时也要向客户主管汇报清楚情况,如时间上不方便,如凌晨,可让接替 的同事在客户上班后代为转达。可以把移动电话转接到接替的同事,并留 下家里(酒店)电话,确保万一需要时可以找到你。
© 2005 IBM Corporation
TSS
关于备件(1)
紧急情况下本地没有备件,应立即通知Technical Leader和服务经理,看 看有没有其他变通的方法。如借机、拆机或用其他备件临时替代。同时与 备件库确认最快的到货时间。不可直接跟客户说没有备件,不知道什么时 候会到的话。 到客户现场前要先确认备件是状况良好的,没有物理损坏,不存在内外不 符的情形(包装箱上的备件号有可能和实际备件不符,对于APC>4的备 件,必须确认备件序列号与外包装一致)。 检查时拆开备件的外包装纸箱,但最好不要打开内部的密封防静电袋,从 外观上确认备件是好的,没有变形。如果你打开包装袋,有的客户会认为 备件是旧的。如果发现备件有锈蚀的痕迹,务必不要使用,也不用抱着试 验一下的心理,这种备件会引起机器的严重问题,如冒烟!已经有先例。 更换备件时必须确认旧备件与新备件备件号一致,或有替代关系(有些备 件外观上一样,可是实际是不可替代的)。有任何疑问请立即联系备件库 确认。备件库不能确认的情况下,联系当值TSG确认。

IBM System x系列服务器快速维护手册

IBM System x系列服务器快速维护手册

目录IBM System x3650 M2 7947 型 (1)3650M2前视图 (1)X3650M2操作员信息面板 (3)光通路诊断面板 (4)后视图 (5)IBM System x3650 M3 7945 型 (7)x3650m3正视图 (7)X3560m3操作员信息面板 (8)光通路诊断面板 (9)电源部分&指示灯 (15)IBM System x3650 M4 7915 型 (18)IBM System x3650M4正视图 (18)操作员信息面板 (19)X3650M4光通路诊断面板 (20)服务器电源功能 (27)IBM System x3500 M4 7383 型服务器 (29)X3500M4正视图 (31)X3500M4光通路诊断 (33)3500M4光通路诊断指示灯 (35)3500M4 后视图 (40)IBM System x3650 M2 7947 型3650M2前视图下图显示了服务器前部的控件、接口和硬盘驱动器托架。

硬盘驱动器活动指示灯:每个热插拔硬盘驱动器都具有一个活动指示灯。

当该指示灯闪烁时,表示该驱动器正在使用中。

硬盘驱动器状态指示灯:每个热插拔硬盘驱动器都具有一个状态指示灯。

当该指示灯点亮时,表示该驱动器发生了故障。

如果该指示灯缓慢闪烁(每秒闪烁一次),表示正在将该驱动器重新构建为RAID 配置的一部分。

当该指示灯快速闪烁(每秒闪烁三次)时,表示控制器正在识别该驱动器。

视频接口:将显示器连接到该接口。

可同时使用服务器前部和后部的视频接口。

USB 接口:这两个USB 接口可以连接USB 设备,如USB 鼠标、键盘或其他USB设备。

操作员信息面板:该面板包含控件、指示灯和接口。

有关操作员信息面板上的控件和指示灯的信息,请参阅第10 页的『操作员信息面板』。

机架释放滑锁:按下这些滑锁可以从机架上卸下服务器。

CD/DVD 弹出按钮:按该按钮可从CD-RW/DVD 驱动器中取出CD 或DVD。

IBM_X系列服务器操作手册v1.0

IBM_X系列服务器操作手册v1.0

IBM X系列服务器操作手册Ver.目录规范及流程篇错误!未定义书签。

服务器技术篇错误!未定义书签。

一、X系列服务器简介错误!未定义书签。

二、IBM阵列卡错误!未定义书签。

1、分类错误!未定义书签。

2、配置RAID(以ServeRAID 8i为例)错误!未定义书签。

三、收集日志错误!未定义书签。

1、DSA日志错误!未定义书签。

日志错误!未定义书签。

3、BMC日志错误!未定义书签。

四、故障排除错误!未定义书签。

1.故障排除步骤及技巧错误!未定义书签。

2、DASD故障错误!未定义书签。

五、必备工具错误!未定义书签。

规范及流程篇服务器技术篇一、X系列服务器简介众所周知,IBM的服务器产品线非常丰富齐全,从入门级到大型机,一应俱全。

打开IBM的官方网站,IBM给我们带来的第一印象就是——拥有如此多的专业产品可供选择。

总体来看,IBM 服务器家族目前共有4条产品线:基于 Intel 架构的服务器 x系列(xSeries,近日IBM已经升级推出基于AMD皓龙处理器的5款新品)、中型企业级服务器i系列(iSeries)、UNIX 服务器p 系列 (pSeries)和大型主机z系列(zSeries)。

这四大系列基本都包括了从入门级到企业级的各种档次的服务器产品,在结构上也全面包括了塔式、机架式、刀片和机柜式。

IBM eServer xSeries系列服务器是IBM服务器品牌之一。

eServer xSeries服务器得名于IBM工业标准服务器经典的“X-架构”,是eServer家族中支持开放工业标准的代表,它是由原来的Netfinity 系列发展而来的。

下面我们将用一组数据为标题,来简要描述IBM x系列的发展历程:1)9年历史IBM在1998年提出X系列服务器设想,到现在已经有9年历史。

而使x系列真正意义上进入到应用领域,还是到了2001年之后。

相比较IBM大型机的诞生时间,x系列所关注的目标是面向中小企业,因此要比面向金融行业的大型机稍晚一些。

IBM 主机系统维护内容及操作指导要点

IBM 主机系统维护内容及操作指导要点

IBM 主机系统维护内容及操作指导1.IBM RS6000小型机机房要求:1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。

2.温度(摄氏℃)10 ℃-40℃湿度(%)8% -80%2.设备故障灯分类:•主机故障灯面板上不能有数字显示,如果有的话,说明系统有故障。

7133磁盘阵列故障灯告警灯为黄色表示有故障磁带机故障灯告警灯为黄色说明有故障或磁带机太脏,须清洗。

3.系统错误报告(Error Log)的检查:硬件故障检测命令:# errpt -d H -T PERM若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户软件故障检测命令:# errpt -d S -T PERM若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户4.有否发给root用户的错误报告(mail):#mail1.观察所有未读消息,注意有关diagela的消息。

2.常用命令:h [<num>] Display headings of group containing message <num>t [<msg_list>] Display messages in <msg_list> or current message.n Display next message.q Quit3.对发现的问题详细分析,结果报告给客户5.件系统的检查:命令:# df –k%Used为文件系统的使用率。

所有文件系统的使用率不能大于80%6.磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。

6.信系统的检测:1.网卡的状态命令:#ifconfig –a输出判断:en0:flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,G ROUPRT,64BIT>inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255en1:flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,G ROUPRT,64BIT>inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255主备网卡的flag为UP属正常。

IBM小型机维护指导书V1[1].0

IBM小型机维护指导书V1[1].0

建行IBM小型机日常维护第一篇:日常维护部分第二篇:故障处理部分第三篇:安图特公司技术支持第一篇日常维护部分目录第1章AIX系统管理日常工作(检查篇) (1)1.1 常用的命令 (1)1.2 语法介绍 (1)1.2.1 vmstat:检查存、CPU、进程状态 (1)1.2.2 sar:检查CPU、IO (2)1.2.3 PS:检查进程状态命令 (3)1.2.4 svmon:显示进程占用存 (3)1.2.5 iostat:显示磁盘IO (4)1.2.6 netstat, entstat:显示网卡信息 (4)1.2.7 no:显示tcpip参数设置 (5)1.2.8 其它命令 (5)第2章AIX系统管理日常工作(LV篇) (6)2.1 IBM AIX系统管理的日常工作 (6)2.1.1 开关机步骤 (6)2.1.2 用户组及用户管理 (6)2.1.3 文件系统维护 (6)2.1.4 系统日常管理 (7)2.1.5 系统备份 (7)2.1.6 定时清洗磁带机 (7)2.1.7 定时检查设备指示灯状态 (7)2.1.8 简单故障的判断 (7)2.1.9 熟悉ibm aix操作系统 (7)2.2 关于IBM AIX的逻辑卷管理 (7)2.3 LVM命令 (8)第3章AIX系统管理日常工作(关键参数检查篇) (10)3.1 AIO参数检查 (10)3.2 磁盘阵列QUEUE_DEPTH参数检查 (11)3.3 用户参数检查 (11)3.4 激活SSA F AST-W RITE C ACHE (12)3.5 IO参数设置 (12)3.6 SYNCD DAEMON的数据刷新频率 (12)3.7 检查系统硬盘的镜像 (12)第4章AIX系统管理日常工作(性能分析篇) (13)4.1 性能瓶颈定义 (13)4.2 性能围 (14)第5章AIX系统管理日常工作(SHUTDOWN篇) (14)5.1 概念 (14)5.2 关机命令 (14)第6章AIX系统管理日常工作(备份与恢复篇) (15)6.1 用SMIT备份 (15)6.2 手工备份 (15)6.3 恢复系统 (15)第7章HACMP的双机系统的管理和维护 (15)7.1 HACMP双机系统的启动 (15)7.2 HACMP双机系统的关闭 (16)7.3 察看双机系统的当前状态 (16)7.4 HACMP环境下的排错 (17)7.4.1 了解问题的存在 (17)7.4.2 判断问题的出处 (18)第1章AIX系统管理日常工作(检查篇)1.1常用的命令1.2语法介绍1.2.1vmstat:检查存、CPU、进程状态# vmstat 1 15kthr memory page faultscpu----- ----------- ------------------------------------ -----------r b avm fre re pi po fr sr cy in sy csus sy id wa1 0 28132 81277 0 0 0 0 0 0 132 375 67 65 1 342 0 28132 81277 0 0 0 0 0 0 127 338 131 99 0 02 0 28132 81277 0 0 0 0 0 0 132 316 131 99 0 02 0 28132 81277 0 0 0 0 0 0 120 317 99 0 0 02 0 28132 81277 0 0 0 0 0 0 146 316 127 99 0 02 0 28132 81277 0 0 0 0 0 0 130 317 125 99 0 02 0 28132 81277 0 0 0 0 0 0 316 127 99 0 0 02 0 28132 81277 0 0 0 0 0 0 129 317 124 99 0 02 0 28132 81277 0 0 0 0 0 0 304 127 99 0 0 0r:正在运行的进程b:被阻挡的进程avm:活动的虚存,单位4kbfre:自由列表,位4kbpo:页换出pi:页换入sy:系统占用CPUid:空闲CPUwa:等待的CPU1.2.2sar:检查CPU、IO例如:sar -u 1 30sar -P ALL 1 10语法:sar -[abckmqruvwyA] inteval repetition-b buffer 活动-c 系统调用-k 核进程统计.-m 消息及信号量活动-q 正在运行的队列数及等待队列数-r 页交换统计-u CPU利用-P CPU负载.1.2.3 PS:检查进程状态命令ps:显示当前SHELL重所有进程ps -ef :显示系统中所有进程,-f显示更详细信息ps -u oracle:显示oracle用户进程ps –emo THREAD:显示线程信息ps au;ps vg:按使用时间显示进程(最近一次调用)ps aux:按使用时间显示进程(进程启动)1.2.4 svmon:显示进程占用存svmon –G:显示系统占用存svmon -C command_name:显示某个用户进程占用存svmon -P pid显示某个进程占用存svmon –S:显示段占用存1.2.5iostat:显示磁盘IOtty: tin tout avg-cpu: % user % sys % idle %iowait0.0 4.0 0.9 1.3 95.4 2.5Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 58.4 218.3 41.2 172 920hdisk1 16.8 85.6 21.4 428 0hdisk2 50.6 223.9 55.6 1100 20hdisk3 16.8 85.6 21.4 428 0hdisk4 0.0 0.0 0.0 0 0hdisk5 43.4 279.1 69.8 1396 0hdisk6 0.0 0.0 0.0 0 0hdisk7 16.4 27.2 20.2 0 136hdisk8 0.0 0.0 0.0 0 0hdisk9 9.4 156.0 11.4 0 780hdisk10 16.4 27.2 20.2 0 136cd0 0.0 0.0 0.0 0 01.2.6n etstat, entstat:显示网卡信息netstat en0:显示en0信息netstat –s:显示网络信息netstat -m显示网络 buffers.netstat -i显示网卡状态netstat -I en0 1显示eno网卡塞(1秒间隔)1.2.7n o:显示tcpip参数设置no –a:显示tcpip所有参数当前设置no -o tcp_keepalivetime=7200000设置tcp_keepalivetime等于3600000秒no -d 恢复默认值注:该方法在重启后失效1.2.8其它命令第2章AIX系统管理日常工作(LV篇)2.1IBM AIX系统管理的日常工作系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面:2.1.1开关机步骤在系统管理员控制下进行正确的操作。

IBM服务器维护手册

IBM服务器维护手册

三、硬件检查 ]检查服务器、磁阵的安装、电源线、7133 和主机接线符合要求。
科学管理合组织,不断深化“双基”建设狠抓安全技术教育培训工作面落实手指口述确认操、岗位描规范提高员责任意识和整体能。
服务器状态检查:
1.
当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏
上应无信息显示。
2.
当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。
可以通过查询相关机型的 Service Guide 查到相应告警原因,情况严重的,
则要立即通知 IBM 技术专家进行问题排查。
7133 状态检查:
磁阵前面板上有 7133 机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一 排小灯,与各硬盘位置一一对应)。
1. 当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电 源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出 具体问题,则需要联系相关专家进一步诊断。
2. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿 灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或 SSA 环路出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以 1~3 秒 的频率有规律地、不停地闪烁
第二类、系统日常维护流程
2.1 系统启动
系统启动正常顺序如下: 首先对外设(磁盘阵列、磁带库等)加电。 待所有外设加电自检完成后, 主机加电正常起机。主机加电后,系统进行 自检,在液晶显示屏显示”ok”后,才能按白色 POWER 键起机. 启动主机 HACMP,启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情 况,在 HACMP 未完全启动前不要进行下一步。
当 DUMP 产生后,请将磁带放入磁带机,用命令 # snap -a -o /dev/rmt0 将 DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的 block size, DUMP 产生的日期和机器的型号及序列号。同时,请用# errpt -a >/tmp/err.log 将 errorlog 记在/tmp/err.log 中,并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给 IBM 工程师。

服务器故障排除与维护的常见问题与解决方法

服务器故障排除与维护的常见问题与解决方法

服务器故障排除与维护的常见问题与解决方法服务器是现代互联网中不可或缺的核心设备,它提供网站、应用程序和其他网络服务。

然而,服务器也存在故障和问题,这将导致网站无法访问、数据丢失等严重后果。

本文将介绍服务器故障排除与维护的常见问题,并提供解决方法,帮助您更好地了解和处理这些问题。

一、硬件故障1. 电源问题服务器电源故障是常见的问题之一。

当服务器无法启动或突然断电时,应首先检查电源连接是否松动,确保它们紧密连接。

如果问题仍然存在,可能是电源供应器故障。

此时可以考虑更换电源供应器。

2. 硬盘故障硬盘问题可能导致数据丢失或服务器无法启动。

首先,确保硬盘连接正常。

其次,使用硬盘健康检测工具检查硬盘状态。

如果硬盘出现故障,应及时备份数据,并更换硬盘。

3. 内存故障内存故障可能导致服务器性能下降甚至无法启动。

首先,检查内存是否正确插入插槽。

如果问题仍然存在,可以尝试重新插拔内存或更换故障的内存条。

4. CPU故障当服务器频繁重启或性能明显下降时,可能是CPU故障引起的。

可以使用诊断工具检查CPU温度和运行状态,并根据需要更换故障的CPU。

二、网络问题1. 连接问题服务器的网络连接问题可能导致用户无法访问网站或应用程序。

首先,检查服务器与路由器之间的连接是否正常。

其次,检查服务器的IP地址和网关设置是否正确。

最后,确保DNS服务器配置正确,可以尝试刷新DNS缓存。

2. 带宽限制服务器带宽不足可能导致网站响应缓慢或无法正常工作。

应该及时监控服务器带宽使用情况,如果发现带宽不足,可以考虑升级带宽或优化网络设置。

三、软件问题1. 操作系统故障操作系统故障可能导致服务器不稳定或无法正常工作。

应该定期更新操作系统并安装最新的补丁程序。

如果服务器出现问题,可以尝试重新启动或回滚到稳定的系统状态。

2. 配置错误错误的配置可能导致服务器无法正常工作或产生安全隐患。

建议谨慎修改服务器配置,确保备份配置文件,并测试新配置的影响。

如果服务器出现问题,可以尝试还原到以前的配置。

IBM X系列服务器常见问题

IBM X系列服务器常见问题
1.IBM X345的LSI控制器问题
2. IBM X345灰尘问题
3.x3650(7979R01)第2个硬盘问题
4.ibm x3650服务器故障是什么问题?
5. IBM X3850系统安装问题(磁盘阵列不能创建)
6. x3850x5连盘柜起不来系统,解决方法。
7. X3850系统坚难的安装过程
8. x3550M2与x3650M2常见问题解答
Q)x3550/x3650M2相对于其上一代的x3550/x3650在性能上有多大的提
升?
A)下图对比了配置不同型号CPU的x3650和x3650M2之间的性能差距,
例如,使用X5570的x3650M2相对于使用X5470的x3650在性能上提高了
68%。
Q)x3550/x3650M2在性能提高的同时会不会比其上一代的x3550/x3650更
(说明):
计算机的大部分问题往往在有些解决错误信息中能找到答案
2.IBM X345灰尘问题
(问题):
两个IBM X345服务器,都是两个硬盘,做的RAID1,一个345上的一个硬盘黄灯闪烁,绿灯有时也亮,另一个硬盘的绿灯基本上不亮,黄灯不亮
(分析):
按照手册说,黄灯长亮才是硬盘坏了,如果黄灯闪烁是在rebuilding,此时,进入LSI RAID管理界面,第一个硬盘显示primr,第二个硬盘显示“OK”;换掉那个黄灯闪烁的硬盘,新硬盘的黄灯也是一样的闪烁,绿灯也闪烁,另一个硬盘的绿灯闪的比以前频繁了,进入LSI RAID界面,第一个硬盘是“primry”;第二个硬盘是“out of sync”。
(分析):
用可启动U盘或可启动光盘可以登录到WINPE环境并且在WINPE下可以看到2个物理硬盘都在!这可以排除硬盘本身的问题因素。

IBM System x系列服务器快速维护手册

IBM System x系列服务器快速维护手册

目录IBM System x3650 M2 7947 型 (1)3650M2前视图 (1)X3650M2操作员信息面板 (3)光通路诊断面板 (4)后视图 (5)IBM System x3650 M3 7945 型 (7)x3650m3正视图 (7)X3560m3操作员信息面板 (8)光通路诊断面板 (9)电源部分&指示灯 (15)IBM System x3650 M4 7915 型 (18)IBM System x3650M4正视图 (18)操作员信息面板 (19)X3650M4光通路诊断面板 (20)服务器电源功能 (27)IBM System x3500 M4 7383 型服务器 (29)X3500M4正视图 (31)X3500M4光通路诊断 (33)3500M4光通路诊断指示灯 (35)3500M4 后视图 (40)IBM System x3650 M2 7947 型3650M2前视图下图显示了服务器前部的控件、接口和硬盘驱动器托架。

硬盘驱动器活动指示灯:每个热插拔硬盘驱动器都具有一个活动指示灯。

当该指示灯闪烁时,表示该驱动器正在使用中。

硬盘驱动器状态指示灯:每个热插拔硬盘驱动器都具有一个状态指示灯。

当该指示灯点亮时,表示该驱动器发生了故障。

如果该指示灯缓慢闪烁(每秒闪烁一次),表示正在将该驱动器重新构建为RAID 配置的一部分。

当该指示灯快速闪烁(每秒闪烁三次)时,表示控制器正在识别该驱动器。

视频接口:将显示器连接到该接口。

可同时使用服务器前部和后部的视频接口。

USB 接口:这两个USB 接口可以连接USB 设备,如USB 鼠标、键盘或其他USB设备。

操作员信息面板:该面板包含控件、指示灯和接口。

有关操作员信息面板上的控件和指示灯的信息,请参阅第10 页的『操作员信息面板』。

机架释放滑锁:按下这些滑锁可以从机架上卸下服务器。

CD/DVD 弹出按钮:按该按钮可从CD-RW/DVD 驱动器中取出CD 或DVD。

IBM主机系统日常维护

IBM主机系统日常维护

• 定时作业 crontab -l #0 3 * * * /usr/sbin/skulker #45 2 * * 0 /usr/lib/spell/compress #45 23 * * * ulimit 5000; /usr/lib/smdemon.cleanu > /dev/null 0 11 * * * /usr/bin/errclear -d S,O 30 0 12 * * * /usr/bin/errclear -d H 90 0 15 * * * /usr/lib/ras/dumpcheck >/dev/null 2>&1 如有配置定时任务,需观察有无被删除或改动,是否有执行日志等。
# vmstat 2 10 输出如下:
注: 当pi和po为连续非零值时,系统运行速度将会降低。 pi 每秒钟从页空间(Paging Space)调入内存的页面数(4KB/page); po 每秒钟从内存调入页空间(Paging Space)的页面数; 当进程请求的内存页面数大于内存中可用页面数时, 一些内存页会被换出内存,存放于系统页空间(Paging Space)中,以后使用时再调入内存。由于访问页空间中页面的速度远小于对内存页面的访问速度,所以频繁的换页 会降低系统运行速度。 注: 当fr和sr的数值增大时,说明内存负载增大。 fr 为填充内存空闲或分配给某进程所需要释放的内存页面; sr 为得到fr数量的空闲页面所需要检查的页面数; fr/sr比例为1:4说明每释放一个内存页面需要检查四个页面。 当po*SYS>fr时(SYS为一系统参数,可用命令schedtune查看),系统自身认为已到崩溃边缘。SYS在有128MB 或更多内存的系统上默认值为0, sample示禁止内存加载控制,否则默认值为6。系统崩溃说明此时系统使用大量时 间用于内存换入/换出,而没有足够时间处理应用或正常工作。这时一些进程将被临时挂起,系统运行明显减慢。

IBM_X系列服务器操作手册v1.0

IBM_X系列服务器操作手册v1.0

IBM X系列服务器操作手册Ver. 1.0目录规范及流程篇 (3)服务器技术篇 (3)一、X系列服务器简介 (3)二、IBM阵列卡 (4)1、分类 (4)2、配置RAID(以ServeRAID 8i为例) (6)三、收集日志 (9)1、DSA日志 (9)2.RAID日志 (12)3、BMC日志 (18)四、故障排除 (24)1.故障排除步骤及技巧 (24)2、DASD故障 (26)五、必备工具 (28)规范及流程篇服务器技术篇一、X系列服务器简介众所周知,IBM的服务器产品线非常丰富齐全,从入门级到大型机,一应俱全。

打开IBM的官方网站,IBM给我们带来的第一印象就是——拥有如此多的专业产品可供选择。

总体来看,IBM服务器家族目前共有4条产品线:基于 Intel 架构的服务器 x系列(xSeries,近日IBM已经升级推出基于AMD皓龙处理器的5款新品)、中型企业级服务器i系列(iSeries)、UNIX 服务器p系列 (pSeries)和大型主机z系列(zSeries)。

这四大系列基本都包括了从入门级到企业级的各种档次的服务器产品,在结构上也全面包括了塔式、机架式、刀片和机柜式。

IBM eServer xSeries系列服务器是IBM服务器品牌之一。

eServer xSeries服务器得名于IBM工业标准服务器经典的“X-架构”,是eServer家族中支持开放工业标准的代表,它是由原来的Netfinity系列发展而来的。

下面我们将用一组数据为标题,来简要描述IBM x 系列的发展历程:1)9年历史IBM在1998年提出X系列服务器设想,到现在已经有9年历史。

而使x系列真正意义上进入到应用领域,还是到了2001年之后。

相比较IBM大型机的诞生时间,x系列所关注的目标是面向中小企业,因此要比面向金融行业的大型机稍晚一些。

2)2亿美元从x1 系列到x3共经历了5载历程,耗资近2亿美元。

正是IBM看到中小企业蕴含着无限商机,因此不惜重金打造x系列。

IBM xSeries 336 1879 型和 8837 型 硬件维护手册和故障检修指南

IBM xSeries 336 1879 型和 8837 型 硬件维护手册和故障检修指南

xSeries 3361879型和8837型硬件维护手册和故障检修指南E RserverxSeries 3361879型和8837型硬件维护手册和故障检修指南E Rserver注:v在使用本资料及其支持的产品之前,请阅读第127页的附录B,『安全信息』和第161页的附录C,『声明』。

v可以从/pc/support/获取本文档的最新版本。

第一版(2004年8月)©Copyright International Business Machines Corporation2002.All rights reserved.关于本手册本文档包含IBM®Eserver™xSeries®3361879型和8837型服务器的基本配置信息、诊断信息、错误代码、错误消息、维护信息以及症状到FRU索引。

要点:本文档中的现场可更换部件(FRU)的过程针对熟悉IBM产品的受过培训的服务人员。

客户替换部件(CRU)可由客户来更换。

请参阅第119页的第7章,『部件清单,1879型和8837型』以确定正在替换的组件是FRU还是CRU。

在维护IBM产品之前,请务必阅读第127页的附录B,『安全信息』。

重要的安全信息Be sure to read all caution and danger statements in this book before performing anyof the instructions.Leia todas as instruções de cuidado e perigo antes de executar qualquer operação.Prenez connaissance de toutes les consignes de type Attention etDanger avant de procéder aux opérations décrites par les instructions.Lesen Sie alle Sicherheitshinweise,bevor Sie eine Anweisung ausführen.Accertarsi di leggere tutti gli avvisi di attenzione e di pericolo prima di effettuare qualsiasioperazione.Lea atentamente todas las declaraciones de precaución y peligro ante de llevar a cabocualquier operación.警告:操作本产品上的电源线或与随本产品一起销售的附件相关联的电源线将使您易受铅的伤害,(一种加利福尼亚州已知的导致癌症、生殖缺陷或其它再生性伤害的化学物质)。

服务器日常维护及常见故障排除方法

服务器日常维护及常见故障排除方法

硬盘相关故障
硬盘无法识别 1.检测不到硬盘 2.可检测到硬盘数量不正确 开机自检硬盘报错 检测到硬盘时报错:smart error 或disk I/O error 硬盘亮红灯 阵列中硬盘频繁掉线
Inspur group
1/17/2019
13
硬盘相关故障:硬盘检测问题
硬盘无法识别问题可从以下几个方面考虑 1.重新拔插硬盘电源及数据线缆 ,注意是否有接触不良的问题。 2.更换硬盘至原先可正常检测到的槽位,如果仍然检测不到则可能存 在硬盘损坏故障。 3.可检测到硬盘数量不正确实的情况要注意先确定bios中是否设置了正 确的参数,然后再排除上述1.2问题。 4.硬盘背板故障。 5.磁盘控制器可能存在故障。
Inspur group
1/17/2019
26
开机无显-内存最小化
单条内存插法: 1.NF280G2/NF190单内存插在靠近主板边缘的A1或B1槽位 2.NF190D/NF280D单内存插在靠近主板内部的DIMM 1A槽位上 主板power开关跳线位置: NF280D/NF190D:
Inspur 9
31
关于系统蓝屏故障的分析
关于 windbg Dump文件的生成,及设置 Windbg 设置 如何分析dump文件
具体案例分析
Inspur group
1/17/2019
32
什么是windbg 微软在DDK和SDK中提供的一个调试工具,既能调试驱动程序也能调试应用 程序。同时可以对系统进行调试,对于蓝屏后产生的dump文件也有很强大 的分析能力,帮助我们找到在蓝屏发生的最后一刻,系统在执行什么操作。 Windbg下载 /whdc/devtools/debugging/default.mspx 分析性能如何 1,如果是软件原因造成的,尤其是杀毒软件防 火墙原因造成,确定的 成功率可以达到90%以上。 2,如果是硬件原因造成的蓝屏,不能唯一确定到哪个硬件,但是可以 大体上判定问题出现在哪一路上
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南指护维常日及修报器务服列系�
南指修报 章一第
1
t hg i l d e e p s t e nr e h t E ⑤ 态 状通联 于 处 卡 网太 以 示 指 t h g i l s u t a t s k n i l t e n r eh t E ④ 作动 的 受 接和送 传 有 卡 网太 以 示 指 thgil ytivitca eviecer/timsnart tenrehtE③
2
。签书义定未�误错 .................................................................................. 南指修报
1
)gnidaeH coT(录

01 ... .... .... .... .... .... .... .... .... .... ... .... .... .... .... .... .... .... .... .... .... ... 码代误错 见常TS OP 2 .7
作工备准的前修报
8 8 11 8 9 4 8 0 10 �码 号 拨 直 3 1 2 58 4 4 8 5 57 0 �码 号 拨 直 8 1 8 1- 0 1 8 - 00 8 7 7 6 6- 0 1 8- 0 0 8 �品产 件 软 及机 印打 、 C P � 品产 储 存 、 器务 服 r e vr e S e � 线 热 修 报 r e t n eC l l aC MBI
司公分圳深司公限有�国中�MBI
山铁侯� 01/11/5002�期日新更
制编
00.1 R�本版统系
南指护维 常日及修 报器务服列 系�
E T Z � MB I
I
01 . .... .... ... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ... .... .... .... .... 号信警报音声 1. 7
7 6
6 ....................................................................................... 巧技理处及断诊障故见常
5 .... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... �机关 2.4 5 .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... ... 机开 1.4
1.1
南指修报
南指修报 章一第
1
南指护维常日及修报器务服列系 X
。 号 列 序的品 产 该 是就 符 字 串 一的面 后 � ” r e bm u N la i r e S m e t s y S “ 叫 项一有 到 看 以可 �” a t a D t c u d o r P “ 择 选� ” n o i t a m r of n I m e t syS “ 择 选� 后 单 菜 主 到 看 � 序 程 置 设 机 开 入 进 � 键 leD 用 是 型 机 别 个 � 键 1F 按 � 后 机 开 � 3
1
�法方 种 几 的号 列 序 器 机查检 是 面 下 。 8 1 8 0 L9 9 如 �成 组 母 字 和字数 的 位 七由也 样 同 号列序 的 器 机 。 D D H ED I E B G 5 1 x 1 , M A R DS C C E B M 4 6 , ) B K 6 5 2 ( z H M 0 0 8 I I I P x 1 是 置 配 的 应 对 � x 1 4 是 . o N l e d o M , 0 0 2 s e i r eS x 是 型 机 的 应 对 � 8 7 4 8 是 就 e p y T e n i h c a M , X 1 4 - 8 7 4 8 � 如 例 。 . o N l e d o M 为 位 三 面 后 � e py T e n i h a M 为 位 四 面 前 � 成 组 母 字 和 字 数 位 七 由 号 型 的 s e i r eS x 。 的 要 重很 是 号 列 序的品 产 的 用使己 自 解 了�以 所 � 号 列 序的 品 产 供 提 要 需 就 � 时 持 支 术 技 的应 相 品 产 询咨 您 当 � 据依 要 重 的 品 产 查 检 是 这 �)N/S 是写缩�rebmuN laireS(号列序品产的一唯有都机算计台一每的产生 MBI
法办别识号序
� 形无 于 灭 消 障 故 把 � 作 工查 检 和 护 维的 常 日 好 做是 就 备 准 的好 最 � 然 当 。 息 信 障故集 收 令 命关相 和 板 面示显 过 通 下况 情 的 能 可 � 置 设 些 一的 统 系 了 变 改 � 件 软、件 硬 的 新了装 安 如 �动改 做 有 没有 近 最 � 作操的 同 不 时平 做 有 没 有 � 高 多 有 率频的 生 发 �时定 不 是 还时定 � 律 规有没 有 障 故 �的 生 发 候时 么 什 障 故 �么 什 做 能不� 么 什 做能 在 现 统 系 �同 相 否 是 象现 障 故 �障故 器 机 台多是 还 障 故现出 器 机 台一是 � 题 问么什 了 生 发统 系 楚 清 弄 � 号列序 、 号 型的 备 设 取 获 • •
5
5 ....................................................................................... 序顺关开�SCSM�软微
4 .. .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... . 护维常日机带磁 2.3 4 ... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... .. 份备常日 1.3
01 ............................................................................................. 息信误错TSOP见常 9 ...................................................................................................址网tenretnI用常
3
1 .............................................................................................. 容内与期周护维常日
1 .. .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... . 法办别识号列序 2.1 1 . ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .. 作工备准的前修报 1.1
8 .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... . 启重或机死的妙其名莫 7.5 7 .. ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... ... 错报或作工常正能不序程用应种某 6.5 7 . .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... .... 作工常正能不卡种某 5.5 7 ... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... .. 错报盘硬 4.5 6 . ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... 动启能不统系作操络网�动启能 SOD 3.5 6 .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... . 统系作操装安常正能不 2.5 6 . ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .... ..... .... .. 动启常正能不器机 1.5
2.1
相关文档
最新文档