IBM P750小型机日常维护手册

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

IBM P750小型机日常维护手册
一、服务器硬件运行状态检查
1.当服务器处于启动和正常工作状态时，其前面板上的状态灯（与电源灯并排）和各硬盘的状态灯（一排
小灯,与各硬盘位置一一对应)应显示为绿色。

2.当服务器的状态灯出现橙黄色时，说明有硬件告警,此时要检查服务器的电源、接线、硬盘等.如果有硬
件故障则需要立即进行更换和更正,如果查不出具体问题，则需要联系相关专家进一步诊断。

3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写，则绿灯一直亮，如该硬盘有读写操作，
则绿灯会不规则闪烁,当硬盘损坏时，则硬盘状态灯将熄灭，或者呈闪烁状态：以1～3秒的频率有规律地、不停地闪烁。

如果发现有服务器硬件状态灯不正常的情况，请及时联系我公司工程师，以便及时进行诊断并解决故障。

二、HMC（硬件管理平台）管理与操作
HMC的两种访问途径：
1、在机房直接通过显示器和键盘进行管理维护等相关操作
2、通过web远程访问，登录HMCweb管理界面,访问地址为：https：//
1、登录HMC
1.1 浏览器访问连接HMC后，首页界面如下图所示。

1。

2 点击下图所示链接，进入HMC验证登录界面。

1。

3 输入用户名与口令，登录HMC.
用户名：hscroot
口令：
1.4 成功登录到HMC管理界面如下图所示.
在HMC console右上角有（hscroot|help｜log off）链接,单击log off，会出现如下图所示注销界面:
选择Log off,系统返回到HMC初始登录界面状态。

3、重启HMC
左边导航栏中选择→HMC Management→shut down or Restart，如下图所示,对HMC进行正常重启及
关机操作.
请谨慎对HMC进行关机和重启操作！
4、状态栏功能
状态栏位于HMC左下角位置，如下图所示，负责监控并反映管理系统资源状态和HMC状态.
单击每个图标状态可以列出详细状态，你可以查到更详细的帮助信息：
：非法操作，如果任何被管理的主机执行了非法操作，这个图标将会变亮。

:黄灯警告,如果任何被管理的主机有错误并有黄灯被点亮，这个图标也将会变亮
：报错日志：日志中有报错信息,这个图标将会变亮，此项与
：摘要，摘要中会将有用信息做统计并显示在工作栏中。

5、Service Management
导航栏中Service Management强大的管理功能给用户日常维护提供了更简单直观的界面，如下图所示，
但日平时最常用的子项是Manage Serviceable Events，如下图步骤可以对HMC所管理的设备进行日常错误及时直观的观察,以确保IBM小型机能正常工作，下图就是基本的操作方法图示：
Service Management Manage Serviceable Events
6、Service Plans-分区管理与操作
6。

1 如何查看小型机资源配置：
如上图红色标注所示，选中所需查看主机(备注：请不要同时选中多台主机及多个分区），在下拉菜单中选中“Properties”,打开参数窗口，通过“Properties”可以查看主机运行状态，CPU,内存,I/0等重要硬件系统参数，如下图所示。

同理,在分区区域中先中每分区后的Properties选项,便可以直观方便的掌握分区状态和资源配置信息。

6。

2 如何开关机及激活分区：
关机。

开机。

Operation项中主要包含小型机及分区开关机，及消除报警灯这两项功能,如虽要对小型机下电操作，请先将图15中的分区Deactivate(建议:最好在操作系统中按照正常流程将操作系统shutdown），最后再将主机power off。

注意：非特殊情况，无专业人员指导，严禁进行开关机操作！
6.3 手动消除黄灯警告
如下两图所示，Operations中LED status,及Deactivate Attention LED两项中所指，针对不同分区或主机所报出的警告黄灯，进行特定的消除黄灯操作.
6。

4 如何打开控制终端（Terminal Window）
在HMC上对分区操作系统进行操作，可以通过分区下拉菜单Console Window— Open Terminal Window 对选中分区进行操作，如图所示，操作界面如同telnet界面。

在HMC中同一分区只允许打开一个Terminal Window，如试图打开第二个窗口，系统提示如图17所示界面.
三、AIX系统日常维护
1、查看系统的错误记录
很重要，应该定期查看,如发现有硬件(H）类型的报错，应该及时关注.
在系统运行时，一些系统错误会记录在errlog 中，其中有些错误还会在终端上显示。

检查错误日志可用以下命令：
＃errpt｜more 查看系统所有的记录
IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION
E85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR
2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER
9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON 1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF 1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION
其中
IDENTIFIER 为错误编号，当需要检查详细信息时常会用到。

TIME STAMP 为时间标签，它记录的是出错时间，其格式:月月日日时时分分年年
T 为Type , 它记录的是错误类型
P :为永久错误，需引起注意
T :为临时错误.
C 为Class, 它记录的是错误种类，如
H : Hardware
S ：Software
O : Errloger command messages
U ：undetermined
RESOURCE_NAME 为错误来源
DESCRIPTION 为错误描述
#errpt —aj 〈IDENTIFIER〉查看系统详细记录内容
其中IDENTIFIER为错误编号,如#errpt -aj 0426104399
#errpt —dH 查看系统所有的硬件出错记录
2、日常检查服务器状态的项目及其相关命令
2。

1 运行lsdev命令配以各种参数,所列各种设备状态都应为Available。

#lsdev –C –H –S a 列出系统中可用设备。

＃lsdev –Cc processor 列出系统中的所有CPU。

＃lsdev –Cc memory 列出系统中的所有内存。

#lsdev –Cc disk 列出系统中的所有硬盘。

#lsdev —Cc adapter ｜grep ent 列出系统中的所有网卡
#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。

#lsdev —Cc adapter | grep ssa 列出系统中的所有SSA卡.
2.2 lspv命令
#lspv 显示系统中可用的PV.
#lspvhdiskn 显示hdiskn的具体信息.
#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。

2。

3 lsattr命令
# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB。

2。

4 lsvg命令
＃lsvg 列出系统中所有的vg。

#lsvgrootvg 列出rootvg的详细信息.
#lsvg –o 列出激活的vg
2.5 oslevel命令
#oslevel 显示操作系统版本信息。

2.6 netstat命令
#netstat –in 显示系统中各网卡的配置。

可查看网卡的IP配置好了没有。

2。

7 diag命令
通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件，检测结果为“No trouble found ”显示各部分工作正常。

2.8lsps查看页面空间
lsps –a 查看PAGING SPACE的使用情况，如果使用率超过70%，就需要采取措施。

2。

9查看LV（卷）状态
lsvg –o | lsvg –il | grep –i stale查看有无stale的lv，如果输入该命令之后有输出结果，就需要采取措施2.10查看mail
#mail,查看有否发给root用户的错误报告（mail）。

3、检查文件系统
查看有没有“满”的文件系统。

文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。

如/ （根文件系统）满则会导致用户不能登录。

＃df —k (查看AIX的基本文件系统)
Filesystem 1024-blocks Free %Used Iused ％Iused Mounted on
/dev/hd4 24576 1452 95％2599 22% /
/dev/hd2 614400 28068 96％22967 15％/usr
/dev/hd9var 8192 4540 45% 649 32％/var
/dev/hd3 167936 157968 6% 89 1% /tmp
/dev/hd1 16384 5332 68% 1402 35% /home
除/usr文件系统,其他文件系统都不应太满，一般不超过80％。

4、性能监控与调优
4。

1 通过topas来观察
topas能够将系统的全局信息,包括CPU、内存、磁盘、网络、文件系统、事件队列、文件等信息，排列在一个统一的界面上进行展示.
bash-4。

3＃topas
Topas Monitor for host：localhost EVENTS/QUEUES FILE/TTY
Wed Feb 22 10:42:00 2017 Interval：2 CswitchReadch
SyscallWritech
CPU User% Kern％Wait％Idle％Reads Rawin
Writes Ttyout
Forks Igets
Network BPS I-Pkts O-Pkts B—In B—Out Execs Namei
RunqueueDirblk
Waitqueue
Disk Busy% BPS TPS B—Read B—Writ MEMORY
PAGING Real,MB
Faults % Comp
FileSystem BPS TPS B—Read B-Writ Steals ％Noncomp
PgspIn ％Client
PgspOut
Name PID CPU％PgSp Owner PageIn PAGING SPACE PageOutSize，MB
Sios ％Used
% Free
NFS （calls/sec)
SerV2 WPAR Activ
CliV2 WPAR Total
SerV3 Press：”h”-help
CliV3 ”q"-quit
SerV4
4.2 通过命令vmstat 1 来观察.
kthr memory page faults cpu
----——--———--——- ----——-——---————---—-——- -——————————- -——--—-——-—
r b avmfre re pi pofrsr cy in sycs us sy id wa
命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况.
检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值。

检查MEM是否为瓶颈，分别检查Memory的两项数值和Page 的六项数值。

4.3 通过命令sar –mu –P ALL 来观察。

命令解析：sar可以用来收集反映系统运行状况，在这里主要是查看CPU的运行状况，CPU是否负载均衡，是否存在分配不均的情况。

4.4 通过命令psgv | more来观察。

PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND
0 — A 4：20 7 12 14516 xx 0 14504 0。

0 5。

0 swapper
1 - A 1:33 103 7895
2 79044 32768 25 36 0.0 29.0 /etc/init
命令解析：ps可以用来查看进程的当前状态.在这里通过参数的配搭，可以观察目前正在运行的进程所耗的时间，CPU和memory 量。

其中，%CPU表示进程所占用的CPU资源情况，％MEM表示进程所占用的内存情况。

主要检查是否有标示为〈defunc〉的僵尸进程耗用系统资源，以及informix 数据库的oninit进程的系统消耗情况.
4.5 通过命令iostat 1 –d hdiskX观察磁盘
在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat 1 –d hdiskX观察磁盘.
Disks：％tm_act Kbps tpsKb_readKb_wrtn
命令解析: iostat可以用来查看系统的I/O的输入输出情况，在这里主要查看阵列上的硬盘的每秒读写量，同时估算磁盘阵列读写速度。

4。

6 通过命令netstat –a 进行查看。

Active Internet connections （including servers）
Proto Recv-Q Send—Q Local Address Foreign Address （state）
命令解析: netstat可以用来查看系统的网络情况，在这里主要是查看网络客户端连接的情况和开销，检查参数为state,如有死连接,state状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。

以上所有命令及参数的相关含义和详细信息，请参考AIX命令大全.。