(零收费)AIX系统日常维护与故障的解决

合集下载

AIX系统软硬件问题征兆及解决办法

第一部分、系统启动问题cfgmgr : configures devices and optionally installs device software into the systemlast : display all the previous logins and logoffs that still have entries in /var/adm/wtmp file uptime : show how long the system has been up要在maintenance mode作installing new or updated software and running diagnostic checksalog : trace the boot process and find out if sht went wrong,alog命令调用rc.boot脚本将启动信息导入/var/adm/ras/bootlog中# alog -L 显示定义在alog Database中的logs# alog -o -t 显示启动日志cfgmgr命令：在系统启动阶段，cfgmgr命令配置对使用系统必须的所有设备系统启动包括两个阶段：阶段一：cfgmgr –f 一旦系统启动就不能运行了阶段二：cfgmgr –s ( second boot phase for normal boot )阶段三：cfgmgr –p ( second boot phase for service boot )# cfgmgr –i /usr/sys/inst.images 该命令尝试自动安装设备的软件FOR 新检测到的设备-I 选项指定安装的媒质在哪里在此处有一个seq field ，该field 是一个整数指定了优先权，值越小，优先级越高，0的优先级最低，1的优先级最高# cfgmgr –l scsi0 ( 配置检测到的连接到SCSI0适配卡的设备)-如果你想查找root用户什么时候logged on and off from the console# last root console如果你想决定系统上次shutdown是什么时候# last shutdown为了显示一个启动列表# bootlist –m normal –o如果你想改变你的启动列表# bootlist –m normal fd0 hdisk0 cd0注意：加到bootlist的每一个设备必须处于Avalable的状态如果你怀疑你的系统被shutdown或restarted，你可以使用uptime命令去查明，uptime命令显示系统已经运行了多长时间# mpcfg –df To find out what the status is of your diagnostic flags# mpcfg –cf 11 1 如果你想Fast IPL system，你可以改变diagnostic flag的值注意：mpcfg 和service information相关shutdown-v 或–h Halt the operating system completely-k Avoids shuting down the system-m Bring the system down to maintenance mode-I specifies interactive mode , Display interactive messages to guide the user through the shutdown注意：/etc/rc.shutdown文件由/usr/sbin/shutdown script调用来关闭在关机的时候想中断的进程，该文件的必须是可执行的才能被正确调用安装媒质有问题的征兆：1、安装时意外挂起2、无法从介质读数据3、意外重起如果安装媒质没有问题的话，在你的系统中两个设备可能共享相同的SCSI地址LED Error CodeLED 201 --- Damaged boot image解决方法：1、访问你的rootvg ( 进入system maintenance 模式)2、检查/ 和/tmp文件系统，看看他们是否已经满了，如果是创建更多的空间3、决定bootdisk 通过用命令lslv –m hd54、重新创建boot image 使用bosboot –a –d /dev/hdisk05、检查CHECKSTOP errors in the error log , 如果这样的错误发现的话可能是失败的硬件6、关机重起LED 223-229 --- Invalid boot list1、决定启动磁盘lslv –m hd52、创建新的bootlist 使用bootlist命令LED 551，555，and 557 --- Errors Including corrupted file system and corrupted JFS log1、进入维护模式access rootvg before mounting and file system2、fsck –y /dev/hd1fsck –y /dev/hd2fsck –y /dev/hd3fsck –y /dev/hd4fsck –y /dev/hd9var3、再次Format the JFS log/usr/sbin/logform /dev/hd84、使用lslv –m hd5 去决定boot disk5、重新创建boot imagebosboot –a –d /dev/hdisk0LED 552，554，and 556 --- Super block corrupted or corrupted customized ODM database Fsck1、Repeat steps 1 and 2 for LEDs 551 555 and 5572、If fsck inidicates that block 8 is corrupted, the super block for the file system is cororupted andneeds to be repaired , Enter the command :Dd count=1 bs=4k skip=31 seek=1 if=/dev/hdn of=/dev/hdn3、rebuild your JFS log by using the command :/usr/sbin/logform /dev/hd84、if this solves the problem, stop here ; otherwise ,continue with step 55、Your ODM database is corrupted ,restart your system and 进入maintenance mode6、Mount the root and usr file systemMount /dev/hd4 /mntMount /usr7、copy system configuration to a backup directorymkdir /mnt/etc/objrepos /backupcp /mnt/etc/objrepos/Cu* /mnt/etc/objrepos /backupLED 553 --- corrupted /etc/inittab file1、进入系统维护模式2、检查/ /var /tmp 使用df命令3、检查/inittab文件4、检查execution problems/etc/environment/bin/sh/bin/bsh/etc/fscketc/profile/.profile5、shutdown and reboot第二部分、硬件相关为了列出系统中的磁带(盘)，使用# lsdev –C –c tape（disk）列示在预定义ODM数据库中的设备# lsdev –P –H列示在定制定义ODM数据库中的设备# lsdev –C –H# lspv 显示在系统中的每一个PV along with its physical disk name ,PVID，and with VG it belongs to.# lspv pvname 仅仅显示该PV的信息eg: # lspv hdisk0# lspv –p hdisk0 列示range , state , region , LV name , type , and mount point for each PP on the PVcfgmgr 配置设备在软件层SMS检查和配置系统在硬件层如何进入SMS：1、关机2、如果需要的话插入SMS 软盘，启动机器3、Press F1 得到一个图形化的SMS菜单或Press F4去得到一个ASCII SMS菜单（要眼疾手快）你可以改变访问的口令在SMS菜单，从而只有授权的人才可以访问SMS工具，但如果你忘了这个口令，唯一的解决方法是给主板放电（将电池拿掉）当显示一个定制设备的有效属性时，信息的获得是从Configuration daabase 而不是设备本身，一般来说，chdev with –P or –T flag 将刷新设备的配置，如果没有的话，lsattr 命令显示设备的信息有可能是不准确的,一直到重起后·# lsattr –El rmt0 显示磁带的当前的属性·# lsattr –l rmt0 –D 显示磁带默认的属性·# lsattr –l scsi0 –a bus_intr_lvl –E·# lsattr –l tty0 –a login –R To list possible values of the login attribute for the TTY device tty0# smitty devices 该命令可以使用smit菜单1、安装或配置设备（在IPL之后）2、删除设备3、列示存在的设备4、改变或显示设备的属性5、执行设备相关的问题的决定# /usr/lib/errdemon 启动errdemon# /usr/lib/errdemon –l 决定系统错误日志文件的路径# errpt 产生错误报告# errpt –a # errpt –a –s 0828093001# errpt –a –j AA8AB241(最后为error identifier )# errloger 命令允许你记录管理员的信息到系统错误日志中# diag 执行硬件问题诊断AIX使用syslogd记录系统的信息，在这里有一个/etc/syslog.conf配置文件，该文件控制syslogd进程的行为，系统日志应该被升级通过编辑/etc/syslog.conf文件，在你编辑并增加了条目在/etc/syslog.conf文件，你需要重新启动syslogd进程# smitty tty 增加一个TTY第三部分、系统和软件的安装为了安装BOS，应该启动系统进入Maintenance mode三种安装方法的区别：（1）New and Complete Overwrite Installation情形一、一台新的机器情形二、你想安装到那个硬盘（包含在一个已经存在的卷组）你想完全覆盖掉，或者rootvg 已经损坏情形三、你想重新分配你的硬盘，使你的rootvg更小，分配少些磁盘空间给它安装后要使用Configuration Assistant application手工配置系统相关设置，该程序也可以手工运行，/usr/sbin/install_assist（2）Migration Installation (升级安装)使用该安装方法去升级AIX 3.2 4.1 4.2 4.3 To AIX 5L Version 5.1 升级时保留了已经存在的rootvg卷组，除了/tmp，该方法保留了所有的文件系统，包括rootvg,lv和系统配置文件，同时保留了用户配置文件。

AIX操作系统错误日志及日常维护

A I X操作系统错误日志及日常维护一、系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192ACror logging turned off038FTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可，例：LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000二、控制面板上的LED 代码.8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码.4 位代码通常是Exxx.3 位代码通常为0yyy 只看后3位.8 位和4位代码可查看系统服务手册 (Service Guide)3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System).闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或 105硬件故障一般有 SRN 代码及位置代码三、其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A...lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020....100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD信息Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number.................097H0645FRU Number..................097H0645 <-- 备件号Serial Number...............C8217227EC Level....................0000F20825 Manufacturer................IBM053ROS Level and ID............7201 <-- 微码版本Loadable Microcode Level (04)Device Driver Level (00)Displayable Message.........SSA-ADAPTERDevice Specific.(Z0)........DRAM=032Device Specific.(Z1)........CACHE=0Device Specific.(Z2)........000000062955dab2Device Specific.(YL)........P2-I7 <-- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号。

AIX操作系统卷组故障维护

AIX操作系统卷组故障维护AIX操作系统卷组故障维护故障描述：4.20日早晨，发现日报没有正常发送，登录数据库备机查看原因，查看系统的log命令：errpt |more没有发现什么异常，不过发现有如下错误：F3931284 0410055009 I H ent2 ETHERNET NETWORK RECOVERY MODEF3931284 0410055009 I H ent0 ETHERNET NETWORK RECOVERY MODE 173C787F 0410053709 I S topsvcs Possible malfunction on local adapter173C787F 0410053709 I S topsvcs Possible malfunction on local adapterEC0BCCD4 0410053709 T H ent2 ETHERNET DOWNEC0BCCD4 0410053709 T H ent0 ETHERNET DOWN这个时间正好是同事更换以太网交换机的时间查看数据库同步脚本log：# sh /home/oracle/sh/rmanres.sh[YOU HAVE NEW MAIL]0516-040 lqueryvg: Unable to read the specified physical volumedescriptor area.0516-932 /usr/sbin/syncvg: Unable to synchronize volume group backvg.[YOU HAVE NEW MAIL]restoring datafile 00058 to /u01/oracle/product/9.2.0/oradata/orcl/yy33.dbf restoring datafile 00059 to/u01/oracle/product/9.2.0/oradata/orcl/yy34.dbfreleased channel: ch1RMAN-00571:========================================= =============== ===RMAN-00569: =============== ERROR MESSAGE STACK FOLLOWS ======== =======RMAN-00571:========================================= =============== ===RMAN-03002: failure of restore command at 04/20/2009 12:06:25ORA-19501: read error on file "/u03/orabackup/rman/orcl_db_684391660_523_1", blo ckno 8192001 (blocksize=8192)ORA-27063: skgfospo: number of bytes read/written is incorrectIBM AIX RISC System/6000 Error: 12: Not enough spaceAdditional information: -1Additional information: 1048576ORA-19501: read error on file "/u03/orabackup/rman/orcl_db_684391660_523_1", blo ckno 8191873 (blocksize=8192)ORA-27063: skgfospo: number of bytes read/written is incorrectRecovery Manager complete.[YOU HAVE NEW MAIL]SQL*Plus: Release 9.2.0.1.0 - Production on Mon Apr 20 12:06:26 2009Copyright (c) 1982, 2002, Oracle Corporation. All rightsreserved.SP2-0640: Not connectedSP2-0640: Not connectedERROR:ORA-12500: TNS:listener failed to start a dedicated server processSP2-0640: Not connectedSP2-0640: Not connected系统日志：# ps -ef |moreUID PID PPID C STIME TTY TIME CMDroot 1 0 0 Dec 16 - 0:55 /etc/initroot 61572 78170 0 Dec 16 - 359:56 dtgreetroot 69798 1 0 Dec 16 - 0:00 /usr/lib/errdemonroot 73882 1 0 Dec 16 - 71:56 /usr/sbin/syncd 60root 90242 1 0 Dec 16 - 0:00 /usr/dt/bin/dtlogin -daemon root 102438 344388 0 13:18:46 pts/7 0:00 -kshroot 118898 102438 0 13:19:03 pts/7 0:00 ps -efroot 127086 1 0 Dec 16 - 0:00 /usr/ccs/bin/shlap64root 143514 106918 0 Dec 16 - 0:00 /usr/sbin/rsct/bin/IBM.ERrmdroot 155816 106918 0 Dec 16 - 2:24 /usr/sbin/rsct/bin/IBM.CSMAgentRMd root 159976 106918 0 Dec 16 - 3:08 /usr/sbin/rsct/bin/rmcd -a IBM.LPCom mands -r root 164070 352610 0 Dec 16 - 37:11 /usr/sbin/rsct/bin/hats_nimdaemon 168160 106918 0 Dec 16 - 0:00 /usr/sbin/rpc.statd -d 0 -t 50oracle 180262 1 0 Dec 16 - 0:02 ora_reco_rmandbroot 184400 106918 0 Dec 16 - 1:01 /usr/sbin/gsclvmdoracle 205000 1 0 11:26:43 - 0:00 ora_pmon_orclroot 233570 106918 0 Dec 16 - 7:56 /usr/sbin/rsct/bin/IBM.HostRMd oracle 237696 1 0 12:29:22 - 0:00 oracleorcl (LOCAL=NO)root 241712 352610 0 Dec 16 - 50:29 /usr/sbin/rsct/bin/hats_rs232_nim root 245830 106918 0 Dec 16 - 0:00 /usr/sbin/muxatmdroot 278610 352610 0 Dec 16 - 30:31 /usr/sbin/rsct/bin/hats_nimoracle 307362 1 0 Dec 16 - 0:06 ora_d000_rmandbroot 315394 106918 0 Dec 16 - 0:10 /usr/sbin/aixmibdroot 352384 106918 0 Dec 16 - 0:05 /usr/sbin/snmpmibdroot 372834 1 0 12:13:02 - 0:00 lsvg -ooracle 389264 1 0 11:26:43 - 0:00 ora_ckpt_orclroot 393248 1 0 12:11:24 - 0:00 lsvg -oroot 397368 1 0 12:21:43 - 0:00 lsvg -oroot 405556 1 0 12:15:51 - 0:00 lspvroot 417854 450810 0 12:06:28 - 0:00 lqueryvg -g 00c64e4b00004c0000000 11dbddadf95 -CXroot 426226 1 0 12:47:15 - 0:00 lsvg statvgoracle 434210 1 0 12:07:13 - 0:00 oracleorcl (LOCAL=NO)oracle 442388 1 0 11:26:43 - 0:00 ora_lgwr_orcloracle 446680 1 0 11:26:43 - 0:00 ora_dbw0_orclroot 450810 1 0 12:06:28 - 0:00 /usr/bin/ksh /usr/sbin/varyoffvg backvg root 61802 90242 0 Dec 16 - 8:20 /usr/lpp/X11/bin/X -D /usr/lib/X11//rgb -T -force :0 -auth /var/dt/A:0-ozyiiaroot 74076 106918 0 Dec 16 - 1:34 /usr/sbin/snmpdroot 78170 90242 0 Dec 16 - 0:00 dtlogin <:0> -daemonroot 86416 106918 0 Dec 16 - 0:02 /usr/sbin/syslogdroot 94582 106918 0 Dec 16 - 0:00 /usr/sbin/inetdroot 98768 106918 0 Dec 16 - 13:14 /usr/es/sbin/cluster/clcomd -droot 106918 1 0 Dec 16 - 0:00 /usr/sbin/srcmstrroot 115134 106918 0 Dec 16 - 0:00 /usr/sbin/portmaproot 119210 1 0 Dec 16 - 0:22 /usr/sbin/cronroot 131516 1 0 Dec 16 - 0:00 /usr/sbin/uprintfdroot 139680 1 0 Dec 16 lft0 0:00 /usr/sbin/getty /dev/consoleroot 143754 102438 0 13:19:03 pts/7 0:00 moreroot 151986 106918 0 Dec 16 - 0:00 /usr/sbin/rsct/bin/IBM.ServiceRMd root 156076 106918 0 Dec 16 - 0:00 /usr/sbin/rsct/bin/IBM.AuditRMd oracle 168230 1 0 11:26:43 - 0:00 ora_d000_orcloracle 172368 1 0 11:26:43 - 0:00 ora_arc0_orcloracle 287158 1 0 11:26:43 - 0:00 ora_smon_orcloracle 299364 1 0 11:26:43 - 0:00 ora_reco_orclroot 319924 1 0 11:51:24 - 0:00 lspv hdisk5root 332234 106918 0 Dec 16 - 5:53 hagsd grpsvcsoracle 336330 1 0 Dec 16 - 5:07 ora_dbw0_rmandbroot 344388 94582 0 13:18:45 - 0:00 telnetd -aroot 352610 106918 0 Dec 16 - 55:44 /usr/sbin/rsct/bin/hatsd -n 1 -o dead ManSwitchoracle 356856 1 0 Dec 16 - 11:53 ora_ckpt_rmandboracle 360852 1 0 Dec 16 - 5:24 ora_smon_rmandbroot 369086 106918 0 Dec 16 - 51:38 /usr/es/sbin/cluster/clstrmgrroot 389556 106918 0 Dec 16 - 11:02 /usr/es/sbin/cluster/clinfooracle 393484 1 0 Dec 16 - 4:17 ora_pmon_rmandboracle 418112 1 0 Dec 16 - 0:04 /home/oracle/product/9.2.0/bin/tnslsnr LI STENER -inherit root 422200 106918 0 Dec 16 - 0:08 haemd HACMP 1 Cluster SECNOS UPPORTroot 438682 106918 0 Dec 16 - 0:05 /usr/sbin/qdaemonroot 442776 106918 0 Dec 16 - 0:00 /usr/sbin/rpc.lockd -d 0 root 446934 106918 0 Dec 16 - 0:00 /usr/sbin/writesrvroot 451032 106918 0 Dec 16 - 0:00 /usr/sbin/biod 6root 471540 106918 0 Dec 16 - 0:21 sendmail: accepting connections oracle 479602 1 0 Dec 16 - 1:33 ora_lgwr_rmandb root 491900 106918 0 Dec 16 - 0:05 /usr/sbin/hostmibdoracle 495908 1 0 11:26:43 - 0:00 ora_arc1_orcl环境：两台小机，一个存储阵列，两台机器是hacmp的有三个卷组，dbvg, statvg, backvg主机卷组dbvg备机卷组：statvgbackvg两机都可以访问，用于备份的问题描述：现在备机只要是执行和卷组，pv相关的命令就挂在那，没有反应我通过进程信息，可以判断是卷组锁定了backvg，我执行过的操作，再备机上：chvg -u backvg ，已经3个小时了，还是没有结果，挂载那然后又在备机上执行exportvg backvg 又很长时间了，一个多小时，还是挂在那，请问如何解决这个问题，解锁backvg，我在主机varyonvg backvg时，提示：# varyonvg backvg0516-013 varyonvg: The volume group cannot be varied on because there are no good copies of the descriptor area.Command: failed stdout: yes stderr: noBefore command completion, additional instructions may appear below.0516-024 lqueryvg: Unable to open physical volume.Either PV was not configured or could not be opened. Run diagnostics.0516-024 lqueryvg: Unable to open physical volume.Either PV was not configured or could not be opened. Run diagnostics.0516-1140 importvg: Unable to read the volume group descriptor area on specified physical volume.问题产生的原因：因为backvg卷组是共享卷组(不是并发卷组),在每日的04:00-05:40这段时间是数据库用backvg备份,而在每次使用卷组的时候都要更改卷组的vgda,vgsa中的时间戳,而在这段时间里同事更换了交换机,导致两个小机的卷组的VGDA不一致从而会出现这个错误解决方法：首要目的:让备机释放掉对pv,卷组的管理进程,以达到我可以从新管理备机的卷组信息由于一些原因,我强行kill掉相关LVM命令,导致这些进程都被系统接管,根本无法再kil l掉,即使用kill -9,也是不可以我当时在想有两个方法可以解决此种情况1.有一些特殊的方法可以kill掉这些进程2.重新启动机器让其释放所有资源咨询了很多人,又google半天,也没有找到可以kill那些进程的方法最后决定重启机器因为我的环境是两台小机做了hacmp,为了避免出万一,决定23号凌晨去机房维护,出什么问题也好就近解决主要是担心网卡down了,远程连接不上当到了机房,就在外边的维护室(机房太冷了!!能不进去就不进去啊), 我的hacmp配置为有优先级的cascading模式，按优先级来接管资源。

如何解决AIX的文件系统故障网络服务器-电脑资料

如何解决AIX的文件系统故障网络服务器-电脑资料在进行文件系统维护和管理过程中，会碰到这样一些问题，例如无法安装文件系统或者无法拆卸文件系统，当文件系统的超级块被破坏，而无法正常使用文件系统，如何修复rootvg中的主要文件系统，下面就讨论如何解决一些常见的文件系统问题，。

一、恢复超级块错误在进行文件系统维护和管理过程中，会碰到这样一些问题，例如无法安装文件系统或者无法拆卸文件系统，当文件系统的超级块被破坏，而无法正常使用文件系统，如何修复rootvg中的主要文件系统，下面就讨论如何解决一些常见的文件系统问题。

一、恢复超级块错误有些用户在使用fsck或mount命令时，当见到下面的提示信息时，可能是文件系统的超级块出了问题：<PRE>fsck: Not an AIX3 file systemfsck: Not an AIXV3 file systemfsck: Not an AIX4 file systemfsck: Not an AIXV4 file systemfsck: Not a recognized file system typemount: invalid argument</PRE>例如，当用户安装一个/allenfs文件系统时，出现下面的错误提示：<PRE>#mount /allenfs</PRE>mount: 0506-324 Cannot mount /dev/lv1 on /allenfs: A system call received a parameter that is not valid.修复该文件系统时，出现下面错误提示，并异常终止：<PRE>#fsck /dev/lv1Not a recognized filesystem type. (TER<strong>MI</STRONG>NATED)</p><p> </PRE>要解决这个问题，只能用备份的超级块来恢复主超级块，我们都知道，在文件系统中，1号逻辑块是主超级块，31号逻辑块是备份超级块，因此就把31号逻辑块上的内容写到1号逻辑块上去。

AIX操作系统错误日志及日常维护

AIX操作系统错误日志及日常维护一、系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192ACror logging turned off038FTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可，例：LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000二、控制面板上的LED 代码.8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码.4 位代码通常是Exxx.3 位代码通常为0yyy 只看后3位.8 位和4位代码可查看系统服务手册 (Service Guide)3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System).闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或 105硬件故障一般有 SRN 代码及位置代码三、其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A...lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020....100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD信息Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number.................097H0645FRU Number..................097H0645 <-- 备件号Serial Number...............C8217227EC Level....................0000F20825 Manufacturer................IBM053ROS Level and ID............7201 <-- 微码版本Loadable Microcode Level (04)Device Driver Level (00)Displayable Message.........SSA-ADAPTERDevice Specific.(Z0)........DRAM=032Device Specific.(Z1)........CACHE=0Device Specific.(Z2)........000000062955dab2Device Specific.(YL)........P2-I7 <-- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号。

AIX小型机日常维护

AIX小型机日常维护一：开机、关机命令1、开机1）在开机之前，先检查电源是否插好；然后，按下前面板上白色电源开关后，主机会进入硬件自检和引导阶段；此时，前面板上的液晶会有代码跳动，每一个代码表示自检或引导的不同阶段，最后在引导结束时，前面板液晶上的代码消失，彩显或终端上有显示，进入系统初始化和登录提示。

如果主机停在某一代码上，引导不下去(大于半小时)，说明系统可能有故障，请与IPACS 联系，并把代码一起报给我们。

2）系统进入和退出login: 输入用户名（例如：user01）password: 输入用户口令若用户名及口令均正确，则用户将登陆成功。

此时系统会出现命令提示符$或#，即表示可接收用户输入的操作系统命令。

退出系统：或 exit或logout。

例:#(or$)exit#(or$)Ctrl^D注，#为ROOT用户的命令提示符，$为一般用户2、关机1)关闭应用程序及数据库2)HACMP软件，先用smit clstop关闭HACMP。

3)命令行打“shutdown -F”进关机，显示器上出现“Halt Completed”可按下前面板上白色电源开关，关电源。

如果需要关机后重新引导，打“shutdown -Fr”命令。

还可以使用init 6二、基本定义1、Physical Volume(PV)Physical Volume就是指硬盘，在AIX中用hdiskx表示。

7133磁盘阵列中的某个硬盘用pdiskx表示，pdiskx对应的AIX 操作系统中Physical Volume用hdiskx表示。

用lspv命令来看一下PV与VG对应关系用lsdev -Cc disk命令看一下硬盘状态，Available 表示硬盘可用，Defined 表示物理硬盘找不到，只有逻辑定义。

2、Volume Group(VG)Volume Group 是由多个Physical Volume组成的集合。

Physical Partition是VG分配空间的最小单位。

aix系统日常维护

当系统运行发现错误时，ＳＲＮｓ码（Ｓｅｒｖｉｃｅｒｅｑｕｅｓｔｎｕｍｂｅｒｓ，服务请求码）会以ｘｘｘ－ｘｘｘ的形式显示在显示面板上，同时在ＡＩＸ的ｅｒｒｏｒｌｏｇ中也会进行登记；当ＳＳＡ磁盘柜出现故障时，在磁盘柜前面板的液晶显示屏上会显示相应的ＳＲＮｓ，同时黄色的显示灯会闪动，在ＡＩＸ的ｅｒｒｏｒｌｏｇ中会登记相应错误信息，在出现问题后记录下代码，并告之ＩＢＭ公司解决。
（１）系统故障记录
ｅｒｒｄｅｍｏｎ进程在系统启动时自动运行，记录包括硬件、软件及其他操作信息，故障记录文件为/ｖａｒ/ａｄｍ/ｒａｓ/ｅｒｒｌｏｇ，可备份下来或拷贝到别的机器上分析，使用ｅｒｒｐｔ命令（普通用户权限也可使用）。
＃ｅｒｒｐｔ｜ｍｏｒｅ列出简短出错信息
＃ｅｒｒｐｔ－ｄＨ列出所有硬件出错信息
１．系统用户的最大登录数ｍａｘｌｏｇｉｎ
ｍａｘｌｏｇｉｎ的具体大小可根据用户数设定，可以通过ｓｍｉｔｔｙｃｈｌｉｃｅｎｓｅ命令修改，该参数记录在/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｏｇｉｎ．ｃｆｇ文件中，修改在系统重新启动后生效。
２．系统用户的ｌｉｍｉｔｓ参数
这些参数位于/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｉｍｉｔｓ文件中，可以把这些参数设为－１即无限制，可以用ｖｉ修改/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｉｍｉｔｓ文件，所有修改在用户重新登录后生效。
（２）系统错误报告。
（３）检查是否有发给ｒｏｏｔ用户的错误报告。
（４）检查ｈａｃｍｐ．ｏｕｔ，ｓｍｉｔ．ｌｏｇ，ｂｏｏｔ．ｌｏｇ。
（５）关键系统的文件使用率不大于８０％。
（６）逻辑卷有否ｓｔａｌｅ。
（７）内存交换区使用率是否超过７０％。
（８）内存交换区的大小是否为物理内存的１．５倍。

AIX常见故障报错及解决方案

AIX 常见故障报错及解决方案大多数情况下，顺着报错顺藤摸瓜很快就能找出原因，但总有例外，有些报错信息或者日志恰恰让我们南辕北辙。

让我们看看这些案例最终是如何处理的……案例1：图省事，搞出来个大麻烦生产中心有几套VIOS环境，正常运行了1-2年，今日发现有2套进行健康性检查，发现执行命令就hang在哪里不动了，又是内存不够用了。

"0403-031 The forkfunction failed. There is not enough memory available."好奇怪，到底内存被谁用了，vios好端端的就这样了。

都这个样子，重启vios分区吧。

重启完，vios顺利登陆，执行健康性检查没啥问题，可是用nmon看了一下内存使用分配了4个G，使用1个多G,慢慢慢慢的就看到内存使用越来越大，不一会4个G就用完了，重启其他vios分区一个样子，连换页空间都用了。

顿时一头雾水。

到底发生了什么呢？生产中心有几套VIOS环境，正常运行了1-2年.突然出现这种问题，首先想到的是变更。

梳理了近期变更操作，近期新部署了PowerVC,VIOS进行了补丁升级。

VIOS2.1升级到VIOS2.2.3.首先，重启vios分区，在内存没有用完前赶紧检查那个进程使用的内存.排名第一的是vio_daemon,观察了一会发现内存一会就被他占用完了第二，元凶找到了，vio_daemon到底是干啥的，问问IBM800吧，IBM回复问我收集一下系统信息。

1.ioslevel2./etc/security/limits的输出反馈后，IBM告诉我，我遇到了bugvios版本和 /etc/security/limits stack = -1完全符合这个bug特征。

其实这个bug是可以避免的，我们大多数实施AIX的时候,很容易顺手把/etc/security/limits.都改成-1，在大多数情况下，没啥问题，但是就是在这个版本下就容易遇到这个问题。

AIX维护手册(详细版)

日常简易维护与报修指南目录一、系统命令 (3)二、备份与恢复 (6)三、AIX安全 (10)四、错误日志查看 (12)五、Performance Tools (14)六、错误报告流程 (17)附录一硬件接线图 (19)附录二、IBM设备前后视图 (20)一、系统命令检查系统状态:➢系统整体: prtconf➢文件系统：df –k,df -g设备:lsdev –C 获取设备名称、状态、位置和描述。

例:查看硬盘: lsdev –Cc disk查看磁带机: lsdev –Cc tape查看适配卡: lsdev –Cc adapter处理器个数lsdev –C|grep proc系统配置lscfg –vp 获取所有已配置硬件设备的详细信息。

例:查看硬盘信息: lscfg –vl hdiskx x表示数字查看网卡信息: lscfg –vl entx x表示数字查看磁带机: lscfg –vl rmtx x表示数字查看硬件属性:lsattr –El 获取已配置设备的属性信息。

例:查看硬盘属性: lsattr –El hdiskx x表示数字查看网卡属性: lsattr –El entx x表示数字查看磁带机属性: lsattr –El rmtx x表示数字内存大小：lsattr –El mem0➢磁盘lspv➢交换分区lsps –a➢软件lslpp –l 文件包名字➢用户who关机命令:–shutdown一分钟后关机–shutdown +2二分钟后关机–shutdown –Fr关机重启（-r）关机命令调用/etc/rc.shutdown关闭程序可以在这个文件里加上你自己的脚本其它基本命令# passwdpasswd：—输入旧口令new passwd：—输入新口令re-enter new passwd：—重新输入新•mkdir/rm/mv/cd -用于创建目录/删除文件或目录/更改文件或目录名/进入某一目录•ls 显示目录中的内容（文件名）#ls –a 列出当前目录中的所有文件#ls –l 显示文件的详细信息•ps / kill 显示后台进程的有关信息或杀死后台进程#kill -9 253432•find 在一个/多个目录中查找符合条件的文件#find –name ‘t*’ -print•head/tail 显示文件头/尾声的内容#tail +200 filename•who/finger 列出系统注册/已登录的用户#who am I#finger user2光驱cdrom•加载cdrom•使用:mount -rv cdrfs /dev/cd0 /cdrom–或者创建一个CD-ROM文件系统并进行加载•smit cdrf s•mount /cdrom•卸载cdrom– unmount /cdrom二、备份与恢复rootvg备份—mksysb●只备份rootvg●只备份已挂接的文件系统●以备份格式创建可启动磁带●保存rootvg中的换页空间设备定义●保存逻辑卷策略●备份时应使活动的用户和应用减至最少注：mksysb创建操作系统备份，如果rootvg中有用户创建的文件系统，只要它已挂接，也被备份，用户创建的不含文件系统的逻辑卷内容及定义不备份。

Aix系统基本的日常维护

Aix系统基本的日常维护1．文件系统监控：a) 文件系统是否满:使用df –k 可以以K为单位检查文件系统的使用率。

（90%以上，需要调整）要扩充空间，先用lsvg vgname查看是否有足够的free pps数目。

b) 用lsfs查看所有文件系统有无异常。

若vfs参数显示为???，即odm对某个文件系统的记录与超极块记录不同步。

解决方法：synclvodm lvname和syncvg -v vgname。

2．检查系统出错日志：a) errpt |more来大概检查。

主要查看C参数，H表示hardware问题；S表示software问题；U表示unknown 问题；O表示系统的正常operate，可不去管它。

b) errpt -a|more或errpt -aj errrID来详细检查。

c) 清除现有的log: Errclear 03．用户安全监控：a) /etc/security/failedlogin-->记录失败login的log。

用who命令读取此文件。

b) /var/adm/wtmp-->记录成功login的log。

用who命令读取此文件。

c) /var/adm/sulog-->记录su的log。

用more命令读取此文件。

d) 需要检查某个用户最后来自登陆的IP。

读取/etc/security/lastlog查看。

e) 使用who和w和finger和last命令查看用户login信息。

4．检查系统是否有巨大的Core文件生成：使用find / -name “core”–print来检查。

使用find / -name “core”-exec rm {} \; 来定期删除。

5．系统性能检查：a) CPU性能：使用Vmstat, topas来检查b) 内存使用情况：也是使用topas, vmstat来检查c) 检查IO平衡使用情况：使用iostat来检查d) 交换空间使用情况：使用lsps –a来检查6．邮件查看：定期检查Mail,特别是系统daemon发的错误和警告信息。

IBM AIX日常维护及故障处理汇总

第一类、机房环境及物理检查一、机房内环境要求1. 温度与湿度：最佳工作温度：20-25摄氏度极限工作温度：10-40摄氏度湿度: 8-80%(在23摄氏度条件下)如果不是工作在最佳温度，请注意改善机房环境2. 同时机房要保证清洁.机房应保持清洁，若空气灰尘过多，很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。

二、电源要求电压: 要求电压稳定, 尖峰电压会损坏设备电压范围: 220V +/- 10%, 即200-240V, 50-60Hz电源功率: 视机器类型和系统配置而定电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS，并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.三、硬件检查]检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。

服务器状态检查：1. 当服务器处于启动和正常工作状态时，其前面板上的液晶显示屏上应无信息显示。

2. 当液晶显示器上出现带数字和字母的信息时，说明有硬件告警。

可以通过查询相关机型的Service Guide查到相应告警原因，情况严重的，则要立即通知IBM技术专家进行问题排查。

7133状态检查：磁阵前面板上有7133机柜的状态灯（与电源灯并排）和各硬盘的状态灯（一排小灯，与各硬盘位置一一对应）。

1. 当机柜的状态灯出现橙黄色时，说明有硬件告警，此时要检查磁柜的电源、接线、硬盘等。

如果有硬件故障则立即进行更换和更正，如果查不出具体问题，则需要联系相关专家进一步诊断。

2. 当硬盘工作正常时，与各硬盘对应的硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操作，则绿灯会不规则闪烁，当硬盘损坏时或SSA环路出现问题时，则硬盘状态灯将熄灭，或者呈闪烁状态：以1～3秒的频率有规律地、不停地闪烁第二类、系统日常维护流程2.1系统启动系统启动正常顺序如下：首先对外设（磁盘阵列、磁带库等）加电。

aix_日常管理以及故障处理

aix_日常管理以及故障处理故障的处理RS6000 Admin & PD内容提要"日常管理"故障的处理"系统健康检查"查看硬件情况"检查设备故障灯，一般为橙色并有"有没有异常声响，如硬盘、风扇等。

"有没有破损的电缆等"查看系统故障信息"用errpt命令查看系统出错信息。

"用mail命令查看有否发给root用户的错误报告。

"查看其他的记录文件，如/tmp/hacmp.out。

"检查文件系统"查看有没有“满”的文件系统。

文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。

如/ (根文件系统)满则会导致用户不能登录。

"系统健康检查# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95%2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统，其他文件系统都不应太满，一般不超过80%。

处理方法1：删除垃圾文件# du -sk * |sort -rn |head查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件。

（要区分哪些目录是文件系统的mount point，哪些是文件系统的子目录）删除文件，释放空间。

有时删除文件后空间并不马上释放，这是由于你删除的文件正被某个程序打开。

只有当这个程序停止后空间才释放，有时甚至需要重起系统。

(零收费)AIX系统日常维护与故障的解决

0104143100 T S SYSPROC
9DBCFDEE
0104143300 T O errdemon
192AC071
0104143000 T O errdemon
C60BB505
0104105800 P S SYSPROC
参数详解
标识‘’：错误归类：硬件：软件：系统信息已经记录：不能确定标识‘’：错误类型 (并且为)：显示系统遇到硬件问题并且无法自动修复 (并且为):系统硬件变为不可用并引起一系列错误系统 (并且为)：显示系统遇到软件问题并且无法自动修复 (并且为)：显示系统遇到软件问题并且已经自动修复
2CCF66F7
0105111300 T H bl0
2BFA76F6
0105111100 T S SYSPROC
9DBCFDEE
0105111300 T O errdemon
192AC071
0104174500 T O errdemon
2CCF66F7
0104143300 T H bl0
2BFA76F6
检查内存交换区( )使用率使用率不要超过。增加交换区，或增加内存。观察内存大小的命令： –
–
系统管理日常健康检查与监控
网络检查查看网卡状态和是否> 注：是指从这个网卡发出去错误包数目的统计
是指从这个网卡发出去的包个数的统计。看它们是否>应该是指网络质量好坏。查看是否通和是否有丢包。路由表查看路由表是否正确，各路由器是否通。核对主机名
系统管理日常健康检查与监控
检查文件系统查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作，

AIX系统常见启动问题及解决

AIX系统常见启动问题及解决AIX系统启动问题基本的启动进程和有序关机：基本命令：alog、cfgmgr、last、bootlist、uptime、mpcfg、shutdowna、alog：对系统日志进行读写。

rc.boot通过alog命令把引导信息重定向到/var/adm/ras/bootlog# alog -L 显示定义在alog Database中的logs# alog -o -t 显示启动日志cfgmgr命令：在系统启动阶段，cfgmgr命令配置对使用系统必须的所有设备系统启动包括两个阶段：阶段一： cfgmgr –f 一旦系统启动就不能运行了阶段二： cfgmgr –s ( second boot phase for normal boot ) 阶段三： cfgmgr –p ( second boot phase for service boot )# cfgmgr –i /usr/sys/inst.images 该命令尝试自动安装设备的软件 FOR 新检测到的设备-I 选项指定安装的媒质在哪里在此处有一个seq field ，该field 是一个整数指定了优先权，值越小，优先级越高，0的优先级最低，1的优先级最高# cfgmgr –l scsi0 ( 配置检测到的连接到SCSI0适配卡的设备 ) -如果你想查找root用户什么时候logged on and off from the console# last root console如果你想决定系统上次shutdown是什么时候# last shutdown为了显示一个启动列表# bootlist –m normal –o如果你想改变你的启动列表# bootlist –m normal fd0 hdisk0 cd0注意：加到bootlist的每一个设备必须处于Avalable的状态如果你怀疑你的系统被shutdown或restarted，你可以使用uptime命令去查明，uptime命令显示系统已经运行了多长时间# mpcfg –df To find out what the status is of your diagnostic flags# mpcfg –cf 11 1 如果你想Fast IPL system，你可以改变diagnostic flag的值注意： mpcfg 和 service information相关shutdown-v 或–h Halt the operating system completely-k Avoids shuting down the system-m Bring the system down to maintenance mode-I specifies interactive mode , Display interactive messages to guide the user through the shutdown注意： /etc/rc.shutdown文件由 /usr/sbin/shutdown script调用来关闭在关机的时候想中断的进程，该文件的必须是可执行的才能被正确调用安装媒质有问题的征兆：1、安装时意外挂起2、无法从介质读数据3、意外重起如果安装媒质没有问题的话，在你的系统中两个设备可能共享相同的SCSI地址LED Error CodeLED 201 --- Damaged boot image解决方法：1、访问你的rootvg ( 进入 system maintenance 模式 )2、检查 / 和 /tmp文件系统，看看他们是否已经满了，如果是创建更多的空间3、决定 bootdisk 通过用命令 lslv –m hd54、重新创建 boot image 使用 bosboot –a –d /dev/hdisk05、检查 CHECKSTOP errors in the error log , 如果这样的错误发现的话可能是失败的硬件6、关机重起LED 223-229 --- Invalid boot list1、决定启动磁盘 lslv –mhd52、创建新的bootlist 使用 bootlist命令LED 551，555，and 557 --- Errors Including corrupted file system and corrupted JFS log1、进入维护模式access rootvg before mounting and file system2、fsck –y /dev/hd1fsck –y /dev/hd2fsck –y /dev/hd3fsck –y /dev/hd4fsck –y /dev/hd9var3、再次Format the JFS log/usr/sbin/logform /dev/hd84、使用 lslv –m hd5 去决定 boot disk5、重新创建boot imagebosboot –a –d /dev/hdisk0LED 552，554，and 556 --- Super block corrupted or corrupted customized ODM databaseFsck1、Repeat steps 1 and 2 for LEDs 551 555 and 5572、If fsck inidicates that block 8 is corrupted, the super block for the file system is cororupted and needs to be repaired , Enter the command :Dd count=1 bs=4k skip=31 seek=1 if=/dev/hdn of=/dev/hdn3、rebuild your JFS log by using the command :/usr/sbin/logform /dev/hd84、if this solves the problem, stop here ; otherwise ,continue with step 55、Your ODM database is corrupted ,restart your system and 进入 maintenance mode6、Mount the root and usr file systemMount /dev/hd4 /mntMount /usr7、copy system configuration to a backup directorymkdir /mnt/etc/objrepos /backupcp /mnt/etc/objrepos/Cu* /mnt/etc/objrepos /backupLED 553 --- corrupted /etc/inittab file1、进入系统维护模式2、检查 / /var /tmp 使用 df命令3、检查 /inittab文件4、检查 execution problems /etc/environment/bin/sh/bin/bsh/etc/fscketc/profile/.profile5、shutdown and reboot。

IBM AIX日常维护命令

IBM AIX日常维护命令一、检查AIX系统状态1、文件系统:df -k2、设备:lsdev -C3、磁盘(物理卷):lspv4、paging space:lsps -a5、配置:lscfg -vp6、软件:lslpp -l7、用户:who8、处理器个数:lsdev -C|grepproc9、内存大小:lsattr -El mem0二、关机1、shutdown使用wall命令提醒用户若干时间后关机；2、shutdown +22分钟后关机3、shutdown -Fr-r = 关机后重新启动三、错误记录1、显示错误：errpt errpt |more2、显示详细的错误信息：errpt -a3、清空错误记录信息：errclear 0四、smit/smitty部分快捷菜单方式：#smitty tape#smitty user#smittytcpip#smittyinet#smittynfs#smittyjfs#smittylvm五、关于卷组(smitty vg)1、显示卷组状态：列出卷组细节:lsvg<vgname>列出卷组中的逻辑卷:lsvg -l <vgname>列出卷组中的物理卷:lsvg -p <vgname>2、增加卷组：smittymkvg3、修改卷组属性：smittychvg4、激活卷组：varyonvg vg_name5、解除卷组：varyoffvg vg_name6、向卷组中增加一个物理卷：extendvgvg_namehdiskn注：extendvg命令用于向已存在的卷组增加新的物理卷，这个物理卷设备的状态必须是可用的(Available)。

7、从卷组中删除一个物理卷：reducevg [-d] vg_namehdiskn注：删除物理卷时其所在的卷组必须处于非活动状态，如果被删除的物理卷是卷组中仅存的一个，那么这个卷组同时也被删除。

六、关于物理卷(smittypv)1、lspv列出物理卷名称：lspv列出物理卷细节：lspvhdiskN列出物理卷中的逻辑卷：lspv -l hdiskN列出物理卷中的物理分区分布：lspv -p hdiskN2、增加物理卷：cfgmgr /mkdev3、删除物理卷：rmdev七、关于逻辑卷(smitty lv)1、显示逻辑卷信息列出逻辑卷名称：lslv -l <vgname>列出逻辑卷细节：lslv<lvname>列出与逻辑卷相关的物理卷：lslv -l <lvname>列出物理卷中物理分区的分配：lslv -p <pvname>显示逻辑卷中LP(逻辑分区)与PP(物理分区)的对应：lslv -m <lvname>2、增加逻辑卷#smittymklv#mklv3、删除逻辑卷#smittyrmlv#rmlv4、设置逻辑卷属性#smittylvsc# chlv5、增加逻辑卷拷贝：smittymklvcopy6、删除逻辑卷拷贝：smittyrmlvcopy八、设备管理1、cfgmgr/mkdev：配置系统中新增设备。

AIX系统维护手册

IBM AIX维护手册目录AIX系统维护手册 (1)1、系统配置 (3)2、AIX操作系统基本命令 (4)2.1、系统的进入和退出 (4)2.2、修改系统密码 (5)2.3、m k d i r、r m、m v和c d (5)2.4、列出文件l s (6)2.5、显示日期d a t e (7)2.6、查看登陆用户w h o (7)2.7、查看系统进程p s (7)2.8、终止进程k i l l (9)2.9、查找文件f i n d (9)2.10、查找指定字符g r e p (10)3、vi编辑器 (11)3.1、v i简介 (11)3.2、v i的进入与离开 (11)3.3、v i的文本输入模式 (11)3.4、v i基本编辑命令 (12)3.5、文件处理子命令 (14)4、硬件设备维护命令 (14)4.1、显示设备一般信息l s d e v (14)4.2、显示设备属性l s a t t r (15)4.3、显示整机信息l s c o n f (16)4.4、搜索可用的新硬件c f g m g r (18)4.5、删除硬件设备 (18)4.6、修改硬件设备属性 (18)4.7、磁盘更换 (18)4.7.1、查看rootvg中是否存在镜像 (18)4.7.2、确定rootvg中的磁盘 (19)4.7.3、确定需要更换哪块磁盘 (19)4.7.4、取消磁盘镜像 (20)4.7.5、把坏盘从rootvg中去掉 (20)4.7.6、把坏盘从系统中去掉 (20)4.7.7、更换新磁盘 (20)4.7.8、重新认新磁盘 (20)4.7.9、使新磁盘可用 (20)4.7.10、把新磁盘重新加入到rootvg卷组中 (21)4.7.11、为rootvg重做镜像 (21)4.7.12、重新设置磁盘引导区 (21)4.7.13、设置系统引导顺序 (21)5、用户管理 (21)5.1、增加用户 (21)5.2、修改用户密码 (22)5.3、修改用户信息 (22)5.4、删除用户 (22)6、网络管理 (22)6.1、查看网络状态和流量 (22)6.2、查看网卡接口状态 (24)6.3、启动网络服务 (25)6.4、配置本地主机名解释 (25)6.5、免密码远程登陆 (25)6.6、修改i p地址 (26)7、系统日常管理 (26)7.1、查看文件系统 (26)7.2、查看系统登陆记录 (27)7.3、检查系统c p u使用率 (27)7.4、查看I O使用情况 (29)7.5、查看交换空间 (30)7.6、管理交换空间 (31)7.7、查看系统安装的软件 (31)7.8、查看系统补丁及维护等级 (32)7.9、查看系统错误日志信息 (32)8、系统关机 (34)8.1、系统正常关机 (34)8.2、快速关机 (34)8.3、紧急情况关机 (34)8.4、重新启动系统 (34)9、双机维护命令 (35)9.1、启动H A C M P (35)9.2、关闭H A C M P (35)9.3、查看H A C M P状态 (36)1、系统信息本次项目中配备了2台IBM p5 561小型机，两台主机的配置如下：设备小型机A硬件配置信息机型号 I B M p5561C P U4颗1.8G H z P O W E R5+P r o c e s s o r C P U,内存 16G B硬盘 2块146.8G B15,000转 U l t r a320S C S I硬盘光纤通道卡 2块4G B P C I-X光纤通道卡（H B A卡）异步卡 1块双口异步I E A-232P C I卡光驱 D V D光驱H A C M P H A C M P V5.4集群软件操作系统 A I X5L5.3设备小型机B硬件配置信息机型号 I B M p5561C P U8颗1.8G H z P O W E R5+P r o c e s s o r C P U,内存 32G B硬盘 4块146.8G B15,000转 U l t r a320S C S I硬盘光纤通道卡 2块4G B P C I-X光纤通道卡（H B A卡）异步卡 1块双口异步I E A-232P C I卡光驱 D V D光驱H A C M P H A C M P V5.4集群软件操作系统 A I X5L5.3系统配置信息：系统信息主机名 S A P1S A P2操作系统 A I X5.3T L06S P03A I X5.3T L06S P03管理员 r o o t r o o t初始密码 r o o t r o o t内置磁盘 h d i s k0、h d i s k1h d i s k0、h d i s k1外置磁盘 h d i s k2～h d i s k13h d i s k2～h d i s k13卷组 d b v g、a p p v g d b v g、a p p v g网关网络接口 e n0e n0I P地址 10.10.10.1172.16.36.9网络掩码 255.255.255.0255.255.255.0网络接口 e n1e n2I P地址 172.16.36.710.10.10.2网络掩码 255.255.255.0255.255.255.0网络接口 e n2e n3I P地址 10.10.20.110.10.20.2网络掩码 255.255.255.0255.255.255.02、AIX操作系统基本命令2.1、系统的进入和退出登陆AIX系统可以通过telnet来登陆，首先需要配置一台PC，能够与以上所列出的任一网络地址连通。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、硬件故障的定位与排除 2、系统故障的处理方法 3、 HACMP双机系统故障排错
第三章：备份与恢复
第四章：性能监控与优化
2
© 2003 IBM Corporation
IBM Systems & Technology Group
第一章：日常维护部分
© 2006 IBM Corporation
5
电源线的母头是否为左零右火电压值是否为240V 零地电压是否小于1V 温度（摄氏 ℃） 10 ℃－40℃ 湿度（%） 8% －80% 检查设备故障灯，一般为红色或黄色报警灯常亮。有没有异常声响，如硬盘、风扇等。有没有破损的电缆等
© 2003 IBM Corporation
查看硬件情况
IBM Systems & Technology Group
7
© 2003 IBM Corporation
IBM Systems & Technology Group
AIX系统管理日常健康检查与监控
处理方法2：增加文件系统大小 – # smitty chfs – 文件系统可以在任何时候加大，前提是卷组(VG)中有剩余空间。检查文件系统的完整性 – # umount filesystem_name
查看卷组信息
– lsvg -l vg_name
– 有没有"stale"状态的逻辑卷。 – 用syncvg 命令修复。# smitty syncvg
LV NAME hd5 hd6 paging00 hd8 hd4 hd2 hd9var hd3 hdg jfs jfs jfs jfs jfs
#ifconfig 用法
– ifconfig en0 inet 11.0.0.1 up – ifconfig en0 ns 110:02.60.8c.2c.a4.98 up – （还有很多）
12 © 2003 IBM Corporation
IBM Systems & Technology Group
AIX系统管理日常健康检查与监控
#ifconfig -a
en0: flags=4e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,6 4BIT,PSEG> inet 172.40.10.31 netmask 0xffff0000 broadcast 172.40.255.255 lo0: flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BI T> inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255 inet6 ::1/0
route属性是否有相应的路由信息。格式为：net,,0,172.16.23.81 如果没有缺省路由,执行命令： #chdev –l inet0 –a route=0,172.16.23.81 其中172.16.23.81为网关如果缺省路由不正确，则先删除路由,再增加缺省路由: #chdev –l inet0 –a delroute= net,,0,133.16.23.81 #chdev –l inet0 –a route=0,172.16.23.81
Iused %Iused Mounted on 2599 22% / 22967 15% /usr 649 32% /var 89 1% /tmp 1402 35% /home
6
© 2003 IBM Corporation
IBM Systems & Technology Group
AIX系统管理日常健康检查与监控
AIX系统管理日常健康检查与监控
检查文件系统 – 查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。
# df -k (查看AIX的基本文件系统) Filesystem 1024-blocks Free %Used /dev/hd4 24576 1452 95% /dev/hd2 614400 28068 96% /dev/hd9var 8192 4540 45% /dev/hd3 167936 157968 6% /dev/hd1 16384 5332 68%
#lsps -s Total Paging Space Percent Used 2048MB 15% #lsps –a Page Space Physical Volume Volume Group Size hd6 hdisk0 rootvg 2048MB
%Used Active Auto Type 15 yes yes lv
LPs 1 48 32 1 1 32 5 4 1
PPs 2 96 64 2 2 64 10 8 2
PVs 2 2 2 2 2 2 2 2 2
LV STATE closed/syncd open/syncd open/syncd open/syncd open/syncd open/syncd open/syncd open/syncd open/syncd
AIX系统管理日常健康检查与监控 #lsattr –El ent0
authm hostname gateway route bootup_option rout6 65536 qtsms Authentication Methods True Host Name True Gateway True net,,0,172.40.10.1 Route True no Serial Optical Network Interface True FDDI Network Interface True
10
© 2003 IBM Corporation
IBM Systems & Technology Group
AIX系统管理日常健康检查与监控
网络检查
– netstat -i 查看网卡状态
– Ierrs/Ipkts 和 Oerrs/Opkts是否>1%
注：Oerrs是指从这个网卡发出去错误包数目的统计 Opkts是指从这个网卡发出去的ip包个数的统计。看它们是否>1%应该是指网络质量好坏。
报告实例
# errpt
IDENTIFI 192AC071 1581762B 1581762B 1581762B 2CCF66F7 2BFA76F6 9DBCFDEE 192AC071 2CCF66F7 2BFA76F6 9DBCFDEE 192AC071 C60BB505
13 © 2003 IBM Corporation
IBM Systems & Technology Group
AIX系统管理日常健康检查与监控
系统故障记录(errorlog) – errdemon 进程在系统启动时自动运行 – 记录包括硬件、软件及其他操作信息
– 故障记录文件为/var/adm/ras/errlog，可备份下来或拷贝到别的机器上分析 – errpt 命令的使用(普通用户权限也可使用)
用户能够客户化错误信息
当发生某些特定的错误时，系统发出指定信息可以查询到建议操作
16
© 2003 IBM Corporation
IBM Systems & Technology Group
通过smit产生错误报告
显示所有的错误报告 – # errpt 打印错误报告的模板 – # errpt -t
除/usr文件系统，其他文件系统都不应太满，一般不超过80%。
处理方法1：找出（删除）垃圾文件 # du -sk * |sort –r n |head 查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件。（要区分哪些目录是文件系统的 mount point，哪些是文件系统的子目录）删除文件，释放空间。有时删除文件后空间并不马上释放，这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放，有时甚至需要重起系统。
#errpt -d H #errpt -d S
列出所有硬件出错信息列出所有软件出错信息列出详细出错信息
© 2003 IBM Corporation
#errpt -aj ERROR_ID
15
IBM Systems & Technology Group
错误日志的目的
在监测到硬件、软件和操作错误时记录相应的信息用户其他的相关信息被记录下来报告通过记录产生
MOUNT POINT N/A N/A N/A N/A / /usr /var /tmp /home
© 2003 IBM Corporation
IBM Systems & Technology Group
AIX系统管理日常健康检查与监控
检查内存交换区(paging space)使用率 – # lsps -s – 使用率不要超过70%。 – 增加交换区，或增加内存。 – 观察内存大小的命令：lsattr –El mem0
14
© 2003 IBM Corporation
IBM Systems & Technology Group
AIX系统管理日常健康检查与监控
#errpt |more
ERROR_ID 192AC071 0E017ED1 9DBCFDEE 038F2580 AA8AB241
列出简短出错信息
T T P T U T C 0 H 0 H O RESOURCE_NAME errdemon mem2 errdemon scdisk0 OPERATOR ERROR_DESCRIPTION Error logging turned off Memory failure Error logging turned on UNDETERMINED ERROR OPERATOR NOTIFICATION