关于AIX系统错误日志的一些说明

合集下载

在AIX中,errpt用于报告系统软硬件相关的错误日志信息

在AIX中,errpt用于报告系统软硬件相关的错误日志信息

在AIX中,errpt用于报告系统软硬件相关的错误日志信息先来看一个实际的输出,不带参数简单列出所有的错误#errptIDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONA2205861 1214144307 P S SYSPROC Excessive interrupt disablement time F3931284 1213234807 I H ent1 ETHERNET NETWORK RECOVERY MODEEC0BCCD4 1213234807 T H ent1 ETHERNET DOWNF3931284 1213234807 I H ent1 ETHERNET NETWORK RECOVERY MODEEC0BCCD4 1213233607 T H ent1 ETHERNET DOWN0873CF9F 1212141207 T S pts/1 TTYHOG OVER-RUN0873CF9F 1212141207 T S pts/1 TTYHOG OVER-RUN…使用-a参数查看详细信息#errpt -a | more—————————————————————————LABEL: GOENT_RCVRY_EXITIDENTIFIER: F3931284Date/Time: Thu Dec 13 23:48:47 BEIST 2007Sequence Number: 162Machine Id: 00099476D600Node Id: db158Class: HType: INFOResource Name: ent1Resource Class: adapterResource Type: 14108902Location: U787B.001.DNWA74C-P1-T9VPD:Product Specific.( )…….2-Port 10/100/1000 Base-TX PCI-XAdapterNetwork Address………….000D6051A0F6ROM Level.(alterable)…….DV0210DescriptionETHERNET NETWORK RECOVERY MODERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESDetail DataFILE NAMEline: 204 file: goent_intr.cPCI ETHERNET STATISTICS0001 EF66 0063 0853 0000 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0000 0000 0000 A69D 0000 0000 002C B028 0000 0000 0000 A64B 0000 0000 0000 A597 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0000 0001 0000 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 BB83 08F0 0068 0C00 0000 0000 01A0 0000 0000 0000 0000 0000 0000 0000 C9E1 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000DEVICE DRIVER INTERNAL STATE5555 5555 0000 0000 0000 0000SOURCE ADDRESS0011 25C0 3BDE其中:LABLE:事件名称IDENTIFIER:事件IDDate/Time:发生的时间Sequence Number:事件序列号Machine ID:机器标识Node ID:节点标识Class:事件来源S-软件H-硬件I-信息U-未定的Type:事件类型PEND-设备或组件的可用性损失是急迫的。

AIX操作系统错误日志及日常维护

AIX操作系统错误日志及日常维护

A I X操作系统错误日志及日常维护一、系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192ACror logging turned off038FTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可,例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000二、控制面板上的LED 代码.8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码.4 位代码通常是Exxx.3 位代码通常为0yyy 只看后3位.8 位和4位代码可查看系统服务手册 (Service Guide)3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System).闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或 105硬件故障一般有 SRN 代码及位置代码三、其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A...lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020....100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD信息Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number.................097H0645FRU Number..................097H0645 <-- 备件号Serial Number...............C8217227EC Level....................0000F20825 Manufacturer................IBM053ROS Level and ID............7201 <-- 微码版本Loadable Microcode Level (04)Device Driver Level (00)Displayable Message.........SSA-ADAPTERDevice Specific.(Z0)........DRAM=032Device Specific.(Z1)........CACHE=0Device Specific.(Z2)........000000062955dab2Device Specific.(YL)........P2-I7 <-- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号。

AIX系统日志

AIX系统日志

AIX系统日志说明1、系统错误日志存放路径:/var/adm/ras/errlog说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一, errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man,2、用户的登录日志存放路径:/var/adm/wtmp /var/adm/sulog说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog 等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last命令访问。

sulog记录的是用户用su命令转变为另一用户的信息。

who、last等这些命令可以查看wtmp和sulog的内容如:Last –f wtmp我们想查看最近10次登录的用户和他们的地址,可以用如下命令:last -103、用户的失败登录日志存放路径:/etc/security/failedlogin说明:这些日志记录了用户登录和访问服务器失败的情况信息,登录失败的情况单独记录在该日志中,可以用who命令来查看。

4、集群管理软件hacmp的日志存放路径:/tmp/hacmp.out说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。

OUT日志文件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。

可以使用tail进行跟踪,tail –f /tmp/hacmp.out5、系统启动错误日志存放路径:/var/adm/ras/bootlog说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。

电脑系统错误日志解读

电脑系统错误日志解读

电脑系统错误日志解读系统错误是每个电脑用户都会遇到的问题,而日志则成为我们解决问题的重要工具。

但是面对一个冗长晦涩的错误日志,很多人往往感到无从下手。

本文将为大家解读电脑系统错误日志,并分享一些常见错误的解决方法,希望能帮助读者快速解决系统问题。

一、错误日志是什么?错误日志是操作系统或应用程序记录硬件、软件及网络问题的文件。

它包含了一段时间内的系统状态、错误代码和错误描述等信息。

正确解读错误日志可以帮助我们了解电脑出现问题的原因,从而更好地解决这些问题。

二、常见错误类型及解决方法:1. 硬件错误:硬件错误通常涉及电脑的物理组件,比如内存、硬盘、显卡等。

当你在错误日志中看到类似于“Memory Management”、“Disk Boot Failure”等错误信息时,首先检查相应的硬件组件是否正常连接。

如果存在松动或者损坏,可尝试重新插拔硬件或更换相关设备。

2. 软件错误:软件错误是最常见的问题之一。

当你在错误日志中发现类似于“Blue Screen of Death”、“System File Missing”等错误信息时,首先尝试重启电脑。

如果问题仍然存在,可以尝试修复或重新安装出问题的软件。

同时,确保你的操作系统和应用程序都是最新版本,以免存在已知的Bug。

3. 驱动程序错误:驱动程序是电脑硬件与操作系统之间的桥梁。

当你在错误日志中看到类似于“Driver Power State Failure”、“DisplayDriver Stopped Responding”等错误信息时,需要检查相关硬件的驱动程序是否过时或损坏。

更新驱动程序可以解决大部分驱动相关的问题。

4. 病毒感染:病毒是电脑系统的常见威胁之一。

当你在错误日志中发现诸如“System Restarted Unexpectedly”、“Unauthorized Access Blocked”等错误信息时,首先运行安全软件进行全面系统扫描,删除或隔离发现的病毒。

AIX维护大全分享(七)

AIX维护大全分享(七)

/usr/sbin/install_assist Smitty Installation Assistant
/usr/sys/inst.images/sys.bundles Software bundle files
alt_disk_install -c hdisk1 Clones a running rootvg onto hdisk1
第 28 楼:AIX Useful Commands
compress -c file.txt > file.Z Create a compressed file.
uuencode (infile) (extract-file-name) > (output file)
echo * Lists files, can be used if ls is corrupt/missing
chtz (timezone eg GMT0BST) Changes the timezone in /etc/environment file
like version number, when compiled.
lslpp -L all list all installed software
lslpp -L (program set name) Check if software installed
examples :-
uuencode maymap maymap > maymap.enc
uudecode maymap.enc
od -c /tmp Displays contents of the /tmp directory file
ls -i Lists files with their inode numbers

aix 常用命令

aix 常用命令

aix 常用命令AIX常用命令AIX(Advanced Interactive eXecutive)是IBM公司的一款UNIX操作系统,广泛应用于企业级服务器系统中。

本文将介绍AIX 常用命令,帮助读者更好地理解和使用该操作系统。

一、系统管理命令1. whoami:查询当前登录用户的用户名;2. hostname:查看主机名;3. uname -a:显示系统的各种信息,如内核版本、硬件平台等;4. uptime:查看系统的运行时间和负载情况;5. date:显示当前日期和时间;6. topas:实时监控系统性能,包括CPU利用率、内存使用情况等;7. lparstat -i:显示LPAR(Logical Partition)信息,包括分区的配置和资源利用情况;8. lsdev:列出设备列表;9. errpt:查看系统错误日志,用于排查故障;10. ps -ef:显示当前系统的进程列表;11. mksysb:创建系统备份;12. bootlist:设置系统启动顺序。

二、文件和目录管理命令1. ls:列出当前目录下的文件和子目录;2. pwd:显示当前工作目录的路径;3. cd:切换工作目录;4. mkdir:创建新的目录;5. rm:删除文件或目录;6. cp:复制文件或目录;7. mv:移动文件或目录;8. find:按照指定条件查找文件;9. du:查看目录或文件的磁盘使用情况;10. df:显示文件系统的使用情况;11. cat:查看文件内容;12. vi:编辑文本文件。

三、用户和权限管理命令1. useradd:创建新用户;2. userdel:删除用户;3. passwd:修改用户密码;4. chuser:修改用户属性;5. chown:修改文件或目录的所有者;6. chmod:修改文件或目录的权限;7. chgrp:修改文件或目录的所属组;8. groups:查看用户所属的组;9. su:切换用户身份;10. visudo:编辑sudoers文件,配置用户的sudo权限。

AIX操作系统错误日志及日常维护

AIX操作系统错误日志及日常维护

AIX操作系统错误日志及日常维护一、系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192ACror logging turned off038FTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可,例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000二、控制面板上的LED 代码.8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码.4 位代码通常是Exxx.3 位代码通常为0yyy 只看后3位.8 位和4位代码可查看系统服务手册 (Service Guide)3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System).闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或 105硬件故障一般有 SRN 代码及位置代码三、其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A...lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020....100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD信息Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number.................097H0645FRU Number..................097H0645 <-- 备件号Serial Number...............C8217227EC Level....................0000F20825 Manufacturer................IBM053ROS Level and ID............7201 <-- 微码版本Loadable Microcode Level (04)Device Driver Level (00)Displayable Message.........SSA-ADAPTERDevice Specific.(Z0)........DRAM=032Device Specific.(Z1)........CACHE=0Device Specific.(Z2)........000000062955dab2Device Specific.(YL)........P2-I7 <-- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号。

aix5.2使用笔记

aix5.2使用笔记

Aix5.2使用笔记一、错误报警灯消除1、errpt 查看错误日志2、diag3、选择第二项诊断报警信息查看信息。

4、选择第三项,(Task Selection (Diagnostics, Advanced Diagnostics,Service Aids, etc.)5、选择Identify and Attention Indicators 清除报警灯。

6、errclear 0 清除错误日志。

二、删除设备rmdev –l 设备名–d (dac0 ,dac1 ,dac2,dac3 是磁盘阵列控制器,ent0,ent1是网卡)三、查看设备lscfg –vl devname四、修改磁盘阵列chdev -l hdisk5 –a pv=yes五、清除磁盘阵列chdev –l hdisk5 –a pv=clear (本操作将清除数据)六、修改vg可用varyonvg datavg01七、修改vg不可用varyoffvg datavg01八、导出VG exportvg vgname九、导入VG improtvg -十、硬件配置cfgmgr –v十一、删除磁盘阵列重建:rmdev –dl hdisk2rmdev –dl dar0rmdev –dl dac0cfgmgr –vvaryonvg vgnameexportvg vgnameimportvg –y vgname disk5十二、查看系统性能topas十三、查看系统登陆日志last十四、查看系统信息prtconf十五、查看详细硬件信息lscfg –vl ent1十六、查看硬件信息lsdev十七、查看系统软件版本lslpp –l | grep ““十八、停止和启动软件stopsrc –s snmpd ,startsrc –s snmpd ,十九、查看系统软件lssrc –g cluster二十、修改ha的snmp版本可以用clstat查看/usr/sbin/snmpv3_ssw -1stopsrc –s snmpdstartsrc –s snmpdstopsrc –s clsmupdESstopsrc –s clinfoESstarsrc –s clsmupdESstarsrc –s clinfoES使用clstat查看二十一、Lsvg vgname查看卷组lspv查看物理卷二十二、Lsattr 查看设备属性二十三、Lsattr –El inet0 查看设备库的路由二十四、Vmstat 1 检查虚拟内存二十五、修改登陆数smitty chlicense二十六、存储光纤卡重装1、Lsdev –ld hdisk* (查看硬盘)2、Lsdev –ld dar* (查看光纤交换机)3、Lsdev –ld dac* (查看硬盘控制器)4、Rmdev –ld hdisk2(删除所有光纤硬盘从2道13)5、Rmdev –ld dar0 (删除所有光纤交换机)6、Rmdev –ld dac0(删除所有控制器0-3)7、Cfgmgr -v (重新检查安装硬件驱动)8、chdev -l hdisk5 –a pv=yes (修改要用的硬盘磁盘阵列)9、importvg –y vgname hdisk5 (导入vg)10、varyonvg vgname (激活vg)11、mount /app05 (mount 硬盘)二十七、/dev/pts/2: You must "exec" login from the lowest login shell.可能是主目录满可以使用cat /dev/null >/var/adm/utmp 来解决二十八、重新生成TLOGtmadmin –ccrdl -b1000 -z "/bea/tuxedo/config/TLOG"二十九、重启打印进程startsrc –s qdaemon。

AIX巡检报告以及操作手册

AIX巡检报告以及操作手册

巡检报告单机器型号:序列号:检查时间:_______年____月____日1. 机房环境:温度□符合要求□不符合湿度□符合要求□不符合2. 机器清洁(根据需要清洁机器各部件):□已清洁□不需要3. 检查系统硬件情况:设备故障灯是否有亮□有□无是否有其他否异常情况(如硬盘、风扇异常的声音,电缆破损)□有□无4. 系统错误报告(Error Log):有否硬件故障□有□无故障内容:若有硬件,运行故障诊断分析错误报告( eg: diag -ed hdisk1)结论(如SRN, FRU等):有否软件故障□有□无故障内容:结论:5. 有否发给root用户的错误报告(mail):□有□无结论:6. 检查hacmp.out,smit.log,bootlog等:□正常□不正常7. 文件系统的使用率不大于80%:□是□否8. 查看卷组信息(lsvg -l vg_name),有没有"stale"状态的逻辑卷:□是□否若有,用syncvg 命令修复"stale"逻辑卷。

备注:9. 系统性能,有否性能瓶颈(topas, vmstat等):□有□无交换区使用率是否超过70%(lsps -s),实际值____CPU是否繁忙(sar 1 10),idle值_____I/O平衡(iostat 1)10. 备份:有否合符要求的系统备份:□有□无最近一次系统备份的时间_________有否符合要求的用户数据备份:□有□无有否符合要求的用户数据备份:□有□无磁带机是否需要清洗:□需要□不需11. 通信:网卡的状态、IP地址、路由表等:□正常□不正常 网卡通信(ping):□正常□不正常/etc/hosts文件或DNS设置:□正常□不正常12. 系统DUMP设置是否正确:□正常□不正常13. HACMP 测试:Cluster Verification:□正常□不正常;相关参数设置检查:□正常□不正常(根据需要)接管测试:□正常□不正常14. 系统硬件诊断:系统板、CPU、内存、I/O板:□正常□不正常 网卡、SCSI卡、SSA卡:□正常□不正常系统其他扩展卡:□正常□不正常硬盘、磁盘阵列:□正常□不正常磁带机、磁带库:□正常□不正常15. 查系统参数是否正确:□是□否I/O pacing: High Water Mark/Low Water Mark:33/24Syncd:10Aio :available/etc/environment文件中TZ不应有夏时制Hacmp 系统中Power Monitor子系统应关闭16. 补丁程序(PTF)检查,现有补丁维护版本为_____:根据系统运行状况决定是否安装新的PTF。

AIX操作系统运行维护手册-Ver1.0

AIX操作系统运行维护手册-Ver1.0

AIX操作系统工作手册文件编号版 本0.1作成日2023年10月24日修订日发布日修 改 履 历序号版本修改日期章节号修改记录修改人批准人10.12023/10/23创建修游书目1引言 (5)1.1编写目的 (5)1.2适用范围 (5)1.3预期读者 (5)1.4文档说明 (5)2操作系统健康性检查 (6)2.1系统日志 (6)系统硬件错误日志检查 (6)系统全部错误日志检查 (7)系统错误日志Core_dump检查 (8)系统错误日志DELAYED_INT检查 (9)系统邮件日志内容检查 (9)系统邮件日志大小检查 (11)登录失败日志文件大小检查 (11)登录日志文件大小检查 (12)su日志文件大小检查 (13)异样终止的vi日志文件大小检查 (13)2.2系统性能 (14)系统CPU运用率检查 (14)查看占用CPU资源最多的进程 (17)系统内存运用率检查 (18)系统占用内存资源最多的进程 (20)系统磁盘繁忙程度检查 (22)2.3交换空间 (23)交换空间运用率检查 (23)2.4进程状态 (24)僵尸进程检查 (24)2.5网络状态 (24)网卡状态检查 (24)路由状态检查 (25)网络传输检查 (26)网络连接数量及状态检查 (30)主机解析检查 (32)2.6存储状态 (32)HBA卡状态检查 (32)2.7文件系统状态 (33)文件系统运用率检查 (33)文件系统挂载检查 (34)NFS文件系统挂载检查 (35)dump设备空间检查 (35)2.8逻辑卷状态 (36)Rootvg的剩余空间检查 (36)PV状态检查 (37)是否存在stale的pp检查 (37)2.9系统平安 (38)系统登录状况检查 (38)特权用户检查 (39)Su操作次数检查 (40)失败登录记录检查 (40)2.10双机状态 (41)双机心跳状态检查 (41)Hacmp.out日志检查 (42)Cluster.log日志检查 (42)双机节点状态检查 (43)2.11其它 (44)操作系统时间检查 (44)3操作系统异样快速排查规范 (44)3.1系统日志检查 (45)3.2CPU运用率检查 (45)3.3内存运用率检查 (45)3.4I/O运用率检查 (46)3.5网络检查 (46)3.6交换区检查 (47)3.7文件系统检查 (47)3.8双机检查 (48)1引言1.1编写目的为了保证项目组所运维系统的持续健康运行,降低操作系统的出错几率,并在出现问题时刚好且有效的进行排查、处理,故编写本手册。

AIX系统日常维护

AIX系统日常维护

AIX系统日常维护1.检查文件系统是否满检查方法:df –m 可以以兆为单位检查文件系统的使用率。

解决方法:如果文件系统的使用率达到90%以上,则需要扩大文件系统。

如果文件系统类型为jfs,使用命令smitty chjfs;如果文件系统类型为jfs2,使用命令smitty chjfs2。

检查周期:一周一次。

2.检查系统错误日志检查方法:使用errpt | more来检查系统生成的错误日志。

解决方法:如有错误生成,可使用errpt –aj 错误ID号,来查看错误的详细情况。

如果错误日志太长,可使用如下命令清除:errclear 0。

检查周期:一周一次。

3.检查系统合法/非法登陆情况检查方法:last命令可检查登陆信息。

如需查看root用户或从控制台终端的登陆和注销,可输入:last root console;如需查看系统两次重新引导间的时间,可输入:last reboot;如要显示所有在4月15日上午10:30仍登陆的用户,可输入:last –t 04151030;如只需显示列表中的十行,可输入:last –n 10。

检查周期:根据应用对安全性的要求决定检查周期。

4.检查系统是否有巨大的core文件生成检查方法:使用find / –name ‘core.*’–print来检查。

解决方法:对core文件,一般用rm命令直接删除。

检查周期:一月一次。

5.硬件检查检查方法:使用diag命令。

检查周期:一月一次。

6.系统性能检查a) CPU性能:使用vmstat,topas来检查。

b) 内存使用情况:也是使用topas,vmstat来检查。

c) 检查IO平衡使用情况:使用iostat来检查。

d) 内存交换页使用情况:使用lsps –a来检查。

机器性能优化主要从四个方面去考虑:CPU,内存,磁盘I/O,网络。

1,CPUsar命令可以使用sar命令来查看cpu的使用率。

ibm150:[/]#sar 1 5AIX ibm150 1 5 000AF70D4C00 01/24/0613:13:25 %usr %sys %wio %idle13:13:26 0 0 0 10013:13:27 0 0 0 10013:13:28 0 0 0 10013:13:29 0 0 0 10013:13:30 0 0 0 100Average 0 0 0 100%usr +%sys > 80%的时候CPU将是瓶颈ibm150:[/]#ps aux | head -4 查看前3位占用cpu的进程USER PID %CPU %MEM SZ RSS TTY STAT STIME TIME COMMANDroot 774 49.7 8.0 12 18052 - A 10:07:58 188:24 wait root 516 49.78.0 12 18052 - A 10:07:58 188:20 wait root 5688 0.1 0.0164 168 - A 10:09:13 0:21/usr/sbin/syncd 6%CPU表示进程使用cpu时间的百分比;%MEM表示进程使用实际内存的百分比ps –elf命令将查看进程的优先级别ibm150:[/]#ps -elfF S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY TIME CMD200003 A root 1 0 0 60 20 28034 1876 10:08:23 0:00 /etc/init240401 A root 2968 4502 0 60 20 2c376 2176 *10:10:230:00 /usr/sbin/rsct/bin/IBM.ServiceRMd40001 A root 3192 1 0 60 20 3417a 1472 10:09:00 -0:00 /usr/dt/bin/dtlogin -daemon240001 A root 3730 4158 3 61 20 321b9 2568 10:10:19 -0:20 dtgreetPRI值越小,优先级越大。

系统错误日志解析与修复

系统错误日志解析与修复

系统错误日志解析与修复在计算机系统运行过程中,错误日志是一种记录系统错误和异常情况的文件。

通过解析错误日志,我们可以及时发现和排查系统中存在的问题,并进行修复,以确保系统的正常运行。

本文将介绍如何解析系统错误日志并进行修复的方法和步骤。

一、错误日志的类型和含义系统错误日志包含了各种类型的错误和异常情况,我们需要先了解这些错误日志的类型和含义,才能准确地解析和修复问题。

1. 系统崩溃错误日志:记录了系统在运行过程中由于故障或软硬件问题导致的崩溃情况。

这些错误日志通常包含了崩溃的时间、进程信息、异常代码等信息,通过分析这些信息,我们可以了解崩溃原因,找出并修复问题。

2. 系统资源错误日志:记录了系统资源不足或错误使用导致的错误情况。

例如,内存溢出、磁盘空间不足等。

通过解析这些错误日志,我们可以了解哪些资源出现了问题,从而采取相应措施进行修复。

3. 网络连接错误日志:记录了系统在进行网络通信时出现的错误情况。

例如,连接超时、连接拒绝等。

通过分析网络错误日志,我们可以定位网络通信的问题,并采取相应措施进行修复,提高系统的稳定性和可靠性。

二、错误日志解析的方法和工具解析系统错误日志是一个复杂的过程,但是有一些常用的方法和工具可以帮助我们进行解析和定位错误。

1. 使用关键字搜索:错误日志通常包含了关键字或关键短语,通过对错误日志进行关键字搜索,我们可以快速定位相关的错误信息。

例如,在崩溃日志中搜索关键字“崩溃”或“异常”,可以找到与崩溃相关的异常信息。

2. 使用日志分析工具:有一些专门的日志分析工具可以帮助我们更方便地解析系统错误日志。

这些工具可以自动识别错误日志的格式,并提供可视化的界面和功能,帮助我们快速定位和修复问题。

例如,ELK Stack(Elasticsearch + Logstash + Kibana)是一个常用的日志分析工具套件,可以用于解析和分析大规模的错误日志。

三、错误日志修复的步骤和方法一旦我们定位了系统错误日志中的问题,就需要采取相应措施进行修复。

AIX错误0514-040

AIX错误0514-040

在阵列上划分lun 后,AIX 系统识别后磁盘状态为defined 状态:[root@aix214:/]#lsdev -c diskhdisk0 defined 06-08-02 Other FC SCSI Disk Drivehdisk1 Available 08-08-00-3,0 16 Bit LVD SCSI Disk Drivehdisk2 Available 06-08-02 Other FC SCSI Disk Drivehdisk3 Available 06-08-02 Other FC SCSI Disk Drive转换“Available”时报错:[root@aix214:/]#mkdev -l hdisk0Method error (/usr/lib/methods/cfgscsidisk):0514-040 Error initializing a device into the kernel.通过ODM 库查询磁盘信息:[root@aix214:/]#odmget -q"name=hdisk0" CuDv1 2 3 4 5 6 7 8 9 CuDv:name = "hdisk0"status = 0 ;;flag id=0chgstatus = 0ddins = "scsidisk"location = "06-08-02"parent = "fscsi0"connwhere = "1"PdDvLn = "disk/fcp/osdisk" [root@aix214:/]#odmget -q"name=hdisk2" CuDv (正常状态磁盘) 1 2 3 4 5 6 7 8 9 CuDv:name = "hdisk2"status = 1 ;;flag id=1chgstatus = 0ddins = "scsidisk"location = "06-08-02"parent = "fscsi0"connwhere = "2" PdDvLn = "disk/fcp/osdisk"解决方法:(清除ODM 信息)系统重新启动后:[root@aix214:/]#lsdev -c disk1 2 3 4 hdisk0Available 06-08-02 Other FC SCSI Disk Drive hdisk1Available 08-08-00-3,0 16 Bit LVD SCSI Disk Drive hdisk2Available 06-08-02 Other FC SCSI Disk Drive hdisk3 Available 06-08-02 Other FC SCSI Disk Drive @至此,问题解决!。

系统错误日志解读

系统错误日志解读

系统错误日志解读随着科技的发展,计算机系统在我们的日常生活中扮演着越来越重要的角色。

然而,正如任何一种机器都有可能出现故障一样,计算机系统也不例外。

当系统发生错误时,我们通常会通过查看错误日志来找出问题的根源。

然而,对于大多数人而言,错误日志可能充满了一大堆看似无法理解的代码和信息。

本文将尝试解读系统错误日志,帮助大家更好地理解和解决系统问题。

首先,让我们明确错误日志的作用。

错误日志是计算机系统记录错误和异常情况的一种方法。

当系统发生错误时,它会自动将相关的错误信息记录到错误日志中。

这些错误信息可能包括日期、时间、错误代码、错误描述以及引发错误的程序或进程等。

通过查看错误日志,我们可以了解系统在哪个环节出现了问题,并且可以使用这些信息来调试和修复错误。

然而,尽管错误日志提供了宝贵的信息,但对于普通用户而言,解读错误日志可能是一项挑战。

在错误日志中,我们通常会看到各种各样的错误代码和错误描述,例如"DLL文件缺失"、"访问权限被拒绝"、"内存溢出"等。

虽然这些错误信息给出了一些指示,但对于非专业人士来说,它们可能仍然是一片迷雾。

解读错误日志的关键在于理解错误代码和错误描述。

错误代码是计算机系统为不同类型的错误分配的一串数字或字母代码。

每个错误代码都有一个特定的含义,它可以告诉我们发生了什么类型的错误。

例如,错误代码"404"通常表示所请求的页面或文件不存在,而错误代码"500"则表示发生了服务器内部错误。

通过查找错误代码的含义,我们可以更准确地了解错误的本质。

除了错误代码,错误描述也是我们了解错误日志的重要信息之一。

错误描述通常是由错误代码和一段简短的文字组成,旨在更详细地描述错误的性质。

例如,对于403错误,错误描述可能是"访问被禁止,您没有权限查看此页面"。

这种描述可以帮助我们更具体地定位错误的来源和原因。

AIX常见故障报错及解决方案

AIX常见故障报错及解决方案

AIX 常见故障报错及解决方案大多数情况下,顺着报错顺藤摸瓜很快就能找出原因,但总有例外,有些报错信息或者日志恰恰让我们南辕北辙。

让我们看看这些案例最终是如何处理的……案例1:图省事,搞出来个大麻烦生产中心有几套VIOS环境,正常运行了1-2年,今日发现有2套进行健康性检查,发现执行命令就hang在哪里不动了,又是内存不够用了。

"0403-031 The forkfunction failed. There is not enough memory available."好奇怪,到底内存被谁用了,vios好端端的就这样了。

都这个样子,重启vios分区吧。

重启完,vios顺利登陆,执行健康性检查没啥问题,可是用nmon看了一下内存使用分配了4个G,使用1个多G,慢慢慢慢的就看到内存使用越来越大,不一会4个G就用完了,重启其他vios分区一个样子,连换页空间都用了。

顿时一头雾水。

到底发生了什么呢?生产中心有几套VIOS环境,正常运行了1-2年.突然出现这种问题,首先想到的是变更。

梳理了近期变更操作,近期新部署了PowerVC,VIOS进行了补丁升级。

VIOS2.1升级到VIOS2.2.3.首先,重启vios分区,在内存没有用完前赶紧检查那个进程使用的内存.排名第一的是vio_daemon,观察了一会发现内存一会就被他占用完了第二,元凶找到了,vio_daemon到底是干啥的,问问IBM800吧,IBM回复问我收集一下系统信息。

1.ioslevel2./etc/security/limits的输出反馈后,IBM告诉我,我遇到了bugvios版本和 /etc/security/limits stack = -1完全符合这个bug特征。

其实这个bug是可以避免的,我们大多数实施AIX的时候,很容易顺手把/etc/security/limits.都改成-1,在大多数情况下,没啥问题,但是就是在这个版本下就容易遇到这个问题。

aix_日常管理以及故障处理

aix_日常管理以及故障处理

aix_日常管理以及故障处理故障的处理RS6000 Admin & PD内容提要"日常管理"故障的处理"系统健康检查"查看硬件情况"检查设备故障灯,一般为橙色并有"有没有异常声响,如硬盘、风扇等。

"有没有破损的电缆等"查看系统故障信息"用errpt命令查看系统出错信息。

"用mail命令查看有否发给root用户的错误报告。

"查看其他的记录文件,如/tmp/hacmp.out。

"检查文件系统"查看有没有“满”的文件系统。

文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。

如/ (根文件系统)满则会导致用户不能登录。

"系统健康检查# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95%2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统,其他文件系统都不应太满,一般不超过80%。

处理方法1:删除垃圾文件# du -sk * |sort -rn |head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。

(要区分哪些目录是文件系统的mount point,哪些是文件系统的子目录)删除文件,释放空间。

有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。

只有当这个程序停止后空间才释放,有时甚至需要重起系统。

漫谈AIX 5L对于错误日志处理的增强功能

漫谈AIX 5L对于错误日志处理的增强功能

------------------------------------------------------------------------
LABEL:JFS_FS_FULL
Date/Time:Thu Jun 10 15:33:40 BEID
Type:INFO
Resource Name:SYSPFS
# errpt -a-j 369D049B
------------------------------------------------------------------------LABEL:JFS_FS_FULL
IDENTIFIER:369D049B
Date/Time:Thu Jun 10 15:33:40 BEID
Description
UNABLE TO ALLOCATE SPACE IN FILE SYSTEM
Detail Data
MAJOR/MINOR DEVICE NUMBER
002B 0001
FILE SYSTEM DEVICE AND MOUNT POINT
/dev/dblv01, /home/db2data
system shutdown,3)Power supply failure.
除此之外,AIX 5.2还提供了errresume服务。
例如,从上面这个例子看到,在系统电源切换到后备电池时发生了故障。在这时候,AIX电源监控接口内核代码调用errsave纪录电源故障。故障内容将被保留在NVRAM中(由于没有更多的错误要记录,NVRAM记录不会被覆盖),直到boot启动。但是此时如果在机器完全掉电前电源正常了,系统将会返回到正常操作状态。然而,由于前面调用了errsave,将停止记录错误日志。AIX 5.2新增的errresume服务可以让系统调用errsave后仍能够返回到正常纪录错误日志状态。Errresume通过检查错误日志子系统是否是活动的,以及是否已被errsave停止。如果错误日志子系统已经被停止,Errresume将返回到当时的标记,唤醒errdaemon读线索。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Memory Buffer Size 32768 bytes
Duplicate Removal true
Duplicate Interval 10000 milliseconds
Duplicate Error Maximum 1000
<aix53testos1>:/#
上面显示的错误日志文件是/var/adm/ras/errlog,这也是系统默认的错误日志的存放位置。
12081DC6 0226155109 P S harmad SOFTWARE PROGRAM ERROR
12081DC6 0226155109 P S harmad SOFTWARE PROGRAM ERROR
F7FA22C9 0224164009 I O SYSJ2 UNABLE TO ALLOCATE SPACE IN FILE SYSTEM
手动清除错误日志可以用smit errclear来删除错误记录
二、 查看错误日志:errpt命令
errpt命令可以说是AIX系统管理员最为熟悉的命令了。下面是一个errpt命令的输出:
<aix61haos1>:/#errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
BA431EB7 0226155209 P S SRC SOFTWARE PROGRAM ERROR
PEND 设备或功能组件可能丢失 简写P
PERF 性能严重下降 P
PERM 硬件设备或软件模块损坏,确诊了的 P
TEMP 临时性错误,经过重试后已经恢复正常 T
INFO 一般消息,不是错误 I
UNKN 不能确定故障 Hardware
S 软件故障 Software
O 人为操作 Operation
U 不能确定 Unknown
5. 资源名RESOURCE_NAME
最初检测到错误的资源名软件或者硬件,并不代表这个资源有问题,而只是最先在它发现的。
6.描述
具体的错误代表的意义可以打IBM的支持热线寻求帮助。
三、 日志的清理
AFA89905 0220140909 I O grpsvcs Group Services daemon started
97419D60 0220140909 I O topsvcs Topology Services daemon started
6D19271E 0220133009 I O topsvcs Topology Services daemon stopped
这里的输出分为六列依次为:
1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型TYPE:错误的类型,或者说严重的程度,共分为6种:
关于AIX系统错误日志的一些说明
内容提要:系统地介绍一下AIX的错误日志的报告机制以及一些参数的意义
说明:
一、 错误日志的工作机制
首先我们需要弄明白错误日志是怎么保存并被用户识别的。实际上在系统的某个功能模块检测到一个错误事件时,会把它记录到/dev/error设备中,并随后由错误日志进程errdemon从/dev/error文件中读取错误日志并最终写入/var/adm/ras/errlog中。
错误日志可以通过errclear命令进行清理。实际上,清理工作并不需要手工执行。在系统安装完成后,定时自动执行的脚本中会包含下面几行:
0 11 * * * /usr/bin/errclear -d S,O 30
0 12 * * * /usr/bin/errclear -d H 90
即:S,O 类的错误会保留30天,而H的错误会保留90天
具体与错误日志相关的一些设置可以通过/usr/lib/errdemon -l 命令来看到:
Error Log Attributes
--------------------------------------------
Log File /var/adm/ras/errlog
Log Size 106496 bytes
相关文档
最新文档