AIX系统检查步骤

合集下载

小型机、服务器内存和磁盘检查

小型机、服务器内存和磁盘检查

小型机、服务器内存和磁盘检查
一、内存检查占用率
1、小型机AIX系统查看内存占用
•vmstat命令查看
查看mem这项为总内存空间,fre这项除以4000为剩余内存空间,占比不宜超过80%
•nmon命令查看(topas)
输入nmon,在下一个界面按m,下图为当前内存占用情况,
图中圈起来的是当前内存使用比例,占比不宜超过80%
2、服务器LINUX系统查看内存占用
•free命令查看
mem这行为内存,swap这行为交换分区
total这列为总容量,used这列为使用容量,计算占比,即为内存使用率,占比不宜超过80%
•top命令查看
第四行Mem,total为总容量,used为使用容量,计算出来占比即为内存使用率,占比不宜超过80%
二、磁盘空间检查
1、AIX磁盘占用检查
第一步:查看%used这列,使用率有没有超过80%
如果有超过80%的,进入该目录查看,执行第二步、第三步,反复执行
2、LINUX磁盘占用检查
第一步:查看%used这列,使用率有没有超过80%
如果有超过80%的,进入该目录查看,执行第二步、第三步,反复执行
3、SC服务器磁盘占用清理1、2号线数据库备份清理,步骤如下
3号线SC数据库备份清理如下。

AIX系统巡检

AIX系统巡检

AIX系统的日常监控维护1、#df –k 如果占用率(%Iused)超过90%,则需要进行空间调整。

2、#errpt |more 命令分页查看系统出错日志(包括硬件与软件的出错信息)。

根据显示的信息判断系统硬件及软件的运行情况。

输入:errclear 0命令,清除现有的系统日志。

3、#last命令检查系统登陆情况#last,显示各个login用户(如:root等)登陆的信息。

如果发现有异常的登陆用户或者登陆IP,则进行相应安全性的检查及处理。

4、使用find / -name core –print命令检查是否有巨大的core文件生成在命令提示符“#”后输入:find / -name core –print,表示从系统根目录开始查找所有名为core的文件(巨大的core文件容易造成系统崩溃)。

如果存在,一般直接删除即可。

5、使用vmstat命令检查CPU及内存运行情况在命令提示符“#”后输入:vmstat 5,表示每隔5秒钟显示系统CPU及内存运行情况。

查看kthr(kernel运行队列中处于等待状态的进程数)字段的r(运行队列中的进程数)项的显示值,如果该数值是系统实际CPU数的4倍或4倍以上,则表示CPU占用率过高,需要考虑提高系统CPU工作频率;查看memory(虚拟和真实内存的使用信息)字段的fre(空闲页面的数量)项,如果数值低于120,则说明系统内存短缺。

有时候数值虽然高于120,也可以根据实际情况调整内存;查看page(页面活动的信息)字段的pi(从页面输入的页)、po(输出到页面的页)、fr(空闲的页面数)及sr(通过页面置换算法搜索到的页面数)项的值,这4个值一般都为0,有时候也有可能为1;最后查看cpu(cpu的使用率)字段的us(用户进程的时间)及sy(系统进程的时间)项的值,两项值的和应该不超过90%,否则说明CPU能力短缺。

6、使用lsps –a命令检查交换内存空间使用情况在命令提示符“#”后输入:lsps -a,查询交换内存空间使用情况。

检查AIX系统状态

检查AIX系统状态

一、检查AIX系统状态1、文件系统:df -k2、设备:lsdev -C3、磁盘(物理卷):lspv4、paging space:lsps -a5、配置:lscfg -vp6、软件:lslpp -l7、用户:who8、处理器个数:lsdev -C|grep proc9、内存大小:lsattr -El mem0二、关机1、shutdown使用wall命令提醒用户若干时间后关机;2、shutdown +22分钟后关机3、shutdown -Fr-r = 关机后重新启动三、错误记录1、显示错误:errpt2、显示详细的错误信息:errpt -a3、清空错误记录信息:errclear 0四、smit/smitty部分快捷菜单方式:#smitty tape#smitty user#smitty tcpip#smitty inet#smitty nfs#smitty jfs#smitty lvm五、关于卷组(smitty vg)1、显示卷组状态:列出卷组细节:lsvg <vgname>列出卷组中的逻辑卷:lsvg -l <vgname>列出卷组中的物理卷:lsvg -p <vgname>2、增加卷组:smitty mkvg3、修改卷组属性:smitty chvg4、激活卷组:varyonvg vg_name5、解除卷组:varyoffvg vg_name6、向卷组中增加一个物理卷:extendvg vg_name hdiskn注:extendvg命令用于向已存在的卷组增加新的物理卷,这个物理卷设备的状态必须是可用的(Available)。

7、从卷组中删除一个物理卷:reducevg [-d] vg_name hdiskn注:删除物理卷时其所在的卷组必须处于非活动状态,如果被删除的物理卷是卷组中仅存的一个,那么这个卷组同时也被删除。

六、关于物理卷(smitty pv)1、lspv列出物理卷名称:lspv列出物理卷细节:lspv hdiskN列出物理卷中的逻辑卷:lspv -l hdiskN列出物理卷中的物理分区分布:lspv -p hdiskN2、增加物理卷:cfgmgr /mkdev3、删除物理卷:rmdev七、关于逻辑卷(smitty lv)1、显示逻辑卷信息列出逻辑卷名称:lslv -l <vgname>列出逻辑卷细节:lslv <lvname>列出与逻辑卷相关的物理卷:lslv -l <lvname>列出物理卷中物理分区的分配:lslv -p <pvname>显示逻辑卷中LP(逻辑分区)与PP(物理分区)的对应:lslv -m <lvname> 2、增加逻辑卷#smitty mklv#mklv3、删除逻辑卷#smitty rmlv#rmlv4、设置逻辑卷属性#smitty lvsc# chlv5、增加逻辑卷拷贝:smitty mklvcopy6、删除逻辑卷拷贝:smitty rmlvcopy八、设备管理1、cfgmgr/mkdev:配置系统中新增设备。

AIX系统软硬件问题征兆及解决办法

AIX系统软硬件问题征兆及解决办法

第一部分、系统启动问题cfgmgr : configures devices and optionally installs device software into the systemlast : display all the previous logins and logoffs that still have entries in /var/adm/wtmp file uptime : show how long the system has been up要在maintenance mode作installing new or updated software and running diagnostic checksalog : trace the boot process and find out if sht went wrong,alog命令调用rc.boot脚本将启动信息导入/var/adm/ras/bootlog中# alog -L 显示定义在alog Database中的logs# alog -o -t 显示启动日志cfgmgr命令:在系统启动阶段,cfgmgr命令配置对使用系统必须的所有设备系统启动包括两个阶段:阶段一:cfgmgr –f 一旦系统启动就不能运行了阶段二:cfgmgr –s ( second boot phase for normal boot )阶段三:cfgmgr –p ( second boot phase for service boot )# cfgmgr –i /usr/sys/inst.images 该命令尝试自动安装设备的软件FOR 新检测到的设备-I 选项指定安装的媒质在哪里在此处有一个seq field ,该field 是一个整数指定了优先权,值越小,优先级越高,0的优先级最低,1的优先级最高# cfgmgr –l scsi0 ( 配置检测到的连接到SCSI0适配卡的设备)-如果你想查找root用户什么时候logged on and off from the console# last root console如果你想决定系统上次shutdown是什么时候# last shutdown为了显示一个启动列表# bootlist –m normal –o如果你想改变你的启动列表# bootlist –m normal fd0 hdisk0 cd0注意:加到bootlist的每一个设备必须处于Avalable的状态如果你怀疑你的系统被shutdown或restarted,你可以使用uptime命令去查明,uptime命令显示系统已经运行了多长时间# mpcfg –df To find out what the status is of your diagnostic flags# mpcfg –cf 11 1 如果你想Fast IPL system,你可以改变diagnostic flag的值注意:mpcfg 和service information相关shutdown-v 或–h Halt the operating system completely-k Avoids shuting down the system-m Bring the system down to maintenance mode-I specifies interactive mode , Display interactive messages to guide the user through the shutdown注意:/etc/rc.shutdown文件由/usr/sbin/shutdown script调用来关闭在关机的时候想中断的进程,该文件的必须是可执行的才能被正确调用安装媒质有问题的征兆:1、安装时意外挂起2、无法从介质读数据3、意外重起如果安装媒质没有问题的话,在你的系统中两个设备可能共享相同的SCSI地址LED Error CodeLED 201 --- Damaged boot image解决方法:1、访问你的rootvg ( 进入system maintenance 模式)2、检查/ 和/tmp文件系统,看看他们是否已经满了,如果是创建更多的空间3、决定bootdisk 通过用命令lslv –m hd54、重新创建boot image 使用bosboot –a –d /dev/hdisk05、检查CHECKSTOP errors in the error log , 如果这样的错误发现的话可能是失败的硬件6、关机重起LED 223-229 --- Invalid boot list1、决定启动磁盘lslv –m hd52、创建新的bootlist 使用bootlist命令LED 551,555,and 557 --- Errors Including corrupted file system and corrupted JFS log1、进入维护模式access rootvg before mounting and file system2、fsck –y /dev/hd1fsck –y /dev/hd2fsck –y /dev/hd3fsck –y /dev/hd4fsck –y /dev/hd9var3、再次Format the JFS log/usr/sbin/logform /dev/hd84、使用lslv –m hd5 去决定boot disk5、重新创建boot imagebosboot –a –d /dev/hdisk0LED 552,554,and 556 --- Super block corrupted or corrupted customized ODM database Fsck1、Repeat steps 1 and 2 for LEDs 551 555 and 5572、If fsck inidicates that block 8 is corrupted, the super block for the file system is cororupted andneeds to be repaired , Enter the command :Dd count=1 bs=4k skip=31 seek=1 if=/dev/hdn of=/dev/hdn3、rebuild your JFS log by using the command :/usr/sbin/logform /dev/hd84、if this solves the problem, stop here &#59; otherwise ,continue with step 55、Your ODM database is corrupted ,restart your system and 进入maintenance mode6、Mount the root and usr file systemMount /dev/hd4 /mntMount /usr7、copy system configuration to a backup directorymkdir /mnt/etc/objrepos /backupcp /mnt/etc/objrepos/Cu* /mnt/etc/objrepos /backupLED 553 --- corrupted /etc/inittab file1、进入系统维护模式2、检查/ /var /tmp 使用df命令3、检查/inittab文件4、检查execution problems/etc/environment/bin/sh/bin/bsh/etc/fscketc/profile/.profile5、shutdown and reboot第二部分、硬件相关为了列出系统中的磁带(盘),使用# lsdev –C –c tape(disk)列示在预定义ODM数据库中的设备# lsdev –P –H列示在定制定义ODM数据库中的设备# lsdev –C –H# lspv 显示在系统中的每一个PV along with its physical disk name ,PVID,and with VG it belongs to.# lspv pvname 仅仅显示该PV的信息eg: # lspv hdisk0# lspv –p hdisk0 列示range , state , region , LV name , type , and mount point for each PP on the PVcfgmgr 配置设备在软件层SMS检查和配置系统在硬件层如何进入SMS:1、关机2、如果需要的话插入SMS 软盘,启动机器3、Press F1 得到一个图形化的SMS菜单或Press F4去得到一个ASCII SMS菜单(要眼疾手快)你可以改变访问的口令在SMS菜单,从而只有授权的人才可以访问SMS工具,但如果你忘了这个口令,唯一的解决方法是给主板放电(将电池拿掉)当显示一个定制设备的有效属性时,信息的获得是从Configuration daabase 而不是设备本身,一般来说,chdev with –P or –T flag 将刷新设备的配置,如果没有的话,lsattr 命令显示设备的信息有可能是不准确的,一直到重起后·# lsattr –El rmt0 显示磁带的当前的属性·# lsattr –l rmt0 –D 显示磁带默认的属性·# lsattr –l scsi0 –a bus_intr_lvl –E·# lsattr –l tty0 –a login –R To list possible values of the login attribute for the TTY device tty0# smitty devices 该命令可以使用smit菜单1、安装或配置设备(在IPL之后)2、删除设备3、列示存在的设备4、改变或显示设备的属性5、执行设备相关的问题的决定# /usr/lib/errdemon 启动errdemon# /usr/lib/errdemon –l 决定系统错误日志文件的路径# errpt 产生错误报告# errpt –a # errpt –a –s 0828093001# errpt –a –j AA8AB241(最后为error identifier )# errloger 命令允许你记录管理员的信息到系统错误日志中# diag 执行硬件问题诊断AIX使用syslogd记录系统的信息,在这里有一个/etc/syslog.conf配置文件,该文件控制syslogd进程的行为,系统日志应该被升级通过编辑/etc/syslog.conf文件,在你编辑并增加了条目在/etc/syslog.conf文件,你需要重新启动syslogd进程# smitty tty 增加一个TTY第三部分、系统和软件的安装为了安装BOS,应该启动系统进入Maintenance mode三种安装方法的区别:(1)New and Complete Overwrite Installation情形一、一台新的机器情形二、你想安装到那个硬盘(包含在一个已经存在的卷组)你想完全覆盖掉,或者rootvg 已经损坏情形三、你想重新分配你的硬盘,使你的rootvg更小,分配少些磁盘空间给它安装后要使用Configuration Assistant application手工配置系统相关设置,该程序也可以手工运行,/usr/sbin/install_assist(2)Migration Installation (升级安装)使用该安装方法去升级AIX 3.2 4.1 4.2 4.3 To AIX 5L Version 5.1 升级时保留了已经存在的rootvg卷组,除了/tmp,该方法保留了所有的文件系统,包括rootvg,lv和系统配置文件,同时保留了用户配置文件。

aix系统日常维护

aix系统日常维护
当系统运行发现错误时,SRNs码(Service request numbers,服务请求码)会以xxx-xxx的形式显示在显示面板上,同时在AIX的errorlog中也会进行登记;当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的errorlog中会登记相应错误信息,在出现问题后记录下代码,并告之IBM公司解决。
(1)系统故障记录
errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息,故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析,使用errpt 命令(普通用户权限也可使用)。
#errpt |more 列出简短出错信息
#errpt -d H 列出所有硬件出错信息
1.系统用户的最大登录数maxlogin
maxlogin的具体大小可根据用户数设定,可以通过smitty chlicense命令修改,该参数记录在/etc/security/login.cfg文件中,修改在系统重新启动后生效。
2.系统用户的limits参数
这些参数位于/etc/security/limits文件中,可以把这些参数设为-1即无限制,可以用vi修改/etc/security/limits文件,所有修改在用户重新登录后生效。
(2)系统错误报告。
(3)检查是否有发给root用户的错误报告。
(4)检查hacmp.out,smit.log,boot.log。
(5)关键系统的文件使用率不大于80%。
(6)逻辑卷有否stale。
(7)内存交换区使用率是否超过70%。
(8)内存交换区的大小是否为物理内存的1.5倍。

AIX日常巡检命令 巡检命令

AIX日常巡检命令 巡检命令

AIX日常巡检命令巡检命令2016年12月1日17:02AIX日常巡检命令巡检命令:1.oslevel -s查看系统版本号2.hostname 查看主机名称3.nmon 查看序列号,系统内核位数4.lscfg -vp |grep -p PLATFORM 查看系统微码lscfg -vp |grep -p Systemlscfg -vp 查看所有硬件设备微码5.alog -o -t boot 查看系统上次启动的日志6.uptime 时间运行时间与系统的负载st reboot 查看系统上次重启的时间8.diag检查系统硬件运行情况9.lspv 查看卷组镜像10.df -g 查看文件系统使用信息,-g以GBytes为单位,-m以MBytes为单位,-k以KBytes为单位11.lsfs 列出所有文件系统12.mount 列出挂载的文件系统13.bootinfo -y 查看机器硬件位数,bootinfo -K 查看AIX系统内核位数,bootinfo -r 查看物理内存大小14.prtconf 查看系统的所有信息15.errpt 查看系统错误日志16.mail发送给root用户的错误报告17.more /tmp/hacmp.out and smit.log and alog –o –t boot 检查hacmp.out,smit.log,bootlog等lssrc -g cluster检查HA18.lsvg -l rootvg或lsvg rootvg查看逻辑卷的状态,是否有“stale”状态19.lsps -a或lsps -s查看paging space的使用信息stat -in显示IP地址,netstat -rn显示路由表信息,netstat -i网卡21.sysdumpdev -l 查看DUMP设置22.ps -ef |grep err 和ps -ef |grep src 检查errdemon,srcstr运行状态23.instfix -i|grep ML 查看补丁级别及是否完整分区 脚本 的第1 页。

Aix操作系统安全测评指导书

Aix操作系统安全测评指导书

对重要程序定期进行完整性检测,并保存 备份。
系统最小安装并更新
系统遵循最小安装和及时更新的原则。
安装防范软件并升级 8 恶意代码防范
安装杀毒软件,并合理配置。
第 4 页,共 6 页
序号 8
测评指标 恶意代码防范
测评项 主机和网络防范软件代 码库不同 支持统一管理
检测方法 访谈: 询问系统管理员网络防病毒软件和主机防病毒软件分别采用什么病毒库。 访谈: 询问系统管理员是否采用统一的病毒更新策略和查杀策略。
3
强制访问控制
覆盖范围:主体、客体 、操作
手工检查: 粒度:主体为用户级客 应检查服务器操作系统和主要数据库系统文档,查看强制访问控制是否与用户身 符合强制访问要求,且有明确配置或文档 体为文件、 数据库表级 份鉴别、标识等安全功能密切配合,并且控制粒度达到主体为用户级,客体为文 。 件和数据库表级。 手工检查: 1)在 root 权限下,查看系统日志服务 #ps -ef | grep syslog, 和审计服务 #/usr/sbin/audit query, 记录日志服务和安全审计服务是否正常。 2)若有第三方审计工具或系统则记录其运行状态是否正常。
序号
测评指标
测评项
检测方法
预期结果
6
剩余信息保护
彻底清除用户鉴别信息
访谈,核查: 访谈系统管理员,并检查 AIX 操作系统维护手册: 用户鉴别信息被彻底清除。 查看其是否明确用户的鉴别信息存储空间,被释放或再分配给其他用户前的处理 方法和 过程。 手工检查: 检查 AIX 操作系统维护手册: 用户敏感信息被彻底清除。 系统内的文件、目录等资源所在的存储空间,被释放或重新分配给其他用户前的 处理方法和过程。 访谈: 访谈系统管理员,是否对主机的 CPU、硬盘、内存、网络等资源的使 用情况进行监视,并给出资源使用历史记录。 手工检查: cpu 性能:使用 vmstat,topas 来检查内存使用情况: 也是使用 topas,vmstat 来检查 检查 io 平衡使用情况: 使用 iostat 来检查 交换空间使用情况:使用 df -k 来检查 访谈: 系统资源阀值告警。 访谈: 非法进程监视和控制。 访谈: 监视和管理账户变化。 访谈,手工检查: 1.访谈并查看入侵检测的措施,如经常通过如下命令查看入侵的重要线索,涉及 命令 #who /etc/security/failedlogin; 2.查看是否开启了防火墙、TCP SYN 保护机制等设置; 3.是否具备 rootkit 检查工具,定期进行 rootkit 检查; 4.询问是否有第三方入侵检测系统,如 IDS,是否开启报警功能。 访谈,核查: 访谈是否使用一些文件完整性检查工具对重要文件的完整性进行检查,是否对重 要的配置文件进行备份。查看备份演示。 访谈: 1)访谈系统管理员系统目前是否采取了最小安装原则。 2)记录系统中多余和危险服务,记录系统补丁升级方式和已安装的最新补丁名称 。 访谈,核查: 防病毒软件,病毒库更新是否及时,更新周期,是否强制安装。

AIX常用的系统状态查询命令

AIX常用的系统状态查询命令
列出已加载的逻辑卷及其加载位置。
# uname -a
列出系统ID号,系统名称,OS版本等信息。
# hostname
列出系统网络名称。
# lsvg –l rootvg,lsvg –p rootvg
显示逻辑卷组信息,如包含哪些物理盘及逻辑卷等。
# lslv –l datalv,lslv –p datalv
cd / -will put in root DIR
cd /xxxx -change you to a DIR anywhere is system
cd .. -will drop you out of 1 DIR at a time
cd xxxxx -will change you to a DIR in current dir
显示逻辑卷各种信息,如包含哪些盘,是否有镜像等。
八网络故障定位方法
网络不通的诊断过程:
ifconfig查看网卡是否启动(up)
netstat–i查看网卡状态
Ierrs/Ipkts和Oerrs/Opkts是否>1%
pinห้องสมุดไป่ตู้自己网卡地址(ip地址)
ping其它机器地址,如不通,在其机器上用diag检测网卡是否有问题。
mpcfg -df -list all setting the machine is set to (smp)
mpcfg -cf 11 1 -changes to fast IPL on SMP machines (smp)
mv fn (path fn) -move and rename a file
lsdev -Cs pci -list pci devices
lsdev -Cs isa -list isa devices

AIX操作系统运行维护手册-Ver11

AIX操作系统运行维护手册-Ver11

AIX操作系统工作手册修改履历目录1引言 (4)1.1编写目的 (4)1.2适用范围 (5)1.3预期读者 (5)1.4文档说明 (5)2操作系统健康性检查 (5)2.1系统日志 (6)2.1.1系统硬件错误日志检查 (6)2.1.2系统所有错误日志检查 (7)2.1.3系统错误日志Core_dump检查 (8)2.1.4系统错误日志DELAYED_INT检查 (8)2.1.5系统邮件日志内容检查 (9)2.1.6系统邮件日志大小检查 (10)2.1.7登录失败日志文件大小检查 (11)2.1.8登录日志文件大小检查 (11)2.1.9su日志文件大小检查 (12)2.1.10异常终止的vi日志文件大小检查 (13)2.2系统性能 (13)2.2.1系统CPU使用率检查 (13)2.2.2查看占用CPU资源最多的进程 (17)2.2.3系统内存使用率检查 (17)2.2.4系统占用内存资源最多的进程 (19)2.2.5系统磁盘繁忙程度检查 (21)2.3交换空间 (23)2.3.1交换空间使用率检查 (23)2.4进程状态 (23)2.4.1僵尸进程检查 (23)2.5网络状态 (24)2.5.1网卡状态检查 (24)2.5.2路由状态检查 (25)2.5.3网络传输检查 (26)2.5.4网络连接数量及状态检查 (29)2.5.5主机解析检查 (31)2.6存储状态 (31)2.6.1HBA卡状态检查 (31)2.7文件系统状态 (32)2.7.1文件系统使用率检查 (32)2.7.2文件系统挂载检查 (33)2.7.3NFS文件系统挂载检查 (34)2.7.4dump设备空间检查 (34)2.8逻辑卷状态 (35)2.8.1Rootvg的剩余空间检查 (35)2.8.2PV状态检查 (36)2.8.3是否存在stale的pp检查 (36)2.9系统安全 (37)2.9.1系统登录情况检查 (37)2.9.2特权用户检查 (38)2.9.3Su操作次数检查 (38)2.9.4失败登录记录检查 (39)2.10双机状态 (40)2.10.1双机心跳状态检查 (40)2.10.2Hacmp.out日志检查 (41)2.10.3Cluster.log日志检查 (41)2.10.4双机节点状态检查 (42)2.11其它 (42)2.11.1操作系统时间检查 (42)3操作系统异常快速排查规范 (43)3.1系统日志检查 (43)3.2CPU使用率检查 (44)3.3内存使用率检查 (44)3.4I/O使用率检查 (45)3.5网络检查 (45)3.6交换区检查 (46)3.7文件系统检查 (46)3.8双机检查 (47)1引言1.1 编写目的为了保证项目组所运维系统的持续健康运行,降低操作系统的出错几率,并在出现问题时及时且有效的进行排查、处理,故编写本手册。

信息系统故障排查流程

信息系统故障排查流程

信息系统故障排查流程一、收集信息1.了解故障现象首先需要了解系统出现故障的具体表现,包括出现错误代码、系统卡顿、无法访问等现象。

这些信息可以帮助排查故障的原因。

2.收集系统配置信息收集系统的配置信息,包括硬件配置、软件版本、网络配置等。

这些信息对于故障排查非常重要。

3.查看系统日志查看系统的日志文件,了解系统在故障发生时的运行情况,可以帮助快速定位问题。

4.收集用户反馈收集用户在系统故障时的反馈信息,包括用户遇到的具体问题和现象。

这些信息可以帮助更准确地定位问题。

二、初步分析1.确定故障范围根据收集到的信息,确定系统故障的具体范围,是硬件故障还是软件故障,还是网络故障等。

2.制定排查策略根据故障的范围和信息,制定相应的排查策略,确定具体的排查方向。

三、故障排查1.硬件排查a.检查硬件连接检查硬件设备的连接是否正确,包括电源、数据线等。

b.检查硬件设备状态检查硬件设备的状态,包括是否有灯亮、是否有异常声音等。

c.更换硬件设备如果确定是硬件设备故障,及时更换故障的设备。

2.软件排查a.检查软件配置检查系统的配置是否正确,包括数据库配置、应用服务器配置等。

b.检查软件版本检查软件版本是否过时,是否需要升级。

c.检查软件日志查看系统日志,了解系统运行时的情况。

3.网络排查a.检查网络连接检查网络连接是否正常,包括网线连接、路由器状态等。

b.检查网络设置检查网络配置是否正确,包括IP地址、子网掩码等。

c.检查网络带宽检查网络带宽是否足够,是否出现网络拥堵等问题。

四、问题解决1.根据排查的结果,采取相应的措施解决问题,修复系统故障。

2.在修复问题后,测试系统是否正常运行,确保问题已经解决。

五、总结经验1.对于解决故障的过程进行总结,收集经验教训,以便今后遇到类似问题时,能够更快速地解决。

2.定期对系统进行检查和维护,防止系统出现故障。

以上是信息系统故障排查的流程,希望对企业在遇到系统故障时能够提供帮助。

信息系统的稳定和顺畅运行对于企业的发展至关重要,因此出现故障时应该及时处理,以保证企业的正常运营。

AIX 操作系统安全配置要求及操作指南

AIX 操作系统安全配置要求及操作指南

补丁
1
应根据需要及时进行补丁装 载。对服务器系统应先进行 兼容性测试。
1
设备应配置日志功能,对用 户登录进行记录,记录内容 包括用户登录使用的账号, 登录是否成功,登录时间, 以及远程登录时,用户使用 的IP 地址。
日志
2(可选)
启用记录cron行为日志功能 和cron/at的使用情况
3
设备应配置权限,控制对日 志文件读取、修改和删除等 操作。
1、参考配置操作 修改配置文件 vi /etc/syslog.conf,加上这几行: \t\t/var/adm/authlog *.info;auth.none\t\t/var/adm/syslog\n" 建立日志文件,如下命令: touch /var/adm/authlog /var/adm/syslog chown root:system /var/adm/authlog 重新启动 syslog 服务,依次执行下列命令: stopsrc -s syslogd startsrc -s syslogd AIX 系统默认不捕获登录信息到syslogd,以上配置增加了验证信 息发送到/var/adm/authlog 和/var/adm/syslog 2、补充操作说明 1、参考配置操作 cron/At的相关文件主要有以下几个: /var/spool/cron/crontabs 存放cron任务的目录 /var/spool/cron/cron.allow 允许使用crontab命令的用户 /var/spool/cron/cron.deny 不允许使用crontab命令的用户 /var/spool/cron/atjobs 存放at任务的目录 /var/spool/cron/at.allow 允许使用at的用户 /var/spool/cron/at.deny 不允许使用at的用户 使用crontab和at命令可以分别对cron和at任务进行控制。 #crontab -l 查看当前的cron任务 #at -l 查看当前的at 任务

AIX系统常用命令)

AIX系统常用命令)

AIX 5L Version 5.3 可在当前受支持的所有基于共用硬件参考平台(Common Hardware Reference Platform,CHRP)的 POWER 硬件上运行。
如何知道我的计算机是否基于 CHRP?
运行prtconf命令。如果是 CHRP 计算机,则字符串chrp会出现在 Model Architecture 行上。
/unix -> /usr/lib/boot/unix_up # 32 bit uniprocessor kernel /unix -> /usr/lib/boot/unix_mp # 32 bit multiprocessor kernel/unix -> /usr/lib/boot/unix_64 # 64 bit multiprocessor kernel
b) 要将文件移动到另一个目录,且不改变名字,请输入:# mv chap3 manual按下 Enter 键。
该命令将 chap3 移动到 manual/chap3.用 mv 命令重命名文件可以使用 mv 命令改变文件的名字而不将其移动到另一目录。
c) 要重命名文件,请输入:# mv appendix apndx.a按下 Enter 键。
lslv -m hd5
注意:
在 AIX 5.2 中,缺省安装的是 32 位内核。在 AIX 5.3 中,缺省情况下会在 64 位硬件上安装 64 位内核,在 32 位硬件上安装 32 位内核。
硬件
如何知道我的计算机是否能够运行 AIX 5L Version 5.3?
该命令将 appendix 文件重命名为 apndx.a.如果名为 apndx.a 的文件已存在,则旧的内容被 appendix 文件的内容替换。

AIX系统硬件故障定位

AIX系统硬件故障定位

一般情况下只有当黄灯亮,tivoli报警的时候我们需要查看Aix系统1.查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。

当指示灯的状态不正常时,需要引起注意。

比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。

2.使用errpt查看输入errpt |more查看最新的错误日志,以下是例子IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON192AC071 010******* T O errdemon ERROR LOGGING TURNED OFFC092AFE4 010******* I O ctcasd ctcasd Daemon StartedA6DF45AA 010******* I O RMCdaemon The daemon is started.9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON192AC071 010******* T O errdemon ERROR LOGGING TURNED OFF369D049B 010******* I O SYSPFS UNABLE TO ALLOCATE SPACE IN FILE SYSTE1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。

2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。

3.类型TYPE:错误的类型,或者说严重的程度。

2.类型TYPE:错误的类型,或者说严重的程度。

分为6个:PEND 设备或功能组件可能丢失简写PPERF 性能严重下降PPERM 硬件设备或软件模块损坏,确诊了的PTEMP 临时性错误,经过重试后已经恢复正常TINFO 一般消息,不是错误IUNKN 不能确定错误的严重性U一般情况下我们只需要关注类型为P的错误当发现此类错误的时候,执行errpt –aj|more错误号#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息就可以列出详细错误清单,根据详细错误清单上的信息跟ibm工程师联系,并提供错误信息里面的相关内容来定位问题所在3.执行diag命令查看当服务器未亮黄灯并有硬件报错的时候,我们需要使用diag命令进行系统全面诊断,注意diag 命令需要用root用户执行> 选高级诊断(Advance Diagnostic)> 选问题诊断(Problem Determination)或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)如果有提问是否查看历史纪录,选择yesdiag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。

AIX维护大全分享(十二)

AIX维护大全分享(十二)
(在SMS 中还可以更改系统启动顺序表)
5) MAIL
#mail
系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。
6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。
当发现有硬件故障时应立即使用diag
#diag
AIX维护大全分享(十二)
AIX维护, AIX
第 46 楼:关于AIX系统文件安全性方面的几点考虑
这篇文章主要讨论在AIX系统上如何检查文件、目录和可执行程序的安全性,以防止可能的安全方面的隐患。
1. 删除垃圾文件 Байду номын сангаас
很多程序运行完毕后,会在/tmp目录下留下很多的垃圾文件。AIX系统提供一个命令skulker,它可以删除/tmp目录下的a.out文件、core文件和ed.hup文件。具体的命令执行方式为:
VPD: <--- Virtal Product Data
Device Driver Level.........00
Diagnostic Level............00
Displayable Message.........SCSI
EC Level....................C25928
# find / -perm -2000 -user 0 -ls
保存上面命令的输出结果。定时运行这两条命令,并与保存的结果相比较,看是否有未知的文件出现,以杜绝可能的安全隐患。
5. 管理cron和at运行的后台作业
必须做如下内容:
- 确认只有root用户在cron.allow和at.allow文件里。

(零收费)AIX系统日常维护与故障的解决

(零收费)AIX系统日常维护与故障的解决

0104143100 T S SYSPROC
9DBCFDEE
0104143300 T O errdemon
192AC071
0104143000 T O errdemon
C60BB505
0104105800 P S SYSPROC
参数详解
标识‘’:错误归类 :硬件 :软件 :系统信息已经记录 :不能确定 标识‘’:错误类型 (并且为):显示系统遇到硬件问题并且无法自动修复 (并且为):系统硬件变为不可用并引起一系列错误系统 (并且为):显示系统遇到软件问题并且无法自动修复 (并且为):显示系统遇到软件问题并且已经自动修复
2CCF66F7
0105111300 T H bl0
2BFA76F6
0105111100 T S SYSPROC
9DBCFDEE
0105111300 T O errdemon
192AC071
0104174500 T O errdemon
2CCF66F7
0104143300 T H bl0
2BFA76F6
检查内存交换区( )使用率 使用率不要超过。 增加交换区,或增加内存。 观察内存大小的命令: –

系统管理日常健康检查与监控
网络检查 查看网卡状态 和 是否> 注:是指从这个网卡发出去错误包数目的统计
是指从这个网卡发出去的包个数的统计。 看它们是否>应该是指网络质量好坏。 查看是否通和是否有丢包。 路由表 查看路由表是否正确, 各路由器是否通。 核对主机名
系统管理日常健康检查与监控
检查文件系统 查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,

AIX系统检测

AIX系统检测

AIX系统性能监控vmstat:报告关于内核进程,虚拟内存,磁盘,cpu的的活动状态的工具主要有几个用法:1.vmstat 间隔测试数量输出如下kthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa0 0 26258 18280 0 0 0 7 20 0 127 227 64 1 2 96 1其中:kthr--内核进程的状态--r 运行队列中的进程数,在一个稳定的工作量下,应该少于5--b 等待队列中的进程数(等待I/O),通常情况下是接近0的.memory--虚拟和真实内存的使用信息--avm 活动虚拟页面,在进程运行中分配到工作段的页面空间数.--fre 空闲列表的数量.一般不少于120,当fre少于120时,系统开始自动的kill进程去释放free listpage--页面活动的信息--re 页面i/o的列表--pi 从页面输入的页(一般不大于5)--po 输出到页面的页--fr 空闲的页面数(可替换的页面数)--sr 通过页面臵换算法搜索到的页面数--cy 页面臵换算法的时钟频率faults--在取样间隔中的陷阱及中断数--in 设备中断--sy 系统调用中断--cs 内核进程前后交换中断cpu--cpu的使用率--us 用户进程的时间--sy 系统进程的时间--id cpu空闲的时间--wa 等待i/o的时间一般us+sy 在单用户系统中不大于90,在多用户系统中不大于80. wa时间一般不大于40.aix CPU 性能监视CPU 性能监视处理单元是系统中最快的组件之一。

在某一时间对单个程序来说保持100% 的CPU 占用率(也就是说,空闲0%,等待0%)超过几秒钟是相对少见的。

IBM-AIX-系统性能检测

IBM-AIX-系统性能检测

进程,线程:#vmstat要显示2 秒时间间隔的 5 个摘要,请输入:vmstat 2 5Kthr:r:当前在队列中等待执行的线程数。

b: 当前队列中处于等待状态的线程。

(i/o引起)memory:avm: active memory,等于当前使用的物理内存和使用的交换区的总数减去作为文件系统缓存的物理内存,单位为4KB,即一个内存页。

fre:空闲的物理内存,单位为4KB。

page:re: pi/po,数值长期趋于1,并且pi,po都很大,说明系统有可能有抖动(thrash)的现象,内存可能严重不足。

pi: 在vmstat两次检查间隔期间,系统将磁盘交换区读回物理内存页的数量.通常是内存不够的表现.po: 在vmstat两次检查间隔期间,系统将物理内存页交换到磁盘的数量。

fr: 间隔期间内,有多少不使用的物理内存被释放,也可能被交换到磁盘sr:间隔时间内,由于有内存使用申请,而物理内存不足,进行内存页搜索的页数。

cy: 进行内存搜索,清理消耗的时钟周期。

faults:in:中断次数.sy:间隔期间内,系统调用次数.cs:上下文切换.cup:us: 系统中用户操作所占CPU时间百分比。

sy: 系统中系统调用所占CPU时间百分比。

id:系统中CPU空闲时间百分比。

wa:系统中等待磁盘IO所占时间百分比。

(此时CPU闲置)监视系统重要活动#topas如果topas 命令调用时没有标志,则运行时正如用以下命令行来调用:topas -d20 —i2 -n20 —p20 -w20 -c20—d指定要受监视的磁盘数目。

-i以秒为单位设置监视时间间隔.缺省值为2 秒。

—n指定要受监视的热网络接口的数目.-p指定要受监视的热进程数目。

—w指定要受监视的热工作负载管理(WLM)类的数目.-c指定要受监视的热CPU 的数目。

缺省输出如下所示,包含两个固定部分和一个可变部分。

显示器左边的最上方两行显示了topas 命令运行所在的系统的名称、上次查看的日期和时间以及监视时间间隔。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、脚本文件上传1.将脚本文件通过FTP以文本方式(asc)上传到AIX服务器的/tmp目录下。

# ftp aix_server_ip //以ftp方式登录到AIX服务器上# 根据系统提示输入用户名和密码# asc //以ascii方式上传文件# cd /tmp //进入tmp目录# put script_file_name //将文件上传到tmp目录中# ls //检查文件是否已经成功上传2.以管理员用户登录系统,或者以普通用户登录系统,然后以su切换到管理员用户。

3.将脚本文件的权限更改为可执行。

# cd /tmp# chmod 777 script_file_name4.执行脚本。

# ./script_file_name此脚本所抓文件能检查《Unix服务器安全配置检查表》中的1,2,3,4,6,7,8,10,14项,对于第9项,根据最新的消息,可忽略。

对于5,11,12,13需要询问操作系统系统管理员或登录系统检查。

二、通用检查项目1.AIX操作系统版本和补丁版本检查命令# instfix –i|grep ML //检查操作系统补丁号目前4.3.3版本最高补丁号是12,目前5.1版本最高补丁号是9,目前5.2版本最高补丁号是8,目前5.3版本最高补丁号是4。

对于AIX系统来说,并不是补丁版本越高越好,有时候客户需要根据自己应用的情况升级补丁,有些补丁还可能与用户的应用冲突,所以即使用户补丁并非是最新版本,也不是很大的问题,我们只需要给客户指出目前补丁状况,由客户自行决定是否需要升级脚本文件会为这一点生成一个文件1_aixpatch从上面的抓屏可以看到,这个系统的操作系统版本是5.2,补丁版本是03. 或使用下列命令查看#oslever –r下列命令可以查看文件系统()#lsfs2.检查mount上的文件系统# mount //这条命令会列出目前系统中所有已经被mount上的文件系统,vfs列将列出目前被mount上的文件系统类型。

从上面的抓屏可以看到,这个系统里面大部分文件系统是jfs2类型的,而/proc文件系统是procfs类型的。

脚本文件会为这一点生成一个文件2_mount3.检查系统中所有用户帐号和密码情况AIX中所有用户帐号保存在/etc/passwd文件中,shadow 信息保存在/etc/security/passwd文件中,可以直接通过以下命令打开这两个文件察看内容# cat /etc/passwd# cat /etc/security/passwd从上面这个抓屏可以看到,所有的用户密码都是被shadow了(每行第一部分是用户名,冒号后的第二部分是密码部分,如果被shadow了,我们只能看到*或者!)脚本文件会为这一点生成一个文件3_passwd4.除管理员外,禁止一切用户通过Unix服务器控制台进行shell级的访问。

通过观察管理员登录检查管理员是否先以普通用户登录,再通过su切换到root用户。

并通过查看sulog确认系统管理员是否使用普通用户登录,随后切换到root用户。

#cat var/adm/sulog下图显示root-sybase(先用root登录后用sybase)或sybase-root(先用sybase后su到root)。

请看叶面最下边的一条记录,是4月5日当天在北分登录的过程。

5.询问系统管理员是否具有两个系统账号,一个用于日常系统维护,一个用于私人使用,例如接受私人邮件。

通过询问系统管理员获得6.检查AIX系统中的密码策略AIX对所有用户没有一个统一的密码策略,只能针对某一用户检查其特有的密码策略。

# smit chuser系统会显示如下屏幕按下“Esc + 4”键,在列出的所有用户中选择root,然后回车。

再次按下回车,此时系统将列出root用户的属性。

可以看到此root用户并没有设置密码策略。

将上面的几张屏幕抓下来供事后分析。

(注意此处只抓了root用户的属性,对于系统中其他用户,我们可以采用类似办法抓屏)7.检查密码文件是否经过shadow保护以普通用户登录,用cat命令打开/etc/passwd文件,检查普通用户是否具备打开此文件的权限,如果普通用户能够通过cat命令打开etc/passwd文件,则是“例外”;通过su命令切换到root用户,再次通过cat命令打开/etc/passwd文件,检查用户密码域是否为*,如果passwd文件已经shadow保护,则相应密码域应该是*,如果是能看懂的其他字符,则passwd文件未被shadow保护。

Aix并不使用/etc/shadow文件存放口令,它使用/etc/security/passwd文件。

使用普通用户查看密码文件%cat /etc/security/passwd系统会提示普通用户无权访问。

切换到root用户,并查看口令文件。

%su root#cat /etc/security/passwd如下所示,我们可以确认该密码文件是否经过shadow保护的。

uucp、operator、games、gopher等)也可以使用以下命令查看aix中的用户(可以使用alt+PtrSc将所显示的内容注意拷屏,注意,如需翻页,可以按一下空格键)#cat /etc/security/user9.取消普通用户的控制台访问权限,比如shutdown、reboot、halt等命令对于这一点,可暂时不予考虑,如下抓屏和命令提示仅供参考。

通过find命令查找shutdown、reboot和halt的路径,如图显示1、AIX上述文件通常存储在/usr/sbin目录下,查看该文件的属性#ls –l /usr/sbin/shutdown2、分析shundown命令的执行权限注意到-r-xr----- 1 root shutdown所显示的内容。

你只需要确认“系统中的其他用户的权限”为“---”,就可以认定普通用户不具备执行shutdown、reboot、halt等命令的权限。

3、同理,可以使用ls –l察看该reboot、halt文件的属性。

也可以直接将以上命令写入脚本以实现自动执行。

4、其他系统(例如linux、solaris或hp_ux),我们首先需要在其操作系统根目录下执行以下命令,确保当前目录是系统根目录#cd /5、查找shutdown系统命令所存储的路径(确保执行该命令时是root权限),并执行步骤1~3。

#find / -name shutdown -print10. Unix服务器上只能安装应用必须的服务器程序,禁用所有不用的服务。

询问客户什么服务是必须的,将不用的服务禁止例如uucp、finger、netstat、echo、discard、chargen、imap、pop、tftp、talk、rexd、rstatd(等r开头的远程服务)。

如果不是十分需要这些服务,建议关闭掉,因为这些开启这些服务会带来巨大的安全风险。

我们可以通过查看/etc/inetd.conf文件来确认AIX是否开启了这些服务。

如果这些命令前有加“#”的标志(#通常是注释),并询问用户这些服务的作用,就可以确认Aix已经禁用了不用的服务。

#cat /etc/inetd.conf11.确保Unix 服务器的时间设置准确。

如果客户的网络内没有专门的时间服务器,则这一点通过比对日常时间确定是否设置准确# date这条命令最好通过PC机telnet到UNIX服务器上去执行,这样在抓屏的时候就可以把执行date命令得到的系统时间与实际的Windows界面右下脚的时间做对比,以此做为时间证据,请参考下面的抓屏。

UNIX上面的时间是2006年4月3日18:39:38,而右下角Windows以及实际的时间是17:38,由此可以看出UNIX时间比实际时间提前了1小时。

12.对Unix服务器的远程管理访问应经过授权和验证。

询问管理员客户的Unix服务器是否支持远程管理,通常都是不支持的,如果支持,继续问授权和验证机制。

13.操作系统和应用程序的帐号应正确配置以符合最小授权原则。

询问操作系统管理员,然后登录AIX系统,执行smit chuser命令,检查用户权限,具体步骤参照第六点。

以上四幅抓屏列出了root用户的所有权限属性,对于其他用户可以用同样方法获得。

14.所有生产运行环境中的Unix系统都应激活用户帐户登录请求日志记录功能。

AIX系统通常自动地将信息写到一些日志文件中。

a)/var/adm/wtmp-该文件记录了每个用户的登录和退出系统的记录;# who –a /var/adm/wtmpb)/var/adm/sulog-记录了每次SU命令使用的情况;# cat /var/adm/sulogc)/etc/security/failedlogin-记录了每次登录失败的信息;# who /etc/security/failedlogine)/etc/security/lastlog-记录每个系统用户最后一次成功和失败的登录信息。

# cat /etc/security/lastlog脚本文件会为这一点生成一个文件14_log运行脚本后,将脚本生成的文件保存下来以备分析检查。

15.这一点对应“运维管理中的第4,5 点”# cat /etc/crontabJobs命令现实后台运行的作业。

可能会包含批处理作业#jobs使用下列命令可以查看aix周期运行的命令#cat /usr/sool/cron/crontabs16.查看日志配置文件#cat /etc/security/login.cfg。

相关文档
最新文档