系统故障分析和排查
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
修复MBR扇区故障2-2
• 应用示例:
n
• 1.备份MBR扇区数据
dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1 • 2.模拟MBR被破坏的故障 n dd if=/dev/zero of=/dev/sda bs=512 count=1 • 3.RHEL5光盘引导,进入急救模式 n boot: linux rescue • 4.从备份文件中恢复MBR扇区 n dd if=/tempdir/sda.mbr.bak of=/dev/sda bs=512 count=1
[root@localhost ~]# cp grub.conf.bak grub.conf
修复GRUB引导故障3-3
• 应用示例2:
• 进入急救模式,从备份文件中恢复 grub.conf 文件 • 向MBR扇区中重建GRUB程序
sh-3.1# chroot /mnt/sysimage sh-3.1# cd /boot/grub/ sh-3.1# cp grub.conf.bak grub.conf sh-3.1# grub-install /dev/sda
n
rpm -ivh --replacepkgs initscripts8.45.14.EL.i386.rpm
遗忘root用户密码
• 故障原因
• 遗忘root用户的密码 • 故障现象 • 无法进行需要root权限的管理操作 • 若没有其他可用帐号,将无法登录系统 • 解决思路 • 引导进入单用户模式,然后重设密码
grub > kernel ... single 或 s 或 1 • 或进入急救模式,然后重设密码
n
小结
• 请思考:
• Linux系统中最常用的公共日志文件是什么? • 如何进入单用户模式? • 使用RHEL5光盘引导时,如何进入修复模式? • 如何向MBR中重建GRUB程序?
修复文件系统2-1
• 故障原因
• 非正常关机、突然断电、设备读写失误等 • 文件系统的超级块(super-block)信息被破坏 • 故障现象 • 无法向分区中读取或写入数据 • 启动后提示“Give root password for maintenance” • 解决思路 • 根据提示输入root口令,进入修复状态 • 使用fsck命令进行修复
检测磁盘坏道2-1
• 故障原因
• 磁盘设备中存在坏道(逻辑的或物理的) • 故障现象 • 读取磁盘中的数据时,磁盘设备发出异常声响。 • 访问磁盘中的某个文件时,反复读取且出错,提示文件
损坏。 • 对于新建立的分区无法完成格式化。 • 系统使用该磁盘时频繁死机
检测磁盘坏道2-2
• 解决思路
• 检测硬盘中是否存在坏道 • 修复硬盘,或更换新的硬盘
[root@localhost ~]# grep -v "^#" /etc/syslog.conf | grep -v ^$ *.info;mail.none;authpriv.none;cron.none authpriv.* mail.* cron.* …… 设备类别.日志级别
内核及系统日志3-2
• 日志消息的级别
•0 •1 •2 •3 •4 •5 •6 •7
EMERG(紧急):会导致主机系统不可用的情况 ALERT(警告):必须马上采取措施解决的问题 CRIT(严重):比较严重的情况 ERR(错误):运行出现错误 WARNING(提醒):可能会影响系统功能的事件 NOTICE(注意):不会影响系统但值得注意 INFO(信息):一般信息 DEBUG(调试):程序或系统调试信息等
/etc/inittab文件丢失
• 故障原因
• inittab文件被误删除,或者存在配置错误 • 故障现象 • 启动中提示 “... INIT: No inittab file found” • 系统停滞,无法完成初始化 • 解决思路 • 进入急救模式,从备份文件中恢复 • 或者,在急救模式中重新安装 initscripts 软件包
日志管理策略2-2
• 应用示例:
• 调整syslogd服务设置,建立集中管理的日志服务器 • 将客户机B中crond服务产生的日志消息,自动发送到服
务器A的/var/log/cron文件中
cron.* 服务器A 客户机B [root@localhost ~]# vi /etc/syslog.conf @173.17.17.3
内核及系统日志3-3
• 日志记录的一般格式
[root@localhost ~]# tail -5 /var/log/messages
Sep 14 11:22:44 localhost kernel: sdb: cache data unavailable
Sep 14 11:22:44 localhost kernel: sdb: assuming drive cache: write through Sep 14 11:22:44 localhost kernel: sdb: sdb1 Sep 14 11:23:37 localhost kernel: VFS: Can't find ext3 filesystem on dev sdb1. Sep 14 16:54:48 localhost NetworkManager: <information> starting... 时间标签 主机名 子系统名 消息字段
[root@localhost ~]# vi /etc/sysconfig/syslog SYSLOGD_OPTIONS="-r -x -m 0"
修复MBR扇区故障2-1
• 故障原因
• 病毒、木马等造成的破坏 • 不正确的分区操作、磁盘读写误操作 • 故障现象 • 找不到引导程序,启动中断 • 无法加载操作系统,开机后黑屏 • 解决思路 • 应提前作好备份文件 • 以RHEL5安装光盘引导进入急救模式 • 从备份文件中恢复
由系统服务syslog统一进行管理,日志格式基本相似 • 用户日志 n 记录系统用户登录及退出系统的相关信息 • 程序日志 n 由各种应用程序独立管理的日志文件,记录格式不统 一
n
日志文件分析2-2
• 日志保存位置
• 默认位于:/var/log 目录下 • 主要日志文件介绍 • 内核及公共消息日志:/var/log/messages • 计划任务日志:/var/log/cron • 系统引导日志:/var/log/dmesg • 邮件系统日志:/var/log/maillog • 用户登录日志:/var/log/lastlog、/var/log/secure、
修复GRUB引导故障3-1
• 故障原因
• MBR中的GRUB引导程序遭到破坏 • grub.conf文件丢失、引导配置有误 • 故障现象 • 系统引导停滞,显示“grub>”提示符 • 解决思路 • 尝试手动输入引导命令 • 进入急救模式,从备份中恢复 grub.conf • 向MBR扇区中重建grub程序
修复文件系统2-2
• 应用示例:
n
• 模拟对/dev/sdb1分区的破坏操作
dd if=/dev/zero of=/dev/sdb1 bs=512 count=4 • 检查是否能挂载该分区 n 报错:mount: you must specify the filesystem type • 对/dev/sdb1分区进行修复 n fsck –y -t ext3 /dev/sdb1 • 再次挂载该分区
用户日志分析
• 保存了用户登录、退出系统等相关信息
• /var/log/lastlog:最近的用户登录事件 • /var/log/wtmp:用户登录、注销及系统开、关机事件 • /var/run/utmp:当前登录的每个用户的详细信息 • /var/log/secure:与用户验证相关的安全性事件 • 分析工具 • users 、who、w、last、lastb
程序日志分析
• 由相应的应用程序独立进行管理
• Web服务:/Baidu Nhomakorabeaar/log/httpd/
n
access_log、error_log • 代理服务:/var/log/squid/ n access.log、cache.log、squid.out、store.log • FTP服务:/var/log/xferlog • ……
本章结构
主要日志文件 日志文件分析 日志文件分析
MBR扇区故障 GRUB引导故障 系统故障分析和排查 系统启动类故障排 除 /etc/inittab文件丢失
遗忘root用户的密码
修复文件系统 文件系统类故障排 除 磁盘资源耗尽故障 检测磁盘坏道
第十一章 系统故障分析和排查
第十一章 系统故障分析和排查
• 分析工具
• 文本查看、grep过滤检索、Webmin管理套件中查看 • awk、sed等文本过滤、格式化编辑工具 • Webalizer、Awstats等专用日志分析工具
日志管理策略2-1
• 及时作好备份和归档 • 延长日志保存期限 • 控制日志访问权限
• 日志中可能会包含各类敏感信息,如账户、口令等 • 集中管理日志 • 便于日志信息的统一收集、整理和分析 • 杜绝日志信息的意外丢失、恶意篡改或删除
系统故障分析和排查
第十一章 系统故障分析和排查
—— 理论部分
课程回顾
• 如何查看、终止系统中的进程? • crontab的配置记录由哪几部分组成? • crontab配置文件分别存放在什么地方?
技能展示
熟悉常见的日志文件及其分析方法 学会解决常见的启动类故障 学会解决常见的文件系统类故障
本章结构
—— 上机部分
实验案例:日志分析及系统故障3-1
/var/log/wtmp、/var/run/btmp • ……
内核及系统日志3-1
• 由系统服务 syslogd 统一管理
• 软件包:sysklogd-1.4.1-39.2 • 主要程序:/sbin/klogd、/sbin/syslogd • 配置文件:/etc/syslog.conf
/var/log/messages /var/log/secure -/var/log/maillog /var/log/cron 消息发送位置
修复GRUB引导故障3-2
• 应用示例1:
• 在“grub>”提示符后,手动输入引导命令 • 成功进入系统后,恢复或重建 grub.conf 配置文件
grub> root (hd0,0) grub> kernel /vmlinuz-2.6.18-8.el5 ro root=/dev/VolGroup00/LogVol00 rhgb quiet grub> initrd /initrd-2.6.18-8.el5.img grub> boot 从备份文件恢复 [root@localhost ~]# cd /boot/grub/
主要日志文件 日志文件分析 日志文件分析
MBR扇区故障 GRUB引导故障 系统故障分析和排查 系统启动类故障排 除 /etc/inittab文件丢失
遗忘root用户的密码
修复文件系统 文件系统类故障排 除 磁盘资源耗尽故障 检测磁盘坏道
日志文件分析2-1
• 日志的功能
• 用于记录系统、程序运行中发生的各种事件 • 通过阅读日志,有助于诊断和解决系统故障 • 日志文件的分类 • 内核及系统日志
20971520
root@localhost ~]# badblocks -sv /dev/sdb Checking blocks 0 to 20971520 Checking for bad blocks (read-only test): 5192832/ Pass completed, 0 bad blocks found.
磁盘资源耗尽故障
• 故障原因
• 磁盘空间已被大量的数据占满,空间耗尽 • 虽然还有可用空间,但文件数i节点耗尽 • 故障现象 • 无法写入新的文件,提示“… : 设备上没有空间” • 部分程序无法运行,甚至系统无法启动 • 解决思路 • 清理磁盘空间,删除无用、冗余的文件 • 转移或删除占用大量i节点的琐碎文件 • 进入单用户模式、急救模式进行修复 • 为用户设置磁盘配额