服务器运维管理手册
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XXXX有限公司服务器运维管理手册
XXXX有限公司
运维服务部
2012/8/30
一、文档简介 (3)
二、文档目的 (3)
三、文档范围 (3)
四、事件处理流程 (4)
五、具体操作说明 (4)
1) 服务器硬件管理 (4)
2) 服务器系统管理 (10)
1.Windows系统管理 (10)
2.Linux系统管理 (12)
六、相关文档 (15)
一、文档简介
本文档根据桑菲消费通信服务器硬件设备与系统应用管理需求,针对日常维护内容进行技术归类于总结,描述具体操作步骤与操作方法,积累服务器事件处理能力,使之服务运维能力更为主动可控。
二、文档目的
标准服务器故障处理方法指引,服务器管理知识库积累。
三、文档范围
服务器硬件故障判断与标准处理操作
服务器系统日常性能检测与标准检测
四、事件处理流程
五、具体操作说明
1)服务器硬件管理
1.检查与故障判断:
服务器硬件的主动检查方式主要分三种:设备面板指示灯检查
硬件系统日志检查
第三方工具检查
(一)面板指示灯检查
IBM服务器上面有,电源指示灯,硬盘/IDE设备活动指示灯,网卡指示灯,系统过热报警灯.硬盘槽还有硬盘指示灯。HP服务器上面指示灯一般为UID,内部和外部健康灯,其他就是电源网口灯了,DELL的机种有的上面有风扇,内存,CPU,指示灯情况,图标都是很直观的,其它服务器与IBM,HP的差不多。
图示说明
详细描述:
(二)系统日志检查
检查内容
硬件历史异常报错信息
计算机管理->系统工具->事件查看器,查看系统日志
重点关注:红色高危事件信息、日常频繁硬件报错信息
备注:查看硬件历史异常故障情况,分析硬件性能与使用生命周期
(三)第三方检测工具检查
检查内容
硬件历史异常报错信息
HP 诊断工具:
打开开始——程序——HP System Tools——HP Insight Diagnostics online Edition for Windows——HP Insight Diagnostics online Edition for Windows。
DELL诊断工具:
第三方硬件设备诊断工具
IBM诊断工具:
IBM Systems Director 、IBM Systems Director Active Energy Manager、IBM ServerGuide
相关图解:
进入诊断网页,在第一选项卡Survey中,上部有2个下拉项,左侧选择Advanced,右侧选择All,会显示出更多硬件信息,点击右下的Save按钮保存。
此界面可以看到服务器所有硬件信息。
2.硬件设备变更操作标准:
判断并确定最快恢复时间
判断是否有做冗余设置
判断是否需要关机操作
磁盘设备检测并确定阵列信息,确定有做数据备份
是否对其它关联应用有影响
制定回退方案,保证数据与应用的可用性
设备变更操作
设备兼容性测试
应用系统运行测试
设备变更后正式应用
3.相关巡检记录单:
备注:《服务器信息列表》《服务器指示灯巡检表》
服务器信息列表.xl
sx 服务器指示灯巡检
表.xlsx
2)服务器系统管理
服务器系统管理主要分为:
Windows系统管理
Linux系统管理
1.Windows系统管理
1.1.磁盘空间使用
计算机管理——磁盘管理
磁盘空间使用率是否已经到达80%
1.2.进程监控
任务管理器——进程
查看进程的CPU使用率和内存使用率是否超阀值
1.3.CPU性能
任务管理器——性能
查看CPU最高峰值与一般使用率是否超阀值
1.4.内存性能
任务管理器——性能
查看内存最高峰值与一般使用率是否超阀值
1.5.网络查看
任务管理器——联网
检查是否能正常访问站点页面
1.6.日志
记录错误报警信息内存使用率是否超过70%或者其他定义阀值
——应用程序日志
由应用程序或者系统程序记录的事件
——安全性日志
查看有效和无效的登录尝试事件,以及资源使用相关的事件
——系统日志
Windows系统组件记录的事件
2.Linux系统管理
2.1.平均负载(uptime)
描述:
uptime命令过去只显示系统运行多久。现在,可以显示系统运行多久、当前有多少的用户登录、在过去的1,5,15分钟里平均负载时多少。
2.2.磁盘空间使用率(df -h)
描述:
Filesystem 文件系统Size 文件系统容量Used文件系统已经使用的容量Use%文件系统使用百分比Mounted on挂载的目录
2.3.进程监控(ps –ef | grep java)
查看应用程序启动进程数是否正常
2.4.内存监控(free -m)
描述:
total:总计物理内存的大小used:已使用多大free:可用有多少
shared:多个进程共享的内存总额buffers/cached:磁盘缓存的大小。
第三行(-/+ buffers/cached):
used:已使用多大。free:可用有多少。
2.5.CPU占用率(top)
描述:
top提供一个当前运行系统实时动态的视图,也就是正在运行进程。在默认情况下,CPU使用率最高的任务排在第一行,并每5秒钟刷新一次。