系统现场工程师考试题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一.简答题
1.机器开机时,提示内存错误,如何进一步确认损坏内存的具体位置?
有的服务器型号可以进BIOS里直接查看内存状态,其它服务器可登陆ILO管理界面查看内存状态和日志确认损坏内存的具体位置
2.巡检过程中,发现单台机架单路掉电,首要做的是什么操作?
发现单路掉电后首先确认机柜上方有无交换机,是否影响其它机架通信,机架内是否有服务器宕机,检查是否有其它机架掉电情况,联系运营商维修,进行紧急通报,
3.接到一个故障单,要求检查硬盘的健康情况,怎么操作?
现场根据服务器SN,机架位,UID灯确认服务器位置,重启服务器进入单用户界面,使用smartctl–H/dev/sdX可查看健康状态,使用smartctl–l error/dev/sdX可以查看硬盘报错信息,
4.备机替换完成后,机器开机黑屏,怎么处理?
备机替换完成后服务器黑屏,检查RAID卡接口状态,内存是否安装好,CPU是否安装好。使用排除法来确定故障原因,
5.简述接到操作单后的处理流程?
接到工单-确认工单内容-开始操作(故障处理与重装需要与发单人确认是否可以立即操作)-确认服务器位置-开始处理-成功(失败)-反馈发单人确认-OMS平台反馈-结单
二.问答题
1.新服务器到货前、后都需要进行什么操作?
新服务器到货前:
设备搬入工单
1.提前1天联系HSC发单人,确认设备搬入工单手续是否发送
2.提前与运营商或者
自建中心运维人员确认设备搬入工单是否已经到达
机架开通工单
1.提前1天联系HSC发单人,确认设备开通加电工单手续是否发送
2.提前与运营商
或者自建中心运维人员确认机架开通加电工单是否已经到达
其他准备工作
1.提前联系SIM索取服务器出厂要求,包括硬检、软检、套餐、BIOS
2.提前确认到
货电梯是否可用 3.提前确认物流通道,到货区域是否可用 4.当日天气
厂商人员入室工单
1.提前1天联系HSC发单人,确认厂商人员入室是否发送
2.提前与运营商或者自建
中心运维人员确认厂商人员入室是否已经到达 3.提前1天告知厂商,必须拥有身份证和工作牌这2证件才可以进入IDC注:到货厂商支持人员的入室按百度IDC人员进出流程执行。
新服务器到货后:
拆箱监督
拆箱时间记录
核对外观
核对数量
核对SN
人员入室登记
硬检、硬检时间记录
软检、软检时间记录
测电、测电时间记录
上架
绑线、绑线时间记录
核对上架服务器位置,SN信息
加电、加电时间记录
验收
若当天未完成验收,现场工程师需在当天19:00发送进度反馈邮件,18:00之前通
过hi向SIM和HSC接口人反馈进度;验收完成后,验收报告需在验收完成后当19:00前发送,若未及时发送,需通知SIM接口人杨瑞。
2.接到故障处理单12342,故障描述:“内网不通,请查看问题原因”,请描述一下你的
处理方法?
内网不通,先检查上联端口和交换机是否正常,检查网线是否正常,若正常则检查服务器内网IP文件配置,路由文件配置,
3.服务器系统安装重启后,机器黑屏,不能进入系统,这个问题该如何解决?
发现服务器黑屏,需要将服务器进行下架,首先确认电源是否正常工作,再检查内存,CPU,主板,是否有问题,使用单CPU,单内存测试服务器是否可以正常开机,如所有CPU、内存和内存主通道测试完成,服务器仍无法开机则为主板故障,需要进行更换,等故障处理完成后,再次安装系统,服务器进入登陆界面后邮件检测联通性,
4.接到百度sim要求,将Ubuntu系统密码初始化成123456,请简要描述一下处理方法及步
骤?
开机后在刚启动时长按Shift,键进入GRUB菜单界面、选择recovery mode.按回车键进
入.Recover Menu菜单、选择root,按回车,在下方就会出现root终端输入passwd root输入新密码123456回车,再输入一次确认密码,即可修改成功
5.简述紧急故障的内容及处理流程?
工单属于紧急故障处理,资产岗联系SO;若SO反馈可以维修,资产岗完成备件
出库,现场工程师完成备件替换,紧急故障替换操作如需使用百度线下配件,
按照百度hwr组的要求或得到hwr组(接口人:蒋旭)确认后可进行相应的故障维
修替换操作;操作申请或操作记录发邮件至hwr@和ra-
service@,无需等待ra-service确认。
三.操作大练兵
场景1:值班期间,机房突发两台空调故障,回风温度到达29°,机房温度不断上升,并伴随小量服务器掉电。问题:发现问题时需要做什么操作?故障修复之后需要做什么操作?
机房发生两台空调故障,回风温度到达29°后立即联系运营商维修,电话,HI群通报,如果发生在白天则安排3人进行分工,一个留守工位通报,一人巡检机房,一人陪同运营商维修,若冷通道温度>30℃,而机房回风温度正常,需采取局部降温措施按通报流程反馈影响范围及当前处理进度HI群每5分钟反馈一次温度。回风温度30℃-35℃执行物理降温预案(辅助风机+冰块等)、告知运营商立即维修、通报百度提供减载列表、回风温度>35℃或故障升级通知百度执行减载方案,当发现温度过高时并伴随小量服务器掉电则先确定受影响范围,并巡检机房所有设备运行情况,通知留守人员进行通报,通知运营商跟进故障,确定故障原因(如温度过高导致服务器掉电,或服务器电源故障等),当温度恢复正常由DCF接口人确认是否可恢复服务由SIM值班人员有问题设备列表在SIM值班人员指导下恢复设备,对于掉电服务器确认故障原因后联系SIM值班安排报修,电话通知紧急情况结果,现场定时巡检故障机房,跟进机房环境情况。
场景2:接到操作单,要求是两台服务器互换机架位,请叙述操作流程?换完后,一台服务器ILO不通(hp服务器),另外一台机器ILO不通+内网不通(ibm服务器),请分析问题原因,并解决?
现场接到工单后,确认服务器是处理可操作状态,如处于不可操作状态联系发单人是否可以立即操作,或等待固定时间点时行操作,当服务器处于可操作状态时,对服务器进行下架互换机架位,上架后更改ILO配置,如HP服务器ILO不通时重启按第一个F8进入ILO配置界面检查,如IP正确使用笔记本配成同网段IP直接PING服务器检查是否可以PING通,若PING通则将笔记本配成服务器IP,使用服务器网线PING上联网关,检查网关和端口是否正常,
IBM服务器内网和ILO均不通时确认服务器是否已正常启动,如服务器可正常启动,则进入BIOS界面检查ILO是否配置正确,如正确使用笔记本配成同网段IP直接PING服务器检查是否可以PING通,若PING通则将笔记本配成服务器IP,使用服务器网线PING上联网关,检查网关和端口是否正常,
内网不通时进入单用户界面,可先开启网卡,使用IFCONFIG命令检查IP是否正确,并确
认网卡是否已激活,若都正常,可使用route命令检查路由是否正确,使用tracert
命令跟踪链路情况,判断问题所在