系统现场工程师考试题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一.简答题

1.机器开机时,提示内存错误,如何进一步确认损坏内存的具体位置?

有的服务器型号可以进BIOS里直接查看内存状态,其它服务器可登陆ILO管理界面查看内存状态和日志确认损坏内存的具体位置

2.巡检过程中,发现单台机架单路掉电,首要做的是什么操作?

发现单路掉电后首先确认机柜上方有无交换机,是否影响其它机架通信,机架内是否有服务器宕机,检查是否有其它机架掉电情况,联系运营商维修,进行紧急通报,

3.接到一个故障单,要求检查硬盘的健康情况,怎么操作?

现场根据服务器SN,机架位,UID灯确认服务器位置,重启服务器进入单用户界面,使用smartctl–H/dev/sdX可查看健康状态,使用smartctl–l error/dev/sdX可以查看硬盘报错信息,

4.备机替换完成后,机器开机黑屏,怎么处理?

备机替换完成后服务器黑屏,检查RAID卡接口状态,内存是否安装好,CPU是否安装好。使用排除法来确定故障原因,

5.简述接到操作单后的处理流程?

接到工单-确认工单内容-开始操作(故障处理与重装需要与发单人确认是否可以立即操作)-确认服务器位置-开始处理-成功(失败)-反馈发单人确认-OMS平台反馈-结单

二.问答题

1.新服务器到货前、后都需要进行什么操作?

新服务器到货前:

设备搬入工单

1.提前1天联系HSC发单人,确认设备搬入工单手续是否发送

2.提前与运营商或者

自建中心运维人员确认设备搬入工单是否已经到达

机架开通工单

1.提前1天联系HSC发单人,确认设备开通加电工单手续是否发送

2.提前与运营商

或者自建中心运维人员确认机架开通加电工单是否已经到达

其他准备工作

1.提前联系SIM索取服务器出厂要求,包括硬检、软检、套餐、BIOS

2.提前确认到

货电梯是否可用 3.提前确认物流通道,到货区域是否可用 4.当日天气

厂商人员入室工单

1.提前1天联系HSC发单人,确认厂商人员入室是否发送

2.提前与运营商或者自建

中心运维人员确认厂商人员入室是否已经到达 3.提前1天告知厂商,必须拥有身份证和工作牌这2证件才可以进入IDC注:到货厂商支持人员的入室按百度IDC人员进出流程执行。

新服务器到货后:

拆箱监督

拆箱时间记录

核对外观

核对数量

核对SN

人员入室登记

硬检、硬检时间记录

软检、软检时间记录

测电、测电时间记录

上架

绑线、绑线时间记录

核对上架服务器位置,SN信息

加电、加电时间记录

验收

若当天未完成验收,现场工程师需在当天19:00发送进度反馈邮件,18:00之前通

过hi向SIM和HSC接口人反馈进度;验收完成后,验收报告需在验收完成后当19:00前发送,若未及时发送,需通知SIM接口人杨瑞。

2.接到故障处理单12342,故障描述:“内网不通,请查看问题原因”,请描述一下你的

处理方法?

内网不通,先检查上联端口和交换机是否正常,检查网线是否正常,若正常则检查服务器内网IP文件配置,路由文件配置,

3.服务器系统安装重启后,机器黑屏,不能进入系统,这个问题该如何解决?

发现服务器黑屏,需要将服务器进行下架,首先确认电源是否正常工作,再检查内存,CPU,主板,是否有问题,使用单CPU,单内存测试服务器是否可以正常开机,如所有CPU、内存和内存主通道测试完成,服务器仍无法开机则为主板故障,需要进行更换,等故障处理完成后,再次安装系统,服务器进入登陆界面后邮件检测联通性,

4.接到百度sim要求,将Ubuntu系统密码初始化成123456,请简要描述一下处理方法及步

骤?

开机后在刚启动时长按Shift,键进入GRUB菜单界面、选择recovery mode.按回车键进

入.Recover Menu菜单、选择root,按回车,在下方就会出现root终端输入passwd root输入新密码123456回车,再输入一次确认密码,即可修改成功

5.简述紧急故障的内容及处理流程?

工单属于紧急故障处理,资产岗联系SO;若SO反馈可以维修,资产岗完成备件

出库,现场工程师完成备件替换,紧急故障替换操作如需使用百度线下配件,

按照百度hwr组的要求或得到hwr组(接口人:蒋旭)确认后可进行相应的故障维

修替换操作;操作申请或操作记录发邮件至hwr@和ra-

service@,无需等待ra-service确认。

三.操作大练兵

场景1:值班期间,机房突发两台空调故障,回风温度到达29°,机房温度不断上升,并伴随小量服务器掉电。问题:发现问题时需要做什么操作?故障修复之后需要做什么操作?

机房发生两台空调故障,回风温度到达29°后立即联系运营商维修,电话,HI群通报,如果发生在白天则安排3人进行分工,一个留守工位通报,一人巡检机房,一人陪同运营商维修,若冷通道温度>30℃,而机房回风温度正常,需采取局部降温措施按通报流程反馈影响范围及当前处理进度HI群每5分钟反馈一次温度。回风温度30℃-35℃执行物理降温预案(辅助风机+冰块等)、告知运营商立即维修、通报百度提供减载列表、回风温度>35℃或故障升级通知百度执行减载方案,当发现温度过高时并伴随小量服务器掉电则先确定受影响范围,并巡检机房所有设备运行情况,通知留守人员进行通报,通知运营商跟进故障,确定故障原因(如温度过高导致服务器掉电,或服务器电源故障等),当温度恢复正常由DCF接口人确认是否可恢复服务由SIM值班人员有问题设备列表在SIM值班人员指导下恢复设备,对于掉电服务器确认故障原因后联系SIM值班安排报修,电话通知紧急情况结果,现场定时巡检故障机房,跟进机房环境情况。

场景2:接到操作单,要求是两台服务器互换机架位,请叙述操作流程?换完后,一台服务器ILO不通(hp服务器),另外一台机器ILO不通+内网不通(ibm服务器),请分析问题原因,并解决?

现场接到工单后,确认服务器是处理可操作状态,如处于不可操作状态联系发单人是否可以立即操作,或等待固定时间点时行操作,当服务器处于可操作状态时,对服务器进行下架互换机架位,上架后更改ILO配置,如HP服务器ILO不通时重启按第一个F8进入ILO配置界面检查,如IP正确使用笔记本配成同网段IP直接PING服务器检查是否可以PING通,若PING通则将笔记本配成服务器IP,使用服务器网线PING上联网关,检查网关和端口是否正常,

IBM服务器内网和ILO均不通时确认服务器是否已正常启动,如服务器可正常启动,则进入BIOS界面检查ILO是否配置正确,如正确使用笔记本配成同网段IP直接PING服务器检查是否可以PING通,若PING通则将笔记本配成服务器IP,使用服务器网线PING上联网关,检查网关和端口是否正常,

内网不通时进入单用户界面,可先开启网卡,使用IFCONFIG命令检查IP是否正确,并确

认网卡是否已激活,若都正常,可使用route命令检查路由是否正确,使用tracert

命令跟踪链路情况,判断问题所在

相关文档
最新文档