处理硬件维修服务协调事宜并详细记录故障情况
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处理硬件维修服务协调事宜并详细记录故障情况为了保障系统运维项目内软硬件设备稳定、安全、高效运行,我公司负责处理硬件维修服务协调事宜并详细记录故障情况。
为了保证信息系统的安全和发展、保证信息系统的正常运行,我公司对于硬件维修服务协调事宜并详细记录故障情况从维修服务协调和硬件故障情况等进行一一阐述,具体内容如下:
维修服务协调
对于硬件出现故障时,我公司驻场运维人员负责硬件维修服务协调相关事宜。
具体如下:
1、服务组织协调内容
服务组织协调分为内部关系协调,和外部关系协调。
组织协调应排除障碍、解决矛盾、保证项目目标的顺利进行。
组织协调包括以下内容:
人际关系:项目内部人际关系,项目组织与贵方的人际关系。
组织机构关系:项目负责人与其他服务人员的关系;项目负责人与甲方之间的关系。
供求关系:项目负责人与供应商之间的关系。
2、内部关系的组织协调措施:
内部人际关系的协调应依据各项规章制度,通过做好思想工作,加强教育培训,提高员工素质等方法实现。
项目负责人与甲方关系的协调应依靠严格执行合同和甲方规章制度来实现。
正确处理技术关系,经济关系,项目质量的控制,项目安全控制,项目成本控制。
严格守法,遵守公共道德。
硬件故障情况
(1)服务器故障排除
A.服务器开机无显示(加电无显示和不加电无显示)
1. 检查供电环境
2. 检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。
)
3. 按下电源开关时,键盘指示灯是否亮、风扇是否全部转动
4. 是否更换过显示器,尝试更换另外一台显示器
5. 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试
6. 是否添加了CPU,如果有增加CPU尝试去掉
7. 去掉增加的第三方I/O卡包括Raid卡等
8.ClearCMOS (记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服)
9. 尝试更换主板、内存等主要部件
10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下B.加电BIOS自检报错
1. 根据BIOS自检报错信息提示
2. 查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重启
3. 做最小化测试
4. 尝试清除CMOS
5. 看能否正常进入BIOS
C. 系统安装阶段故障和现象
1.查看服务器支持操作系统的兼容版本(从厂商能查到兼容性列表)
2.系统安装蓝屏(对蓝屏故障代码诊断)
3.安装在分区格式化的时候找不到硬盘
(阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装)
4.大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡)
(使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可)
5.安装过程是死机
(检查兼容性列表---查看硬盘接口选择是否正确---阵列驱动安装是否正确---尝试最小化配置安装检查是否为内存和CPU等问题)
6.引导光盘安装失败
(使用引导光盘安装失败,查看引导光盘版本是否匹配,尝试手动安装系统,如有阵列重新配置阵列引导安装)
D. 操作系统启动失败
1.在系统启动自检过程中有报错(具体查看启动报错信息在定方案)
2.启动系统蓝屏(查看蓝屏代码核对)
3.进入登陆界面死机(查看进入单用户或者安全模式是否正常,进入BIOS是否正常、是否会死机,进入磁盘阵列查看阵列状态是否正常,检查测试硬盘是否有坏道,最小化配置启动)
4.忘记密码 (windows 使用PE 破解,linux 进入单用户破解)
E. 系统运行阶段故障
1.安装数据库等应用软件报错 (对系统版本和软件版本是否兼容,查看报错信息是否缺少插件)
2.系统运行速度变慢 (查杀病毒,检测阵列状态,测试硬盘有无坏道,重新安装系统或者修复)
3.运行蓝屏 (查看蓝屏代码目录)
4.运行死机 (检查进入BIOS是否死机,进入系统后测试部件温度是否正常,windows 系统查看dump文件)
5.硬盘拷贝数据文件速度变慢 (测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带大小,与软件应用要求测试对比)
(2)网络交换机故障排除
在网络硬件设备中,交换机的故障率虽然很低,但是一旦发生故障,将会为用户带来很大的影响,当设备发生紧急故障时,我方技术人员会对故障进行排除和解决。
1、故障原因:将某工作站连接到交换机上的几个端口后,无法Ping通局域网内其它电脑,但桌面上“本地连接”图标仍然显示网络连通。
原因及解决方法:先检查这些被Ping的电脑是否安装有防火墙。
三层交换机可以设置VLAN(虚拟局域网),不同VLAN内的工作站在没设置路由的情况下无法Ping通,因此要修改VLAN的设置,使它们在一个VLAN中,或设置路由使VLAN之间可以通讯。
2、故障原因:将工作站连接到交换机上后,无法Ping通其它电脑,看桌面上“本地连接”图标显示网络不通,或者是在某个端口上连接的时间超过了10秒,超过了交换机端口的正常反应时间。
原因及解决方法:采用重新启动交换机的方法,一般能解决这种端口无响应的问题。
但端口故障者则需要更换接入端口。
3、故障原因:用户交换机连接的所有电脑都不能正常与网内其它电脑通讯。
原因及解决方法:这是典型的交换机死机现象,可以通过重新启动交换机的方法解决。
如果重新启动后,故障依旧,则检查一下那台交换机连接的所有电脑,看逐个断开连接的每台电脑的情况,慢慢定位到某个故障电脑,会发现多半是某台电脑上的网卡故障导致的。
4、故障原因:有网管功能的交换机的某个端口变得非常缓慢,最后导致整台交换机或整个堆叠都慢下来。
通过控制台检查交换机的状态,发现交换机的缓冲池增长得非常快,达到了90%或更多。
原因及解决方法:首先应该使用其它电脑更换这个端口上的原来的连接,看是否由这个端口连接的那台电脑的网络故障导致,也可以重新设置出错的端口并重新启动交换机。
个别时候,可能是这个端口损坏了。
需要解决接口问题,保障设备正常运行。
(3)路由器故障排除
路由器的硬件部分主要包括:存储器、电源、传输媒介(也就是电缆)、CSU/DSU、供应商的媒介、CPU、接口、模块等,路由器出现硬件问题的几率是比较低的,但是一旦发生故障时,可能为用户带来很大的麻烦,因此我公司技术人员会针对一下几点对路由器进行检查。
硬件故障:
1、系统不能正常加电
故障现象:当打开路由器的电源开关时,路由器前面板的电源灯不亮,风扇也不转动。
故障原因:最大嫌疑对象分别是电源和电缆。
解决方法:出现这种状况,首先检查电源系统,看看供电插座有没有电流,电压是否
正常,如果供电正常的话,那就看看电源线有没损坏,有没有松动等,电源线有所损坏的话就更换一条,松动了的话就重新插好;如果情况依旧,可能是路由器的电源出现问题。
接下来要检查的就是路由器的电源保险,若是烧了的话重新更换即可,如果故障严重些,我公司会联系设备原厂商,给出解决方案,保障用户的设备能够稳定运行。
2、零部件损坏
故障现象:把部件插到路由器上的时候,企业网络系统的其他部分都可以正常工作,但却不能正确识别所插上去的部件;或者是,所插部件可以被正确识别,但在正确配置完之后,接口就不能正常工作了。
故障原因:前者最大可能是所插部件有问题或者是接口卡失灵,而后者的问题大多是由于路由器存在其他物理故障。
解决方法:如果是前面的那种状况,那就用相同型号的部件替换不能被正确识别的部件插到路由器上,如果可以正确识别,那问题就肯定在所插部件上了;要是同样也不能识别的话,那就换其他接口来试插一下,在其他接口上可以识别,那问题就在之前的接口上。
3、路由器散热不良或是设备不兼容
故障现象:刚上网一切正常,但是上了一段时间之后,网速就开始下降,甚至频频掉线。
故障原因:有可能是路由器本身的性能差,稳定性不好,也可能是路由器或者是ADSLModem、光纤接入器等设备温度过高而造成网络中断,还有可能是路由器的型号与
ISP(网络供应商)的局端设备不兼容,不过绝大部分原因都是由于路由器的配置不当而引起的(这个在这里不多作分析,留待后面再详解)。
解决方法:当出现网速下降现象时,用手感觉路由器等网络接入设备的表面温度,如果感觉很烫手,那就说明频繁掉线的原因是硬件设备问题,最好考虑更换一个新设备,上网就正常了,也可以把路由器等放在散热条件比较好的地方,可以解决这个问题。
软件故障:
1、无法进行系统软件升级
故障现象:在对系统软件进行升级时不能完成升级程序,总在进行到某一阶段的时候就被迫中止。
故障原因:这种情况多半是NVRAM(一种电可擦写的存储器,通常用来存放系统软件)容量不足所导致的。
解决方法:既然是所要升级的软件内容超过了NVRAM的容量,那要做的自然就是对NVRAM进行升级,这样不但可以扩充NVRAM的容量,也可以对里面的数据进行更新。
2、企业宽带路由器的部分功能无法实现
故障现象:路由器配置完全正确,但是有些功能却不能实现。
故障原因:如果是在确保路由器配置正确的前提下,那么问题应该就在路由器的软件系统上。
解决方法:升级软件系统。
因为路由器的系统软件往往有许多版本,每个版本支持的功能有所不同,出现这种情况最大的可能就是当前的软件系统版本不支持某些功能而导致路由器部分功能的丧失,进行相应的软件升级就可以解决问题了。
如果问题严重我方技术人员将会联系设备制造厂商专业人员来进行维修。
(4)防火墙故障排除
1、内网不能正常进行网络访问
对于此类问题的发生,应当首先检查访问控制规则,主要查看是否有访问控制程序被禁止,同时还要仔细检查是否有禁止访问的网络模块出现;之后要进行的工作是检查防火墙日志,这是因为防火墙日志中多半会明细出具体不能联网访问的主要成因,在此过程中主要针对IP、UDP、TCP等事项信息进行查看。
也就是说这三个事项事件中往往会伴随连接与禁止访问的数据包及地址信息等。
2、网络访问与下载、连接等的速度过于缓慢
当有用户在反应网速过于缓慢时,对网络管理员而言应当查看防火墙策略设置是否合理,比如在防火墙及系统网络日志中是否发现有P2P限速软件等程序,或者是否存在一些不规范的下载软件存在,如电驴、火狐等下载软件,另外就是查看后台执行程序任务管理器中是否有流量过大的执行程序运行,而管理员发现端口存在后把其关闭就能使问题得以解决。
(5)均衡器故障排除
应用服务故障
用户反映某通过F5负载均衡的应用服务异常,无法访问。
处理过程:
1、web登录应用服务所在的F5BIG-IPLTM;
2、根据应用服务名称,在VS中搜索相应的VS名称;
3、查看当前VS的状态,是enabled,还是offline,还是disabled。
enabled状
态是标识,offline是标识,disabled是标识。
4、如果是offline状态,说明该VS下属pool中的members都处于down状态,
需要和应用反馈,协查应用服务是否正常。
5、如果VS是enabled状态,需要检查该VS下的pool是那种状态。
在vs只有单
一pool的情况下,vs是enabled状态,那pool也会是enabled状态。
此时需要检查pool下的members是否有不是enabled状态。
6、在检查pool下的members时注意考虑是否有会话保持的设置,可能是应用节
点异常,但因健康检查配置不合理,导致F5仍然往故障节点上分发,导致用户正常请求被分发到故障节点上。
此时需要与应用沟通,关注应用的日志,是否报错。
7、暂时性恢复此故障,可以把异常的节点先强制offline,让新的请求都发到正
常的节点上。
模拟场景二:用户反映服务请求都被分发到一个节点上,负载不平均
处理过程:
1、web登录应用服务所在的F5BIG-IPLTM;
2、通过Statistics中StatisticsType的pools列表,观察服务故障的pool下
属的members的连接请求是否不平均;
3、检查VS的DefaultPersistenceProfile选项,选择了哪中的会话保持方式;
4、与应用沟通协查pool下的应用节点是否能正常访问,可以采用人工直接访问
单节点的方式来验证pool下所有节点是否都正常;
5、可以考虑更改会话保持方式,来平均应用访问负载。
硬件故障
F5均衡器有硬件告警
处理过程:
通过F5前液晶面板观察错误信息;
通过命令行模式输入,bplatform查看F5设备几个硬件模块的状态,如,电源,风扇等。
(6)网闸故障排除
1.问:如何检查设备硬件工作状态是否正常﹖
答:1、检查内外网模块电源(长亮)及硬盘(有数据传输时闪烁)指示灯是否正常;
2、检查网闸数据交换模块状态指示灯是否保持闪烁状态;
3、登录管理界面检测内外网系统是否已经启动。
2.问:如何检查交换模块工作状态是否正常﹖
答:1.检查前面板交换灯状态:内外网交换灯长亮或一灯长亮一灯不亮则说明交换模块工作异常;交换灯处于闪烁状态说明内外网有数据交换。
(系统在没有导入许可证前,由于系统的交换卡检测程序频繁的发送数据会导致两个交换灯处于近乎长亮的状态) 2.登陆管理界面,打开工具箱-〉交换卡状态界面,可查看交换模块工作状态3.通过串口登陆,运行detect_card命令,可查看交换模块工作状态
登陆命令行管理方式的方法,管理主机与网闸coml口相连,波特率是9600,其它为默认,登陆用户名为l,无密码。