2012年机房安全巡检总结报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

11月 1
12月 1
历史告警故障是当前告警很难发现的,且很难被监控系统发现并排单。
需对多天的历史告警提取分析才能发现,2012年下半年,经我维护组观 察分析,发现10起“隐藏故障”的历史告警,并立即处理,消除了这些 安全隐患。历史告警分析是我们BSC安全巡检发现故障的重要方法,是 对当前告警及监控派单的补充和完善。这项措施提高了我们的工作完善 度,降低了监控系统派单率。
2012年机房安全巡检总结
韩兴东
巡检内容

安全检查是安全管理的重要内容,是识别和发现不安全因素,揭示和消除事故隐 患,加强防护措施,预防故障的重要手段。机房安全巡检是对日常维护的补充, 可以进一步提高维护分析工作的时效性、纵向深入性及横向联合性,把机房维护 等基础管理工作进一步规范化、标准化,是为今后进一步做好维护工作打下基础。 机房安全巡检包含机房环境检查和设备告警检查两大部分。机房环境检查是检查 设备所处环境是否达标,有无存在安全隐患,各种标签有无脱落。设备告警检查 是查看设备的各种告警,从而及时处理各种故障,解决设备存在的隐性隐患问题
未派单(起 )
9
6
2
6
13
7
历史告警巡检

历史告警巡检是发现软件故障及隐患故障的必要手段,所以我BSC维护组对每天 的历史告警经行提取,并对比以前的历史告警进行分析。下半年共发现10起故障, 这些故障为“隐藏故障”,它们当前告警看不到,也不会被监控派单,
7月 历史告警 3
8月 3
9月 1
10月 1
温度巡检
在日常巡检中,加强了对各网元的温度巡检。使用了专业的红外成像仪,
能够准确的显示出在某一范围内,各网元、硬件的最高温度,最低温度 和平均温度。这一仪器使用,更有效的帮助我们排除网元的隐患故障, 减少事故的发生率。红外成像仪所呈现的图像可以准确的表示出各硬件 的最高温度,最低温度和某一范围内的平均温度。便于了我们对某些温 度不在正常范围内的硬件进行及时的更换,排除隐患故障。 在巡检中发现BSC338、BSC348、BSC339、BSC349板件温度偏高, 并立即与机房管理人员联系处理,在网元上方新增空调出风口,降低了 网元板件温度。
机房安全巡检工作的主要内容包含四大类:
1 2 3 4
检查设备工作环境、标签、状态 进行历史告警、现网告警分析及处理 定期对机房内所有王元进行温度巡检 网元入网验收,退网报备
网元标签巡检
标签检查:网元 标签是网元的重要标示,它关系到资管系统正确与否,
也关系到维护的安全。成都市内共有BSC机房15个,设备195套,机柜 237个。标签巡检是保证每套设备、每个机柜级DDF架、ODF架标签正 常无脱落。2012年机房巡检黏贴脱落标签68个,并将所有网元标间进行 了加固处理。
故障处理
故障处理分析是2012年下半年加入到机房安全巡检行列的,我们对2012
年下半年的故障进行了统计分析,2012年下半年监控派单故障为330起, 其中9月因为夜间割接升级造成的故障为45起,12月因为夜间割接升级 造成的故障为47起,因此2012年下半年够有故障301起,全部处理完毕。 其中有238起故障被监控系统派单, 53起未被监控系统派单,派单率为 82%,也就是我们减少了18%的派单率。在2012年我维护组共巡检到 152起故障,巡检故障率为50.5%。而未被巡检到故障中59起为License 容量限制告警,这个告警需要重新加载License,所以没有被巡检故障记 录。
外 观
硬 件
数 据
拨 测
合 格
网元入、退网清单
BSC入、退网清单 1月 2月 3月 华为入网(套) 2 5 11 诺西入网(套) 0 0 2 退网网元 0 0 24
4月
5月 6月 7月 8月 9月 10月 11月 12月
2
2 1 2 0 0 0 0 1
1
1 1 1 1 3 1 0 0
4
16 3 24 1 0 3 6 0
境问题13起,检测出网元温度异常4起。在下半年检测出现网故障152 起,隐藏故障10起,全部处理。在下半年的工作中,我们降低了将控系 统18%的派单率,也大大降低了一、二级告警立时。 BSC设备安全巡检工作是保证BSC设备安全的基本工作,要仔细小心。 我BSC维护组为了更好的完成这项工作,对每项工作都设特定人员,并 将每天的资料存档,已被将来分析。本着开拓创新的原则,我维护组将 时刻自检,以发现工作中存在的问题并立即更正。
当前告警巡检
从2012年下半年,机房安全巡检加入网元告警分析及处理。设备告警巡
检主要包括现在当前告警检查与历史告警分析。当前告警主要是检查设 备当前状态,是否存在故障,及时解决。历史告警分析则是对实时告警 检查的补充,因为设备的一些软件告警总是造成“闪断”现象,实时告 警不能及时发现。所以我们通过历史告警的分析,查出此类隐患故障, 及时解决。
10 9 8 7 6 5 4 3 2 1 0 1月 XPUa PCU2E CL3TG_UA 2 2月 2 3月 1 4月 3 5月 1 6月 9 7月 3 8月 3 9月 3 10月 3 11月 2 12月 1
3
4
1
1
3
5
5
5
9
3
3
1wk.baidu.com
1
2
7
4
4
6
6
5
5
0
4
0
总结
2012年,我BSC维护组在机房安全巡检中共重贴标签68个,发现机房环
机房环境巡检
机房环境:BSC设备的工作与环境有重要关系,而我们主要检查机房环
境是否达标,主要内容是夏季设备降暑、冬季设备电源排查,杂物清理 等。2012年共巡检故障5次,解决出隐患问题8起。
日期
巡检故障 2012年1月成都多个机房温度偏高 2012年2月成都多个机房温度偏高
处理情况 通过快文反映情况 正在增加空调通风管 经设计院重新测试处理后达 2012年3月2M线走线架承重臂螺丝不足 到标准 2012年5月各别ET端口连线错误 重新布线 2012年6月个别网元底部有杂物 已清理
7月 自查故障 25
8月 35
9月 23
10月 23
11月 22
12月 14
历史告警分析 未派单故障
派单故障
3 12
67
3 9
30
1 3
96
1 7
46
1 14
23
1 8
68
硬件使用分析

硬件使用情况分析:2012年共更换硬件185块,涉及24种板件。其中华为XPUa单 板更换31块,占总量的17%,诺西的PCU-2E更换51块。占总量的28%,CL3TG 更换36块,占总量的19%。我们对每月更换的这三种板件经行了统计分析, CL3TG板件故障主要是由于软件吊死,经厂家技术部研究后,通过版本升级解决 该问题,而PCU-2E的故障已提交厂家,其研究组正在处理。华为的XPUa单板主 要是其工作特性决定的,厂家人员也指出其是故障率最高的单板。而我们已将 XPUa单板的故障情况提交给厂家,请其分析并给出降低XPUa单板故障的方案。
网元入、退网报备
验收工作主要对新设备外观、数据核查、告警清理、硬件检测、拨打测
试等检验,以确保网元零风险入网。 2012年,BSC网元共退网22套,下 电59套,入网36套。
网元入网验收为重中之重,我们对每个即将入网的网元进行规范外观、
数据核查、告警清理、硬件检测、拨打测试等检验,以确保网元零风险 入网。截止12月低,已验收网元36套。其中8套网元发现标签不规范,3 套网元存在残留告警,经重新调测后,复验合格。
当前告警巡检是发现设备故障的重要手段,所以我BSC维护组每天对设
备进行三次实时告警提取分析。下半年共查出当前告警132起。其中43 起未被监控派单,并且在有些故障在派单之前我们已经检查到,并开始 处理,所以在派单之后的很短时间内处理完成。这也大大减少了无线中 心的一、二级告警处理时间。
7月 当前告警(起) 22 8月 32 9月 22 10月 22 11月 21 12月 13
相关文档
最新文档