磁带库典型故障处理案例分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

磁带库典型故障处理案例分析
在STK L180磁带库上爬过的坑
故事发生在几年前,在更换机房的一组光纤交换机的实施过程中,原光纤交换机因使用超限,决定将其更换为博科DS5100。

交换机下联设备有存储、小型机、磁带库。

光纤交换机使用端口zone,并反复确认了zone配置信息。

切换当天,按照计划顺利实施。

验证小型机和存储链路均正常。

但业务验证时发现,NBU备份软件中,手动执行备份任务,有部分失败。

故障现象:
查看NBU备份软件中日志,关于执行备份任务的报错,发现在STK L180磁带库上执行的备份任务均失败。

检查过程:
首先,查看光纤链路标签,确认实施前后一致。

接着,确认DS5100光纤交换机与L180磁带库的端口和ZONE划分也配置正确。

然后,详细分析了交换机log信息,发现连接磁带机光纤卡的两个端口,只有FX流,没有RX数据流。

根据,以上故障现象及检查方式,基本上先排除光纤交换机和光纤链路的问题。

问题聚焦在STK L180磁带库上。

因平时很少出现问题,面对这台老古董,确实无从下手。

L180磁带库有3块光纤卡,其中一块为机械臂的光纤卡,另两块为磁带机的光纤卡。

重新手动发起备份任务,观察老古董的工作,发现其机械臂可将磁带抓入磁带机,但两个磁带机均无法进行正常读写。

备份任务无法正常执行。

初步怀疑是两台磁带机的光纤卡有问题,可是磁带机上的光纤卡上连指示灯都没有,继续崩溃中。

硬着头皮在L180磁带机的面板中翻看信息,状态显示都正常无报错信息。

继续仔细检查,发现两个磁带机的光纤卡速率speed仅为1 GBIT。

显示信息:speed : 1GBIT
1GBIT?会不会是跟新更换光纤交换机的端口速率不匹配呢?可是怎么修改磁带库的光纤卡速率呢?在面板上把所有选项翻个遍,根本没有更改端口速率的选项。

心想,先不在这台老古董上浪费时间吧,去光纤交换机上改下吧。

紧接着登录到DS5100光纤交换机上,查看磁带机连接的端口模式为自适应,会不会是无法自适应1GBIT呢?决定将光纤交换机的该端口速率强制为1GBIT,修改后,重新执行备份任务,老古董的机械臂将磁带抓入磁带机中,然后就没有声音了。

还是之前的故障现象。

马上跟光纤交换机厂商工程师确认,该型号交换机端口虽然可以强制1 GBIT,但硬件只能支持2 GBIT和4 GBIT以上。

看来,只能寄希望于修改这台老古董身上了,翻出已经落了灰的产品手册,看了2个多小时,终于发现了线索,L180磁带库在前面板上没有配置选项可以直接更改磁带机的光纤卡速率,只能通过修改LOOP ID值。

LOOP ID 值为80,磁带机光纤卡速率为1 GBIT。

Loop ID值为126,磁带机光纤卡变为自适应。

放下产品手册,赶紧跑到面板前,找到Loop ID的修改位置,将ID值改为126,磁带机的光纤卡速率变为自适应,显示信息:speed : auto。

重新再NBU中发起备份任务,磁带机终于转动了。

(社区会员qq373793057分享)
AIX 7.1环境NBU备份Oracle rac数据库,磁带库驱动器故障导致备份失败案例
故障现象:
AIX 7.1环境下 NBU 备份oracle rac数据库时,磁带库驱动器故障导致备份失败。

报错提示为 driver load tape error。

故障原因:
根据报错信息定位由于带库驱动器无法正常装载磁带导致备份失败,通过WEB登录带库管理界面查看驱动器状态,发现带库驱动器offline状态。

可以判断带库驱动器故障,同时log显示有驱动器error信息,确认驱动器故障后,在nbu Device Monitor界面禁用故障的驱动器,防止备份作业再次调起故障的驱动器,同时将驱动器里的磁带手工弹出,此时联系厂家更换驱动器,更换完成后再NBU上启用驱动器,进行作业备份,测试驱动器工作正常。

更换驱动器后备份恢复正常。

(社区会员qb306分享)
昆腾QUANTUM i40 物理带库备份失败案例
带库描述:QUANTUM i40 –HP LTO4 tape drive-head
故障现象:
win2003+NBU+昆腾i40物理带库,突然无法备份,系统能识别到带库驱动器,NBU软件也正常识别到磁带,但是无法备份。

检查过程:
1、将带库下架,拆除顶板,进行带库抓取,拿出,清洗,驱动器、机械臂、磁带物理状态检查,正常!
2、带库-SAN交换机-服务器,之间的链路状态检测,端口替换,光纤模块替换检查,正常!
3、NBU重新配置,驱动重打,还是无法备份。

最后联系昆腾原厂,现场诊断,原厂说可能是驱动器磁头磨损,带库管理界面无任何报错,最后将驱动器寄回原厂更换磁头,恢复正常!!!!
(社区会员ACDante分享)
TSM+昆腾磁带库的小案例
TSM6.3.4 +昆腾i500 环境。

故障现象:
由于带库使用昆腾i500,不属于ibm的嫡系部队,所以只能使用tsm 自动驱动程序进行驱动,开始的时候一直使用没有问题,直到有一天,其中的两个个驱动器读写报错,后来检查确认是磁带的问题,拿掉故障磁带后就好了,这时使用tsmdlst
重新使用识别扫描不好使,重启os和带库均不好使。

后来来个干脆的:
TSM服务器关闭,带库断电 10分钟,重新启动带库,服务器验证。

正常了。

再不行,我就准备杀招了(删除drive,path的定义)
这个问题啊,有可能还是tsm和带库版本兼容不太好的一面吧。

(社区会员董志卫分享)
TS3200卡带故障解决案例
机器:TS3200
管理系统:TSM
报错如下:
连接磁带库管理口状态如下:
控制器状态:
控制器1报错,显示超时查看磁带仓库分配状态:
从图中看出:控制器正在读写11仓磁带“W00007L5,且该磁带出现故障,原因应该为损
坏磁带引起控制器卡带。

界面进行移动磁带,重新分配磁带,损坏磁带无法转入I/O仓解决:
断电拆开控制器:
卡带
拔出损坏磁带后安装回控制器重新上电,初始化需要时间
拔除损坏磁带后进行备份
2016-10-10-09.48.53
ANR0944E
QUERY PROCESS:找不到活动的进程。

(会话: 21)
2016-10-10-09.52.29
ANR2034E
QUERY EVENT:使用此条件时找不到匹配的项。

(会话: 23) 2016-10-10-09.52.29
ANR2034E
QUERY EVENT:使用此条件时找不到匹配的项。

(会话: 23) 2016-10-10-10.00.12
ANR2034E
SELECT:使用此条件时找不到匹配的项。

(会话: 21)
2016-10-10-10.00.13
ANR0944E
QUERY PROCESS:找不到活动的进程。

(会话: 21)
2016-10-10-10.09.43
ANR7808W
Sun Microsystems 库连接模块 libacs.dll 在该系统上不可用。

2016-10-10-10.09.45
ANR8470W
库 LB0.1.0.4 中驱动器 MT0.0.0.4 初试化错误。

2016-10-10-10.09.45
ANR8470W
库 LB0.1.0.4 中驱动器 MT1.0.0.4 初试化错误。

2016-10-10-10.10.00
ANR1414W
由于以前的写错误,卷 W00041L5 的访问方式是“只读的”。

2016-10-10-10.10.00
ANR1412W
卷 W00014L5 的访问方式是“unavailable”。

2016-10-10-10.10.00
ANR1412W
卷 892AABL5 的访问方式是“unavailable”。

2016-10-10-10.10.00
ANR1412W
卷 W00043L5 的访问方式是“unavailable”。

2016-10-10-10.10.00
ANR1412W
卷 W00009L5 的访问方式是“unavailable”。

2016-10-10-10.12.29
ANR0535W
节点 ORA_PRD(TDP Oracle AIX)的会话 1 的事务已失败-没有足够的安装点可用,不能满足请求。

(会话: 1)
2016-10-10-10.12.47
ANE4994S
TDP Oracle AIX ANU0599 TDP for Oracle: (25297138): =>(ora_prd) ANU2602E The object /adsmorc//arch_PRD_924861811_35538_1_20161010 was not found on the TSM Server (会话: 2)
2016-10-10-10.20.12
ANR2034E
SELECT:使用此条件时找不到匹配的项。

(会话: 4)
2016-10-10-10.20.14
ANR0944E
QUERY PROCESS:找不到活动的进程。

(会话: 4)
2016-10-10-10.20.26
ANR2034E
SELECT:使用此条件时找不到匹配的项。

(会话: 4)
2016-10-10-10.20.27
ANR0944E
QUERY PROCESS:找不到活动的进程。

(会话: 4)
显示失败
原因为拔插控制器之后,TSM无法直接online起控制器需要进入命令行手工执行命令online起
命令:q drvie 查看库转台
q path 路径状态
q libary
online起驱动器:update path tsmserver server1 srctype=server desttype=drive library=LB0.1.0.4 device=MT0.0.0.4 online=yes
最后TSM备份成功。

相关文档
最新文档