TSM日常维护手册

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

xx
TSM数据备份项目日常维护手册
xxxxxx科技有限公司
目录
1前言 (3)
2TSM巡检操作手册 (4)
2.1查看TSM服务器 (4)
2.2查看TSM MANAGE CONSOLE (4)
2.3在TSM服务器上登录到管理界面 (5)
2.4在TSM CLIENT端检查 (6)
3TSM常见问题的处理 (6)
3.1TSM S ERVER的故障处理 (6)
3.1.1所有的备份和恢复操作都无法进行 (6)
3.1.2如何获得TSM错误描述 (7)
3.1.3系统出现无法读写磁带或磁盘的故障 (7)
3.1.4处理带库故障后TSM工作不正常。

(8)
3.1.5 a tape in library does not display in q libv (8)
3.1.6reclaim process not run (8)
3.1.7how to delete archive log files after backup (8)
3.1.8windows device manager, found a drive mark as yellow (9)
3.2TSM C LIENT的故障处理 (9)
3.2.1TSM Client无法连接TSM Server (9)
3.2.2TSM Client备份大文件时经常不成功 (9)
3.2.3ANS1312E error in dsmerror.log (10)
3.2.4when backup data, error: media can not mount (10)
3.2.5ANR8779E Unable to open drive mt0.3.0.3, error number=170 (10)
4日常维护 (10)
4.1启动和停止TSM服务器 (10)
4.2进入管理员界面 (11)
4.3进入TSM CLIENT文件备份/恢复界面 (11)
4.4管理数据库和日志 (11)
4.5管理磁带库 (12)
4.5.1查看带库中磁带驱动器状态: (12)
4.5.2磁带的分配: (12)
4.5.3检查活动日志,有可能要求作出回应, (12)
4.5.4查看磁带上的备份内容: (13)
4.5.5从磁带库中取出已使用的磁带放到异地保存: (13)
4.5.6将取出的磁带重新放入磁带库中: (13)
4.5.7向磁带库中增加新的供TSM使用的磁带: (13)
4.5.8将新磁带添加到storage pool 中(可选) (13)
4.5.9重复利用磁带库中的磁带 (13)
4.6管理磁带库存储池 (14)
4.7管理客户端节点 (14)
4.7.1删除一个客户端节点 (14)
4.7.2修改节点密码 (14)
4.8定时备份维护 (14)
4.8.1TSM Clien/TDP节点定时备份守候进程 (14)
4.8.2客户端停止定时备份 (14)
4.8.3查看定时备份日志 (15)
4.9建立策略域(P OLICY D OMAIN) (15)
4.10监控TSM S ERVER运行情况 (15)
5IBM客户支持服务流程 (16)
1前言
本文档是TSM巡检操作手册,常见问题的处理和日常维护。

2TSM巡检操作手册
2.1 查看TSM服务器
查看TSM服务器和ADIC带库的连接状态,如下图为正常:
主要为其它设备可以看到ADIC的SNC,介质变换器,磁带驱动器都有设备显示。

2.2 查看TSM manage console
在"开始"菜单--〉"程序"--〉"Tivoli Storage Manager"中选择运行"Management Console":
可以看到带库和驱动器的信息。

2.3 在TSM服务器上登录到管理界面
在cmd的窗口里进入到TSM的安装目录baclient下
运行dsmadmc,输入口令/密码admin/admin进入管理员界面
2.4 在TSM client端检查
检查lanfree的进程,使用命令:
#ps –ef|grep dsmsta
如果进程没有启动,需要启动这个进程,方法:
IBM服务器的路径/usr/tivoli/tsm/StorageAgent/bin
#nohup ./dsmsta &
HP 服务器的路径/opt/tivoli/tsm/StorageAgent/bin
#nohup ./dsmsta &
3TSM常见问题的处理
在解决问题的过程中,需要具体问题具体分析,首先需要检查各种错误日志,定位问题,然后参考以下解决问题的办法,同时也可直接联系800技术支持热线,寻求专业的技术支持。

3.1 TSM Server的故障处理
3.1.1所有的备份和恢复操作都无法进行
问题描述
TSM Server启动正常,但所有的备份和恢复操作都无法进行。

问题处理建议
检查TSM本身的数据库是否已满?
> query database
3.1.2如何获得TSM错误描述
问题描述
在TSM的日志中发现有类似ANR7800I 的错误信息,如何得到该错误号的详细描述。

问题处理建议
使用TSM的文档查找错误描述,或直接使用命令查找:
> help 7800
3.1.3系统出现无法读写磁带或磁盘的故障
问题描述
在日常备份过程中或TSM日志中出现无法读写磁带或磁盘的故障。

问题处理建议
检查磁带库是否正常?
TSM>q library;查看是否Online状态;
检查驱动器是否正常?
TSM>q drive;查看是否Online状态;
检查磁带是否正常?
TSM> q libvolume;查看磁带状态;看是否是读写状态。

TSM> q vol f=d ;查看磁带状态;看是否是读写状态。

检查Path 是否正常?
TSM> q path;看online是否为yes ?
检查详细的TSM活动日志
TSM> QUERY ACTLOG BEGINTIME=NOW-30 ENDTIME=NOW
检查操作系统下关于设备的日志。

在操作系统下检查设备状态;
AIX : lsdev –Cc tape
3.1.4处理带库故障后TSM工作不正常。

问题描述
当带库出现故障后,如更换driver后,TSM工作不正常。

问题处理建议
按照配置步骤重新检查path,drive 的定义、状态
检查磁带机的s/n 号。

3.1.5 a tape in library does not display in q libv
问题描述
a tape in library does not display in q libv。

问题处理建议
checkin libv libname search=yes checkl=b status=scr
3.1.6reclaim process not run
问题描述
reclaim process not run, check stgpool reclaim threashold, the value was 100 问题处理建议
modify threashold less than 100
3.1.7how to delete archive log files after backup
问题描述
how to delete archive log files after backup
问题处理建议
using rman delete input all option
3.1.8windows device manager, found a drive mark as yellow
问题描述
In windows device manager , found a drive mark as yellow , so many operations is not successful .
问题处理建议
重起TSM 服务器?
重新安装 library driver ?
重起 Tape Library ?
3.2 TSM Client的故障处理
3.2.1TSM Client无法连接TSM Server
问题描述
TSM Client 无法连接TSM Server。

问题处理建议
检查服务器配置文件,并检查服务器是否绑定配置文件中规定的端口?
查看服务器的状态(Query Status)确保设置好了"Availability: Enabled";
检查客户端配置文件中端口号和IP地址是否与服务器端一致;
检查节点是否被服务器端锁定(LOCK);
系统管理员检查网络状况和服务器的内存利用状况,如果内存不够用了,则新的连接肯定无法建立。

3.2.2TSM Client备份大文件时经常不成功
问题描述
TSM Client在备份大文件时经常报如下错误,但备份小文件没有问题:
2006-03-13 11:50:37 ANS1005E 在套接字 = 636处 TCP/IP 读取错误,错误号 = 10035,原因:无法立即完成一个非阻挡性套接字操作。

2006-03-13 11:50:37 ANS1809W 会话丢失;正在初始化会话的再打开过程。

2006-03-13 11:50:53 ANS1811S TSM 会话无法重建。

问题处理建议
检查服务器端dsmserv.opt中有一项IDLETimeout、Commtimeout设置,调大后进行测试。

( 注:要求TSM Server和 storage agent端设置一致)。

3.2.3ANS1312E error in dsmerror.log
问题描述
ANS1312E error in dsmerror.log
问题处理建议
delete old path re-define
3.2.4when backup data, error: media can not mount
问题描述
when backup data, error: media can not mount
问题处理建议
re-define drive path, audit library
3.2.5ANR8779E Unable to open drive mt0.3.0.3, error number=170
问题描述
On Windows ,actlog , ANR8779E Unable to open drive mt0.3.0.3, error number=170.
问题处理建议
检查 library 状态。

检查 path ,发现path offline,无法online。

在操作系统下删除设备,重新识别?
重新定义path 。

4日常维护
4.1 启动和停止TSM服务器
启动TSM服务器
系统中,TSM Server作为一项系统服务已设置为在系统启动时自动启动。

停止TSM服务器
停止TSM服务器操作步骤为:
1. 运行dsmadmc,输入口令/密码admin/admin进入管理员界面
2. 禁止服务器接收新的客户端访问TSM>disable sessions
3. 查看当前客户端与服务器的连接TSM>query session
4. 等待客户端结束备份或直接中断连接TSM>cancel session XX(all)
5. 查看服务器进程TSM>query process
6. 等待服务器进程结束或直接中断进程TSM>cancel process
q mount检查是否有磁带被使用。

q request检查是否有需要人工干预的操作。

7. 停止服务器TSM>halt
4.2 进入管理员界面
字符界面访问
在TSM服务器上运行dsmadmc,输入管理员ID,密码。

4.3 进入TSM client文件备份/恢复界面
字符界面访问
在TSM客户端运行 dsmc输入密码。

GUI界面访问
在TSM客户端运行dsmj,点击backup/restore 按钮既可。

要求有图形支持。

4.4 管理数据库和日志
查看tsm数据库和日志使用率
查看数据库使用率,使用命令为TSM>query db,查看PctUtil项是否接近100。

查看日志使用率,使用命令为TSM>query log,查看PclUtil项是否接近100。

扩充数据库和日志容量
如PctUtil接近100,则必须扩充容量,扩数据库为:
TSM>define dbvolume dsmdb02.dsm formatsize=XX wait=yes
TSM>extend db XX
扩日志容量为:
TSM>define logvolume log03 formatsize=XX wait=yes
TSM>extend log XX(XX为大小,例如200代表200MB.)
扩充之后,用query db和q log查看扩充后PctUtil的值。

4.5 管理磁带库
由于TSM对磁带库以独占方式访问,所以,在TSM Server运行的时候,不要用任何其他命令或方式对磁带库进行操作,以免冲突。

4.5.1查看带库中磁带驱动器状态:
在磁带驱动器状态正常情况下,TSM才能正常的备份数据。

TSM>query drive 查看磁带驱动器状态,其中OnLine列应皆为Yes,表明磁带驱动器可以使用。

若TSM启动后观察到OnLine项不为Yes,检查磁带库是否已上电,或者请求IBM 支持。

4.5.2磁带的分配:
磁带的分配是自动的,系统中有2个存储池,某个池需要磁带时,系统就会从当前的空闲磁带目录中分配磁带给它。

1盘供TSM备份自身数据库。

由于已在设定存储池(stgpool)时指定MaxScratch,所以其余带子可以需要时自动加入。

向磁带库中增加新的供TSM使用的磁带
1. 在磁带库I/O槽中放入新磁带。

2. label libvolume LIBRARY(这里是使用q library查看到的磁带库名称)
A000XXX(这里是使用q libvol查看到的磁带的名称) overwrite=yes checkin=scratch
参考label libvolume 3584lib search=yes labelsource=bar checkin=scratch overwrite=yes
3. tsm: TSM> q actlog
4. tsm: TSM> TSM> reply 2
5. 将磁带从带库中取出
TSM> checkout libv libname a00047
4.5.3检查活动日志,有可能要求作出回应,
TSM> q request
TSM> reply 1 label=a00047
4.5.4查看磁带上的备份内容:
在TSM字符管理界面下运行:
TSM>q content TAPE_LABEL
其中TAPE_LABEL为备份使用的磁带标签,可用q vol 或 q libvolume看到。

所看到的文件名格式为<SID>___XXmmddhhmm_x,其中中间一串时间对应上述
<TIMESTAMP>。

所以也可以通过这里知道要恢复的备份的时间戳。

4.5.5从磁带库中取出已使用的磁带放到异地保存:
TSM>checkout libvolume LIBRARY(这里是使用q library查看到的磁带库名称) TAPE_LABEL remove=yes
然后从磁带库前面的I/O窗口中取出退出的磁带妥善保存。

这时用q vol命令可以看到这盘磁带的信息,但用q libvolume看不到。

4.5.6将取出的磁带重新放入磁带库中:
将欲放回的磁带放入前面的I/O窗口中,注意条码一边向内。

TSM>checkin libvolume LIBRARY(这里是使用q library查看到的磁带库名称) search=bulk status=private
4.5.7向磁带库中增加新的供TSM使用的磁带:
将欲放回的磁带放入磁带库前面的I/O窗口中,注意条码一边向内。

TSM>label libvolume LIBRARY(这里是使用q library查看到的磁带库名称)
search=bulk labelsource=barcode checkin=scratch
4.5.8将新磁带添加到storage pool 中(可选)
TSM>define volume POOL_NAME TAPE_LABEL
4.5.9重复利用磁带库中的磁带
1. 自动重复利用
当以前的备份随时间流逝而过期,磁带上相应的空间会腾空,但由于磁带属于流设备,只要后面还有数据存在,前面的空闲空间就不可使用。

缺省状态下,当一盘磁带上这样的可回收空间达到90%时,TSM会自动将这盘磁带上的全部数据转移到同一存储池的另一盘有足够可用空间的磁带上,使这盘磁带可以被重复利用。

这种方式不需要人工干预。

2. 快速重复利用
如果用 q content命令查看某盘磁带上的备份内容后,认为这些备份数据都可以删除了,我们就能快速清空这盘磁带,使它可以被重复利用。

TSM>delete vol TAPE_LABEL discarddata=yes
TSM>define volume POOL_NAME TAPE_LABEL
4.6 管理磁带库存储池
查看数据存储池利用率:
例如vobpool:
TSM>query stgpool vobpool format=detail
PctUtil的值表示其利用率。

4.7 管理客户端节点
4.7.1删除一个客户端节点
删除一个客户端节点,只需在服务器上将节点删除,但必须要有足够权限。

1. 除该节点在服务器端的数据,使用命令:
TSM>delete filespace NODENAME * wait=yes
2. 节点定义,使用命令TSM>remove node Nodename
4.7.2修改节点密码
使用命令:TSM> update node Nodename NewPasswd
4.8 定时备份维护
4.8.1TSM Clien/TDP节点定时备份守候进程
1. 后台启动定时器:
# cd /usr/tivoli/tsm/client/ba/bin
# nohup dsmc schedule -se=*** -password=*** 2>/dev/null&
2. 以在/etc/inittab中加入如下行使其自动启动。

Tsm::once:/usr/bin/dsmc schedule -se=*** -password=*** >/dev/null 2>&1 # TSM Scheduler
4.8.2客户端停止定时备份
(1) ps -ef|grep dsmc|grep schedule得到所有dsmc schedule进程号。

(2) kill -9将其中止。

4.8.3查看定时备份日志
dsmsched.log,该文件存在运行dsmc schedule命令的目录。

4.9 建立策略域(Policy Domain)
策略域定义备份保存的版本及版本保存的时间,是TSM存储管理的核心。

1. NDARD策略域COPY为一个新的策略域。

3. 修改Backup Copy Group属性,指定Storage Pool、对象存在时保留版本数(Verexist)、对象删除后保留版本数(Verdeleted)、额外版保留天数(Retextra)、最后版本保留天数(Retonly)。

4. 检验,激活上述配置。

4.10 监控TSM Server运行情况
使用query status命令查看server当前状态。

使用query actlog命令查看近期内服务器和客户端的活动。

可以设定具体的查看时间段。

使用query volhist type=dbbackup查看TSM服务器数据库备份情况。

使用query event命令查看客户定时器状态,成功、失败或将来状态。

使用query event type=admin命令查看TSM服务器定时器状态,成功、失败或将来状态。

查看/usr/Tivoli/tsm/server/bin/dsmerror.log和dsierror.log中的出错信息。

查看客户端的/usr/Tivoli/tsm/client/ba/bin/dsmsched.log中定时备份的信息。

可以使用dsmadmc -consolemode命令开一个窗口,窗口中会记录服务器和客户端的活动情况。

使用query content A00047(这里是使用q vol查看到磁带卷名称)查看磁带中的备份内容。

5IBM客户支持服务流程
IBM电话支持流程提供5x8小时及7x24小时(仅限"严重程度一"的问题)远程电话支持。

工作时间内(每周一至五,上午8:30到下午17:00), 对于客户报告的技术问题,工程师将在收到客户电话后两小时内予以响应。

非工作时间内,对客户报告的"严重程度一"的技术问题,工程师将在收到客户电话后两小时内予以响应。

IBM软件产品售后问题申请与解决流程主要包括三个阶段:
客户技术支持流程图
第一阶段: 向客户问题协调员提供一下信息:
您的基本信息,包括姓名、公司名称和联系电话
贵公司客户号
客户号:
IBM客户问题协调员将对您的信息进行登记,并转接给相应的IBM软件技术支持工程师。

第二阶段: 向IBM软件技术支持工程师提供:
产品相关信息,包括产品版本号、补丁级别、操作系统及版本号、产品相关配置信息;
其他相关信息,如网络配置信息,数据库信息和应用系统信息等;
错误描述,如发生频率、引起错误的相关操作、重现错误的步骤、错误现象、错误日志信息等。

我们的工程师将协助您分析问题的原因,采取相应解决措施。

第三阶段: 当您的技术问题需要更多资源协同解决时,该问题申请将自动进入本阶段。

由IBM首层技术工程师协调IBM全球技术资源,并向客户提交最终解决方案。

6常用TSM命令
q vol :查询存储池中的卷
q node :查询结点
q library:查询带库
q drive:查询驱动器
q libvol:查询带库中的卷
q stgpool:查询存储池
q devclass:查询设备类
q sess :查询会话
q mount:查询驱动器加载磁带情况
q con xxx:查询xxx卷中的内容
q act:查看活动日志
q status:查看服务器信息
q process:查看活动进程
f=d
reg node nodename password:注册结点
define lib rary ….:定义带库
define drive:定义驱动器
define path:定义路径
define stgpool:定义存储池
define devclass:定义设备类
label vol:标号磁带
check in:检入磁带
check out:检出磁带
help xxx:获取相应命令的使用帮助。

相关文档
最新文档