HDS存储VSP用户维护手册
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HDS 存储VSP 用户维护手册
(2013年5月)
目录
一、设备维护 ............................ 错误!未定义书签。
VSP配置信息 ..................................... 错误!未定义书签。
VSP系统架构 ..................................... 错误!未定义书签。
维护常用命令...................................... 错误!未定义书签。
VSP应急方案-上下电操作 .......................... 错误!未定义书签。
设备巡检......................................... 错误!未定义书签。
二、微码升级 ............................ 错误!未定义书签。
微码升级的意义................................... 错误!未定义书签。
微码升级的策略................................... 错误!未定义书签。
微码升级的步骤................................... 错误!未定义书签。
三、故障处理 ............................ 错误!未定义书签。
故障处理预案..................................... 错误!未定义书签。
四、案例................................ 错误!未定义书签。
硬盘更换步骤...................................... 错误!未定义书签。
CHA更换步骤 ..................................... 错误!未定义书签。
DKA更换步骤 ..................................... 错误!未定义书签。
CM更换步骤 ...................................... 错误!未定义书签。
一、设备维护
VSP配置信息
用户
SiteID
序列号存储配置信息IP地址HDS服务热线设备安装地址磁盘:块GB ,10krpm SAS磁盘(包
含块热备份磁盘);
CacheMemory:384GB;
前端板:3对8口8Gbps主机接口板;
后端板:2对DKA后端板公共
私网
400-678-6783
VSP系统架构
VSP系统架构图
其系统架构采用了交换式架构,如下所示。
图2-1:VSP硬件技术架构
VSP主要部件
图2-2 VSP硬件主要部件图VSP的主要部件包括:
前端卡(CHA):负责连接外部主机或存储交换设备,如小型机;
后端卡(DKA):负责连接内部磁盘存储设备,如硬盘;
数据缓存卡(CPC):CHA访问后端磁盘时的数据缓存区域;
内存条(CM):CM的内存条;
PCI-Express交换卡(ESW): DKC数据交换控制卡;
处理器板卡(MPB):负责前端及后端数据的处理;
磁盘(HDD):存储设备的磁盘;
备份盘(Spare Disk):用作备份盘的磁盘;
电池(Battery):系统掉电时保存数据的电池;
电源(PS):系统供电及交换用的电源;
风扇(FAN):系统冷却用的风扇;
控制台(SVP):系统配置和管理监控的控制台(一台笔记本电脑);
线缆(Cable):连接存储内部和外部各部件间的电缆;
光纤接头(SFP):光纤转换接头;
VSP存储的磁盘分布图
VSP的磁盘分布按照如下进行标识:
HDDxyz_dd
其中:xy=Cabinet(盘柜);
z=HDU number(磁盘笼编号)
dd=HDD number(磁盘编号)
图2-3:VSP磁盘位置图
维护常用命令
当盘机出现故障,如磁盘、控制卡、电源、内存、电池到出现异常时,会产生SIM信息,同时盘机会根据故障的严重程度,将Message或Alarm灯亮起。
Message灯亮时不影响系统使用,但应及时处理;Alarm灯亮时将影响系统使用,应尽快处理。
SVP登录
现场维护人员可以通过远程桌面登录VSP的存储控制台SVP进行日常维护工作:
VSP:
依次点击“History”和“Register”按钮,进入SVP。
SVP登陆后界面
以下为维护工程师登录SVP后看到的界面;
SIM信息检查
如果存储设备有故障,会在控制台上显示SIM Message:Pending SIM exists。
同时在存储设备的前面板左上角的SIM黄色报警灯会点亮。
点击Information按钮可以查看SIM日志:
点击Log…
List SIM:
Status列为“Initial”:有新的SIM信息,需要关注。
Stauts列为“Completed”:已经手动(或自动)被结束的SIM信息,一般是工程师对存储维护结束,确认系统恢复正常后进行的Complete操作。
选择某一行SIM,点击“Content”可以查看详细信息:
如可能最好通过屏幕拷贝的方式,保存显示的内容,将该内容email给HDS工程师
存储部件状态检查
SVP界面上除了查看SIM,还可以进入Maintenance菜单查看当前存储运行状态:
如果有硬件或其它故障,相对应的部件位置会闪烁报警。
清除SIM中的信息
先从View Mode进入Modify mode,点击“View Mode”:
SVP 变为“Modify Mode”:
依次进入:Information -> Log… -> List SIM,选定需要Complete的SIM信息,点击Complete:
确认即可。
退出SVP前,应将Modify Mode改为View Mode!
收集DUMP信息
选择Auto Dump按钮:
在如下界面选择dump类型以及传输方式,大多数时候Type选择Normal即可,当需要进行有关性能方面的分析的话则选Detail. Media一般选择HDD(SVP本地磁盘)。
其他选项不需要更改。
选择OK后会显示dump收集进度:
Dump数据收集完成后会开始压缩:
压缩完成后会提示收集完成:
收集完成后将c:\dkc200\tmp\文件拷出并上传到TUF即可。
使用SVP划分LUN
modify模式,进入lun configuration界面
1、根据需要设置CHIP类型
2、设置端口参数、设置主机模式
打开端口安全模式:
选择打开
点击OK后,出现两个系统安全提示,选择“Yes”
选择正确的连接方式:
出现系统安全提示,选择“Yes”后完成。
主机组的创建、绑定主机WWN、Mapping Ldev:
点击右键选择“New”。
填写主机组名称,并选择WWN List.
选择对应端口上正确的HBA卡片WWN号点OK。
完成后点Next.
选择主机组要在哪个端口上创建后点击“Next”。
选择操作系统平台类型及附属选项,如果是AIX主机有HA环境请选择HACMP。
出现提示说这个主机端口会有I/O中断,是否需要继续这个操作,这时点击“Yes”继续下一步(因为I/O为瞬间中断,不会对主机生产造成影响,如果业务非常繁忙时做这个操作才可能对主机生产造成影响)。
下图为主机组中绑定主机HBA卡WWN完成示意图。
在Display选项中选择LUN,开始映射主机磁盘。
选择Add后出现磁盘选择窗口,选择对应数量的LUN数量,对应数量的LDEV数量后点击“Set”后点击OK,完成添加磁盘:
出现提示说这个主机端口会有I/O中断,是否需要继续这个操作,这时点击“Yes”继续下一步(因为I/O为瞬间中断,不会对主机生产造成影响,如果业务非常繁忙时做这个操作才可能对主机生产造成影响)。
下图为主机组中磁盘添加完成后示意图:
注意下图与上图的差别,在Ldev后多了一个“+”号,当出现“+”时意思是指这块磁盘已经被Mapping过两次。
添加新主机并创建新的主机组,做WWN绑定,做磁盘映射结束后主机将可以认盘,操作方式完全一样;需要注意的是在磁盘选择窗口中新映射或添加磁盘时,一定要选择没有“+”号的磁盘,没有“+”号的磁盘为未用的磁盘。
完成操作后退出并保存新配置文件。
全部结束后请退到“View Mode”,以免有误操作发生。
关闭远程桌面连接,选择“确定”。
VSP应急方案-上下电操作
注意:开关机对主机I/O会有影响请注意!
开机步骤
a.开启位于控制柜和磁盘柜后方两侧的四个PDU电源模块上的主电路开关,确认机柜前
面主面板(DKCPANEL)上的BASE ON黄色指示灯亮起,同时位于控制柜前下部的系统控制电脑(SVP)开始启动。
b.将“P S ON/PS OFF” 开关推至“ON”的位置,同时将“P S SW ENABLE ” 开关推
至 ENABLE的位置。
c.确认控制器面板上的绿色PS-ON指示灯亮起,同时可听到机器内部风扇转动时的声
音。
d.系统启动完成可能需要15~25分钟,根据配置不同,开机时间会有变化。
在启动完
成后,控制器面板上的绿色READY指示灯将会亮起。
如READY指示灯在很长时间后仍未亮起,即刻联系HDS技术支持人员。
关机步骤
a.确认与存储连接的主机没有访问I/O。
b.将“PS ON/PS OFF” 开关推至“OFF”的位置,同时将“PS SW ENABLE ” 开关
推至 ENABLE的位置。
c.系统正常关机可能需要15~20分钟,根据配置不同,关机时间会有变化。
d.确认在系统关机完成后,控制器面板上除黄色BASE ON指示灯仍然点亮外,其余指
示灯都会熄灭,同时机器内部风扇停止转动。
如有任何不正常状态,即刻联系HDS 技术支持人员。
e.关闭位于控制柜和磁盘柜后方两侧的四个PDU电源模块上的主电路开关,确认机柜前
面主面板上的BASE ON黄色指示灯熄灭。
f.如果需要长时间关机,超过24小时时,请将“Battery 电缆” 拔出,如果需要请
联系HDS工程师。
设备巡检
健康巡检内容
HDS存储系统的健康检查主要包括如下五方面:
设备场地及环境检查
定义:检查设备运行的外部环境状态及数值情况是否正常?是否有异常或故障发现?
范围:包括:防静电地板及承装情况、温度计/湿度计的数值、设备通风情况、电源供电情况等具体信息或数值;
设备硬件检查
定义:检查设备硬件状态及信息是否正常?是否有异常或故障发现
范围:电源、电池、连接的光纤、主要板卡DKA/CHA/Cache/Memory/FSW状态、以及HDU中的硬盘状态等,以及通过SVP控制台收集并监控到的系统各部分状态信息设备软件检查
定义:检查设备中运行的主要软件状态及信息,检查系统日志和宕机文件是否正常?是否有异常或故障发现?
范围:包括:HDLM多路径软件、ShadowImage镜像软件、TC/UR同步/异步数据复制软件等配置信息及状态;
系统性能检查
定义:检查系统性能参数是否正常?是否需要采取某些措施?
范围:包括:Cache写等待、通道板利用率、通道效率等;
设备安全性检查
定义:检查系统信息或日志等是否有报警或错误信息?是否需要采取其他措施?
范围:包括:SIM信息、SSB日志、DUMP信息、Microcode版本、备份盘、冗余链路灯检查;
光纤交换机检查
定义:检查存储系统的硬件指示灯状态是否正常?是否有异常或故障发现?
范围:FC交换机电源、风扇、状态灯和Zone配置等信息;
VSP 系统健康检查报告
VSP系列设备健康检查列表
此表针对未安装Hi-Track用户进行巡检检查使用,如有任何问题请联络HDS中国代表处:北京()、上海()、广州()、成都()。
客户名称:国税Site ID:R348240
二、微码升级
微码升级的意义
HDS存储设备微码每隔一段时间,就会发布新的版本,目的是修正系统bug,提高在设备可用性,减小非正常故障发生;HDS存储设备经过较长时间运行后,有可能需要进行相关备件的版本更新,对于磁盘设备,备件库对部分老版本磁盘将不再提供,取而代之的是较新版本的磁盘。
HDS建议存储设备运行的设备微码不要低于MGA(即:最低支持版本),微码升级一般考虑使用RGA(即:推荐版本),新安装的设备至少达到PBL。
(即:工厂安装版本)。
HDS对于微码版本定义如下:
PBL Production Build Level工厂安装版本, 新安装的设备至少达到PBL。
微码升级的策略
我们建议每年升级两次微码版本,当遇到与国税环境相关且问题发生频率很高的重大Bug时,HDS会及时提出升级意见并建议国税提前升级相关设备的微码版本。
微码升级的步骤
微码升级审批流程
为确保安全、可靠的微码升级服务,HDS工程师将提前收集VSP日志信息,提交CHIP 至技术中心,深度检查设备运行状态
微码升级操作步骤
HDS工程师进行HDS存储健康检查,确认设备硬件状态正常;
一、VSP微码升级步骤
1、HDS工程师开始进行微码升级,升级过程自动将新微码拷贝到HDS存储设备SVP;
2、微码升级过程将按照部件自动进行逐一升级,如下表:
首先,升级SVP,重启后,升级除DKU以外的设备,最后升级DKU。
在升级过程中会对前端端口及后端端口的每一个CPU写微码,我们在升级过程中选择Non-stop,即不停机的方式。
3、升级结束后,确认完成微码升级结束,备份配置文件、重新启动SVP、检查新的微码版本和硬件状态;
4、HDS工程师与系统配合人员检查升级设备涉及的链路状态,确定系统状态正常。
执行过程
(1)<Initial screen>
(2)Change the mode to [Modify Mode] (CL).Select (CL) [Install].
(3)In the ‘Install’ window, select (CL) [Micro Program Install].
(4)Select (CL) [Micro Program]. Select (CL) [OK]. Selecting (CL) [Cancel] returns you to step(3).
(5)In the ‘Microprogram Exchange’ dialog box, [How] : select (CL) [Online]. [From]: select (CL) CD-ROM.
(6)The ‘Microprogram Exchange’ dialog box appears. Select (CL) one or more items from the list of the type of micro-programs, and select (CL) [OK].
(7)<If SCSI channel adapter is equipped> Select (CL) one of the exchange modes of DKCMAIN micro-program as follows, and select (CL) [OK].
(7-1) <If “Non Stop SCSI host” is selected > Select [OK] (CL) after checking the right preconditions. Go to step (8).
(8)When DKCMAIN, or RAMBOOT were selected, you can select the reboot pattern from the list.
(9)On the ‘Software Maintenance’ dialog box, the micro-program types, current versions, new versions, and message are displayed.
(10)In response to the message “An exchange of a microprogram finished. Please check su bsystem status and microprogram version with MAINTENANCE.”, select (CL) [OK].
三、故障处理
在存储系统的日常维护工作中,厂家工程师和客户管理员面对最多就是故障问题的处理和排查,不同的问题现象或故障类型需要不同的处理方案或实施策略,以确保问题能够得到快速解决同时对客户生产运营系统的影响降到最低。
故障处理预案
对于VSP设备在现场可能发生的故障类型和情况,下表给出了一些建议的处理措施和方案,以便现场工程师可以根据故障现象或问题进行相应处理和维护工作,具体细节和操作指南可以参考相关文档。
作为国税现场人员,发现下述故障时,需要在第一时间通知HDS服务团队相关人员或通过HDS 400服务号码(400-6786783)进行服务报修,以便问题得到快速处理和解决。
表5-1:现场故障维修方案
1CHA故障高高在线更换参考维护手册或附件
中的CHA 更换方法替换前必须确认CHA物理状态及SIM中状态,以及相连主机冗余链路FC card/ Path 状态
2DKA故障高高在线替换参考维护手册或附件
中的CHA更换方法替换前必须确认DKA物理状态及SIM中状态
3FSW故障高高在线替换参考维护手册或附件
中的CHA更换方法替换前必须确认FSW故障状态及SIM中状态以及相关Path状态、HDD状态
4CSW故障高高在线替换参考维护手册或附件
中的CHA更换方法替换前必须确认CSM故障状态及SIM中状态
5DKU PS故障高高在线替换参考维护手册或附件
中的CHA更换方法替换前必须确认PS故障状态及冗余PS的状态
6CM/SM故障高高在线替换参考维护手册或附件
中的CHA更换方法替换前必须确认CM故障状态及SIM中状态
7CM/SM临时
报错低低在线替换参考维护手册或附件
中的CHA更换方法
1)确认是否是可修正错误,如果出现出
数超过3次,建议更换掉Cache 条即可;
8硬盘故障中低在线更换参考维护手册或附件
中的HDD更换步骤
现场确认RAID情况和Sparedisk状况
9替换备份盘低低在线更换参考维护手册或附件
中的HDD更换步骤
确认spare disk的状态后进行替换
10上下电操作高高在线操作参考维护手册或附件
中的HDD更换步骤
确认非上下电情形和具体要求四、案例
硬盘更换步骤
实施磁盘更换时,需要严格实施防静电措施,消除备件的静电,否则可能导致其它部
件异常。
使用合格的防静电腕套,将防静电腕套连接到设备的金属接地部件;
接触部件之前,双手接触设备的接地金属部分5秒以上,消除人体的静电;
任何部件不能虚插在设备上;
安装磁盘之前,将磁盘金属外壳接触设备的金属接地部件,充分消除磁盘金属
外壳的静电;
安装过程,保持戴了防静电腕套的手掌接触磁盘金属外壳;
具体措施咨询HDS支持工程师。
实施磁盘更换时,需要确认被更换磁盘的状态,包括Maintenance画面显示状态、SIM 日志等。
如果需要更换的磁盘是数据磁盘,并且数据已经拷贝到热备磁盘Hot Spare,实施正常磁盘更换步骤。
如图所示,Device Status=Failed, Group=Spare。
如果需要更换的磁盘是数据磁盘,并且磁盘阵列正在往Hot Spare拷贝数据,暂停更换操作,等到数据拷贝完成后再实施正常磁盘更换步骤。
图示是数据磁盘正在进行Sparing的状态,Device Status 显示Copy的进度,Group状态显示原来的RG。
如果需要更换的磁盘是数据磁盘,但此磁盘为正常状态,需要实施预防性维护步骤,将数据磁盘的数据拷贝到Hot Spare,然后实施更换。
此时Device Status=Normal,Group状态显示原来的RG。
如果故障磁盘本身是Hot Spare,可以按照正常磁盘更换步骤实施。
如果故障磁盘只是定义了RG,没有定义LDEV,即使Device Status=Failed,磁盘阵列也不会启动往Hot Spare的数据拷贝,可以按照正常磁盘更换步骤实施。
正常磁盘更换步骤
更改SVP为Modify模式;
进入Maintenance画面,选择需要更换的磁盘,确认磁盘状态满足正常更换条件(见本章节前面的说明)。
选择[Replace]-[Replace],并根据SVP的提示实施更换。
当SVP出现如下提示时,回答[Yes]。
数据Copy Back开始后,SVP提示磁盘更换完成。
此时可以通过Maintenance画面的Copy Status查看Copy进度。
此画面不会自动更新,可以通过[Renew]刷新进度状态。
磁盘预防性维护
如果数据磁盘的状态为正常状态(Device Status=Normal),因为一些特殊原因需要更换磁盘,如磁盘一个端口错误等,使用预防性维护步骤。
实施之前需要与HDS支持工程师确认维护的必要性。
为了保障数据安全,需要将数据磁盘的数据拷贝到Hot Spare,然后实施更换。
实施预防性维护之前,需要确认磁盘阵列有合适的未使用的Hot Spare。
更改SVP为Modify模式;
进入Maintenance画面,选择需要更换的磁盘,确认磁盘状态是Normal状态。
选择[Other]-[Spare Disk],当SVP出现如下提示时,回答[Yes]。
数据拷贝完成后,数据磁盘状态变成Failed/ Spare。
按照正常磁盘更换步骤实施磁盘更换。
CHA 更换步骤
[注] 以下步骤按实验室环境模拟实施,包括更换前(PRE)、更换、更换后(POST ); 1、存储两CHA (1EU 、2QU )端口号分别为
1EU-1A 3A 5A 7A 1B 3B 5B 7B 、2QU-2A 4A 6A 8A 2B 4B 6B 8B 2、多台主机(OS —aix )两块HBA 卡、每块两个光纤端口。
3、2台switch 。
San 架构图:
1
H0
H1
USPV
01EU 2QU
SW1(left)
H2
H3
2H0
H1
H2
H3
X H0
H1
H2
H3
4
26
30
0SW2(right)
4
26
30
1A 7A 5A 3A 1B
7B
5B
3B
2A 8A 6A 4A 2B
8B
6B
4B。
4、8B 端口发生故障。
需要更换CHA2QU 。
步骤:
PRE PROCEDURE
1、使用rdpexe 程序搜索阵列,并连接,同时安装USB 设备。
2、更改操作模式为“修改”,进入维护窗口。
3、设置路径为offline 或切换通道。
A 、查看所有主机的ChaID 与存储前端端口的对应关系。
#/usr/DynamiclinkManager/bin/dlnkmgr view –cha
B 、set path offline (所有主机断掉与2A 、4A 、6A 、8A 、2B 、4B 、6B 、8B 相关的路径) #/usr/DynamicLinkManager/bin/dlnkmgr offline -chaid 00003 #/usr/DynamicLinkManager/bin/dlnkmgr offline -chaid 00002 4、在“维护”窗口内,选择【DKCBOX 】。
5、选择【logic box front 或者back 】。
6、选择CHAXX 。
7、制定相应的CHA 板卡,进行Replace 。
8、出现以下窗口,选择“yes ”。
9、收集错误信息
10、输入信息,选择“OK ”。
确认信息存储。
11、确认通道offline
针对串口或大机的光纤前端板进行上述确认。
针对光纤或iSCSI的前端板进行上述确认。
对于大机的光纤前端板当设置了CUIR功能,不会显示确认通道offline的信息,会显示以下信息。
12、确认以下信息
13、封闭CHA信息。
14、检查shut down LED是否闪烁。
连续两次选择“No”,进行强制“亮起shut down LED”。
15、开始更换,完成后进行确认。
Hardware PROCEDURE
1、移去CHA板卡。
检查shut down LED亮起,不亮将维护跳线插入shutdown 连接器(只在线更换)。
从板卡上移去光纤线。
松下螺丝,移去板卡。
移去维护跳线。
2、安装备件板
安装到原来位置,紧好螺丝。
3、清理光纤线连接器。
4、连接光纤线。
POST PROCEDURE
1、等待Power Event
2、更换大机的光纤板卡时进行CUIR恢复
3、检查CHA恢复
4、主机端将路径online。
#/usr/DynamicLinkManager/bin/dlnkmgr online -chaid 00002
#/usr/DynamicLinkManager/bin/dlnkmgr online -chaid 00003
5、SIM日志进行complete。
6、在“维护窗口”检查系统状态,没异常,关闭维护窗口。
7、模式修改为“查看”。
8、关闭远程桌面连接。
DKA更换步骤
PRE PROCEDURE
1、使用rdpexe程序搜索阵列,并连接,同时安装USB设备。
2、更改操作模式为“修改”,进入维护窗口。
3、在“维护”窗口内,选择【DKCBOX】。
4、选择【logic box front或者back】。
5、选择DKAXX。
6、制定相应的DKA板卡,进行Replace。
7、出现以下窗口,选择“yes”。
8、收集错误信息
9、输入信息,选择“OK”。
确认信息存储。
10、确认以下信息
11、封闭DKA信息。
12、检查shut down LED是否闪烁。
连续两次选择“No”,进行强制“亮起shut down LED”。
13、开始更换,完成后进行确认。
Hardware PROCEDURE
1、移去DKA板卡。
检查shut down LED亮起,不亮将维护跳线插入shutdown 连接器(只在线更换)。
从板卡上移去CABLE线缆。
松下螺丝,移去板卡。
移去维护跳线。
2、安装备件板
安装到原来位置,紧好螺丝。
将Cable线缆联结至更换后的板卡上。
POST PROCEDURE
1、等待Power Event
2、对于DKA
* For DKA
“DKU PATH INLINE is now running...” is displayed.
3、检查恢复过程
* For DKA
“Restoring the DKA...”
4、检查CHA恢复
5、SIM日志进行complete。
6、在“维护窗口”检查系统状态,没异常,关闭维护窗口。
7、模式修改为“查看”。
8、关闭远程桌面连接。
CM更换步骤
PRE PROCEDURE
1、使用rdpexe程序搜索阵列,并连接,同时安装USB设备。
2、更改操作模式为“修改”,进入维护窗口。
3、在“维护”窗口内,选择[DKCBOX]。
4、选择[Logic Box front或者Back]。
5、选择Cache,进行Replace。
6、开始更换前检查。
7、压缩错误信息
8、输入信息,选择“OK”。
确认信息存储。
9、检查DKP封闭
“The Cache Memory PCB (CACHE-nnn) is being blocked.” is displayed.
10、检查shut down LED是否亮起
如果没有亮起,使用跳线。
11、CACHE更换
Hardware PROCEDURE
1、移去CM板卡。
检查shut down LED是否亮起,如果没亮安装跳线到shut down连接器(只在线更换)移去螺丝和CM板卡。
移去跳线。
2、更换损坏部件。
更换CM板卡时,更换所有的内存条(包括挡片)到备件板卡的相同位置。
当内存条故障时,只更换内存条。
3、安装CM板卡,紧好螺丝。
POST PROCEDURE
1、信息确认
2、检查更换步骤完成。
3、SIM日志进行complete。
4、在“维护窗口”检查系统状态,没异常,关闭维护窗口。
5、模式修改为“查看”。
6、关闭远程桌面连接。