ftServer容错服务器日常维护手册
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ftServer容错服务器日常维护手册
2009-9-9 上海海得
1. ftServer 系统启动和关闭
每个ftServer 服务器都有两个电源按钮(每个CPU-IO 机箱都有一个电源按钮),在系统插上电源线后,系统中仅有一个电源按钮亮灯,且处于活动(Active)状态,这个按钮被称为主用按钮(Primary), 可用于当前系统的启动。另外的那个电源按钮被称为备用按钮(Standby)。(在一定条件下,主用按钮和备用按钮会做切换。)ftServer 服务器需要连接两路电源,我们建议至少其中的一路使用UPS输出的电源,以防因电源故障造成的系统停机;ftServer 服务器背部有连接显示器的端口,还有3 个USB口供连接键盘和鼠标使用。
如果我们需要启动系统,只要先打开显示器电源,然后按一下ftServer 的主用按钮即可;在正常情况下,如果需要关闭系统,必须在Windows系统中操作:开始——关机——确定, Windows会处理当前文件操作,并关闭系统。
在系统运行时,如果我们长时间按下主用电源按钮,可以强行关闭系统操作(这可能会导致系统或应用数据被破坏,用户应承担相应的风险)
2. ftServer 上的各种LED指示灯
ftServer 服务器上有各种LED 指示灯,它们显示了当前的系统或部件的运行情况; 分别说明如下:
CPU-IO机箱状态指示灯
每个CPU-IO 机箱均有两组状态指示灯,分别位于机箱前部的左侧(机架式)或下方(塔式)和机箱后部的左下侧(机架式)或左上侧(塔式)。每组指示灯中有一个绿灯代表电源指示灯;有一个红灯代表故障鉴别灯;有一个白/橙双色灯代表单双运行状态灯;(见下图)观察这些指示灯,可以大致判断该CPU-IO机箱的当前运行情况。
(机箱前部) (机箱后部)
1. Green LED (Power) 绿灯 - 电源指示灯
常亮表示本机箱已经通电
闪亮表示本机箱处于备用状态,本机箱还没有在线(可能有VTM或BMC 故障)
不亮表示没有电源;(注意:检查相应的电源线是否插好)
2. Yellow LED (Fault/Identify) 黄灯 - 错误/定位指示灯
常亮表示本机箱有部件处于故障状态,本机箱还没有在线;
闪亮表示本机箱的CPU或IO 正被系统所识别(常用于部件的定位);
不亮表示本机箱的部件正常运行;
3. White LED (Simplex/duplex) 白灯 - 单双状态灯
常亮表示本机箱处于镜像(Duplex)运行状态;
闪亮表示本机箱正处于单份(Simplex)运行状态(此时拔出机箱件会导致系统崩溃);
不亮表示可以关闭该件;
硬盘指示灯
ftServer 系统中每个CPU-IO 机箱中可以安装三个内置硬盘,可以使用SAS硬盘,也能使用SATA 硬盘。由下向上(机架式)或由右向左(塔式)分别标为1,2,3 号,每个硬盘上有一个绿/黄双色指示灯(见下图)。使用Stratus 公司RDR 软件,可将对应相同槽位的硬盘做成镜像状态(RAID-1),这可以确保硬盘的容错特性(具体RDR 操作见后)。
不亮表示:没有上电;可以安全拔出
绿灯常亮:本硬盘处于镜像状态,盘上所有卷都已完成镜像,目前没有活动;可以安全拔出
绿灯闪亮:本硬盘处于镜像状态,盘上所有卷都已完成镜像,目前正读写盘上数据;可以安全拔出
黄灯常亮:本硬盘处于Broken中断状态;需要进一步检查原因
黄灯闪亮:本硬盘处于单份(Simplex)状态(不能拔出此盘,否则会引起系统崩溃或数据丢失)
备注:如果之前作为同步镜像的一对磁盘现在都是黄灯闪亮,则表示这对磁盘脱离同步镜像状态,在进行后续操作的时候,需要注意的是,之前的主盘不要进行操作,对于从盘,首先在磁盘管理中,删除相应的磁盘分区,使之处于“未指派”状态,之后在系统管理软件中,删除RDR同步镜像信息(delete Physical Disk from RDR Virtual Disk),做完这些操作后,重新添加从盘到RDR镜像组。具体操作见本文后半部分。
Ethernet以太网口指示灯
每个CPU-IO 机箱上都有两个内置的1000Mbps 以太网口,在选件VTM 上也有一个100Mbps 的以太网口;每个网口都有一组指示灯,一个是绿色状态指示灯,另一个是绿色或绿黄双色速率指示灯。(见下图) 内置的以太网口可以通过Intel PROSet软件实现网络容错功能(具体操作见后);VTM上的网口可以用来连接内部管理网,可以通过它对系统进行启动,关闭,升级以及监控等远程操作活动。(VTM是选件,不是每个ftServer 服务器都有这个部件)
1. Ethernet port ACT/LINK LED 以太网端口活动/链接指示灯
不亮表示没有连接网线;
常亮表示链接存在;
闪亮表示链接存在,并且正有数据传送;
2. Ethernet port 10/100/1000-Mbps LED 以太网端口速率指示灯
不亮表示10M 连接;
绿灯常亮表示100M连接;
黄灯常亮表示1000M 连接;
黄灯闪亮表示以太网端口正被系统定位识别;
3. 掉电冗余切换测试
在进行拔电源线等破坏性测试之前,首先要确保容错服务器的关键部件处于同步状态,以保证系统应用连续进行,这些关键部件为:CPU、磁盘、网卡。查看同步状态的示意图如下:
图二 CPU模块同步状态
图三IO模块同步状态查看
图四磁盘同步状态查看
图五网卡同步状态查看
在确认所有这些关键部件都处于同步状态后,我们可以进行模块的冗余切换。对于冗余测试,可以通过软件和硬件实现。
1)通过软件实现: