FusionStorage Block故障处理概述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
install.log.0 FusionStora log-MDC.*
ge Agent log-OSD.*
log-VBS.*
zookeeper.log.*
安装agent的日志 MDC运行时的日志 OSD运行时的日志 VBS运行时的日志 ZK运行时的日志
/var/log/dsware /var/log/dsware /var/log/dsware /var/log/dsware /var/log/dsware
第19页
日志获取方法3 - 工具收集
第20页
日志获取方法4 - 手动收集
使用putty工具,用非root用户登录需要取日志的节点 执行su - root命令,并提示输入root用户的密码,切换至root用户 执行TMOUT=0命令,防止PuTTY超时退出 执行 tar -czvf log.tar,gz 日志文件,例如tar –czvf log.tar.gz /var/log/dsware/*
FusionStorage Block故障处理概述
技术创新,变革未来
前言
FusionStorage Block是华为分布式存储,了解和掌握 FusionStorage Block的故障处理方法,可以更好的部署和维 护企业云计算存储环境。
第1页
目标
学完本课程后,您将能够:
FusionStorage Block故障简介 FusionStorage Block告警机制介绍 FusionStorage Block日志机制介绍 FusionStorage Block故障处理流程 FusionStorage Block备份与恢复方法 FusionStorage Block应急预案介绍 FusionStorage Block高危操作
51007
MDC与VBS通信异常
ቤተ መጻሕፍቲ ባይዱ
MDC失去某个VBS的心跳而上报的告警,有可能是VBS所 在的节点异常,也有可能是存储平面网络异常
51016 51017
SSD卡故障 SSD卡温度异常
SSD做主存时,如果上报SSD相关告警,则SSD对应的 OSD会被踢出集群
51018 51019 51020
SSD卡电容失效 SSD卡平均磨损值即将超额
存储池降级
某些硬盘或节点发生异常,但由于容量不足或其 他限制条件导致这些OSD无法被踢出集群,持续12 小时后上报该告警
NVDIMM不在位 NVDIMM故障 NVDIMM电容不在位
NVDIMM为FusionStorage的缓存,如果上报NVDIMM 相关告警,则该NVDIMM所在节点的所有OSD均会被 踢出集群
HA日志
/var/log/omm/oms/ha
第15页
常用日志路径(2)
节点名称
日志文件(示例) agent_handle.log
描述
所在目录
agent执行shell脚本产生的日志 /var/log/dsware
dsware_agent.log* agent运行时的日志
/var/log/dsware
dsware
默认密码 Huawei@CLOUD8 Huawei@CLOUD8 Huawei@CLOUD8
Huawei@CLOUD8
root密码 Huawei@CLOUD8! Huawei@CLOUD8! Huawei@CLOUD8!
Huawei@CLOUD8!
默认目录 /home/dsware /home/GalaX8800 /home/GalaX8800
当硬盘占用率大于等于告警阈值95%时,系统会上报告警, 单盘占用率超过95%时,该盘会写保护,系统业务会中断
第10页
需要重点关注的告警 (2)
告警ID
告警名称
告警影响
51006
次要:存储池空间使用比例 80% ~90% 严重:存储池空间使用比例 90% ~93% 存储池空间占用率超过阈值 紧急:存储池空间使用比例 93%以上 上报次要告警时就需要考虑扩容事宜,因为如果达到 95%,会出现写保护,上层业务会中断
够通过VBS访问分布式存储资源。每个服务器上部署一个VBS进程,形成VBS集群。
OSD • 业务IO进程,执行具体的I/O操作。在每个服务器上部署多个OSD进程,一块磁盘
对应部署一个OSD进程。
第5页
FusionStorage Block故障概览
块客户端故障
存储池故障
控制集群故障
管理节点故障
硬件故障
第16页
常用日志归档路径
配有日志服务器时,CNA节点产生的日志每15min被压缩打包一次并上传到日志服务 器
未配置日志服务器时,CNA节点产生的日志仍会每15min被压缩打包一次并被收到特 定目录,当OS安装在U盘上时,日志被放到“/tmp/udisk/log/节点名/日期/时间” 目录,当OS安装在硬盘上时,路径是“/tmp/disk/log/节点名/日期/时间”
MDC进程异常
VBS进程异常 OSD进程异常 FusionStorage Agent进程异常
FusionStorage的主要进程异常,对系统均会有不 同程度的影响,发现后需立刻排查恢复;OSD进程 异常超过一定时间后会被踢出集群
ZooKeeper进程异常
第12页
目录
1. FusionStorage Block故障简介 2. FusionStorage Block告警机制介绍 3. FusionStorage Block日志机制介绍 4. FusionStorage Block故障处理流程 5. FusionStorage Block备份与恢复方法 6. FusionStorage Block应急预案介绍 7. FusionStorage Block高危操作
第2页
目录
1. FusionStorage Block故障简介 2. FusionStorage Block告警机制介绍 3. FusionStorage Block日志机制介绍 4. FusionStorage Block故障处理流程 5. FusionStorage Block备份与恢复方法 6. FusionStorage Block应急预案介绍 7. FusionStorage Block高危操作
执行 cp log.tar.gz /home/XXX 将日志考入可考出的目录 chown 777 /home/XXX/log.tar.gz.将日志拷贝到可拷贝目录下 使用非root用户通过winscp登录,拷贝日志
以下是常用的默认密码:
节点名 FSM VRM CNA
存储和DB节点(数 据库)
非root用户名 dsware gandalf gandalf
工具位置信息:主FSM节点下的 /opt/dsware/tools/ops_tool/infoCollect/CollectInfo.sh,同时需要root用户权 限执行。(说明:备FSM节点无权限执行该工具)
第18页
日志获取方法2 - ELK信息收集
工具描述:日志的收集转储,并提供关键字搜索日志功能的工具
CNA的日志路径:/var/log/galaxenginelog/ VRM日志路径:
历史日志/var/backuplog/galaxenginelog/日期/ 实时日志/var/log/galaxengine/*
第17页
日志获取方法1 - 信息收集工具
信息收集工具:收集存储计算节点、主备FSM节点的运行业务日志、元数据信息、内 存信息、系统环境配置信息、core文件。
告警影响
表示有节点或磁盘被踢出存储池,存储池容量受损 表示有全副本故障,或曾出现过全副本故障(该告警从 C02SPC200版本开始才可以自动清除,之前的版本都无法自 动清除),全副本故障会导致上层无法写新的数据 硬盘被拔出,或没插好,持续5min以后,该盘(OSD)会被 踢出集群
表示硬盘出现某种故障,且检测到该故障后,该硬盘会被立 刻踢出集群,更换新的硬盘时会自动将新盘加入集群
FusionStorage manager /var/log/dsware/manager
安装日志
FusionStor age Manager
installAgent_192.170.238.7.log backup_20130308.log
FusionStorageAgent安 装日志
FusionStorageManager 管理数据产生的日志
SSD卡坏块过多
SSD做缓存时,如果上报SSD相关告警,则SSD所在节 点的所有OSD均会被踢出集群
故障恢复后需手动将节点或磁盘再扩容进来
第11页
需要重点关注的告警 (3)
告警ID
51024
51813 51814 51816 51801 51802 51803 51825 51804
告警名称
告警影响
FusionStorage Block故障
操作维护故障
第6页
目录
1. FusionStorage Block故障简介 2. FusionStorage Block告警机制介绍 3. FusionStorage Block日志机制介绍 4. FusionStorage Block故障处理流程 5. FusionStorage Block备份与恢复方法 6. FusionStorage Block应急预案介绍 7. FusionStorage Block高危操作
/home/dsware
第21页
日志收集(命令行方式)
FusionStorage Block信息收集项列表
节点类型 FusionStorage Manager(FSM)
告警的严重程度从低到高依次为:提示一般严重紧急
第8页
告警收集
第9页
需要重点关注的告警 (1)
告警ID
51001
51003
51009 51004 51013 51014 51015 51005
告警名称
OSD退出服务
存储池故障
硬盘不在位 硬盘故障
硬盘介质故障 硬盘即将故障 硬盘温度异常 硬盘空间不足
可以用工具立即输出
第14页
常用日志路径(1)
节点名称
日志文件(示例)
描述
所在目录
dsware-manager-web.log
FusionStorage manager
/var/log/dsware/manager
dsware-manager-web.日期.log.zip 运行时的日志
install.log
MDC • 业务控制进程,实现对分布式集群的状态控制,以及控制数据分布式规则、数据
重建规则等。创建控制集群时,元数据管理服务(zookeeper)部署在3个、5个 或者7个节点上,每个元数据管理服务节点上部署一个MDC进程,形成控制集群。
VBS • 业务IO进程,负责卷元数据的管理,提供分布式集群接入点服务,使计算资源能
第3页
FusionStorage Block软件组成
第4页
FusionStorage Block功能简介
FusionStorage Manager(FSM) • 管理进程,提供告警、监控、日志、配置等操作维护功能,推荐主备节点部署。
FusionStorage Agent (FSA) • 管理代理进程,部署在各节点(服务器)上,实现各节点与FSM通信。
/var/log/dsware/manager /var/log/dsware/manager/backup
times_20130304.log /var/log/ntp
NTP服务产生的日志
/var/log/dsware/manager/times 和 /var/log/
ha.log.2013-03-05_12-00-00.gz /scriptlog/*.log
第13页
关于日志必须了解的
日志输出有分类--FSM,FSA,MDC,OSD,VBS,DI等 日志输出有级别区分--DEBUG,INFO,WARNING,ERROR 历史日志有备份--根据场景不同,备份场所也不同 关键流程有日志--启动,初始化,创卷等业务流程,CRB等流程 日志输出有考虑性能--每15分钟从内存向磁盘持久化一次,紧急情况下,
第7页
告警机制
Portal OMM告警模块(接收告警的上报和恢复,并记录到DB)
FS_OSD
FS_VBS
FS_MDC
FS_MANAGER
FS_AGENT
硬盘,SSD卡/盘,网络,进程,服务…………..
告警是由系统中各个部件,实时监控或在处理业务时,发现影响系统可靠性的事件时, 通过告警模块上报至数据库,并且在portal上呈现给维护人员