FusionCompute运维故障处理指南
FusionCompute_V100R005C00_日常操作维护与故障处理(PDF)
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
Page 13
虚拟机管理—虚拟机操作管理
虚拟机操作包括虚拟机启动、休眠、唤醒、关闭、迁移、删除、帮定主机等。
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
CPU热插拔策略不同时,调整CPU属性生效的条件不同: 不启用CPU热添加:调整CPU资源控制策略时,在线生效;增加CPU数量或减 少CPU数量时,需重启虚拟机后生效。 启用CPU热添加:增加CPU数量、调整CPU资源控制策略时,在线生效;减少 CPU数量,需重启虚拟机后生效。
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved. Page 4
目录
1. FusionCompute基本维护操作
FusionCompute Portal
虚拟机管理 账户管理
告警管理
备份恢复
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
Page 16
虚拟机管理—快照还原虚拟机
快照还原注意事项: 1、快照恢复虚拟机前提,虚拟机必须为“已关闭”或“已休眠”; 2、若虚拟机在创建快照后绑定了新磁盘,则在使用该快照还原虚拟机时,新磁 盘会自动与虚拟机解绑定。可根据需要,手动重新绑定。 3、若虚拟机的某个磁盘属性为“不受快照影响”,则使用快照还原虚拟机时, 不对该磁盘的数据进行还原。如果快照后,该磁盘被解绑定,则快照恢复的虚 拟机会重新绑定该磁盘,但磁盘数据不进行还原。 4、如果快照后,该磁盘被删除,则快照恢复的虚拟机上不存在该磁盘。
FusionCompute平台日常维护指南
FusionCompute数据手工恢复
在对FusionCompute进行重大操作(如升级或打补丁、重大数据调整、扩容等)后,系 统有可能出现异常或未达到预期结果。此时,需要对其进行回退,回退过程中需要进行 数据恢复操作。 恢复过程中需要停止VRM服务:
Page 32
目录
1. FusionCompute基本维护操作 2. FusionCompute定位信息收集
备份存放路径 数据库备份文件:/var/backup/[YYYY]-[MM]-[DD]_sn/DATA 配置备份文件:/var/backup/[YYYY]-[MM]-[DD]_sn/DB
Page 30
FusionCompute手工备份
备份的作用:进行重大操作(如升级、重大数据调整等)前,对VRM节 点数据进行手工备份,从而保证系统在出现异常或未达到预期结果时 可以及时进行数据恢复,将对业务的影响降到最低。
Page 18
网络管理—添加上行链路
添加上行链路:在已创建的分布式交换机中添加上行链路,为虚 拟机提供网络资源。
Page 19
网络管理—创建端口组
端口组是一种策略设置机制,这些策略用于管理与端口组相连的 网络。虚拟机的虚拟网卡连接到分布式交换机的端口组,这样, 即使与同一端口组相连接的虚拟机各自在不同的主机上,这些虚 拟机也都属于虚拟环境内的同一网络。
Page 25
虚拟机管理—制作模板
制作模板方式:虚拟机转为模板、虚拟机克隆为模板和模板克隆为模板。
Page 26
虚拟机管理—创建虚拟机快照
虚拟机快照:将某一时刻虚拟机的所有磁盘信息保存下来,用于虚拟机数据的 还原和恢复。一台虚拟机可以创建多个快照,使用其中一个快照恢复虚拟机时, 不会对其他快照产生影响。
精选-HCIE-Cloud -故障处理实验指导手册
1 故障处理实验介绍1.1 故障处理概述1.1.1 什么是故障?故障是系统不能执行规定功能的状态。
通常而言,故障是指系统中部分元器件功能失效而导致整个系统功能恶化的事件。
设备的故障一般具有五个基本特征:层次性、传播性、放射性、延时性、不确定性等。
1.1.2 故障处理流程故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。
故障信息收集故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。
故障判断排除故障之前,系统维护人员根据收集的故障详细信息,对故障范围和类型进行判断。
故障定位故障定位是指从众多可能原因中找出故障原因的过程。
通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。
以下是故障定位的常用方法:•在管理界面查看告警信息•在管理界面查看监控信息是否正常•查询操作日志,分析操作过程是否有误•在管理界面检查数据配置是否正确•观察设备指示灯状态是否正常故障排除故障排除是指根据不同的故障原因清除故障的过程。
故障排除包括检修线路、修改配置数据、重启相关进程、重启服务器等。
确认故障是否被排除通过查询设备状态、查看设备指示灯和告警等方法确认系统已正常运行,并进行相关业务调测以确保业务正常。
记录故障处理过程故障排除后应记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。
1.2 实验介绍1.2.1 关于本实验本实验主要介绍FusionCompute,FusionAccess,FusionStorage Block,FusionCloud故障处理,了解故障处理方法和故障处理流程,学习如何处理故障。
1.2.2 实验目的●理解故障处理的思路●掌握FusionCompute故障处理方法●掌握FusionAccess故障处理方法●掌握FusionStorage Block故障处理方法●掌握FusionCloud故障处理方法1.3 实验拓扑华为考试中心HCIE-Cloud实验环境由5台华为RH2288H V3服务器搭建而成,服务器之间使用1台华为S5700交换机进行连接。
云计算故障处理-FusionCloud故障处理
基础设施层
FusionSphere 分布式存
计算节点
储
云备份 云容灾
服务器
交 换 机
防 火 墙
负 载 均 衡
文
件
对象存储 FusionInsight LibrA vSphere Oracle
存
服务器
服务器
服务器 服务器 服务器
储
公共服务API
运营 API
计量信息 Ceilometer
消息通知 Mail/SMS SMN
gaussdb ntp-server ntp-client
日志类型 操作日志 运行日志 运行日志 组件启停日志 运行日志
组件启停日志 运行日志 运行日志 操作日志 运行日志 组件启停日志 运行日志 组件启停日志 运行日志
日志存储具体路径 /var/log/fusionsphere/operate/glance-api /var/log/fusionsphere/component/glance-api /var/log/fusionsphere/component/glance-registry /var/log/fusionsphere/component/glanceControl /var/log/fusionsphere/component/swift-proxy /var/log/fusionsphere/component/swift-store /var/log/fusionsphere/component/swiftControl /var/log/fusionsphere/component/rabbitmq /var/log/fusionsphere/component/rabbitmq-client /var/log/fusionsphere/operate/keystone-api/ /var/log/fusionsphere/component/keystone /var/log/fusionsphere/component/keystoneControl/ /var/log/fusionsphere/component/gaussdb /var/log/fusionsphere/component/gaussdbControl/ /var/log/fusionsphere/component/ntp-server/ /var/log/fusionsphere/component/ntp-client/
超融合一体机故障应对措施
一、登录系统时,显示页面为服务器的地址信息1、故障描述通过浏览器访问超融合一体机管理平台地址时,界面显示为服务器的HDM登录页面。
2、应对方案通过HDM口登录服务器管理页面(默认用户名:admin,默认密码:Password@_),点击“网络-专用网口-配置”,查看IPv4地址是否与平台地址冲突。
若冲突,请修改地址。
点击“网络-共享网口-配置”,查看IPv4地址是否与平台地址冲突,若冲突,修改IPv4地址,或去勾选“IPv4配置”项。
使用专用网口进行服务器管理。
二、区域配置不正确1.故障描述创建资产时,提示“区域配置不正确,资产创建失败”。
2.应对方案(1)检查资产信息配置是否存在错误,例如管理IP或名称与组内已有成员是否重复。
如果是资产管理IP、名称重复等错误,请根据提示修改相应配置信息。
(2)检查区域配置是否正确,确保区域配置IP范围在父区域范围内,查看是否存在其它错误,例如IP范围或名称与组内已有成员是否重复。
如果是区域IP范围、名称重复等错误,请根据提示修改相应配置信息。
(3)如果区域未配置,请按照区域配置步骤配置区域信息。
(4)如果上述操作完成后问题仍无法排除,请联系技术支持工程师。
三、管理IP不一致1、故障描述创建资产时,提示“创建失败,管理IP不一致”。
2、应对方案该问题是由于创建资产管理IP与区域IP范围不一致造成的。
解决方法如下:(1)检查资产管理IP是否超出区域IP范围,如果未超出,查看信息配置是否存在错误,例如管理IP或名称与组内已有成员是否重复。
如果是资产管理IP、名称重复等错误,请根据提示修改相应配置信息。
(2)检查区域配置是否正确,确保区域配置IP范围在父区域范围内,查看是否存在其它错误,例如IP范围或名称与组内已有成员是否重复。
如果是区域IP范围、名称重复等错误,请根据提示修改相应配置信息。
(3)如果上述操作完成后问题仍无法排除,请联系技术支持工程师。
四、资产发现失败1、故障描述创建拓扑任务后,自动发现资产功能失效,资产发现失败。
ManageOne FusionManager运维平台故障处理指南
ManageOne FusionManager 运维平台故障处理指南故障处理目录目录前言 (ii)1概述 (1)1.1故障处理流程 (2)1.2故障分类 (3)2信息收集 (4)2.1基本故障信息收集 (5)2.2告警信息收集 (5)3管理节点故障 (6)3.1FusionManager 虚拟机故障 (7)4操作维护类故障 (10)4.1修改虚拟机IP 后虚拟机通信中断 (11)4.2修改管理IP 后登录FusionManager 异常 (12)4.3修改管理IP 后资源界面异常 (13)4.4修改管理IP 后资源使用情况界面异常 (14)4.5主机关联的数据存储异常 (15)5系统时间故障 (17)5.1系统时间错误 (18)A 附录 (20)A.1配置IE 浏览器 (21)A.2配置Firefox 浏览器 (22)A.3登录FusionManager (23)A.4查看告警 (24)B 术语 (26)B.1A-E (27)B.2F-J (28)B.3K-O (30)B.4 P-T (31)B.5 U-Z (32)1 概述关于本章1.1故障处理流程1.2故障分类1.1故障处理流程故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。
具体实施过程如图1-1所示。
说明故障信息收集处理重大故障前,请先联系技术支持处理。
图1-1 常见故障处理流程故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。
故障判断排除故障之前,系统维护人员根据收集的故障详细信息,对故障范围和类型进行判断。
故障定位故障定位是指从众多可能原因中找出故障原因的过程。
通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。
以下是故障定位的常用方法:●在管理界面查看告警信息●在管理界面查看监控信息是否正常●查询操作日志,分析操作过程是否有误●在管理界面检查数据配置是否正确●观察设备指示灯状态是否正常故障排除故障排除是指根据不同的故障原因清除故障的过程。
FusionCloud运维故障处理指南
日志类型 操作日志 运行日志
组件启停 日志
日志存储具体路径 /var/log/fusionsphere/operate/neutron-api /var/log/fusionsphere/component/nutron-server /var/log/fusionsphere/component/nutron-sriov-nic-agent /var/log/fusionsphere/component/nutron-evs-agent /var/log/fusionsphere/component/nutron-reschedule /var/log/fusionsphere/component/nutron-metadata-agent /var/log/fusionsphere/component/nutron-dhcp-agent /var/log/fusionsphere/component/nutron-l3-agent /var/log/fusionsphere/component/nutron-servicechain-agent /var/log/fusionsphere/component/nutron-metering-agent /var/log/fusionsphere/component/nutron-openvswitch-agent /var/log/fusionsphere/component/nutron-netmap-nic-agent /var/log/fusionsphere/component/nutron-vc-vswitch-agent001
FusionCloud运维故障处理指南
技术创新,变革未来
前言
⚫ FusionCloud是物理分散、逻辑统一、业务驱动、云管协同、 业务感知的数据中心解决方案,可支持企业或机构业务的持 续发展,能满足对业务全生命周期的管理。了解和掌握 FusionCloud的故障处理方法,可以更好的部署和维护企业云 计算环境。
FusionCompute日常维护与故障处理介绍
FusionCompute日常维护与故障处理介绍技术创新,变革未来⚫FusionCompute是华为云计算解决方案的基石,了解和掌握FusionCompute的日常维护和故障处理方法,可以更好的部署和维护企业云计算环境。
通过本章学习,您将能够掌握FusionCompute系统的日常运维能力。
⚫学完本课程后,您将能够:⚫描述日常维护操作⚫区分FusionCompute告警⚫分析常见故障处理步骤⚫描述FusionCompute常见故障处理方法1.维护管理◼日常监控☐配置管理☐用户管理☐FusionCompute备份与恢复2.故障管理日常维护操作⚫为了保证系统长期正常、稳定的运行,维护工程师需要定期对系统进行检查,并根据检查出的异常结果排除故障。
维护项目检查项正常状态维护周期查看系统告警FusionCompute 上的告警无新增告警每天检查FusionCompute 健康状态健康检查报告无“不合格”检查项每天检查设备运行状态服务器、交换机和存储设备的指示灯状态指示灯显示正常每天检查设备运行环境温湿度符合运行环境对温度和湿度的要求。
每周空气质量符合运行环境对空气质量的要求每周防尘情况无明显尘土附着每周查看预警整改公告“/enterpr ise”,选择“公告>产品公告>预警公告>IT >云计算数据中心>FusionSphere >FusionSphere”,查看预警整改公告。
满足预警通知的要求每月查看告警告警级别图标说明紧急已经影响业务、需要立即采取纠正措施的告警为紧急告警。
重要已经影响业务,如果不及时处理会产生较为严重后果的告警为重要告警。
次要目前对业务没有影响,但需要采取纠正措施,以防止更为严重的故障的发生,这种情况下的告警为次要告警。
提示检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响,这种情况下的告警为提示告警。
实时监控⚫管理员可以查看集群、主机以及虚拟机的监控信息,以便于了解集群在指定时间段内的运行状态目录1.维护管理☐日常监控◼配置管理☐用户管理☐FusionCompute备份与恢复2.故障管理⚫管理员可以根据业务需求对FusionCompute系统配置参数作出调整。
FusionCompute云计算平台故障处理指南
FusionCompute云计算平台故障处理指南目录前言 (ii)1概述 (1)1.1故障处理流程 (2)1.2故障分类 (3)2信息收集 (5)2.1基本故障信息收集 (6)2.2告警信息收集 (6)2.3事件信息收集 (8)2.4收集日志 (8)3常见故障处理 (11)3.1用户虚拟机故障 (12)3.1.1虚拟机蓝屏 (12)3.1.2SUSE 虚拟机网卡不可用 (14)3.1.3Ubuntu10.04 及以上版本操作系统中uvp-monitor 进程未启动 (18)3.1.4Windows Server 2003 虚拟机绑定USB 2.0 设备后,虚拟机黑屏或关机失败 (19)3.1.5SUSE 10 虚拟机不能正常使用USB 2.0 设备 (20)3.1.6重启或关闭主机网络服务后,主机网络异常 (21)3.1.7虚拟机同时绑定SCSI 磁盘和IDE 磁盘时无法正常启动 (22)3.1.8本地磁盘的ext4 文件系统损坏 (23)3.1.9虚拟机内存数值显示异常 (25)3.2管理节点故障 (26)3.2.1VRM 虚拟机故障 (26)3.2.2主机操作系统故障 (32)3.3操作维护类故障 (35)3.3.1登录界面时IE 浏览器异常 (36)3.3.2FusionComute 无法获取监控数据 (38)3.3.3修改虚拟机IP 后虚拟机通信中断 (40)3.3.4主机管理网络配置与交换机不匹配 (42)3.3.5异常掉电再上电后,任务长时间无响应 (43)3.3.6网络数据残留导致添加主机失败 (44)3.3.7仲裁IP 地址失效,导致Web 客户端无法登录 (46)故障处理目录3.4Tools 故障 (47)3.4.1Windows 下安装Tools 时弹出警告提示 (47)3.4.2Windows 下安装Tools 时异常中止 (48)4部件更换 (50)4.1部件更换策略 (51)4.2更换主机 (53)A 附录 (57)A.1使用ISO 方式安装VRM 虚拟机 (58)A.2清除FusionCompute 中本地硬盘的残留数据 (63)A.3配置FusionCompute 告警上报 (64)A.4配置单点登录 (66)A.5如何处理虚拟机网卡乱序问题 (67)A.6ISO 镜像方式安装主机 (68)A.7配置IE 浏览器 (76)A.8配置Firefox 浏览器 (79)A.9登录FusionCompute (80)A.10兼容性 (83)B 术语 (94)B.1A-E (95)B.2F-J (96)B.3K-O (97)B.4 P-T (98)B.5 U-Z (99)1 概述关于本章1.1故障处理流程1.2故障分类1.1故障处理流程故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。
FusionCompute云平台运维监控指南
FusionCompute云平台运维监控指南前言概述本文档针对FusionCompute系统,提供日常监控的操作指导,以便及时发现和处理系统中的潜在问题,确保系统正常运行。
读者对象本文档(本指南)主要适用于以下工程师:●技术支持工程师●维护工程师符号约定在本文中可能出现下列标志,它们所代表的含义如下。
目录前言 (ii)1告警监控 (1)1.1查看告警 (2)1.2手工清除告警 (3)1.3查看事件 (4)1.4查看告警统计 (4)2实时监控 (6)2.1监控集群 (7)2.2监控主机 (8)2.3监控虚拟机 (10)3自定义监控 (12)3.1查看单对象多指标监控 (13)3.2查看单指标多对象监控 (13)3.3查看TOP 统计结果 (14)4历史KPI 查询 (15)4.1查询单对象多指标数据 (16)4.2查询单指标多对象数据 (17)5设置自定义监控策略 (20)5.1设置单对象多指标监控策略 (21)5.2设置单指标多对象监控策略 (23)5.3设置TOP 统计策略 (24)A 附录 (26)A.1配置IE 浏览器 (27)A.2配置Firefox 浏览器 (30)A.3登录FusionCompute (30)B 术语 (35)B.1A-E (36)B.2F-J (37)B.3K-O (38)B.4 P-T (39)B.5 U-Z (40)1 告警监控关于本章1.1查看告警1.2手工清除告警1.3查看事件1.4查看告警统计1.1查看告警操作场景该任务指导维护工程师通过FusionCompute查看系统告警信息,以便及时发现和解决系统中存在的故障,保证系统的稳定运行。
必备事项前提条件已登录FusionCompute。
操作步骤查看告警1在FusionCompute中,选择“虚拟数据中心监控> 告警”。
进入“告警”页面。
单击FusionCompute界面右上角“告警统计”区域对应的告警个数,可进入“实时告警”页面,且告警列表中会根据告警级别搜索出相关告警信息。
FusionAccess桌面云运维故障处理指南
模板虚拟机:在 FusionCompute上创建的 空虚拟机,用于制作为不 同类型的虚拟机模板。
3
虚拟机模板:用于创建用 户虚拟机的模板。通过对 空虚拟机(模板虚拟机) 进行配置和优化,或自定 义安装软件后,再转为模 板。
4
虚拟机组:通过同一虚拟 机模板创建的一组用户虚 拟机。
5
桌面组:一组分配给用户/ 用户组的虚拟机。
协商参数,登录虚拟机 (LoginTicket)
获取用户名密码
登录成功,呈现桌面
VM
AD
到AD上鉴权
第25页
登录连接关键流程点
浏览器
DNS解析到IP 经vLB到WI
到AD用户鉴权 从HDC获取桌面
WI发起预连接 未上电则先上电
①用户打开云服务器网址
第21页
FusionAccess登录连接故障
⚫ 最终用户通过TC终端或个人计算机登录连接虚拟机过程中遇 到的故障。
如打不开登录页面、无法显示虚拟机列表、点击虚拟机图标无 相应、连接过程中网络问题等。
⚫ 此类故障涉及TC、WI、网络、网关、HDC、VM、 AD/DNS/DHCP等多个环节,可以根据虚拟机注册和登录流程 依次排查。
VM
AD
加域 重启
完整复制虚拟机发放不成功时,参考该流程,逐步分析可能的故障点。
第11页
快速封装发放流程
ITA
用户下发任务
DB
FC
HDC
创建任务 创建查询任务
查询模板 创建虚拟机
创建虚拟机
根据命名规格生成计算机名和MachinePassword,在AD创建虚拟机
通过FC写入配置文件
通过FC写入配置文件
AD
重命名 写注册表 加域
资料-FusionSphere 日常操作维护与故障处理讲解
登陆管理节点
执行备份命令
检查备份进度和结果远端备份结果
结束
Openstack OM数据手工恢复
FM上执行命令手工恢复 开始
登陆FM主节点 查看备份包信息
登录OM备节点 停止OM备节点服务 停止OM主节点服务 在OM主节执行恢复命
令 启动OM主节点服务 启动OM备节点服务
结束
根据不同场景有如下几种扩容方式:
为现有集群扩容主机--不需要在OpenStack中配置。 扩容集群--需要操作有可用的控制节点。
计算资源扩容---KVM
开始
收集主机MAC 并编辑别名
PXE上电 ISO镜像方式安装主机
配置主机网络
配置资源隔离
配置内核参数
重启
加入主机组
服务器/机框接入
部署compute角色 多网元管理
FusionStorage,FusionSphere OpenStack和FusionAccess。 日志收集收集各节点的日志,包括操作系统、模块、脚本、软件狗等的日志。 日志收集支持工具自身日志的收集。
健康检查—FusionCare工具
FusionCare工具是一个基于Web的B/S程序。 首次使用健康检查需要添加环境和节点信息。 健康检查支持检查FusionCompute, Openstack OM, FusionStorage,FusionSphere
执行以下命令,执行系统审计
infocollect audit
开始
登陆管理节点
查看备份包信息
执行恢复
检查恢复进度和 结果
否 是否进行 系统审计
是 参照系统审计的 内容消除审计不
合格项 结束
Openstack OM设置备份策略和手工备份
精典-FusionCompute故障处理
• 不能添加、修改、删除 存储资源
• 不能关联存储资源 • 扫描不到存储设备
故障点
可能的故障原因
• 存储网络链路异常 • 对端存储设备异常 • 主机存储接口异常
• 排除存储网络链路故障 • 排除对端存储设备故障 • 修复主机存储接口配置
排除故障
FusionCompute存储资源、存储设备故障涉及到对端存储 设备配置,存储链路,存储接口等,需要逐步排错。
系统接口故障案例-删除存储接口路由 ,导致存储链路断开
收集 • 删除存储接口路由后,提示存储链路中断,关联虚拟机不能使用 信息
定位 故障
• 主机与存储设备通过三层网络连接,主机的存储接口和存储设备的存 储IP地址不在同一网段,需要设置静态路由,使存储平面能够互通
排除
• 登录主机 • 为主机存储接口配置静态路由
分布式交换机、端口组和上行链路
添加主机存储接口
主机和集群故障点
站点故障
不能使用 FusionCompute
不能配置级联
集群故障
不能创建、修 改、移除集群
集群配置故障
主机故障 系统接口故障
不能添加、修 改、移除主机
主机配置故障
网口绑定异常
业务管理接口 异常
存储接口异常
站点、集群故障点分析
• 不能使用FusionCompute • 不能配置级联 • 不能创建、修改、移除集
存储资源、存储设备故障案例-存储资 源管理链路中断
收集 • FusionCompute上报告警信息:存储资源管理链路中断 信息
定位
• 网络异常 • 存储资源网口故障
故障
排除 故障
• 查看故障的存储资源的名称及出现故障的存储资源管理IP • 登录VRM节点 • 查看VRM与故障的管理链路的IP能否正常通信 • 网络排查、修复
FusionCompute云计算平台告警处理指南
FusionCompute 云计算平台告警处理指南目录前言 (ii)1站点告警 (1)1.1ALM-15.1000077 License 即将失效 (3)1.2ALM-15.1000078 License 已经失效 (4)1.3ALM-15.1001005 未加载license (6)1.4ALM-15.1002000 VRM 主备间节点心跳故障 (8)1.5ALM-15.1004000 License 文件无效 (14)1.6 ALM-15.1004003 MAC 即将不足 (16)1.7 ALM-15.1004004 级联VRM 通信异常 (17)1.8 ALM-15.1004300 VRM 节点内部模块数据不一致 (19)1.9 ALM-15.1007000 监控处理进程异常 (21)1.10 ALM-15.1007001 实时分析进程异常 (23)1.11 ALM-15.1007004 订阅通知进程异常 (25)1.12ALM-15.1007006 VRM 时钟同步进程异常 (27)1.13ALM-15.1007007 VRM 系统定时服务进程异常 (29)1.14ALM-15.1007009 VRM 与NTP 服务器心跳状态异常 (31)1.15ALM-15.1007010 VRM 系统时钟跳变超过一分钟 (35)1.16ALM-15.1007011 配置通道客户端进程异常 (37)1.17 ALM-15.1007017 双机备份进程异常 (39)1.18ALM-15.1007019 VRM 未配置NTP 时钟源 (44)1.19ALM-15.1007099 VRM 备份或上传关键数据失败 (46)1.20ALM-15.1008000 与License Server 通信异常 (48)1.21 ALM-15.1008001 专享升级服务即将到期 (50)1.22 ALM-15.1008002 专享升级服务已经到期 (51)1.23 ALM-15.3002005 主机CPU 数超过许可90% (53)2集群告警 (56)2.1ALM-15.1000025 集群CPU 占用率超过阈值 (57)2.2ALM-15.1000026 集群内存占用率超过阈值 (58)2.3ALM-15.1000027 集群网络流出占用率超过阈值 (60)2.4ALM-15.1000028 集群网络流入占用率超过阈值 (62)2.5 ALM-15.1004006 集群HA 资源即将不足 (65)3主机告警 (67)3.1 ALM-10.1000027 主机与VRM 心跳异常 (69)3.2 ALM-15.1000020 内存预留率超过阈值 (72)3.3ALM-15.1000024 主机网络流入占用率超过阈值 (74)3.4ALM-15.1000032 主机CPU 占用率超过阈值 (76)3.5ALM-15.1000033 主机内存占用率超过阈值 (78)3.6ALM-15.1000034 主机网络流出占用率超过阈值 (80)3.7ALM-15.1000036 主机逻辑磁盘占用率超过阈值 (82)3.8 ALM-15.1000204 主机网口状态异常 (85)3.9ALM-15.1002006 主机与NTP 服务器心跳状态异常 (90)3.10ALM-15.1002018 CNA 节点弹性计算业务进程异常 (94)3.11 ALM-15.1002032 主机时钟同步进程异常 (96)3.12 ALM-15.1002033 主机系统定时服务进程异常 (98)3.13 ALM-15.1002034 系统盘监控进程异常 (100)3.14 ALM-15.1004002 显卡异常消失 (102)3.15ALM-15.1004200 新扩容主机或者更换主机的版本低 (104)3.16ALM-15.1004500 主机物理内存不足,启动虚拟机失败 (106)3.17 ALM-15.1004502 系统存在未受控主机 (107)3.18ALM-15.1004503 主机CPU 能力不支持集群IMC 模式设置 (109)3.19ALM-15.1006001 网口自协商速率没有达到服务器网口的最大速率 (110)3.20 ALM-15.1006002 连接跟踪表将超过阈值 (114)3.21ALM-15.1006003 主机与VRM 网络配置数据不一致 (118)3.22ALM-15.1006004 主机与VRM 网络配置属性不一致 (120)3.23ALM-15.1006005 主机内部模块间网络配置数据不一致 (122)3.24ALM-15.1006006 主机的端口组属性配置异常 (124)3.25ALM-15.1006008 主机管理接口未配置网络冗余 (127)3.26 ALM-15.1006101 虚拟化管理数据异常 (128)3.27 ALM-15.1006102 虚拟化管理目录磁盘容量超过阈值 (130)3.28 ALM-15.1007002 性能监控进程异常 (132)3.29 ALM-15.1007005 主机系统时钟跳变超过一分钟 (134)3.30 ALM-15.1007018 主机未配置NTP 时钟源 (137)3.31ALM-15.1008005 主机管理域CPU 占用率超过阈值 (139)3.32ALM-15.1008006 主机管理域内存占用率超过阈值 (141)3.33ALM-15.1008007 主机虚拟化域CPU 占用率超过阈值 (144)3.34ALM-15.1008008 主机虚拟化域内存占用率超过阈值 (146)3.35 ALM-15.1009003 服务器日志上传失败 (148)3.36 ALM-15.1009004 服务器USB 盘写入失败 (150)3.37 ALM-15.1009005 文件系统只读 (153)3.38 ALM-15.1009006 物理网卡MTU 设置失败 (155)3.39 ALM-15.1009103 虚拟化内存复用压力过大 (157)告警处理目录4虚拟机告警 (160)4.1ALM-15.1000101 虚拟机CPU 占用率超过阈值 (161)4.2ALM-15.1000102 虚拟机内存占用率超过阈值 (163)4.3ALM-15.1000103 虚拟机磁盘占用率超过阈值 (165)4.4 ALM-15.1001012 系统存在未受控虚拟机 (167)4.5 ALM-15.1004005 虚拟机发生蓝屏故障 (169)4.6ALM-15.1004008 创建快照过程异常,虚拟机无法进行操作 (171)4.7ALM-15.1004009 虚拟机HA 时,资源不足导致启动失败 (172)4.8ALM-15.1004100 虚拟机更换内存交换卷失败,可能导致虚拟机异常 (174)4.9 ALM-15.1006000 虚拟机发生反复重启故障 (176)4.10 ALM-15.1006007 安全组虚拟机安全组规则未生效 (178)4.11 ALM-15.1006009 虚拟机网络配置未生效 (180)4.12 ALM-15.1009108 虚拟机虚拟磁盘异常 (183)5存储告警 (185)5.1 ALM-15.1005001 主机存储链路中断 (186)5.2 ALM-15.1005002 存储资源管理链路中断 (189)5.3 ALM-15.1005003 存储使用容量超过阈值 (192)5.4 ALM-15.1005004 主机关联的数据存储异常 (194)5.5 ALM-15.1005005 主机光纤通道中断 (198)1 站点告警关于本章1.1ALM-15.1000077 License即将失效1.2ALM-15.1000078 License已经失效1.3ALM-15.1001005 未加载license1.4ALM-15.1002000 VRM主备间节点心跳故障1.5ALM-15.1004000 License文件无效1.6 ALM-15.1004003 MAC即将不足1.7ALM-15.1004004 级联VRM通信异常1.8ALM-15.1004300 VRM节点内部模块数据不一致1.9ALM-15.1007000 监控处理进程异常1.10ALM-15.1007001 实时分析进程异常1.11ALM-15.1007004 订阅通知进程异常1.12ALM-15.1007006 VRM时钟同步进程异常1.13ALM-15.1007007 VRM系统定时服务进程异常1.14ALM-15.1007009 VRM与NTP服务器心跳状态异常1.15ALM-15.1007010 VRM系统时钟跳变超过一分钟1.16ALM-15.1007011 配置通道客户端进程异常1.17ALM-15.1007017 双机备份进程异常1.18ALM-15.1007019 VRM未配置NTP时钟源1.19ALM-15.1007099 VRM备份或上传关键数据失败1.20ALM-15.1008000 与License Server通信异常1.21ALM-15.1008001 专享升级服务即将到期1.22ALM-15.1008002 专享升级服务已经到期1.23 ALM-15.3002005 主机CPU数超过许可90%1.1ALM-15.1000077 License 即将失效告警解释告警模块按每天凌晨0点到2点校验一次License的周期检测License有效性,当检测到License过期天数小于60天,即License即将失效时,系统产生此告警。
FusionCompute云计算平台故障处理指南
FusionCompute云计算平台故障处理指南目录前言 (ii)1概述 (1)1.1故障处理流程 (2)1.2故障分类 (3)2信息收集 (5)2.1基本故障信息收集 (6)2.2告警信息收集 (6)2.3事件信息收集 (8)2.4收集日志 (8)3常见故障处理 (11)3.1用户虚拟机故障 (12)3.1.1虚拟机蓝屏 (12)3.1.2SUSE 虚拟机网卡不可用 (14)3.1.3Ubuntu10.04 及以上版本操作系统中uvp-monitor 进程未启动 (18)3.1.4Windows Server 2003 虚拟机绑定USB 2.0 设备后,虚拟机黑屏或关机失败 (19)3.1.5SUSE 10 虚拟机不能正常使用USB 2.0 设备 (20)3.1.6重启或关闭主机网络服务后,主机网络异常 (21)3.1.7虚拟机同时绑定SCSI 磁盘和IDE 磁盘时无法正常启动 (22)3.1.8本地磁盘的ext4 文件系统损坏 (23)3.1.9虚拟机内存数值显示异常 (25)3.2管理节点故障 (26)3.2.1VRM 虚拟机故障 (26)3.2.2主机操作系统故障 (32)3.3操作维护类故障 (35)3.3.1登录界面时IE 浏览器异常 (36)3.3.2FusionComute 无法获取监控数据 (38)3.3.3修改虚拟机IP 后虚拟机通信中断 (40)3.3.4主机管理网络配置与交换机不匹配 (42)3.3.5异常掉电再上电后,任务长时间无响应 (43)3.3.6网络数据残留导致添加主机失败 (44)3.3.7仲裁IP 地址失效,导致Web 客户端无法登录 (46)故障处理目录3.4Tools 故障 (47)3.4.1Windows 下安装Tools 时弹出警告提示 (47)3.4.2Windows 下安装Tools 时异常中止 (48)4部件更换 (50)4.1部件更换策略 (51)4.2更换主机 (53)A 附录 (57)A.1使用ISO 方式安装VRM 虚拟机 (58)A.2清除FusionCompute 中本地硬盘的残留数据 (63)A.3配置FusionCompute 告警上报 (64)A.4配置单点登录 (66)A.5如何处理虚拟机网卡乱序问题 (67)A.6ISO 镜像方式安装主机 (68)A.7配置IE 浏览器 (76)A.8配置Firefox 浏览器 (79)A.9登录FusionCompute (80)A.10兼容性 (83)B 术语 (94)B.1A-E (95)B.2F-J (96)B.3K-O (97)B.4 P-T (98)B.5 U-Z (99)1 概述关于本章1.1故障处理流程1.2故障分类1.1故障处理流程故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。
FusionCompute云计算平台告警处理指南
FusionCompute 云计算平台告警处理指南目录前言 (ii)1站点告警 (1)1.1ALM-15.1000077 License 即将失效 (3)1.2ALM-15.1000078 License 已经失效 (4)1.3ALM-15.1001005 未加载license (6)1.4ALM-15.1002000 VRM 主备间节点心跳故障 (8)1.5ALM-15.1004000 License 文件无效 (14)1.6 ALM-15.1004003 MAC 即将不足 (16)1.7 ALM-15.1004004 级联VRM 通信异常 (17)1.8 ALM-15.1004300 VRM 节点内部模块数据不一致 (19)1.9 ALM-15.1007000 监控处理进程异常 (21)1.10 ALM-15.1007001 实时分析进程异常 (23)1.11 ALM-15.1007004 订阅通知进程异常 (25)1.12ALM-15.1007006 VRM 时钟同步进程异常 (27)1.13ALM-15.1007007 VRM 系统定时服务进程异常 (29)1.14ALM-15.1007009 VRM 与NTP 服务器心跳状态异常 (31)1.15ALM-15.1007010 VRM 系统时钟跳变超过一分钟 (35)1.16ALM-15.1007011 配置通道客户端进程异常 (37)1.17 ALM-15.1007017 双机备份进程异常 (39)1.18ALM-15.1007019 VRM 未配置NTP 时钟源 (44)1.19ALM-15.1007099 VRM 备份或上传关键数据失败 (46)1.20ALM-15.1008000 与License Server 通信异常 (48)1.21 ALM-15.1008001 专享升级服务即将到期 (50)1.22 ALM-15.1008002 专享升级服务已经到期 (51)1.23 ALM-15.3002005 主机CPU 数超过许可90% (53)2集群告警 (56)2.1ALM-15.1000025 集群CPU 占用率超过阈值 (57)2.2ALM-15.1000026 集群内存占用率超过阈值 (58)2.3ALM-15.1000027 集群网络流出占用率超过阈值 (60)2.4ALM-15.1000028 集群网络流入占用率超过阈值 (62)2.5 ALM-15.1004006 集群HA 资源即将不足 (65)3主机告警 (67)3.1 ALM-10.1000027 主机与VRM 心跳异常 (69)3.2 ALM-15.1000020 内存预留率超过阈值 (72)3.3ALM-15.1000024 主机网络流入占用率超过阈值 (74)3.4ALM-15.1000032 主机CPU 占用率超过阈值 (76)3.5ALM-15.1000033 主机内存占用率超过阈值 (78)3.6ALM-15.1000034 主机网络流出占用率超过阈值 (80)3.7ALM-15.1000036 主机逻辑磁盘占用率超过阈值 (82)3.8 ALM-15.1000204 主机网口状态异常 (85)3.9ALM-15.1002006 主机与NTP 服务器心跳状态异常 (90)3.10ALM-15.1002018 CNA 节点弹性计算业务进程异常 (94)3.11 ALM-15.1002032 主机时钟同步进程异常 (96)3.12 ALM-15.1002033 主机系统定时服务进程异常 (98)3.13 ALM-15.1002034 系统盘监控进程异常 (100)3.14 ALM-15.1004002 显卡异常消失 (102)3.15ALM-15.1004200 新扩容主机或者更换主机的版本低 (104)3.16ALM-15.1004500 主机物理内存不足,启动虚拟机失败 (106)3.17 ALM-15.1004502 系统存在未受控主机 (107)3.18ALM-15.1004503 主机CPU 能力不支持集群IMC 模式设置 (109)3.19ALM-15.1006001 网口自协商速率没有达到服务器网口的最大速率 (110)3.20 ALM-15.1006002 连接跟踪表将超过阈值 (114)3.21ALM-15.1006003 主机与VRM 网络配置数据不一致 (118)3.22ALM-15.1006004 主机与VRM 网络配置属性不一致 (120)3.23ALM-15.1006005 主机内部模块间网络配置数据不一致 (122)3.24ALM-15.1006006 主机的端口组属性配置异常 (124)3.25ALM-15.1006008 主机管理接口未配置网络冗余 (127)3.26 ALM-15.1006101 虚拟化管理数据异常 (128)3.27 ALM-15.1006102 虚拟化管理目录磁盘容量超过阈值 (130)3.28 ALM-15.1007002 性能监控进程异常 (132)3.29 ALM-15.1007005 主机系统时钟跳变超过一分钟 (134)3.30 ALM-15.1007018 主机未配置NTP 时钟源 (137)3.31ALM-15.1008005 主机管理域CPU 占用率超过阈值 (139)3.32ALM-15.1008006 主机管理域内存占用率超过阈值 (141)3.33ALM-15.1008007 主机虚拟化域CPU 占用率超过阈值 (144)3.34ALM-15.1008008 主机虚拟化域内存占用率超过阈值 (146)3.35 ALM-15.1009003 服务器日志上传失败 (148)3.36 ALM-15.1009004 服务器USB 盘写入失败 (150)3.37 ALM-15.1009005 文件系统只读 (153)3.38 ALM-15.1009006 物理网卡MTU 设置失败 (155)3.39 ALM-15.1009103 虚拟化内存复用压力过大 (157)告警处理目录4虚拟机告警 (160)4.1ALM-15.1000101 虚拟机CPU 占用率超过阈值 (161)4.2ALM-15.1000102 虚拟机内存占用率超过阈值 (163)4.3ALM-15.1000103 虚拟机磁盘占用率超过阈值 (165)4.4 ALM-15.1001012 系统存在未受控虚拟机 (167)4.5 ALM-15.1004005 虚拟机发生蓝屏故障 (169)4.6ALM-15.1004008 创建快照过程异常,虚拟机无法进行操作 (171)4.7ALM-15.1004009 虚拟机HA 时,资源不足导致启动失败 (172)4.8ALM-15.1004100 虚拟机更换内存交换卷失败,可能导致虚拟机异常 (174)4.9 ALM-15.1006000 虚拟机发生反复重启故障 (176)4.10 ALM-15.1006007 安全组虚拟机安全组规则未生效 (178)4.11 ALM-15.1006009 虚拟机网络配置未生效 (180)4.12 ALM-15.1009108 虚拟机虚拟磁盘异常 (183)5存储告警 (185)5.1 ALM-15.1005001 主机存储链路中断 (186)5.2 ALM-15.1005002 存储资源管理链路中断 (189)5.3 ALM-15.1005003 存储使用容量超过阈值 (192)5.4 ALM-15.1005004 主机关联的数据存储异常 (194)5.5 ALM-15.1005005 主机光纤通道中断 (198)1 站点告警关于本章1.1ALM-15.1000077 License即将失效1.2ALM-15.1000078 License已经失效1.3ALM-15.1001005 未加载license1.4ALM-15.1002000 VRM主备间节点心跳故障1.5ALM-15.1004000 License文件无效1.6 ALM-15.1004003 MAC即将不足1.7ALM-15.1004004 级联VRM通信异常1.8ALM-15.1004300 VRM节点内部模块数据不一致1.9ALM-15.1007000 监控处理进程异常1.10ALM-15.1007001 实时分析进程异常1.11ALM-15.1007004 订阅通知进程异常1.12ALM-15.1007006 VRM时钟同步进程异常1.13ALM-15.1007007 VRM系统定时服务进程异常1.14ALM-15.1007009 VRM与NTP服务器心跳状态异常1.15ALM-15.1007010 VRM系统时钟跳变超过一分钟1.16ALM-15.1007011 配置通道客户端进程异常1.17ALM-15.1007017 双机备份进程异常1.18ALM-15.1007019 VRM未配置NTP时钟源1.19ALM-15.1007099 VRM备份或上传关键数据失败1.20ALM-15.1008000 与License Server通信异常1.21ALM-15.1008001 专享升级服务即将到期1.22ALM-15.1008002 专享升级服务已经到期1.23 ALM-15.3002005 主机CPU数超过许可90%1.1ALM-15.1000077 License 即将失效告警解释告警模块按每天凌晨0点到2点校验一次License的周期检测License有效性,当检测到License过期天数小于60天,即License即将失效时,系统产生此告警。
FusionCompute运维故障处理指南
系统接口故障案例-删除存储接口路由,导 致存储链路断开
收集 • 删除存储接口路由后,提示存储链路中断,关联虚拟机不能使用 信息
定位
• 主机与存储设备通过三层网络连接,主机的存储接口和存储设备的存 储IP地址不在同一网段,需要设置静态路由,使存储平面能够互通
故障
排除
• 登录主机 • 为主机存储接口配置静态路由
NAS
Advanced SAN
FC/IP SAN FusionStorage
障处理,可以参考该流程 顺序进行检查。
添加站点的存储资源 配置FC SAN启动器 ⚫ 存储池可能会涉及到如下
向主机关联存储资源
关键故障点: 存储资源故障
扫描存储设备 添加数据存储
存储设备故障 数据存储故障 虚拟磁盘故障
确认
第12页
系统接口管理
⚫ sionCompute管理如下几类系统接口:
绑定网口
◼ 绑定主机的网口,以提高网络的可靠性。
存储接口
◼ 在主机中添加存储接口,实现主机与存储设备对接。 ◼ 添加多个存储接口,可以实现存储的多路径传输。
业务管理接口
◼ 承载一些特殊业务流量的系统接口,这些特殊业务包括热迁移虚拟 机、虚拟机主机容灾、虚拟化SAN存储心跳检测等。
•排除存储网络故障 •修复文件系统损坏 •修复磁盘损坏
排除故障
FusionCompute数据存储涉及到虚拟化和非虚拟化数据存储,也就是文件系统 和块存储,需要重点关注这两类故障。
第23页
数据存储故障案例-共享存储的VIMS文件 系统损坏
收集 • 共享存储的VIMS文件系统损坏 信息
定位 故障
• 系统文件元数据损坏或用户文件元数据损坏 • 超级块损坏或文件系统根目录损坏
FusionAccess桌面云运维故障处理介绍
目录
1. FusionAccess故障处理流程 2. FusionAccess典型故障处理
业务发放故障 登录连接故障 性能体验故障 ◼ 外设使用故障
第32页
外设技术回顾
设备 重定向
端口 重定向
其他 重定向
第33页
基于上层设备业务功能实现的重 定向技术
打印机、摄像头、TWAIN、PS/SC、 HID等默认使用设备重定向。
基于底层端口协议实现的重定向 技术
USB、串口、并口等,默认使用端口重 定向。
与具体设备无关的,属于某种通 用功能的重定向技术。
文件夹重定向、剪切板重定向。
外设使用故障处理流程
第34页
• 查看浮动窗口设置栏是否有设备 • VM设备管理器中,查看设备状态
快速 界定
• 根据不同的外设,切换不同的重定向方 式
FusionCare
⚫ FusionCare ⚫ WinSCP
Huawei vDesk
用户终端
TC/SC
⚫ 在TCM上使用“日志提取”功能远程获取日志。 ⚫ 使用手动方式收集用户终端日志。
TCM
第7页
故障定位常用方法
第8页
在管理界面查看告警信息。 在管理界面查看监控信息是否正常。 在管理界面检查数据配置是否正确。 观察设备指示灯状态是否正常。 查询操作日志,分析操作过程是否有误。
上报注册请求 注册响应
检查SID有效性,更新注册状态
注册成功后每分钟一次心跳
心跳响应
DNS
用户登录流程
TC
WI
HDC
License
VM
AD
输入用户名密码 查询用户虚拟机列表
到AD上鉴权
第21页
运维故障处理指导手册
一.OLT-上联(同一台OLT下用户故障)联系网管,协助网管一起处理●OLT上联口亮检查OLT至ODF架光纤跳线检查光衰协同网管和相关抢修队处理●OLT上联口不亮检查OLT至ODF架光纤跳线检查光衰协同网管和相关抢修队处理二.ONU-OLT(同一OLT PON口下用户故障)联系网管,协助网管一起处理●ONU PON口亮检查ONU是否注册检查光衰协同网管和相关抢修队处理●ONU PON口不亮检查ONU与OLT的连接是否正确联系网管,更换PON口更换分光器检查光衰协助网管和抢修队处理三.用户端-ONU(同一ONU或交换机下用户故障)1.用户上联端口亮●交换机上联端口不亮。
检查交换机至ONU连接是否正确。
更换交换机上联端口更换交换机对应的ONU端口检查交换机配置更换交换机至ONU的网线更换交换机更换ONU●交换机上联端口亮检查交换机至ONU网线检查交换机端口状态和配置检查ONU端口状态和配置更换交换机更换ONU2.用户上联端口不亮。
●检查用户电脑网卡至交换机连接是否正确;●更换上联端口●更换网线●更换上联设备四.用户端1.用户电脑问题●错误代码630 ,提示没有合适的网卡或驱动错误原因:硬件错误,可能是网卡损坏或网卡驱动失效造成,或者未安装网卡解决方法:检查网卡是否工作,网络线路是否插好,重新安装网卡驱动程序并确定网卡工作正常。
●错误650 问题:远程计算机没有响应,断开连接原因:网卡故障,非正常关机造成网络协议出错解决:检查网卡,删除所有网络组件重新安装网络。
●错误678 问题:远程计算机没有应答原因:出现此类现象原因很多,主要是硬件没有正确连接。
解决:检查连接是否正确●错误769 :无法连接到指定目标。
问题:这是指你电脑的网络设备有问题解决方法:打开“我的电脑”→“控制面版”→“网络连接”,查看本地连接的是否处在“禁用”状态,是的话只需双击本地连接,看到状态变为“已启用”即可。
若是连本地连接都没有的话,重装网卡驱动,如仍未解决,更换网卡。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主机故障案例-添加主机失败
收集 • 在FusionCompute界面上添加主机失败 信息
定位 故障
• VRM与CNA节点网络链路不通
• 添加主机失败后,主机上可能残留网络配置数据,导致再次添加主机 失败
排除
• 检查VRM与故障CNA节点网络连接 • 删除故障CNA节点残留网络数据
故障
检查
• 告警消失 • 业务正常
收集 • FusionCompute服务异常,无法重新启动VRM虚拟机 信息
定位 故障
• 在FusionCompute中对VRM虚拟机执行关机操作 • 在VRM虚拟机上执行关机命令 • VRM操作系统异常引发VRM自动关机
排除 故障
• 使用“PuTTY”,登录VRM节点所在主机 • 切换至“root”用户: su - root • 查找VRM虚拟机id: ll /etc/galax/eucalyptus • 启动虚拟机: /opt/galax/NCclient ncStartInstances 虚拟机ID
确认
第12页
系统接口管理
⚫ FusionCompute管理如下几类系统接口:
绑定网口
◼ 绑定主机的网口,以提高网络的可靠性。
存储接口
◼ 在主机中添加存储接口,实现主机与存储设备对接。 ◼ 添加多个存储接口,可以实现存储的多路径传输。
业务管理接口
◼ 承载一些特殊业务流量的系统接口,这些特殊业务包括热迁移虚拟 机、虚拟机主机容灾、虚拟化SAN存储心跳检测等。
添加主机存储接口
第7页
主机和集群故障点
站点故障
不能使用 FusionCompute
不能配置级联
集群故障
不能创建、修 改、移除集群
集群配置故障
主机故障
不能添加、修 改、移除主机
主机配置故障
系统接口故障
网口绑定异常 业务管理接口
异常 存储接口异常
第8页
站点、集群故障点分析
• 不能使用FusionCompute • 不能配置级联 • 不能创建、修改、移除集
系统管理
• FusionCompute的权限、任务与日志、系统配置等系统管理。
第4页
FusionCompute故障概览
存储池故障
网络池故障
虚拟机和模板故 障
主机和集群故障
FusionCompute 故障
日常操作维护故 障
第5页
目录
1. FusionCompute故障简介 2. FusionCompute主机和集群故障处理 3. FusionCompute存储故障处理 4. FusionCompute网络故障处理 5. FusionCompute虚拟机和模板故障处理 6. FusionCompute日常操作维护故障处理 7. FusionCompute高危操作一览表 8. 典型案例
第3页
FusionCompute功能简介
计算池
• 提供站点下集群与主机资源的监控、管理和维护功能。
存储池
• 提供站点下存储资源、数据存储与磁盘管理功能,并可为系统增添共 享存储设备。
网络池
• 提供分布式交换机和网络资源的维护和管理。
虚拟机和模板
• 提供虚拟机资源的监控、管理、维护和模板属性规格管理的功能。
第13页
系统接口故障点分析
• 网口绑定异常 • 业务管理接口异常 • 存储接口异常
故障点
可能的故障原 因
• 网络异常 • 主机异常 • VRM异常
• 排除网络故障 • 修复主机 • 修复VRM
排除故障
系统接口涉及到底层网络硬件,主机和VRM节点,排除故障时可自顶 向下快速定位故障层次,然后再自底向上逐步排除故障点。
检查
• 告警消失 • 业务正常
确认
第10页
主机故障点分析
• 不能添加、修 改、移除主机
• 主机配置故障
故障点
可能的故障原因
• 网络异常 • 代理服务异常 • 系统异常
• 排除网络故障 • 修复代理服务 • 重装系统
排除故障
主机上的计算资源经过虚拟化后,形成计算资源池,并分配给虚拟机 使用。如果主机出现故障,将影响上层的虚拟机和业务。
FusionCompute运维故障处理指南
技术创新,变革未来
前言
⚫ FusionCompute是华为云计算解决方案的基石,了解和掌握 FusionCompute的故障处理方法,可以更好的部署和维护企业 云计算环境。
第1页
目标
⚫ 学完本课程,您将能够:
了解FusionCompute故障分类 熟悉FusionCompute主机和集群故障处理 熟悉FusionCompute存储故障处理 熟悉FusionCompute网络故障处理 熟悉FusionCompute虚拟机和模板故障处理 熟悉FusionCompute日常操作维护故障处理 熟悉FusionCompute高危操作
群 • 集群配置故障
故障点
可能的故障原因
• 网络异常 • VRM节点异常 • 站点配置异常 • 集群配置异常
• 排除网络故障 • 排除VRM节点故障 • 修复站点配置 • 修复集群配置
排除故障
FusionCompute使用VRM节点对资源统一调度管理,站点、 集群故障和VRM节点强相关。
第9页
站点、集群故障案例-VRM虚拟机关机后 无法启动
第2页
目录
1. FusionCompute故障简介 2. FusionCompute主机和集群故障处理 3. FusionCompute存储故障处理 4. FusionCompute网络故障处理 5. FusionCompute虚拟机和模板故障处理 6. FusionCompute日常操作维护故障处理 7. FusionCompute高危操作一览表 8. 典型案例
第14页
系统接口故障案例-删除存储接口路由,导 致存储链路断开
收集 • 删除存储接口路由后,提示存储链路中断,关联虚拟机不能使用 信息
定位
• 主机与存储设备通过三层网络连接,主机的存储接口和存储设备的存 储IP地址不在同一网段,需要设置静态路由,使存储平面能够互通
故障
排除
• 登录主机 • 为主机存储接集群
向集群添加主机
设置主机时钟同步
否
存储类型 为SAN?
是
存储设备 厂商
其他
华为
修改主机存储多路径
⚫ FusionCompute主机和集群的故障处理,可 以参考该流程顺序进行检查。
⚫ 主机和集群的故障可能会涉及到如下关键 故障点:
站点故障
集群故障 主机故障 系统接口故障