华为ManageOne 解决方案故障处理介绍
ManageOne FusionManager运维平台故障处理指南
ManageOne FusionManager 运维平台故障处理指南故障处理目录目录前言 (ii)1概述 (1)1.1故障处理流程 (2)1.2故障分类 (3)2信息收集 (4)2.1基本故障信息收集 (5)2.2告警信息收集 (5)3管理节点故障 (6)3.1FusionManager 虚拟机故障 (7)4操作维护类故障 (10)4.1修改虚拟机IP 后虚拟机通信中断 (11)4.2修改管理IP 后登录FusionManager 异常 (12)4.3修改管理IP 后资源界面异常 (13)4.4修改管理IP 后资源使用情况界面异常 (14)4.5主机关联的数据存储异常 (15)5系统时间故障 (17)5.1系统时间错误 (18)A 附录 (20)A.1配置IE 浏览器 (21)A.2配置Firefox 浏览器 (22)A.3登录FusionManager (23)A.4查看告警 (24)B 术语 (26)B.1A-E (27)B.2F-J (28)B.3K-O (30)B.4 P-T (31)B.5 U-Z (32)1 概述关于本章1.1故障处理流程1.2故障分类1.1故障处理流程故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。
具体实施过程如图1-1所示。
说明故障信息收集处理重大故障前,请先联系技术支持处理。
图1-1 常见故障处理流程故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。
故障判断排除故障之前,系统维护人员根据收集的故障详细信息,对故障范围和类型进行判断。
故障定位故障定位是指从众多可能原因中找出故障原因的过程。
通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。
以下是故障定位的常用方法:●在管理界面查看告警信息●在管理界面查看监控信息是否正常●查询操作日志,分析操作过程是否有误●在管理界面检查数据配置是否正确●观察设备指示灯状态是否正常故障排除故障排除是指根据不同的故障原因清除故障的过程。
华为ManageOne运维业务及维护操作介绍
派发工单
未解决问题
验证告警
维护人员
查看待办任务
处理问题
关闭工单
Page 17
客户问题处理-检查告警
监控人员在收到报诉后,在OperationCenter上查看告警。
Page 18
客户问题处理-检查拓扑
监控人员在OperationCenter系统中通过拓扑视图检查可能发生故障的网元以尽量减小 故障排查的范围,加速故障定位。
3rd Party Resource Management
基础设施层 Hypervisor
服务器
存储设备
交换机
负载均衡器
防火墙
路由器
OS&DB
在每个数据中心部署本地云资源管理系统和物理设备运维系统,负责本地的运维操作、配置和监控数据采集; 在中心节点部署Domain级统一运维管理系统OperationCenter,将各个数据中心的云资源监控信息和非云资源监控信息都汇聚起来进行统一运维管理; 在OC上可以将运维监控数据与业务相关数据进行联动综合分析,提供根因分析、业务影响分析、流量异常分析、容量分析及规划、业务巡检调度等增值功能。
告警声音
不同级别的告警,使用 不同的告警声音
级别重定义规则
根据配置的规则,符合条件的告 警的级别将进行修改。
告警配置
告警Email通知
符合条件的告警,OperationCenter通过邮件通知监控人员、维 护人员。
告警短消息通知
符合条件的告警,OperationCenter通过短消息通知监控人员、维 护人员。
华为ManageOne运维业务及维护操作介绍
技术创新,变革未来
目标
学完本课程后,您将能够:
描述ManageOne的运维架构和功能; 熟悉ManageOne的运维业务操作。
ManageOne云计算运营中心(SC)介绍
业务用户
VDC1 DC1
业务用户
VDC2
AZ1
AZ2
业务用户
VDC3 DC2
AZ3
AZ4
第24页
VDC服务(2/9)
⚫ VDC和OpenStack的逻辑映射关系如下图:
VDC对应KeyStone里的project,VDC管理员/用户对应KeyStone的user,user通过 userGroup和project关联在一起。
用户管理 服务管理 组织管理 VDC服务 计算服务 存储服务 网络服务
3. ServiceCenter安装
第10页
服务管理(1/3)
⚫ 功能介绍
服务是可供用户申请的资源模板,由系统管理员或组织管 理员创建,发布在服务目录中,系统管理员创建的全局可 见或指定组织可见,组织管理员创建的在组织内可见或指 定VDC可见。
第23页
VDC服务(1/9)
⚫ 特性原理
VDC(Virtual Data Center)是对部门所使用的虚拟资源的封装和边界定义,特指 虚拟资源的集合对象,一般包括计算、存储和网络资源。VDC在形式和内容上类 似于一个物理数据中心,是物理数据中心在虚拟化层的形式表现。
VDC和物理DC资源的映射关系如下图:
4
当客户只使用一级租户时,新增一个可用分区,需 要系统管理员把新增的可用分区指定到该组织下
第22页
目录
1. ServiceCenter介绍 2. ServiceCenter功能特性
用户管理 服务管理 组织管理 VDC服务 计算服务 存储服务 网络服务
3. ServiceCenter安装
服务目录
云主机 vApp 云磁盘 弹性IP 触发/终止计量打点
精典-华为云-FusionManager故障处理
FusionManager故障处理-看日志
4. 如果问题依然存在,使用FusionCare工具,收集更详细的 日志进行分析:
在日志文件中查找关键字,进行分析处理和故障排除
1. FusionManager故障简介 2. FusionManager管理节点故障处理 3. FusionManager操作维护故障处理 4. FusionManager备份与恢复 5. FusionManager高危操作一览表
恢复故障FM数据
主备节点FM故障处理流程
主备FusionManager虚拟机同时 故障时,需要参考本故障处理
取消单点登录 (可选)
重启FM虚拟机
操作,使业务快速恢复正常。
是否能 VNC登 录FM
是
启动HA服务
否 重装故障FM节点
联系华为 技术支持
节点的
否 HA状态
是否正 常
是
配置单点登录 (可选)
物理基础架构
以云服务自动化管理和资源智能运维为核心,构筑“敏捷、精简”的云数据中心管理体验
FusionManager故障处理一般流程
• 任务中心的错误提示 • 查阅在线帮助 • 按在线帮助步骤处理
看告警
• 查看系统告警 • 按告警帮助步骤处理
看错误提示
• 查看FusionManager日 志
• 搜寻日志关键字错误 • 根据日志提示处理
排除故障
单节点FM故障处理流程
FusionManager主备部署时,单个FusionManager虚拟机故障,
且重启该虚拟机后业务仍无法恢复时,需要参考本故障处理
操作,使业务快速恢复正常。
是否能 VNC登录
否
FM
是
华为硬件故障告警解释及处理
第一节 DBUS告警 (2)一2170 DBUS告警 (2)二3108 DBUS告警 (3)三3628 DBUS告警 (4)四4158 DBUS告警 (5)第二节 DBUS时钟告警 (7)一2132 DBUS时钟告警 (7)二4120 DBUS时钟告警 (8)第三节无线链路提示告警 (10)一2134 无线链路提示告警 (10)二3072 无线链路提示告警 (12)三4122 无线链路提示告警 (14)第四节时钟参考源异常 (16)一2208 时钟参考源异常 (16)二3146 时钟参考源异常 (17)三3666 时钟参考源异常 (18)四4708 时钟参考源异常 (20)第五节 13M时钟校准维护告警 (22)一2260 13M时钟校准维护告警 (22)二3718 13M时钟校准维护告警 (23)三4760 13M时钟校准维护告警 (24)第六节反向功率告警 (25)一3614 反向功率告警 (25)第一节 DBUS告警一2170 DBUS告警告警解释当机架内部的数据总线出现问题时,上报该告警。
对系统的影响告警发生时,部分或者全部TRX的业务彻底中断。
系统自处理过程无可能原因·E1传输线故障;·机架内部数据总线故障;·TMU板故障.处理步骤1.查看其他相关告警查看LMT是否同时上报2214 E1本地告警的处理方法处理,观察告警是否恢复。
Y=>告警恢复,告警处理结束.N=>告警未恢复,转步骤2.若没有上报上述告警, 转步骤2.2.检查E1线是否单端接地检查TMU的拨码开关是否正确,如果有错,修改拨码开关状态,保证E1线单端接地,观察告警是否恢复。
Y=>已恢复,处理结束;N=>告警未恢复,转步骤3.如果TMU拨码开关正确,转步骤3.3.更换TMU更换TMU,观察是否恢复。
Y=>已恢复,处理结束;N=>告警未恢复,故障原因可能为机架整套配线故障,联系华为技术中心。
ManageOne运维解决方案介绍
VPN或专线
VPN或专线
OpenStack
分支DC
OpenStack
分支DC
FC vCenter eSight/3rd ITOM
…
被管理对象(计算、存储、网络)
FC vCenter eSight/3rd ITOM 被管理对象(计算、存储、网络)
第8页
ManageOne部署规格
ManageOne分为小规模、标准规模、大规模三种部署规格:
第4页
目录
1. ManageOne应用场景 2. ManageOne架构 3. ManageOne特性 4. 关键服务
第5页
ManageOne运营架构
SC KeyStone
Openstack
OpenStack OM
AC SDN Controller
BC&DR
FusionInsight M
RDS for Oracle
VRM
VMware
AZ
AZ
存储资源池
大数据资源池
Oracle数据库 资源池
ManageOne包括SC、OC两个组件,SC负责业务发放,OC负责运维监控;
IaaS资源池由FusionSphere OpenStack提供,支持VRM、VMware;在多个OpenStack的场景,只支 持一个KeyStone;
SC
OC
KeyStone
Openstack
OpenStack OM
AC
eSight
ITIL FusionInsight M
KVM AZ
VRM AZ
VMware AZ
大数据资源池
ManageOne包括SC、OC两个组件,SC负责业务发放,OC负责运维监控; eSight负责DC内物理设备的监控,OpenStack及OpenStack OM、VRM、VMware负责DC内虚拟设备
华为5G-LampSite常见硬件故障处理
LampSite常见硬件故障处理定位故障范围的常用方法2观察法•观察法是我们发现、界定设备故障范围的常用方法。
观察的内容主要有设备告警、指示灯显示、WebLMT 面板状态。
找规律法•是否同一单板存在问题。
•是否同一小区或者载波存在问题。
•凡是出现了告警,要观察告警是单个还是多个类似的告警。
对比/互换•对比是指将故障的部件或现象与正常的部件或现象进行比较分析,找出问题的所在。
•互换是指将处于正常状态的部件与可能故障的部件对调,比较对调前后二者变化,以此判断故障的范围或部位。
告警名称告警归属告警含义对系统影响单板硬件故障告警BBU当单板硬件故障时,产生此告警。
单板无法正常工作,单板承载的业务可能中断。
单板不在位告警BBU在对应槽位已配置相应单板,但未检测到单板在位信号时,产生此告警。
故障单板无法正常工作,导致单板承载的业务中断。
单板下电告警BBU当单板下电或单板无法上电时,产生此告警。
单板承载的业务中断。
单板未插紧告警BBU当单板未插紧时,产生此告警。
故障单板可能无法正常工作,导致单板承载的业务中断。
存在单板告警原因:1.单板硬件故障、单板温度异常。
2.故障单板硬件故障、背板槽位故障、主控板硬件故障、故障单板所在框内主控板未插紧、故障单板未插或未插紧。
3.电源模块直流输出异常,为避免单板被意外烧毁,单板温度过高自动下电;电源模块供电能力不足; 用户执行了人工下电操作。
4.背板槽位故障;故障单板硬件故障;故障单板未插或未插紧。
红色:故障绿色:正常灰色:配置未插板或对端配置蓝色:正在启动中存在单板告警原因:1.光模块故障。
2.光模块未安装或未插紧;3.光模块连线故障;4.光纤接头或光模块安装松动,或光模块老化;5.光纤接头不洁净,存在灰尘等异物;告警名称告警含义对系统影响BBU CPRI 光模块故障告警当BBU 连接下级射频单元的端口上的光模块故障时,产生此告警。
无法获取光模块信息。
BBU CPRI 光模块/电接口不在位告警当BBU 连接下级射频单元的端口上的光模块或者电接口连线不在位时,产生此告警。
华为服务器日常维护及故障处理文档
华为服务器日常维护和故障处理介绍目录1.服务器日常维护1.1 维护准备1.2 日常巡检1.3 软件升级2.服务器故障处理2.1 故障诊断流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更换流程及注意事项服务器日常维护硬件工具一览表(按需提前准备)。
名称说明浮动螺母安装条用于牵引浮动螺母,使浮动螺母安装在机柜的固定导槽孔位上。
螺丝刀用于拆装螺钉,一般为一字、十字、六棱套筒等。
斜口钳用于剪切绝缘套管、电缆扎线扣等。
万用表用于测量电阻、电压,检查导通关系等。
防静电腕带用于接触或操作设备和器件,可防止静电放电。
防静电手套用于插拔单板、手拿单板或其他精密仪器等,可防止静电放电。
线扣用于绑扎线缆。
梯子用于高处作业。
便携机自备网线,用于通过网络访问管理网口或业务网口,捕获数据。
串口线服务器侧串口接口一般为DB9或RJ45。
温度计/湿度计用于监控机房温度、湿度是否满足设备稳定运行环境。
服务器日常维护软件工具一览表(按需提前准备)名称说明Putty/Winscp开源工具,用于Windows客户端命令行方式访问Linux系统以及文件传输。
Toolkit Tools 主要功能:获取硬件信息;快速诊断;CPU、硬盘、内存的专项测试;硬盘擦除;提供配置和部署常用的参考工具和脚本;制作可启动U盘,方便使用U盘运维;针对渠道的自动配置诊断功能。
Umate Tools 提供巡检、日志收集、固件升级、配置BIOS/BMC/HMM/RAID等功能,并且所有的功能都支持批量操作。
Winrar第三方软件,需自备,用于压缩文件或解压。
Office第三方软件,需自备,用于编辑Word、Excel等文档。
FwUpgrade升级硬盘、网卡和RAID控制卡的固件。
InfoCollect用于Linux/Windows日志收集,服务器日志收集工具,支撑维护问题定位。
服务器日常维护前必读资料如下表名称说明资料获取《用户指南》各型号服务器的用户指南,介绍服务器产品的结构、规格和安装。
精选-HUAWEI ManageOne 3.0.RC3 故障处理
ManageOne故障处理–OC检查告警
登录OC,url:http://ocip:8080, 用户名/默认密码:admin/Changeme_123, 右上角的告警面板按级别分成四个图标,如右图, 点击紧急告警图标,打开页面如下: 在页面中检查“未确认”、“未清除”的告警。
1. 发现ManageOne故障的常用方法 2. 定位ManageOne故障的常用手段
OC的常用手段 SC的常用手段 3. ManageOne常见故障及处理
ManageOne故障处理– 发现故障
客户投诉
日常巡检
维护人员在设备的正常运行过程中,周期 性地开展巡检和维护工作,及时发现并消 除设备中的故障隐患。
发现故障
系统监控
周期性的查看统计报表,或者对进程状态、系统 资源占用率的监控来发现故障
发现故障之后,第一时间收集故障的信息,并进行故障判断,找出故障的对象及位置,
进行故障定位,找出故障出现的原因,进行修复或更换设备等故障处理,以保障业务不
受影响或影响降至最低。
1. 发现ManageOne故障的常用方法 2. 定位ManageOne故障的常用手段
OC的常用手段 SC的常用手段 3. ManageOne常见故障及处理
故障信 收集
• 세계적인 반도체장비 故障定位的常用方法
➢ 在管理界面查看告警信息 ➢ 在管理界面查看监控信息 ➢ 查询操作日志,分析操作过程 ➢ 在管理界面检查数据配置 ➢ 观察设备指示灯状态 ➢ 查看服务或进程状态
故障信息收集
故障排除 处理完毕
故障定位
• Furnace 및 CVD장비
기술의 선두
查看告警、日志
1、维护人员能通过客户端查看告警; 2、查看应用运行过程中的日志信息
研究-10 ManageOne运维中心(OC)介绍1
进行交互,以及时将告警信息发送给监控人员。 OC默认支持CA SDM系统作为ITIL系统,可以实现手工/自动转工单。
告警管理 (2/7)
多维度告警查看。 告警相关操作:导出、确认、清除、转工单、标示误告警、取消误告警、手工更新级别。 事件相关操作同告警。
资源管理 (1/5)
OperationCenter HTTPS
ServiceCenter HTTPS DC VPC信息
集群 主机 虚拟机详情
AZ 主机组
KVM主机 虚拟机等信息
Host 虚拟机 FusionSphere
FusionSphere Openstack
FusionComputer
FusionNetwork (Neutron)
拓扑导航 (5/5)
资源探索拓扑,也叫资源关联拓扑,将指定资源的所有关系都可以展示出来。运维人员可以从 指定的某个资源开始,通过层层探索,抽丝剥茧般将相关资源的拓扑关系全面展现出来,并逐 步找到真正的问题所在。
可以自定义上述内容的显示与隐藏。 可以分DC统计上述内容。
首页 (3/3)
在仪表盘页面定制大屏后,可以切换大屏显示。 大屏显示的内容同仪表盘。
告警管理 (1/7)
ITIL email网关
转工单 email通知
SNMP Trap OperationCenter
HTTPS 周期性查询
多维度查看,查看维度可以在系统配置/ 资源显示配置/视图编辑处调整。
各关联信息汇总于一个统一的页面中。
资源管理 (3/5)
华为交换机配置及故障处理
• SW2配置 ip route-static 192.168.1.0 24 10.1.1.1 ip route-static 192.168.2.0 24 10.1.1.1
ip route-static 192.168.3.0 24 10.1.1.1
HUAWEI TECHNOLOGIES CO., LTD.
network-address是想要开启RIP路由协议的接口的地址网络
HUAWEI TECHNOLOGIES CO., LTD.
All rights reserved
Page 13
华为交换机RIP路由协议配置举例
• SW1配置 rip 1 version 2 network 10.0.0.0 network 192.168.1.0 network 192.168.2.0 network 192.168.3.0
All rights reserved
Page 8
华为交换机三层互联配置
• 华为交换机无法在接口上直接配置IP地址,需要通过在vlanif上配置IP地址,再将接 口配置成access接口模式,并把接口配置到相应vlan中实现三层接口的功能。 • 全局模式下创建用于互联的vlan vlan vlan-id • 配置vlanif接口地址
[Quidway-aaa] local-user huawei level 3
[Quidway-aaa] quit [Quidway] user-interface vty 0 4 [Quidway-ui-vty0-4] authentication-mode aaa
HUAWEI TECHNOLOGIES CO., LTD.
Internal
华为交换机配置及故障处理
华为OperationCenter产品安装部署介绍
目标
学完本课程后,您将能够:
掌握OperationCenter产品概要功能; 掌握OperationCenter软件安装步骤;
Biblioteka 掌握OperationCenter初始配置;
Page 2
目录
1. OperationCenter产品介绍
2. OperationCenter软件安装 3. OperationCenter初始配置
虚拟机或者物理机 CPU:频率2GHz以上;核数,4核以上 内存:8GB以上 硬盘:300GB 标准规模 (1K-3K VM对象)
网卡:单或双网口,为了提高网络安全,推荐双网口。 虚拟机或者物理机
CPU:频率2GHz以上;核数,虚拟部署8核以上,物理部署4核以上 内存:16GB以上
硬盘:500GB
大规模 (3K-10K VM对象) 网卡:单或双网口,为了提高网络安全,推荐双网口。 物理服务器 CPU:频率2GHz以上;核数,8核以上 内存:32GB以上 硬盘:1.5T 网卡:单或双网口,为了提高网络安全,推荐双网口。
分销商管理
计费管理
服务中心(ServiceCenter )
私有云服务管理(服务定义/目 录/审批流程/请求) 应用和企业集成服务编排 多资源池调度 和全局模版/映像共享 服务自助管理(V N C , 云监控、 云资源容量管理等) v D C 资源服务编排 传统数据中心自动化
运维中心( OperationCenter )
步骤 7 安装启动确认 检查信息提供完整后,确认启动安装。整个软件安装过程大约需要20分钟。
Page 13
2.8 软件安装步骤(三)
准备软件包
安装OC 软件
安装结果验证
华为ManageOne运维业务及维护操作介绍
监控人员
检查告警
配置告警机制
解决问题
处理简单告警 未解决问题
派发工单
维护人员
查看待办任务
处理告警
验证告警
Page 9
日常运维管理-接入资源
通过配置与其他管理系统的对接,将各管理系统上的告警、性能、对象信息同步到 OperationCenter。
Page 10
日常运维管理-配置预处理告警(1)
配置告警相关的机制,提升运维效率。
Glance
Cinda
Ceilomet er
基础设施层 Hypervisor
服务器
存储设备
交换机
负载均衡器
防火墙
路由器
OS&DB
中间件&应用
各部件的说明如下:
•OperationCenter:数据中心运维中心软件,ManageOne运维管理中心,多数中心的云、非云资源的统一运维中心 •FusionManager:华为OpenStack的OM管理软件 •FusionSphere Platform: 华为OpenStack管理软件 •eSight:华为数据中心设备监控软件,主要用于华为设备的监控和运维信息采集
Page 13
日常运维管理-处理告警&派发工单
监控人员在收到告警通知或例行检查时,在OperationCenter上查看告警。
全局管理层
Service Center
统一告警
运维主管
Operation Center
统一监控
统一拓扑
智能分析
运维人员 ITSM
DC管理层
DC1n(OpenStack资源池) DC12(OpenStack资源池) DC11(OpenStack资源池)
华为ManageOne 解决方案故障处理介绍
目标
学完本课程后,您将能够:
掌握ManageOne解决方案日常维护方法; 掌握ManageOne解决方案常见故障及处理方法;
Page 2
目录
1. ManageOne解决方案日常维护
1. OC日常维护 2. SC日常维护
2. ManageOne解决方案常见故障及处理
Page 3
Page 14
2.1 查看OC状态
问题:如何检查OC组件的进程状态、系统资源占用率
有些问题,如页面无法访问,或者页面无反应时,需要查看各组件的进程状态以及系统资源占用率, 各系统处理方式介绍如下: OC处理方式: 1> 先通过OC的维护工具检查,登录 url:http://ocip:8088,用户名/默认密码:sys/Changeme_123
1.1 OC日常维护
OC的维护任务主要包括: 每日例行检查: 检查告警 检查日志 检查服务器运行状态 检查单机和双机状态
Page 4
1.1 OC日常维护-检查告警
登录OC,url:http://ocip:8080, 用户名/默认密码:admin/Changeme_123, 右上角的告警面板按级别分成四个图标,如右图, 点击紧急告警图标,打开页面如下: 在页面中检查“未确认”、“未清除”的告警。
项目
CPU、内存占用率过高 磁盘占用率过高 同进程异常处理。
处理建议
一,进入工程模式,然后把一些旧文件拷贝到别的机器上,如: 1.数据库转储的文件: /opt/OperationCenter/AppBase/OC/AppBase/var/iemp/data/dump/ 2.运行日志文件: /opt/OperationCenter/AppBase/OC/Appbase/var/iemp/log 这个目录下的 zip 压缩文件可以拷贝到其他目录。 二,同时做好磁盘扩容的准备 ; 如何进入工程模式: 1,在命令行模式下执行gotoEngineerMode,根据提示输入root的密码; 2,进入工程模式后,将相关的文件拷贝到/opt/load目录下,执行如下命令,给 文件赋予权限和相应的拥有者, chmod 640 文件、chown appuser:appgrp 文件。
ManageOne运维解决方案介绍
技术创新,变革未来
前言
本课程将对ManageOne做总体介绍,内容包括场景、架构、 特性等,学完本课程后,您可以对ManageOne解决方案有一 个整体的认识。
第1页
目标
学完本课程后,您将能够:
了解ManageOne的应用场景 了解ManageOne的架构 了解ManageOne的特性
软件费用-ManageOne-服务中心标准 版许可-每CPU
软件费用-ManageOne-服务中心高级 版许可-每CPU
软件费用-ManageOne-服务中心标准 版升级到高级版-每CPU
软件费用-ManageOne-运维中心基础 软件标准版许可-每套
软件费用-ManageOne-运维中心基础 软件高级版许可-每套
TopVDC和OpenStack 的资源模型映射。
SC
TopVDC 配额
VDC VDC配额
第17页
OpenStack
Domain
project
配额
VLB服务
ServiceCenter 1.创建VLB对象。 2.添加监听器。
OpenStack Neutron F5插件
F5
VLB模型
前端网络
EIP
vLB
3.0新增 3.0新增
支持对接多AD进行身份认证
3.0新增
支持把多个申请放在一起申请,VDC管理员只需要审 批一次
3.0新增
类似Windows回收站功能,虚拟机删除后,先放入回 收站列表,租户可以选择从回收站彻底删除或者恢复
3.0新增
当VDC配额使用量达到指定阈值时,给VDC管理员发 送告警邮件
支持监控大数据集群、服务、实例的告警、性能数据
华为常见故障和问题处理要点
GSM面试试题英语自我介绍每个人准备一段自己的英文工作简历,并把它背下来。
LAC规划原则;位置区的划分不能过大或过小如果LAC 覆盖范围过小则移动台发生位置更新的过程将增多从而增加了系统中的信令流量;反之位置区覆盖范围过大则网络寻呼移动台的同一寻呼消息会在许多小区中发送会导致PCH 信道负荷过重同时增加Abis接口上的信令流量。
一般建议每个位置区内的TRX 数目在300 左右。
尽量利用移动用户的地理分布和行为进行LAC 区域划分达到在位置区边缘位置更新较少的目的如城市和郊县用不同的LAC,避免位置区边界设置在用户密集区域。
如果M1800 与M900 共用一个MSC,只要系统容量允许建议使用相同的位置区。
如果由于寻呼容量的限制必须划分为两个以上的位置区这时候就有两种设计思路按地理位置划分和按频段划分。
频点规划原则同基站内不允许存在同频频点;同一小区内BCCH和TCH的频率间隔最好在400K以上;没有采用跳频时,同一小区的TCH间的频率间隔最好在400K以上;非1*3复用方式下,直接相邻的基站避免同频;(即使其天线主瓣方向不同,旁瓣及背瓣的影响也会因天线及环境的原因而难以预测)考虑到天线挂高和传播环境的复杂性,距离较近的基站应尽量避免同频相对(含斜对);通常情况下,1*3复用应保证跳频频点是参与跳频载频数的二倍以上;重点关注同频复用,避免邻近区域存在同BCCH同BSIC;掉话率如何优化无线系统掉话分为SDCCH掉话和TCH掉话:无线链路断掉话调整无线链路失效计数器,SACCH复桢数,T3109定时器,MS最小接收信号等级,RACH最小接入电平进行优化。
错误指示掉话调整T200定时器相关参数进行优化干扰掉话下行干扰可以通过更换合理的频点和BSIC,打开下行DTX,跳频进行优化。
上行干扰可以打开上行功控进行优化。
切换掉话通过完善小区相邻关系,优化切换门限,切换时间,切换定时器,调整越区覆盖的小区工程参数等参数来优化。
华为IoT设备接入23.3.0用户指南说明书
IoT设备接入(IoTDA) 23.3.0用户指南文档版本01发布日期2023-04-17版权所有 © 华为技术有限公司 2023。
保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
商标声明和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。
除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。
除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼邮编:518129网址:https://目录1 快速入门 (1)1.1 访问和使用 (1)1.2 MQTT设备快速接入 (1)2 用户指南 (12)2.1 创建产品 (12)2.2 设备 (14)2.2.1 注册设备 (14)2.2.1.1 注册单个设备 (14)2.2.1.2 批量注册设备 (16)2.2.2 管理设备 (17)2.2.2.1 查看和删除设备 (17)2.2.2.2 导出设备信息 (19)2.2.2.3 设备鉴权 (21)2.2.2.4 设备影子 (23)2.2.2.5 子设备 (26)2.2.2.6 标签 (30)2.2.2.7 资产属性 (31)2.2.3 群组 (33)2.2.4 软固件升级 (34)2.2.4.1 软固件升级概述 (34)2.2.4.2 固件升级 (36)2.2.4.3 软件升级 (38)2.2.5 设备CA证书 (40)2.2.6 MQTT X.509证书接入 (43)2.2.7 鸿蒙设备管理 (48)2.2.7.1 基于鸿蒙软总线的设备物物互联特性 (49)2.3 规则 (52)2.3.1 规则概述 (53)2.3.2 数据转发 (53)2.3.3 SQL语句 (58)2.3.4 连通性测试 (60)2.3.5 服务端证书 (61)2.3.6 设备联动 (62)2.3.6.2 端侧规则 (63)2.3.7 数据转发流控策略 (72)2.4 监控运维 (73)2.4.1 统计报表 (73)2.4.2 设备告警 (75)2.4.3 消息跟踪 (76)2.4.4 在线调试 (78)2.4.5 设备异常检测 (83)2.5 资源空间 (88)2.6 插件管理 (90)2.6.1 功能简介 (90)2.6.2 权限管理 (90)2.6.3 操作步骤 (90)2.7 消息通信 (95)2.7.1 消息通信概述 (95)2.7.2 数据上报 (96)2.7.3 命令下发 (97)2.7.3.1 命令下发机制 (97)2.7.3.2 MQTT设备命令/属性/消息下发 (97)2.7.3.3 CoAP设备命令下发 (102)2.7.4 自定义Topic数据透传 (107)2.8 订阅推送 (112)2.8.1 订阅推送概述 (112)2.8.2 使用Kafka订阅推送 (112)2.8.3 使用AMQP订阅推送 (115)2.8.3.1 AMQP订阅推送介绍 (115)2.8.3.2 AMQP客户端接入说明 (116)2.8.3.3 Java SDK接入示例 (118)2.8.3.4 Node.js SDK接入示例 (121)2.8.3.5 C# SDK接入示例 (122)2.8.4 使用HTTP/HTTPS订阅推送 (126)2.9 边缘 (131)2.9.1 节点管理 (131)2.9.1.1 注册边缘节点 (131)2.9.1.2 安装边缘节点 (135)2.9.1.3 管理边缘节点 (139)2.9.1.3.1 基本信息 (139)2.9.1.3.2 模块管理 (141)2.9.1.3.3 OT数采配置 (143)2.9.1.3.4 IT数采配置 (150)2.9.1.3.5 批量任务导入 (159)2.9.1.3.7 数据配置 (162)2.9.1.3.8 远程维护 (162)2.9.1.3.9 主备配置 (168)2.9.1.3.10 删除边缘节点 (175)2.9.2 设备接入边缘节点 (176)2.9.2.1 接入模式介绍 (176)2.9.2.2 协议转换模式接入 (177)2.9.2.2.1 Modbus协议接入 (177)2.9.2.2.2 OPC-UA协议接入 (186)2.9.2.3 透传网关模式接入 (192)2.9.3 应用管理 (197)2.9.3.1 应用管理概述 (197)2.9.3.2 添加业务应用 (198)2.9.3.3 添加驱动应用 (204)2.9.3.4 添加版本 (212)2.9.3.5 部署应用 (213)2.9.3.6 管理应用 (216)2.9.4 IT子系统集成 (218)2.9.4.1 IT子系统集成概述 (218)2.9.4.2 路由配置 (219)2.9.4.3 模块配置 (221)2.9.4.4 IT数采 (224)2.9.5 路由转发 (232)2.9.5.1 路由转发概述 (232)2.9.5.2 通道类型概述 (233)2.9.5.2.1 MQTT类型通道 (233)2.9.5.2.2 IoTDB类型通道 (234)2.9.5.2.3 InfluxDB V2类型通道 (235)2.9.5.3 创建通道 (236)2.9.5.4 节点部署EdgePush推送应用 (239)2.9.5.5 将通道分配到节点 (240)3 最佳实践 (243)3.1 设备模拟器快速接入 (243)4 常见问题 (253)4.1 产品模型 (253)4.1.1 如何进行产品模型开发? (253)4.2 数据上报 (253)4.2.1 数据上报失败如何处理? (253)4.2.2 设备在一个位置上报数据成功,在另一个位置上报失败? (253)4.3 命令下发 (253)4.3.1 命令下发失败如何处理? (253)4.3.2 CoAP协议接入的设备如何进行命令下发? (254)4.3.3 MQTT协议接入的设备如何进行命令下发? (254)4.4 软/固件升级 (254)4.4.1 软/固件升级是升级什么? (254)4.4.2 平台支持从第三方服务器下载软/固件包吗? (255)4.5 边缘设备 (255)4.5.1 为什么边缘设备mqtt鉴权接入失败? (255)4.5.2 为什么修改边缘设备密码时,没有密码的可输入框? (255)4.6 边缘节点时钟同步 (255)4.6.1 配置文件目录 (255)4.6.2 配置示例 (256)4.6.3 配置项说明 (256)4.6.4 注意项 (257)4.7 边缘节点网桥配置 (257)4.7.1 配置文件目录 (257)4.7.2 配置示例 (257)4.7.3 配置项说明 (258)4.7.4 注意项 (258)1快速入门1.1 访问和使用步骤1使用浏览器,以具有IoT设备接入权限的帐号登录ManageOne运营面。
华为ManageOne解决方案介绍
IT服务管理中心(ITSM Center )
订单管理
服务SLA CMDB
产品目录管理
分销商管理 计费管理
事件管理
问题管理
发布管理 容量管理
变更管理
SLA 管理
资产和配置管理
服务中心(Service Center )
专有云服务管理(服务定义/ 目录/审批流程/请求) 应用和企业集成服务编排 多资源池调度 和全局模版/映像共享 服务自助管理( VNC, 云监控、 云资源容量管理等) vD C 资源服务编排 传统数据中心自动化
网络虚拟化 Fusi o n N e tw ork
资 源 层
• 灵活定义产品 • 快速发放业务 • 精细计量管理
Page 4
解决方案架构—部件关系
CSB 公有云业 务发放 SSM 3rd ITIL
■ ManageOne自研部件 ■ 内部合作部件 ■ 3rd 部件
工单
SC
私有云资 源发放
OC
告警性能
服务 服务管理
自助服务,自助运维,服务部署
服务编排和自动化 服务建模,容量管理,调度策 略,虚拟/物理资源自动化
服务保障 故障,配置,可用性,性能, 安全合规
ManageOne
公有云/专有云/混合云
云存储
桌面云
物理基础架构
以云服务自动化管理和资源智能维护为核心,构筑高效智能的数据中心管理体系
架构总览
门户
应用服 务器
DB
VPC1
VLAN 1 VLAN2 VLAN 3
Openstack F M FC FS FN e S i g h t
DCn FM eSight
VRM CNA ... CNA ...
(new)华为ONU常见故障处理流程及步骤
(new)华为ONU常见故障处理流程及步骤华为ONU常见故障处理流程及步骤处理故障需要网管组和现场的故障处理人员之间互相配合和有效的沟通才能顺利的分析故障,解决故障。
要做到这点,首先就要学习和了解现场接入设备的硬件知识。
下面简单介绍一下华为ONU设备的槽位分布情况:MA5680T(华为OLT):1-6,9-16槽位是业务板槽位,7-8槽位是主控板,一主一备,17-18为上行板。
MA5612(华为ONU):1-4槽位是业务板槽位,0槽位是上行板。
0 1 24 3MA5616(华为ONU):1-4槽位是业务板槽位,1-4槽位宽带板,语音板都能插。
1234处理故障通常需要现场人员配合检查光路,设备硬件。
华为ONU1.看RUN/ALARM灯,正常应该是绿灯或黄灯,如果亮红灯,则设备有故障。
2.看link灯是否长亮,如果link灯不亮,则光路不通。
(例外:四口的ONU的link灯只在插光纤的时候闪一下,然后就灭了)3.看link灯旁边的reg灯(或auth灯),数据没有配置时,它是闪烁的(1秒3次),数据配置完后变成长亮或慢闪(3秒1次)4,接电脑或AP的网线口,正常状态宽带板上的link灯应为亮,不亮则网线不通。
(ADSL设备业务板卡上没有指示灯)5. 语音板上如果alarm灯亮红灯,可能是语音数据没有配置或硬件故障。
现场人员查看设备硬件的同时,我们登录到设备上通过命令查看设备状态是否和现场反馈的一致。
1、先查看ONU所有的单板是否正常(Normal 为正常):yiliankeji_ma5612 (config)#display board 0-------------------------------------------------------------------------SlotID BoardName Status SubType0 SubType1 Online/Offline-------------------------------------------------------------------------0 H831CCFE Active_normal EP1A ASDA1 H848ASNB Normal2 H848ASNB Normal34 H831EPFB Normal-------------------------------------------------------------------------2、先查看ONU某块单板的端口状态:CZJT-S240YUDONGCUNDONGLU-ONU01-HW-MA5612#display board 0/4 ---------------------------------------Board Name : H831EPFBBoard Status : Normal---------------------------------------------------------------------------------------------------------------------Port Port Optic MDI Speed Duplex Flow- Active Link Type Status (Mbps) Ctrl State------------------------------------------------------------------------------0 GE - auto auto auto off active offline1 GE - auto auto auto off active offline2 FE - auto auto_100 auto_full off active online3 FE - auto auto auto off active offline4 FE - auto auto auto off active offline5 FE - auto auto auto off active offline6 FE - auto auto auto off active offline7 FE - auto auto auto off active offline------------------------------------------------------------------------------Note: For a 1000 M, electrical port in the full-duplex mode, setting MDI toany value is invalid如果link状态为online,物理链路正常,如果为offline,物理链路不通,查看网线,网卡,或更换ONU端口测试。
ManageOne云计算运维中心(OC)介绍
FusionComputer
FusionNetwork (Neutron)
VMWare vSphere
FusionSphere OpenStack
OM
初初始初始数始数据数据表据表表
汇聚
初初始容始数量数据小据表时表表
汇聚
初初始始容数数量据据天表表表
第30页
容量监控 (2/3)
⚫ 容量视图按不同维度查看(包括按对象、按地理位置、按虚拟逻辑、按管 理系统、按VDC)。
⚫ 多维度告警查看。 ⚫ 告警相关操作:导出、确认、清除、转工单、标示误告警、取消误告警、手工更新级别。 ⚫ 事件相关操作同告警。
第19页
告警管理 (3/7)
⚫ 告警设置: 告警帮助维护、屏蔽规则、级别重定义规则、告警声音、通知规则、通知模板、自动转工 单规则、维护告警名称。
第20页
告警管理 (4/7)
拓扑节点
初初始资始数源数个据信据表息表表
分析拓扑关系
初初始始数拓数个据扑据表表表
告警统计 初初始告始数警数个据信据表息表表
性能查询 初初始始数数据据表表 性能信息
第33页
拓扑导航 (2/5)
第34页
拓扑导航 (3/5)
物理拓扑 物理数据中心
机房 区域 物理设备
逻辑拓扑-按ZONE查看 可用分区
主机组/集群 主机 虚拟机
⚫ 系统管理员,依据所在数据中心的安全策略进行安全审计时,可以在 OperationCenter上查看日志,判断是否正常。正常时,任务结束。
⚫ 系统管理员发现存在异常情况时,需要确认问题并向运维主管汇报。运维 主管决策后,再进行处理,并记录相应的处理结果。
第12页
扩容
系统管理员
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Page 11
1.2 SC日常维护-检查日志
登录SC,url:http://scip,用户名/默认密码:admin/Huawei@123,选择“系统 > 任务与日志 > 操作日志”,打开页面如下图所示:
在“所有操作”下,选择“高危”、“危险” 这两种类型进行查看,检查系统的危险操作。 在“所有结果”下,选择“失败”的操作进行查看,检查系统的异常操作。
Page 14
2.1 查看OC状态
问题:如何检查OC组件的进程状态、系统资源占用率
有些问题,如页面无法访问,或者页面无反应时,需要查看各组件的进程状态以及系统资源占用率, 各系统处理方式介绍如下: OC处理方式: 1> 先通过OC的维护工具检查,登录 url:http://ocip:8088,用户名/默认密码:sys/Changeme_123
2.4> 执行 df –k,查看磁盘空间,结果如下图,红色方框就是各分区磁盘占用率:
2.5> 执行 top,查看各进程的CPU、内存占用率,如下图,java和gaussdb是OC的业务和数据库进程。 注:这是操作系统层面的监控,所以看不到2.3查出来的各个内部模块的名称。
Page 16
2.1 查看OC状态
Page 7
1.1 OC日常维护ห้องสมุดไป่ตู้检查单双机状态
通过shell终端(如putty、Xshell等),登录OC的主用服务器,步骤如下: 1.以appuser/Changeme_123 (默认密码,根据实际情况输入) 登录OC的linux服务器; 2.执行命令:oc status 输出结果如下:
从GaussDB状态查看双机状态,single是单机,primary是双机的主机、standby是双机的备机。
Page 10
1.2 SC日常维护-检查运行健康状态
通过shell终端(如putty、Xshell等),登录SC的主用服务器,步骤如下: 1. 以galaxmanager登录SC的linux服务器,密码在安装操作系统时指定; 2. 执行命令 TMOUT=0,防止 putty 超时退出; 3. 执行ServiceCenterHealthCheck命令,如下图 4. 通过Xftp工具,登录SC的linux服务器,进入/opt/goku/data/report目录下,将 HealthCheckReport.html文件拷贝到windows操作系统的PC上打开查看,如下图。
Page 5
1.1 OC日常维护-检查日志
登录OC,选择“系统配置”>“日志管理”,如下图,可以查看“安全日志、系统日志、操作日志”
Page 6
1.1 OC日常维护-检查日志
也可以通过全文检索查看日志,比如搜索admin用户的日志,如下图,在搜索框中输入admin,敲回 车键。
如下图,默认全系统搜索admin相关的信息,可以只选择日志进行搜索。
项目
CPU、内存占用率过高 磁盘占用率过高 同进程异常处理。
处理建议
一,进入工程模式,然后把一些旧文件拷贝到别的机器上,如: 1.数据库转储的文件: /opt/OperationCenter/AppBase/OC/AppBase/var/iemp/data/dump/ 2.运行日志文件: /opt/OperationCenter/AppBase/OC/Appbase/var/iemp/log 这个目录下的 zip 压缩文件可以拷贝到其他目录。 二,同时做好磁盘扩容的准备 ; 如何进入工程模式: 1,在命令行模式下执行gotoEngineerMode,根据提示输入root的密码; 2,进入工程模式后,将相关的文件拷贝到/opt/load目录下,执行如下命令,给 文件赋予权限和相应的拥有者, chmod 640 文件、chown appuser:appgrp 文件。
3> 对于进程异常的情况,如果可以重启OC服务,则重启一下服务。 如果不能重启,或者重启之后问题依旧,则需要查看OC的运行日志: 执行:getLogCollects
使用appuser用户和winscp工具从“/opt/load”目录下载相关的日志文件。
4> 对于CPU、内存、磁盘占用率过高的问题,处理建议如下
Page 8
1.2 SC日常维护
SC的维护任务主要包括: 检查服务器运行状态 检查服务进程 检查日志
Page 9
1.2 SC日常维护-检查进程状态
通过shell终端(如putty、Xshell等),登录SC的主用服务器,步骤如下: 1. 以galaxmanager登录SC的linux服务器,密码在安装操作系统时指定; 2. 执行命令 TMOUT=0,防止 putty 超时退出; 3. 执行galaxmanager status命令,如下图
注意:首次登录后,需要修改密码。
登陆后,选择“系统监控”菜单,如下,下图为系统的CPU、内存、磁盘占用率,点击左侧菜单可查看 各进程状态;
Page 15
2.1查看OC状态
2> 如果维护工具的页面也无法登录,则通过终端(如putty)登录OC操作系统检查,步骤: 1. > 以appuser/Changeme_123(默认密码,根据实际情况输入)登录OC的linux; 2. > 执行 oc status,可以查看OC各进程状态,如下图,“running”表示正常。
华为 ManageOne V100R002C20解决方案故障处理介绍
技术创新,变革未来
目标
学完本课程后,您将能够:
掌握ManageOne解决方案日常维护方法; 掌握ManageOne解决方案常见故障及处理方法;
Page 2
目录
1. ManageOne解决方案日常维护
1. OC日常维护 2. SC日常维护
2. ManageOne解决方案常见故障及处理
Page 3
1.1 OC日常维护
OC的维护任务主要包括: 每日例行检查: 检查告警 检查日志 检查服务器运行状态 检查单机和双机状态
Page 4
1.1 OC日常维护-检查告警
登录OC,url:http://ocip:8080, 用户名/默认密码:admin/Changeme_123, 右上角的告警面板按级别分成四个图标,如右图, 点击紧急告警图标,打开页面如下: 在页面中检查“未确认”、“未清除”的告警。
Page 12
目录
1. ManageOne解决方案日常维护
1. OC日常维护 2. SC日常维护
2. ManageOne解决方案常见故障及处理
1. 常见故障处理
查看告警 查看各组件进程状态以及资源占用率
2. 故障现象举例
Page 13
2.1 查看告警
在OC上可以看到各个组件虚拟机的告警, 发现告警之后,可以查看告警原因、虚拟机ip、 虚拟机所在机房等信息。 如右图,是SDM组件(在图中虚拟机名称为 “ITIL_10.78”)的“内存使用率过高”告警。 根据告警原因,可以做一个初步判断,是否 需要去设备侧维护。