HCIE-云计算运维-华为云计算运维详述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
故障数据信息保存在移动存储介质中或网络中其它计算机中。 在确定故障处理的方案时,应先评估影响,优先保证业务的
正常传送。
1. 华为私有云场景运维架构 2. 华为私有云场景管理员层面运维 3. 华为私有云场景租户自运维
消息通知业务(SMN) 云监控服务(CES) 任务中心(TaskCenter) FusionNetDoctor
运维功能全景图
立体化全景监控
提供立体化全景监控功能,监控对象覆盖物理设备、资源池、云资源、VDC与租户应用,主动监控云数据中心的运行状况, 从基于单个设备的监控向基于业务的分析转型,帮助企业降低IT成本,提升运维效率。
监控体系概述:
1. 物理设备监控:支持对数据中心服务器、存储 以及网络设备等硬件设备进行统一监控管理, 提供告警、资源、拓扑和性能等全方位监控能 力,帮助用户对于硬件问题进行快速定位和处 理故障。
1. 全局掌控租户应用整体负载情况
2. 关键应用状态一目了然
针对具体应用,从负载,资源消耗,故障以及关联拓扑等维度对应用进行全方位保障
多级云统一管理
多云管理是完成省、分支等多级云统一运维监控功能,提供全局的云资源查询、统计、管理能力 的服务
掌握全局资源使用情况,多个云资源使用情况进行横向比对分析
按“云”粒度展示资源池容量信息、资源数量信息、告警统计信息、资源池负载信息
云资源监控
提供云资源告警、资源、拓扑和性能等全方位监控能力,帮助用户对于云资源保障问题进行块定界 定位。
VDC监控
提供基于VDC的综合分析评估能力,帮助用户合理使用资源,最终达到提升资源使用率的目的。
租户应用监控
以应用的视角来监控资源,从容量,负载等各个方面对应用的资源使用情况进行持续的评估Biblioteka Baidu针对关 键业务进行全方位的保障。
5. 租户应用监控:以应用的视角来监控资源,从 容量,负载等各个方面对应用的资源使用情况 进行持续的评估,针对关键业务进行全方位的 保障。
多级云统一管理
统一配置中心
统一操作配置中心
1. 华为私有云场景运维架构 2. 华为私有云场景管理员层面运维 3. 华为私有云场景租户自运维
云服务性能监控系统架构
本章主要介绍了华为云计算解决方案中运维功能,并从系统 管理员及VDC管理员角度描述了各自的运维工作内容
学完本课程后,您将能够:
了解华为云计算的运维技术 了解系统管理员在华为云计算中的主要运维工作 了解华为云计算为VDC管理员的运维工作提供的服务
1. 华为私有云场景运维架构 2. 华为私有云场景管理员层面运维 3. 华为私有云场景租户自运维
2. 资源池监控:支持对计算、存储、网络以及大 数据资源池的统一监控和分析,帮助用户高效 合理使用资源,发现潜在的风险和问题,并提 出改进措施或指导建议。
3. 云资源监控:提供云资源告警、资源、拓扑和 性能等全方位监控能力,帮助用户对于云资源 保障问题进行块定界定位。
4. VDC监控:提供基于VDC的综合分析评估能力, 帮助用户合理使用资源,最终达到提升资源使 用率的目的。
分析系统故障是否与租户操作 行 为相关;分析租户操作模 式,以 改进用户体验;对租户 活动和操 作指令进行审计。 了解管理侧用户行为,识别并消除 安全威胁,保证系统运行过程信息 的可追溯性
资源池管理
云服务资源池管理
系统备份
用户在如下场景下,需要备份各服务实例数据,以便服务实 例在出现异常情况时能够快速恢复数据
当服务实例升级失败需要回退到升级前状态时,可利
恢复至服务实例升级前 的数据
用备份数据进行恢复。
手动方式备份的文件
重大业务调整可能导致服务实例出现故障,利用备份
恢复至重大业务调整前 的数据
数据可将服务恢复至重大业务调整前的状态。
手动方式备份的文件
故障处理
故障分析、定位和处理原则: 以尽快恢复系统为原则。 定位故障时,应及时采集故障数据信息,并尽量将采集到的
消息通知服务介绍
消息通知服务(SMN:Simple Message Notification)是可靠, 可扩展,海量的消息处理服务。它大大简化系统的耦合,能 够根据用户的需求,向订阅者主动推送消息的服务,订阅者 可以是移动设备,电子邮件,短信,应用等等。
日常巡检
日志管理
日志分类
运行日志
租户操作日志
管理侧操作日志
内容
记录了系统中进程的实时 运行情 况。底层设备的运 行日志需要通 过配置 FusionCare进行采集 云服务主动上报的日志, 记录了 租户的操作行为和 操作结果。
记录管理侧用户在系统上 执行的 操作信息和系统运 行状态。
用途
可用于对系统的运行状况进行 了 解,排障,遭遇安全事件时 的问 题定位。
物理设备性能监控
支持对数据中心服务器、存储以及网络设备等硬件设备进行统一监控管理,提供告警、资源、拓扑和性能等全方位监 控能力,帮助用户对于硬件问题进行快速定位和处理故障
资源池监控:总体概览
全面了解资源池资源占用、容量、负载等情况,帮助用户高效合理使用资源,发现潜在的风险和问 题,并提出改进措施或指导建议
告警集中查看
提供多种机制针对不同场景提供相应的手段对告警进行压缩,使得故障定位更精准,提升运维效率
告警跟因分析
重复告警汇聚
闪断或振荡汇聚
运营分析
管理员通过ManageOne运维面对容量、历史数据报表分析, 快速掌握网元以及业务的 KPI及健康度,支撑运维决策、云平 台后续的规划等。
可根据需要的数据特点,对指标及各个维度的数据进行自由 组合自定义报表,以表格 或图表(折线图、柱状图、圆环图 等)形式展示,以便管理员能实时了解数据中心整 体的KPI指 标及健康度并及时发现问题和解决问题,支撑运营,同时解 决了从不同维度 获取数据信息程序复杂、统计分析耗时长的 问题,实现自助式业务分析。
场景描述 例行备份
备份方式 自动
升级服务实例前
手动
重大业务调整前
手动
系统恢复
当数据库实例运行状态正常,但服务实例的数据库数据异常,导致 服务实例无法正常使用时,需要选择相应的备份文件进行数据恢复。 常见的恢复场景如下:
场景描述
使用的备份文件
恢复至某个时间点
将服务实例数据恢复至某个时间点的状态。 定时方式备份的文件
正常传送。
1. 华为私有云场景运维架构 2. 华为私有云场景管理员层面运维 3. 华为私有云场景租户自运维
消息通知业务(SMN) 云监控服务(CES) 任务中心(TaskCenter) FusionNetDoctor
运维功能全景图
立体化全景监控
提供立体化全景监控功能,监控对象覆盖物理设备、资源池、云资源、VDC与租户应用,主动监控云数据中心的运行状况, 从基于单个设备的监控向基于业务的分析转型,帮助企业降低IT成本,提升运维效率。
监控体系概述:
1. 物理设备监控:支持对数据中心服务器、存储 以及网络设备等硬件设备进行统一监控管理, 提供告警、资源、拓扑和性能等全方位监控能 力,帮助用户对于硬件问题进行快速定位和处 理故障。
1. 全局掌控租户应用整体负载情况
2. 关键应用状态一目了然
针对具体应用,从负载,资源消耗,故障以及关联拓扑等维度对应用进行全方位保障
多级云统一管理
多云管理是完成省、分支等多级云统一运维监控功能,提供全局的云资源查询、统计、管理能力 的服务
掌握全局资源使用情况,多个云资源使用情况进行横向比对分析
按“云”粒度展示资源池容量信息、资源数量信息、告警统计信息、资源池负载信息
云资源监控
提供云资源告警、资源、拓扑和性能等全方位监控能力,帮助用户对于云资源保障问题进行块定界 定位。
VDC监控
提供基于VDC的综合分析评估能力,帮助用户合理使用资源,最终达到提升资源使用率的目的。
租户应用监控
以应用的视角来监控资源,从容量,负载等各个方面对应用的资源使用情况进行持续的评估Biblioteka Baidu针对关 键业务进行全方位的保障。
5. 租户应用监控:以应用的视角来监控资源,从 容量,负载等各个方面对应用的资源使用情况 进行持续的评估,针对关键业务进行全方位的 保障。
多级云统一管理
统一配置中心
统一操作配置中心
1. 华为私有云场景运维架构 2. 华为私有云场景管理员层面运维 3. 华为私有云场景租户自运维
云服务性能监控系统架构
本章主要介绍了华为云计算解决方案中运维功能,并从系统 管理员及VDC管理员角度描述了各自的运维工作内容
学完本课程后,您将能够:
了解华为云计算的运维技术 了解系统管理员在华为云计算中的主要运维工作 了解华为云计算为VDC管理员的运维工作提供的服务
1. 华为私有云场景运维架构 2. 华为私有云场景管理员层面运维 3. 华为私有云场景租户自运维
2. 资源池监控:支持对计算、存储、网络以及大 数据资源池的统一监控和分析,帮助用户高效 合理使用资源,发现潜在的风险和问题,并提 出改进措施或指导建议。
3. 云资源监控:提供云资源告警、资源、拓扑和 性能等全方位监控能力,帮助用户对于云资源 保障问题进行块定界定位。
4. VDC监控:提供基于VDC的综合分析评估能力, 帮助用户合理使用资源,最终达到提升资源使 用率的目的。
分析系统故障是否与租户操作 行 为相关;分析租户操作模 式,以 改进用户体验;对租户 活动和操 作指令进行审计。 了解管理侧用户行为,识别并消除 安全威胁,保证系统运行过程信息 的可追溯性
资源池管理
云服务资源池管理
系统备份
用户在如下场景下,需要备份各服务实例数据,以便服务实 例在出现异常情况时能够快速恢复数据
当服务实例升级失败需要回退到升级前状态时,可利
恢复至服务实例升级前 的数据
用备份数据进行恢复。
手动方式备份的文件
重大业务调整可能导致服务实例出现故障,利用备份
恢复至重大业务调整前 的数据
数据可将服务恢复至重大业务调整前的状态。
手动方式备份的文件
故障处理
故障分析、定位和处理原则: 以尽快恢复系统为原则。 定位故障时,应及时采集故障数据信息,并尽量将采集到的
消息通知服务介绍
消息通知服务(SMN:Simple Message Notification)是可靠, 可扩展,海量的消息处理服务。它大大简化系统的耦合,能 够根据用户的需求,向订阅者主动推送消息的服务,订阅者 可以是移动设备,电子邮件,短信,应用等等。
日常巡检
日志管理
日志分类
运行日志
租户操作日志
管理侧操作日志
内容
记录了系统中进程的实时 运行情 况。底层设备的运 行日志需要通 过配置 FusionCare进行采集 云服务主动上报的日志, 记录了 租户的操作行为和 操作结果。
记录管理侧用户在系统上 执行的 操作信息和系统运 行状态。
用途
可用于对系统的运行状况进行 了 解,排障,遭遇安全事件时 的问 题定位。
物理设备性能监控
支持对数据中心服务器、存储以及网络设备等硬件设备进行统一监控管理,提供告警、资源、拓扑和性能等全方位监 控能力,帮助用户对于硬件问题进行快速定位和处理故障
资源池监控:总体概览
全面了解资源池资源占用、容量、负载等情况,帮助用户高效合理使用资源,发现潜在的风险和问 题,并提出改进措施或指导建议
告警集中查看
提供多种机制针对不同场景提供相应的手段对告警进行压缩,使得故障定位更精准,提升运维效率
告警跟因分析
重复告警汇聚
闪断或振荡汇聚
运营分析
管理员通过ManageOne运维面对容量、历史数据报表分析, 快速掌握网元以及业务的 KPI及健康度,支撑运维决策、云平 台后续的规划等。
可根据需要的数据特点,对指标及各个维度的数据进行自由 组合自定义报表,以表格 或图表(折线图、柱状图、圆环图 等)形式展示,以便管理员能实时了解数据中心整 体的KPI指 标及健康度并及时发现问题和解决问题,支撑运营,同时解 决了从不同维度 获取数据信息程序复杂、统计分析耗时长的 问题,实现自助式业务分析。
场景描述 例行备份
备份方式 自动
升级服务实例前
手动
重大业务调整前
手动
系统恢复
当数据库实例运行状态正常,但服务实例的数据库数据异常,导致 服务实例无法正常使用时,需要选择相应的备份文件进行数据恢复。 常见的恢复场景如下:
场景描述
使用的备份文件
恢复至某个时间点
将服务实例数据恢复至某个时间点的状态。 定时方式备份的文件