大数据运维管理平台说明书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
碧茂大数据运维管理平台说明书
版本控制
目录
简介 (3)
功能详细介绍 (3)
配置管理 (6)
集群监控 (11)
告警系统 (17)
巡检 (20)
知识库 (24)
简介
碧茂运维管理平台是针对大数据分布式集群系统设计的自动化运维管理平台,核心功能包括集群资产管理,监控系统,告警系统,系统巡检和运维知识库系统等。详细如下:
一、资产管理
提供可视化界面实现对主机和集群资源的统一配置和管理,对各项监控管理任务进行调度配置、监控和管理。方便运维人员能随时掌握系统全貌,集群服务角色分布情况,硬件资源分配情况,能根据管理需求进行定制化定时任务调度。
二、监控系统
1、主机的健康性能的监控
2、集群服务的端口、健康性能指标的监控
3、集群参数的监控,并自动给出调优建议
4、集群日志的监控预警,自动化收集汇总集群进程和应用日志,并对错误日志进行预警
三、告警系统
1、选择任意监控的指标和阈值,进行邮件告警
四、系统巡检(特色功能)
对系统和集群进行健康和性能检查,自动化生成巡检报告。分为基础巡检和深度巡检。
基础巡检指的是根据需求可以灵活选择需要巡检的服务、指标、参数,自动化生成巡检报告。深度巡检指的是对不同服务的结构对象进行深入分析诊断。
五、知识库系统(特色功能)
一套高质量的集群管理运维相关的知识管理系统,包括运维工具箱、最佳实践和解决方案。知识库系统中的方案可以一键执行来实现复杂运维流程的自动化处理,包括:
⚫日常集群操作需求,包括服务启停、参数修改、备份恢复、集群扩容迁移、安全配置和升级
⚫自动化故障处理
功能详细介绍
登录界面
用户首先需要获取license,激活产品后才能正常使用,提示如下:
点击激活,会自动生成机器码,请联系厂商获取激活码
激活后,会提示到期日,产品可以正常进行登录了
首页是向导页,以路线图的方式引导你进行集群配置和集群监控
配置管理
全局配置
用于配置全局参数和服务,包括数据保留配置、告警服务、告警配置和数据库配置等
修改全局参数
数据库配置
用于配置关系型数据库,支持Mysql和PostgreSQL等,通常是CM、Hive、Hue、Oozie等元数据库,方便管理和查询。
支持添加和删除数据库配置
主机配置
用于添加、修改和删除管理的主机信息
查看主机配置
添加配置
服务配置
用于添加修改或删除需要监控的集群类型、集群,包括服务、角色、主机、端口等目前支持的集群包括:CDH、HDP、ApacheHadoop、华为FusionInsight和星环
目前支持的服务包括:HDFS、YARN、HBase、Hive、Zookeeper、Impala等
查看监控服务配置
可以通过选择“集群名”或“服务名”来过滤查询
查看主机角色分布
添加监控配置
集群类型
服务
调度配置
用于配置和监控集群监控所需的定时调度服务,包括指标采集服务、监控服务、分析服务和其他需要定时调度的服务
查看调度配置
添加调度配置
查看调度日志
集群监控
此模块用于监控在“配置管理”模块中所添加的主机和服务
主机监控
监控主机的健康状态和各项关键指标,包括CPU、内存、网络、IO、进程等主机监控概览
所有集群主机的关键指标的展现,便于快速及时发现主机健康问题和资源问
单台主机监控页面
用于展现单台主机所有监控指标,便于深入了解主机的配置情况和分析重要监控指标以下是部分截图:
服务监控
监控集群服务的健康状态和性能指标。目前覆盖了HDFS、YARN、HBASE、HIVE等核心服务组件。
服务监控主页
概览整个集群的所有服务状态、集群基本信息和各个组件的关键指标信息。
另外,也提供了对集群的基本操作,包括服务启停等
点击“操作”,可以对整个集群或服务进行启停操作
服务监控详情页
用于展现单个服务所有监控指标,便于深入了解服务的配置情况和分析重要监控指标。此外,也可以对特定主机的角色进行操作。
以HDFS为例,以下是部分截图:
点击“操作”,对特定主机的角色进行启停
参数监控
监控集群服务的运行所配置的参数情况,用于及时掌握集群配置情况,参数分为:文件目录参数、主机端口参数、运行环境参数和性能参数4大类。每个参数都会有相应中文解释和调优建议,用户可以参考建议来优化集群。
以HDFS 为例,以下是部分截图:
日志监控
监控集群服务的进程日志和应用日志
进程日志监控
可以根据集群、服务、角色、日志级别和主机来选择要查看的日志类型,已经下载完整日志用于深入分析。
选择集群和日志级别,查看YARN应用日志
告警系统
此模块用于在监控过程中针对集群不合理的指标值(全局参数控制)进行预警
告警配置
查看告警阈值
点击参数,可调整告警阈值
点击“启动”后,告警服务会启动并及时发送告警邮件
每隔15分钟(全局参数控制)会重新检查并发送告警邮件,页面中可以看到告警信息页面告警
页面提示出现告警
点击右上角邮件图标,查看告警详情
邮件告警
巡检
此模块实现了集群自动化巡检和生成巡检报告,包括基础巡检和深度巡检两大块。
⚫基础巡检
基础巡检范围主要涉及集群架构配置、主机运行情况、集群运行情况和参数配置。每个巡检模块用户可以加入主观分析结果,即自定义填写分析结论和调优建议。
⚫深度巡检
深度巡检用于深度分析集群潜在的性能和配置问题。便于从规划和架构上对集群进行优化。详细包括:
HDFS
•文件目录信息
•HDFS管理报告
•HDFS快照信息
•FSCK文件系统健康检查
YARN
•基本信息
•集群指标
•调度队列
•应用信息
•应用统计信息
•集群节点信息