云平台监控系统研究与实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t2
T
temprature(t)
信息学 院温计算度机
第Ete1mp1(页t1,t2) t1 (t2t1)
T
资源监控
云平台服务器虚拟资源利用率
虚拟资源内存利用率
n
mem_totalv(t)mem_freev(t)
Pvmem(t)i1
mem_totalp(t)
虚拟资源磁盘利用率(如内存利用率)
内存监控信息表
PK ID
MAC地址 空闲内存量 文件缓冲内存量 高速缓冲内存量 共享内存量 记录时间
磁盘监控信息表
PK ID
MAC地址 空闲磁盘量 记录时间
网络监控信息表
负载监控信息表
PK ID
PK ID
MAC地址 上传量 下载量 记录时间
MAC地址 一分钟平均等待进程数 15分钟平均等待进程数 一小时平均等待进程数 记录时间
存储解析的数据
DataInfo
DataStore
信息学院计算机
第10页wk.baidu.com
RRDReader RRDAnlysis
分析RRD格式并从中提 取数据信息
资源监控
多维度资源利用率分析
云平台单节点资源利用率
瞬时利用率和平均利用率
内存利用率
t2 mem_total(t)mem_free(t)
m em _total(t)m em _free(t)
P m em (t)
m em _total(t)
Emem(t1,t2) t1
mem_total(t) (t2t1)
T
磁盘利用率(如内存利用率)
CPU利用率
t2
cpu_user(t)cpu_system (t)cpu_nice(t)
P c p u ( t ) c p u _ u s e r ( t ) c p u _ s y s t e m ( t ) c p u _ n i c e ( t )Ecpu(t1,t2)t1
信息学院计算机
第9页
资源监控
组域
节点 后缀rrd
RRD
Node1
Cluster1
Node2
...
cpu_user.rrd mem_free.rrd
Node4
Node3
Node5
Cluster2 Node6
Node7
数据抽取组件
DataExtract
DataGroup
DataMultiNode
读取组域信息、节点 信息、RRD文件信息
虚拟资源CPU利用率 n
c p u _ s p e e d v (i,t)* (c p u _ s y s te m v (i,t) c p u _ u s e r v (i,t) c p u _ n ic e v (i,t))
P v c p u (t)1
c p u _ s p e e d p (t)
PK 机架ID
数据中心 地区 国家 洲
Hadoop监控信息表
PK ID
MAC地址 读数据块量 写数据块量 文件创建数 作业等待数 作业完成数 作业失败数 记录时间
CPU监控信息表
PK ID
Mac地址 用户态CPU利用率 系统态CPU利用率 系统空闲占用率 IO等待占用率 Nice为负进程占用率 记录时间
多适配器注册 定时数据采集
数据请求
采集策略
硬件采集适配器 网络采集适配器 用户使用采集适配器 软件采集适配器
物理和虚拟资源动态发现、自注册部署
Hadoop
存储资源
计算资源
软件服务资源
物理资源
虚拟资源
云平台监控系统设计
监控信息流
云端接入物理节点 和虚拟节点的
CPU、内存、磁 盘、负载、IO吞 吐量等性能参数, 使用Ganglia采集
云平台监控系统的研究与实现
汇报人:孙杰 指导教师:邵秀丽 教授
汇报内容
1
2
3
4
5
5
6
信息学院计算机
第2页
研究背景与意义
研究背景
云平台聚合了大量软硬件资源,并采用虚拟化技术实现动态按需 提供服务,为确保云平台正常运转,必须对云平台多方监控
现有监控系统存在功能单一、专用等缺点,不适合云平台监控
信息学院计算机
第4页
系统总体设计
系统关键模块:资源 监控、用户监控
系统关键点:云端 节点接入自配置改 进、容错机制改进
系统实现
汇报内容
1
2
3
4
5
5
6
信息学院计算机
第5页
云平台监控系统设计
此模块实现云端节点 接入自配置,并且改
进系统容错能力
监控数据采集汇总 资源监控部署控制
此模块实现对物理资
源、虚拟资源Ga、ng服lia务开源,层级结构
(t2t1) T
网络带宽利用率
P net(t)bytes_ biy n t(ets)_ tb oy ta tels(t_ )out(t)
t2
bytes_in(t)bytes_out(t)
Enet(t1,t2) t1
(t2t1) T
t2
one_load(t)
平均负载
Eload (t1,t2) t1 (t2 t1)
资源监控数据库表结构
监控信息静态表
PK ID
Mac地址 CPU个数 CPU总量 内存总量 内存交换空间总量 磁盘总量 网络带宽总量 启动时间 机器类型 操作系统类型 操作系统发布时间
监控节点表
PK ID
MAC地址 IP地址 主机名称 是否是虚拟机 虚拟机宿主机ID 汇集节点ID 机架ID
机架信息表
研究意义
云平台监控系统旨在构建自主配置、容错性强的监控系统架构, 多维度监控和证明云的物理资源和虚拟资源的正常运行,降低云 平台运营者维护云平台的难度
监控用户使用云存储服务、计算服务和其他服务并进行计费管理, 增强云端对用户的透明度,提高用户对云平台服务商的信任程度
信息学院计算机
第3页
主要工作
服务器上虚拟机总共使用的虚拟CPU个数超过服务器实际CPU个数时,CPU资源将 会按时间片划分,导致网路通信等其他正常指标的规律性波动。虚拟机cpu的个数对 服务器产生的影响:
用户使用云存储服 务、计算服务、其
他服务情况
信息学院计算机
第7页
Hadoop运行中的宏 观数据,如云平台 剩余存储容量、等 待作业数、HDFS总 读写量等变化情况
用户注册,节点 配置等产生数据
汇报内容
1
2
3
4
5
5
6
信息学院计算机
第8页
资源监控
将RRD数据抽取到设计的监控分析库中,并进行相应的分析
资源进行监控,并进 此模块实现对用户使
行负载分析
用云服务的监控和分
析,并进行计费管理
用户交互层 数据持久层
资源监控
用户监控
故障监控
节点管理 系统管理
xml抽取
数据存储
数据分析
数据备份
监控实时数据库
监控分析库
日志记录
数据汇集层
Ganglia
汇集策略
容错性设计
监控资源汇集器
信息学院计算机
第6页
监控采集层 监控资源层