Kubernetes中的监控告警与日志设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kubernetes中的监控,告警与日志设计
议程
• 快速部署集群级别的监控
• Cluster,Kubernetes Control Plane,ETCD, Node, Fluentd的监控 • Workload,Pod,Container的监控
• 使用Grafana • 快速部署项目级别的监控 • 暴露自定义的监控指标
18
• 对接Zookeeper • 对接Kafka Broker
• SSL证书
• SASL身份认证
日志对接Kafka
19
采集业务容器日志
• 确定日志格式,内置支持解析日志格式JSON, Apache2, Nginx,RFC3164, RFC5424, 自定义正则表
达式,不定义格式 • Demo
20
4
监控对象和指标选择
• Google SRE的黄金指标 • 延迟 • 流量 • 错误率 • 饱和度
• Weave work RED • 速率 • 错误 • 耗时
• USE
• 利用率 • 饱和度 • 错误率
5
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• Slack,Email, Pageduty 等收件人的配置
• 集群和项目级别告警的配置 • 日志对接Kafka • 采集业务容器日志 • 通过Fluentd自定义过滤日志规则
2
监控告警相关组件
3
快速部署集群级别的监控
• Data Retention • Persistent Storage • Resource Request / Limit • Node Schedule • Customize Deployment
Βιβλιοθήκη Baidu过Fluentd自定义过滤日志规则
• 步骤
• 部署Fluentd Aggregator,可以使用Catalog中的Fluentd Aggregator App • 定义规则 • 在Rancher中配置日志目的地为以上Fluentd Aggregator
• Demo
21
P A G E 43
THANKS
• Cluster
6
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• API Server • Scheduler • Controller
7
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• ETCD
8
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• Rancher Component
9
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• Node
10
Workload,Pod,Container的监控
• Workload
11
Workload,Pod,Container的监控
• Pod
12
Workload,Pod,Container的监控
• Container
13
• Demo
使用Grafana
14
快速部署项目级别的监控
• 项目级别的监控用于同步Cluster级别的监控数据,获取自定义指标
15
暴露自定义的监控指标
• 前置条件
• 开启项目级别的监控 • 应用暴露prometheus exporter格式的metric
• 步骤 • Demo
16
Slack,Email, Pageduty 等收件人的配置
• Demo
17
集群和项目级别告警的配置
• Rancher 2.2 支持对告警进行分组和自定义表达式的告警 • Demo
议程
• 快速部署集群级别的监控
• Cluster,Kubernetes Control Plane,ETCD, Node, Fluentd的监控 • Workload,Pod,Container的监控
• 使用Grafana • 快速部署项目级别的监控 • 暴露自定义的监控指标
18
• 对接Zookeeper • 对接Kafka Broker
• SSL证书
• SASL身份认证
日志对接Kafka
19
采集业务容器日志
• 确定日志格式,内置支持解析日志格式JSON, Apache2, Nginx,RFC3164, RFC5424, 自定义正则表
达式,不定义格式 • Demo
20
4
监控对象和指标选择
• Google SRE的黄金指标 • 延迟 • 流量 • 错误率 • 饱和度
• Weave work RED • 速率 • 错误 • 耗时
• USE
• 利用率 • 饱和度 • 错误率
5
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• Slack,Email, Pageduty 等收件人的配置
• 集群和项目级别告警的配置 • 日志对接Kafka • 采集业务容器日志 • 通过Fluentd自定义过滤日志规则
2
监控告警相关组件
3
快速部署集群级别的监控
• Data Retention • Persistent Storage • Resource Request / Limit • Node Schedule • Customize Deployment
Βιβλιοθήκη Baidu过Fluentd自定义过滤日志规则
• 步骤
• 部署Fluentd Aggregator,可以使用Catalog中的Fluentd Aggregator App • 定义规则 • 在Rancher中配置日志目的地为以上Fluentd Aggregator
• Demo
21
P A G E 43
THANKS
• Cluster
6
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• API Server • Scheduler • Controller
7
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• ETCD
8
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• Rancher Component
9
Cluster, Kubernetes Control Plane,ETCD, Node, Fluentd的监控
• Node
10
Workload,Pod,Container的监控
• Workload
11
Workload,Pod,Container的监控
• Pod
12
Workload,Pod,Container的监控
• Container
13
• Demo
使用Grafana
14
快速部署项目级别的监控
• 项目级别的监控用于同步Cluster级别的监控数据,获取自定义指标
15
暴露自定义的监控指标
• 前置条件
• 开启项目级别的监控 • 应用暴露prometheus exporter格式的metric
• 步骤 • Demo
16
Slack,Email, Pageduty 等收件人的配置
• Demo
17
集群和项目级别告警的配置
• Rancher 2.2 支持对告警进行分组和自定义表达式的告警 • Demo