容器云平台监控架构设计及优化

合集下载

浅谈如何打造一个安全稳定高效的容器云平台

浅谈如何打造⼀个安全稳定⾼效的容器云平台本⽂介绍了容器的现状和发展趋势，容器集群编排引擎选型，跨主机⽹络通信，定制化⽅案，公有云，私有云及混合云的场景及实现等内容，说明如何打造简单⽽强⼤的容器云平台。

1. 容器技术现状及发展趋势什么是容器？我们可以将容器理解为⼀种沙盒，每个容器具有独⽴的操作系统资源，不同的容器之间相互隔离，也可以建⽴通信，应⽤跑在各⾃的容器中，避免了环境中有冲突的资源使⽤，做到⼀次封装，到处运⾏。

那容器与虚拟机的区别在哪？容器可以看做轻量的虚拟机，虚机启动可能需要数分钟或者更长，⽽容器只需⼏⼗毫秒。

传统虚拟技术是在硬件层⾯实现虚拟化，有性能损耗，⽽容器技术是以共享内核的⽅式实现，⼏乎⽆损耗。

虚拟机更擅长于彻底隔离整个运⾏环境。

例如，云服务提供商通常采⽤虚拟机技术隔离不同的⽤户。

⽽Docker通常⽤于隔离不同的应⽤，例如前端，后端以及数据库。

以Docker为代表的容器技术的出现，给云计算提供了全新的视⾓，使创建和部署应⽤如堆积⽊⼀样简单，我们在创建应⽤或服务时，不⽤考虑资源和维护成本，使得应⽤的部署极为简单快捷，失败的成本⼤⼤降低，让我们的注意⼒更多的聚焦在应⽤和服务本⾝，⽽不是繁琐的系统和环境配置中。

⼏年来，容器技术的发展也⼗分迅猛，从管理单⼀容器应⽤到管理多容器，多主机的分布式应⽤。

企业也纷纷⾯临着由传统应⽤向云端分布式应⽤的转变，使⽤容器技术将应⽤转型为微服务。

随着容器采⽤率越来越快，容器的⽣态环境也需要快速迭代。

需要有⼀个平台可以对容器集群进⾏⾼效灵活的管理，⽅便的搞定容器编排和容器部署，容器云平台应运⽽⽣。

容器云平台应具备哪些能⼒，如何打造⼀个安全，稳定，⾼效的容器云平台，我们从下⾯⼏⽅⾯来谈⼀谈。

2. 容器集群编排引擎选型容器编排是容器云平台的核⼼部分和基础能⼒，为实现⼤规模的容器化部署提供⼀个抽象层的处理。

典型的容器编排引擎需要实现以下⼏个功能：集群（跨主机提供计算能⼒），调度（决定容器部署在哪个节点），可伸缩（⽀持应⽤实例的⾃动或⼿动扩容缩容），容错（应⽤或主机故障的情况下⾃动重启容器），隔离（保障容器安全）。

云计算总结实践经验总结与优化建议

云计算总结实践经验总结与优化建议云计算实践经验总结与优化建议云计算技术的迅速发展和广泛应用，对企业和个人带来了巨大的便利和利益。

在实践中，我深深体会到了云计算的优势和不足之处，并积累了一些经验和建议，希望能够对广大云计算用户提供一些参考和借鉴。

一、云计算实践经验总结1. 网络基础设施的规划和建设：在云计算的实践过程中，良好的网络基础设施扮演着至关重要的角色。

应根据实际需求，对网络进行充分的规划和建设，确保网络的带宽、稳定性和安全性。

2. 云服务器的选择和管理：根据应用场景和需求合理选择云服务器，对云服务器进行有效的管理和监控，及时调整配置和扩容。

同时，定期备份和更新数据，确保数据的安全和可靠性。

3. 资源的弹性调配和管理：云计算的特点之一是弹性资源分配，能够根据需求快速调整资源的使用量和配置。

在实践中，要合理评估资源需求，做到资源的高效利用和及时释放，避免资源浪费和成本的不必要增加。

4. 安全保障的加固和监控：在云计算中，安全防护显得尤为重要。

建立安全的防火墙和访问控制机制，定期检查和修复漏洞，加强对云平台和应用的监控和审计，提高系统的安全性和稳定性。

5. 灾备和容灾策略的制定和实施：灾备和容灾是保障云计算服务高可用性的重要措施。

在实践中，应根据业务需求和风险评估制定相应的灾备和容灾策略，并定期进行演练和测试，确保在灾害发生时能够快速恢复和迁移服务。

二、云计算优化建议1. 定期评估和优化云计算成本：云计算虽然带来了便利，但成本也是企业关注的重点。

定期评估和分析云计算的成本构成，根据实际需求和使用情况，优化云计算资源的配置和使用，尽量降低成本。

2. 使用云计算监控和管理工具：云计算监控和管理工具能够帮助用户实时监控和管理云平台和应用，发现问题并做出相应的调整。

建议用户使用合适的监控和管理工具，提高系统性能和服务质量。

3. 优化云计算架构和应用设计：云计算的成功实践需要合理的架构设计和应用开发。

在实践中，需注意优化架构设计，采用分布式系统和微服务架构，充分发挥云计算的弹性和扩展性。

容器云平台设计方案（下）

容器云平台设计⽅案（下）作者：汪照辉王作敬⼀、摘要容器技术应⽤虽然越来越⼴越来越深⼊，但⼤多数仍然只是基于开源做⼀些测试和验证⼯作。

基于对容器平台的应⽤和研究，以及对开源技术的理解，详细探讨了容器云平台的设计和实现架构，提出“三视⾓、四层次、⼀闭环”设计⽅案，重点在于⽀撑业务应⽤的开发、托管和运营。

⼆、关键字容器云、DevOps、微服务、三视⾓、四层次、⼀闭环三、容器云平台设计接《容器云平台设计⽅案（上）》⽂章我们详细探讨下容器云平台的设计⽅案。

（⼀）三视⾓从容器云平台功能来看，可以划分为平台员管理视⾓（重点是资源管理）、租户视⾓（重点是应⽤管理）和标准化交付视⾓（标准化镜像交付）。

不管私有容器云或公有容器云，都可以这么去考虑。

使各部分职责清晰，功能明确，这也是DevOps协作与整合的要求。

不能因为是私有容器云平台就不分本地和云端，否则从技术上讲那就没有云计算的意义了，从业务上讲也难以满⾜复杂的业务场景管理需求。

1. 租户视⾓从云计算租户的视⾓来看，是利⽤云计算的资源来托管运维⾃⼰的业务应⽤，所以租户不应该去关注资源的运维，租户关⼼的是容器云平台提供的服务能⼒和保证⾃⼰业务应⽤的正常运营所需要的能⼒。

如果两者匹配，将有助于租户去运营⾃⼰的业务应⽤。

租户的需求就是我们建设容器云平台的建设需求。

租户可能来⾃不同的团队、不同的部门、不同的项⽬组、甚⾄不同的公司。

那从租户视⾓看，⾸先可能需要⽀持不同的组织架构管理，组织架构下⾯有⼈员，每个⼈员或者每个组织有相应的⾓⾊，⾓⾊对应着权限。

这就是⽀持多租户⾸先要解决的权限管理问题。

我们和⼚商重构了多租户权限体系，推出权限中⼼组件服务，来⽀持不同的⽤户、组、团队、部门、公司等对于权限管理的需求。

图 3 应⽤管理有了权限体系的⽀撑，我们重点构建对业务应⽤的功能⽀撑。

这⾥有⼏个概念：应⽤、服务、服务实例。

服务我们可以简单理解为微服务，也就是提供某项能⼒的⼀个组件服务，服务通过编排为业务应⽤，⽽每个服务为了⽀持⾼负载⼜可能部署多个服务实例，所以就形成了应⽤——服务——服务实例三层关系。

容器云解决方案

5.建立运维管理体系，持续优化容器云平台。
五、预期效果
1.应用部署周期缩短，提高开发、测试、部署效率。
2.运维人员工作量减轻，提高工作效率。
3.系统稳定性提升，降低故障率。
4.资源利用率提高，降低企业IT成本。
5.符合国家法律法规，确保数据安全。
本方案旨在为企业提供一套合Байду номын сангаас合规、高效稳定的容器云解决方案，助力企业实现数字化转型。在实施过程中，需根据企业实际情况进行调整和优化，以确保方案的有效性和实用性。
5.培训与支持
（1）组织内部培训，提高开发、运维人员对容器技术的掌握程度。
（2）提供技术支持，协助解决容器云平台运行过程中遇到的问题。
四、实施步骤
1.调研企业现有基础设施和应用情况，制定详细的实施方案。
2.搭建容器云平台，进行环境部署。
3.对关键业务应用进行容器化改造，实现自动化部署。
4.推广容器云平台，逐步迁移其他业务应用。
（4）编写Kubernetes资源配置文件，实现应用的自动化部署和扩展。
4.运维保障
（1）监控体系建设：构建全面的监控体系，包括容器、主机、网络、存储等关键指标监控。
（2）日志管理：集中收集、存储和分析容器日志，为故障排查和性能优化提供数据支持。
（3）安全策略：遵循国家相关法律法规，实施安全防护措施，确保容器云平台的安全性。
2.降低运维成本，提高运维人员工作效率。
3.确保应用的高可用性和稳定性。
4.实现资源弹性伸缩，满足业务高峰期需求。
5.符合国家相关法律法规，确保数据安全。
三、解决方案
1.容器云平台架构
（1）基础设施层：采用物理服务器、虚拟机或云服务器作为基础设施，为容器云平台提供计算、存储和网络资源。

云平台方向职位描述与岗位职责

云平台方向职位描述与岗位职责职位描述：云平台方向职位主要聚焦于互联网云计算平台的研发、架构及运营管理，对公有云、私有云、混合云、边缘计算等领域有深入理解和掌握。

主要工作职责包括：- 参与公司的云平台开发及架构设计，实现高可用、高性能的云计算平台；- 负责云平台资源的管理、调度、监控、安全等方面的工作；- 熟练掌握云计算与容器技术，设计和实现PaaS、IaaS、SaaS 等云计算平台或云原生应用；- 负责云平台的自动化管理工具研发、性能优化和容量规划等工作；- 协助运维团队进行平台的升级、维护和故障恢复，保证云平台的稳定性和可靠性。

岗位职责：1. 设计和构建云计算平台负责设计、构建和优化云计算平台，如IaaS、PaaS、SaaS等云平台，掌握云计算软件、硬件、网络、存储等相关组件知识，具备独立设计和实施复杂系统的能力。

2. 开发和运维云平台自动化工具熟悉运维工作流程，熟练掌握云平台自动化工具和脚本语言，比如Puppet、Chef、Ansible、Python等，优化自动化工具性能和稳定性。

3. 云平台资源管理建立云计算平台资源管理系统，对云平台资源进行监控和管理，优化资源分配和调度策略，提供各种资源调度和扩展服务，支持多租户和虚拟化环境等特性。

4. 数据中心建设与维护负责数据中心的建设、维护和故障排除，包括基础设施、服务器、网络、存储设备等设施，及时诊断和解决问题，保证自有数据中心的健康运作。

5. 云平台安全负责云平台安全工作，包括网络安全、系统安全、应用安全和数据安全等，掌握云平台的安全策略和协议，保持相关技术的更新和了解，提供安全性咨询和解决方案。

6. 云平台运营负责云平台的日常运营和维护，制定云平台的维护计划和应急预案，及时应对紧急情况和处理故障，提供优质的技术支持和咨询服务，提高客户满意度和用户体验。

容器云平台的架构和实现

容器云平台的架构和实现随着互联网技术的迅速发展，容器云正在成为互联网应用和数据处理的新趋势。

随着云计算技术的不断发展，容器技术成为现代云计算的重要组成部分。

随着容器技术的应用越来越广泛，对容器管理平台的需求也日益增加。

在这篇文章中，我们将探讨容器云平台的架构和实现。

什么是容器云平台？容器云平台是一个管理和部署容器技术的平台。

它提供一个集成的管理界面和工具，可以用来自动化部署、管理和监控容器集群。

容器云平台能够通过多租户模型，将所有用户的各个应用隔离开来，保证每个用户运行的容器是独立的。

此外，容器云平台还需要支持容器的自动伸缩、负载均衡、数据卷、内部和外部服务发现等功能。

容器云平台的架构设计容器云平台的架构可以分成三层：虚拟化层、容器管理层和应用程序层。

虚拟化层虚拟化层是容器云平台的底层基础设施，它提供虚拟处理器、内存、网络和存储服务。

虚拟化技术可以帮助用户在不同的系统版本和架构之间轻松切换。

同时，虚拟化技术还可以帮助用户在不同的硬件上使用相同的操作系统。

例如，如果用户想将其应用程序从物理服务器迁移到容器中，他们可以通过虚拟化技术中的软件层轻松地完成。

容器管理层容器云平台的中间层是容器管理层，它是整个架构的核心。

容器管理层的主要功能是管理容器的生命周期。

它包括容器编排、调度、自动伸缩和负载均衡等子系统。

容器管理系统在容器内提供一个隔离的和可配置的运行时环境，使得容器可以独立于宿主系统运行。

容器管理系统还提供了一个轻量级的文件系统，使得容器可以快速、可靠地进行存储。

应用程序层应用程序层是用户最终使用的层。

在这一层，用户可以使用容器管理平台和容器运行时环境来构建、部署、管理和监控他们的应用程序。

应用程序层提供了一个集成的开发环境，包括一个WebUI和API。

用户可以使用这些工具来构建Docker镜像、部署应用程序、创建数据卷、检查日志和监控性能。

容器管理系统的实现Docker是当今最流行的容器管理平台。

云计算平台架构设计与实现

云计算平台架构设计与实现云计算是一种基于互联网的新型计算范式，是当前信息化发展的重要趋势之一。

在云计算理论的支持下，越来越多的企业开始采用云计算模式来实现IT服务，将自己的业务平台部署在云上，以提高效率和降低成本。

本文将探讨云计算平台架构设计与实现的相关技术和方法。

一、云计算平台的构成云计算平台一般由数据中心和云管理平台两部分组成。

数据中心是物理硬件资源的集合，包括计算设备、存储设备、网络设备等。

云管理平台则用来管理这些硬件资源，并为用户提供云服务。

具体来说，云计算平台应该具备以下几个特点：1、灵活的计算资源调度能力。

云计算平台应该具备自动监控和调度虚拟机、应用程序等计算资源的能力，以满足不同用户在不同时间对计算资源的需求；2、高可靠性和高可用性。

云计算平台应该具备容错、备份等多重机制，以确保用户服务的长期稳定性和可靠性；3、安全的数据存储和传输能力。

在云计算平台上，大量的敏感数据需要得到有效的保护，包括加密传输、数据备份等多种安全机制；4、快速的响应和可扩展性。

云计算平台应该具备快速响应用户需求的能力，并支持水平扩展、竖直扩展等多种扩展方式，以应对不断变化的业务需求。

二、云计算平台的架构设计在设计云计算平台时，应该首先考虑数据中心的构建和管理。

数据中心一般包括服务器、网络设备、存储设备等，这些设备需要在协同工作的同时，也要支持物理和逻辑分割，以便更好地管理和分配资源。

这里我们可以采用虚拟化技术，将物理资源划分成多个互相隔离的逻辑资源，进而实现更灵活的资源调度和管理。

在数据中心建设的同时，云管理平台也需要相应的设计和开发。

云管理平台的设计要素包括如下几个方面：1、资源管理模块。

资源管理模块用来管理数据中心内的各种硬件资源，包括CPU、磁盘、网络带宽等。

该模块的主要任务是监控资源状态，协调资源调度，以使资源能够高效利用和优化；2、应用管理模块。

应用管理模块用来部署、管理和监控各种应用程序，并为用户提供可靠的高性能服务。

云服务平台的设计与实现

云服务平台的设计与实现一、引言随着互联网的普及，越来越多的应用和服务开始利用云计算进行分布式部署，从而实现高可用、高扩展和高性能。

因此，云服务平台的设计与实现成为了一个重要的研究领域。

本文将从云服务平台的设计目标、架构、实现技术和安全性等方面进行讨论，并介绍一种常见的云服务平台的设计与实现方案。

二、设计目标云服务平台的设计目标主要包括以下几个方面：1. 实现高可用性。

云服务平台需要保证系统的稳定性和可用性，即使某个节点或者某个服务挂掉，也要能够保证整个系统的正常运行。

2. 实现高扩展性。

云服务平台需要支持动态扩容和缩容，以适应不同的负载变化。

3. 实现高性能。

云服务平台需要优化系统性能，减少响应时间，提高用户使用体验。

4. 实现高安全性。

云服务平台需要采取有效的安全措施，对用户的隐私和数据进行保护。

三、架构设计云服务平台的架构设计包括三个主要组件：资源管理器、服务管理器和运行环境。

资源管理器负责管理云服务平台的硬件和软件资源，包括服务器、网络设备、存储设备等。

资源管理器需要支持动态扩容和缩容，根据当前负载自动调整资源使用情况。

同时，资源管理器还需要支持资源共享，避免资源的浪费和冗余。

服务管理器负责管理云服务平台的服务，包括服务的注册、发现、调度和监控。

服务管理器需要支持多语言、多框架的服务开发和部署，允许用户通过简单的接口调用不同语言和框架的服务。

同时，服务管理器还需要实现服务的自动发现和负载均衡，确保用户请求调度到最优的服务节点。

运行环境负责实现云服务的无缝执行，包括虚拟化技术、容器化技术和自动化运维技术。

运行环境需要提供多种编程语言和框架的支持，具有高性能、高可用、高安全性等特点。

四、实现技术云服务平台的实现技术包括以下几个方面：1. 虚拟化技术。

虚拟化技术是云服务平台的核心技术之一，它可以将一台物理机划分为多台虚拟机，并使每台虚拟机拥有独立的资源和运行环境。

常见的虚拟化技术包括VMware、VirtualBox、KVM等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

容器云平台监控架构设计及优化目录1. 概述 (1)2. 价值和意义 (1)3. 监控方案选型 (1)3.1 容器云监控方案有哪些 (1)3.2 方案对比并确定 (3)4. 基于prometheus的容器云平台监控架构设计 (4)4.1 prometheus介绍 (4)4.2 架构设计 (5)4.3 监控点有哪些 (7)4.4 重要组件介绍 (10)4.5 数据可视化 (14)4.6 高可用设计 (16)4.7 性能优化与容量预估 (22)1 概述随着容器化的大力发展，容器云平台已经基本由Kubernetes作为统一的容器管理方案。

当我们使用Kubernetes进行容器化管理时，传统监控工具如Zabbix无法对Kubernetes做到统一有效的全面监控，全面监控Kubernetes也就成为我们需要探索的问题。

使用容器云监控，旨在全面监控Kubernetes集群、节点、服务、实例的统计数据，验证集群是否正常运行并创建相应告警。

本章旨在于介绍容器云平台监控的架构设计及优化。

2 价值和意义监控是运维体系中是非常重要的组成部分，通过监控可以实时掌握系统运行状态，对故障提前预警，以及历史状态的回放，还可以通过监控数据为系统的容量规划提供辅助决策，为系统性能优化提供真实的用户行为和体验。

为容器云提供良好的监控环境是保证容器服务的高可靠性、高可用性和高性能的重要部分，通过对本章的学习，能够快速认识当前容器环境下都有哪些监控方案，并对主流的监控方案有一个系统的了解和认识。

3 监控方案选型3.1 容器云监控方案有哪些（1）ZabbixZabbix是由Alexei Vladishev开源的分布式监控系统，支持多种采集方式和采集客户端，同时支持SNMP、IPMI、JMX、Telnet、SSH等多种协议，它将采集到的数据存放到数据库中，然后对其进行分析整理，如果符合告警规则，则触发相应的告警。

Zabbix核心组件主要是Agent和Server，其中Agent主要负责采集数据并通过主动或者被动的方式采集数据发送到Server/Proxy，除此之外，为了扩展监控项，Agent还支持执行自定义脚本。

Server主要负责接收Agent发送的监控信息，并进行汇总存储，触发告警等。

Zabbix Server将收集的监控数据存储到Zabbix Database中。

Zabbix Database支持常用的关系型数据库，如MySQL、PostgreSQL、Oracle等，默认是MySQL，并提供Zabbix Web页面（PHP编写）数据查询。

Zabbix由于使用了关系型数据存储时序数据，所以在监控大规模集群时常常在数据存储方面捉襟见肘。

所以从Zabbix 4.2版本后开始支持TimescaleDB时序数据库，不过目前成熟度还不高。

（2）Open-FalconOpen-Falcon是小米开源的企业级监控工具，用Go语言开发而成，包括小米、滴滴、美团等在内的互联网公司都在使用它，是一款灵活、可扩展并且高性能的监控方案，主要组件包括了：1）Falcon-agent是用Go语言开发的Daemon程序，运行在每台Linux服务器上，用于采集主机上的各种指标数据，主要包括CPU、内存、磁盘、文件系统、内核参数、Socket连接等，目前已经支持200多项监控指标。

并且，Agent支持用户自定义的监控脚本。

2）Hearthbeat server简称HBS心跳服务，每个Agent都会周期性地通过RPC方式将自己的状态上报给HBS，主要包括主机名、主机IP、Agent版本和插件版本，Agent还会从HBS获取自己需要执行的采集任务和自定义插件。

3）Transfer负责接收Agent发送的监控数据，并对数据进行整理，在过滤后通过一致性Hash算法发送到Judge或者Graph。

4）Graph是基于RRD的数据上报、归档、存储组件。

Graph在收到数据以后，会以rrdtool的数据归档方式来存储，同时提供RPC方式的监控查询接口。

5）Judge告警模块，Transfer转发到Judge的数据会触发用户设定的告警规则，如果满足，则会触发邮件、微信或者回调接口。

这里为了避免重复告警引入了Redis暂存告警，从而完成告警的合并和抑制。

6）Dashboard是面向用户的监控数据查询和告警配置界面。

（3）NagiosNagios原名为NetSaint，由Ethan Galstad开发并维护。

Nagios是一个老牌监控工具，由C语言编写而成，主要针对主机监控（CPU、内存、磁盘等）和网络监控（SMTP、POP3、HTTP和NNTP等），当然也支持用户自定义的监控脚本。

它还支持一种更加通用和安全的采集方式NREP（Nagios Remote Plugin Executor），它首先在远端启动一个NREP守护进程，用于在远端主机上面运行检测命令，在Nagios服务端用check nrep的plugin插件通过SSL对接到NREP守护进程执行相应的监控行为。

相比SSH远程执行命令的方式，这种方式更加安全。

（4）PrometheusPrometheus是一个很受欢迎的开源监控和警报工具包，继Kubernetes之后成为第二个正式加入CNCF 基金会的项目，2017年底发布了基于全新存储层的2.0版本，能更好地与容器云平台配合。

能实现docker status、cAdvisor的监控功能，并且Prometheus原生支持Kubernetes监控，具有Kubernetes对象服务发现能力，Kubernetes的核心组件也提供了Prometheus的采集接口。

单个Prometheus可以每秒抓取10万的metrics，能满足一定规模下k8s集群的监控需求，并且具备良好的查询能力，提供数据查询语言PromQL，PromQL提供了大量的数据计算函数，大部分情况下用户都可以直接通过PromQL从Prometheus里查询到需要的聚合数据。

3.2 方案对比并确定通过以下方面对上述监控方案进行对比：1）从开发语言上看，为了应对高并发和快速迭代的需求，监控系统的开发语言已经慢慢从C语言转移到Go。

不得不说，Go凭借简洁的语法和优雅的并发，在Java占据业务开发，C占领底层开发的情况下，准确定位中间件开发需求，在当前开源中间件产品中被广泛应用。

2）从系统成熟度上看，Zabbix和Nagios都是老牌的监控系统，系统功能比较稳定，成熟度较高。

而Prometheus和Open-Falcon都是最近几年才诞生的，虽然功能还在不断迭代更新，但站在巨人的肩膀之上，在架构设计上借鉴了很多老牌监控系统的经验。

3）从系统扩展性方面看，Zabbix和Open-Falcon都可以自定义各种监控脚本，并且Zabbix不仅可以做到主动推送，还可以做到被动拉取，Prometheus则定义了一套监控数据规范，并通过各种exporter扩展系统采集能力。

4）从数据存储方面来看，Zabbix采用关系数据库保存，这极大限制了Zabbix采集的性能，Nagios和Open-Falcon都采用RDD数据存储，Open-Falcon还加入了一致性hash算法分片数据，并且可以对接到OpenTSDB，而Prometheus自研一套高性能的时序数据库，在V3版本可以达到每秒千万级别的数据存储，通过对接第三方时序数据库扩展历史数据的存储。

5）从配置复杂度上看，Prometheus只有一个核心server组件，一条命令便可以启动，相比而言，其他系统配置相对麻烦，尤其是Open-Falcon。

6）从社区活跃度上看，目前Zabbix和Nagios的社区活跃度比较低，尤其是Nagios，Open-Falcon虽然也比较活跃，但基本都是国内的公司参与，Prometheus在这方面占据绝对优势，社区活跃度最高，并且受到CNCF的支持，后期的发展值得期待。

7）从容器支持角度看，由于Zabbix和Nagios出现得比较早，当时容器还没有诞生，自然对容器的支持也比较差。

Open-Falcon虽然提供了容器的监控，但支持力度有限。

Prometheus的动态发现机制，不仅可以支持swarm原生集群，还支持Kubernetes容器集群的监控，是目前容器监控最好解决方案。

Zabbix在传统监控系统中，尤其是在服务器相关监控方面，占据绝对优势。

而Nagios则在网络监控方面有广泛应用，伴随着容器的发展，Prometheus开始成为主导及容器监控方面的标配，并且在未来可见的时间内被广泛应用。

总体来说，对比各种监控系统的优劣，Prometheus可以说是目前监控领域最锋利的“瑞士军刀”了。

4 基于prometheus的容器云平台监控架构设计4.1 prometheus介绍Prometheus 是由 SoundCloud 开发的开源监控报警系统和时序列数据库。

于2016年加入Cloud Native Computing Foundation，作为继Kubernetes之后的第二个托管项目，具有强大的数据采集、数据存储、数据展示、告警等功能，天生完美支持kubernetes。

主要特点：◎多维数据模型：通过度量名称和键值对标识的时间序列数据◎PromSQL：一种灵活的查询语言，可以利用多维数据完成复杂的查询◎不依赖分布式存储，单个服务器节点可直接工作◎基于HTTP的pull方式采集时间序列数据◎推送时间序列数据通过PushGateway组件支持◎通过服务发现或静态配置发现目标◎多种图形模式及仪表盘支持组件：◎Prometheus生态包括了很多组件，它们中的一些是可选的◎Prometheus主服务器，用于抓取和存储时间序列数据◎用于检测应用程序代码的客户端库◎用于支持短声明周期的push网关◎针对HAProxy，StatsD，Graphite，Snmp等服务的特定exporters ◎警告管理器◎各种支持工具多数Prometheus组件是Go语言写的，这使得这些组件很容易编译和部署。

4.2 架构设计（1）图片左侧是各种数据源主要是各种符合Prometheus数据格式的exporter，除此之外为了支持推动数据类型的Agent，可以通过Pushgateway组件，将Push转化为Pull。

Prometheus甚至可以从其它的Prometheus获取数据，组建联邦集群。

Prometheus的基本原理是通过HTTP周期性抓取被监控组件的状态，任意组件只要提供对应的HTTP接口并且符合Prometheus定义的数据格式，就可以接入Prometheus监控。

（2）图片上侧是服务发现，Prometheus支持监控对象的自动发现机制，从而可以动态获取监控对象。