腾讯蓝鲸运维体系架构设计

合集下载

蓝鲸运维安全

补丁测试与发布策略
测试策略
建立完善的测试机制，包括单元测试、集成测试和系统测试等，确保补丁在修复漏洞的同时不会引入新的问题。
发布策略
根据漏洞的严重程度和影响范围，制定合理的补丁发布策略，如紧急发布、定期发布等，确保补丁能够及时有效地应用到系统中。
版本控制
对补丁程序进行严格的版本控制，记录每个版本的变更内容和测试结果，便于后续的追踪和管理。
蓝鲸运维安全
汇报人：XX 2024-01-11
• 运维安全概述 • 蓝鲸运维安全体系 • 身份认证与访问控制 • 系统漏洞与补丁管理 • 数据安全与隐私保护 • 日志审计与监控告警 • 总结与展望
01
运维安全概述
运维安全定义与重要性
运维安全定义
运维安全是指在信息系统运行维护过程中，采取各种技术和管理措施，确保系统稳定运行、数据保密、完整可用，并有效防范、应对各种网络安全风险。
审计规则执行
将审计规则应用到日志分析工具中，对日志数据进行实时或定期的审计检查。
审计结果展示
将审计结果以图表、报表等形式展示出来，方便运维人员快速了解系统安全状况。
监控告警机制及响应流程
监控告警机制
建立实时或定期的监控告警机制，对审计结果中发现的异常行为或潜在威胁进行告警。
告警响应流程
制定详细的告警响应流程，包括告警确认、问题定位、处理措施、结果反馈等环节。
理的流程化和自动化。
03
身份认证与访问控制
身份认证机制
用户名/密码认证
通过输入正确的用户名和密码进行身份认证，是最常见的身份认证方式。
动态口令认证
采用动态生成的口令进行身份认证，每次登录时口令都会变化，提高了安全性。

云环境运维体系架构

云环境运维体系架构云环境运维体系架构是指在云计算环境下，构建一个完备的运维体系，以确保云服务的稳定性和高可用性。

云环境运维体系架构需要考虑到云环境的规模、需求和资源配置等因素，同时还需要满足运维的需求，包括监控、自动化、故障处理等方面。

本文将介绍一个基本的云环境运维体系架构，主要包括云环境基础设施、监控体系、自动化体系和故障处理体系。

首先是云环境基础设施，云环境的基础设施包括服务器、存储和网络等硬件设备，以及操作系统、虚拟化平台和容器平台等软件层面的构建。

在云环境运维体系架构中，需要考虑基础设施的可靠性和弹性，以满足云服务的高可用性和灵活性需求。

为此，可以采用集群化部署方式来提高基础设施的可靠性，同时使用云组件管理工具来实现资源的弹性调度和故障转移。

其次是监控体系，监控是云环境运维的重要组成部分，通过对云环境各个层面的监控，可以及时发现和解决潜在的问题，确保云服务的稳定性。

监控体系需要包括硬件监控、系统监控、应用监控和业务监控等，可以使用开源监控工具或商业监控平台来实现。

监控数据可以通过实时展示、告警和报表等方式进行展示和分析，提供给运维人员进行决策和问题处理。

然后是自动化体系，自动化是提高运维效率和减少人工干预的关键。

自动化体系可以包括自动化部署、自动化运维和自动化测试等方面。

在云环境运维体系架构中，可以使用配置管理工具和自动化运维工具来实现自动化运维，通过编写脚本和模板来定义和管理云环境的配置和操作。

自动化测试可以通过自动化测试工具来实现，对云服务进行自动化的功能测试、性能测试和安全测试等。

最后是故障处理体系，故障处理是云环境运维的常见任务。

故障处理体系需要包括故障检测、故障诊断和故障恢复等方面。

故障检测可以通过监控系统和日志分析等手段来实现，及时发现故障并生成告警信息。

故障诊断可以通过运维人员的经验和故障诊断工具来进行，对故障进行分析和定位。

故障恢复可以采用冷备份、热备份和负载均衡等方式来实现，确保云服务在故障发生后能够快速恢复。

TCE-BS-003-041 腾讯专有云产品架构设计对象存储(CSP)V3.4.2

对象存储（CSP）产品架构设计本文档著作权归腾讯云单独所有，未经腾讯云事先书面许可，任何主体不得以任何形式复制、修改、抄袭、传播全部或部分本文档内容。

及其它腾讯云服务相关的商标均为腾讯云计算（北京）有限责任公司及其关联公司所有。

本文档涉及的第三方主体的商标，依法由权利人所有。

本文档旨在向客户介绍腾讯云全部或部分产品、服务的当时的整体概况，部分产品、服务的内容可能有所调整。

您所购买的腾讯云产品、服务的种类、服务标准等应由您和腾讯云之间的商业合同约定，除非双方另有约定，否则，腾讯云对本文档内容不做任何明示或模式的承诺或保证。

编号修改日期修改人更新内容01 2018-12-20 ajaxhe 第一次发布。

前言 (2)目录 (4)1.产品介绍 (5)1.1.整体概述 (5)1.2.产品优势 (5)1.3.整体架构介绍 (6)1.4.平台管理模块介绍 (7)1.5.应用场景 (8)2.功能介绍 (9)2.1.关键业务流程 (9)2.1.1.写请求 (9)2.1.2.读请求 (9)2.2.数据冗余策略 (9)2.3.关键技术 (10)1.产品介绍1.1.整体概述腾讯云对象存储旨在帮助客户降低企业存储数据成本，通过高效、灵活、自动化的方式，管理呈指数级增长的业务数据。

腾讯云私有云存储提供了大规模、可扩展的持久化分布式存储平台，管理分布式群集上的数据，并为对象级别提供存储接口，让您可以集中精力运行主要业务。

腾讯云对象存储服务是在腾讯多年的海量数据存储的经验之上，结合开源存储项目生态与自研组件服务，对外提供的可靠、安全、易用的海量存储平台。

您可以按需部署以实现企业的海量文件存储的需求，例如：文档、图片、视频等非结构化文件的存储。

使用HTTP RESTful API 协议作为基础接口，可以支持原生云计算应用、批量计算分析、归档备份以及内容分发等应用场景。

1.2.产品优势数据稳定，持久可用。

基于腾讯公有云分布式存储架构，无单点故障；支持跨主机、跨机架、跨机房多种故障域隔离策略；支持多副本方式冗余，数据分片存储分布在不同主机磁盘中。

平台简介平台架构-蓝鲸智云

平台简介蓝鲸管控平台，是整个蓝鲸平台的底层管控系统，是蓝鲸所有其他服务的基础，是蓝鲸服务体系与用户机器的连接器。

蓝鲸管控平台是典型的两层分布式 C/S 结构，主要包含智能 Agent，提供各种服务的Server，以及 zookeeper、redis、MySQL 等周边保障模块。

其中Agent 是部署在业务机器上的程序，每台业务机器理论上只可以部署一个；其他模块部署无具体要求，用户可以单独部署，也可以混合部署。

在整个蓝鲸体系中，唯独蓝鲸管控平台没有直面用户，但蓝鲸管控平台在蓝鲸体系中却是不可或缺的，它为蓝鲸其他平台提供了人机交互的通道与能力。

蓝鲸管控平台主要提供了三种类型的服务能力：文件分发传输能力、命令实时执行与反馈的能力、大数据采集与传输的能力。

平台架构••BK Agent：蓝鲸智能Agent程序，需要安装在业务需要管控的实体机、虚拟机或者容器里面。

BK Agent 的启动需要按照要求输入制定的命令行参数，并依赖配置文件。

BK Agent是蓝鲸管控平台提供三大服务能力的实际执行者， BK Agent 所在机器的通讯策略、网络状况需要在安装前调整好才能发挥其所有能力。

•BK TaskServer：蓝鲸管控平台任务及控制服务端程序。

该程序提供对集群内Agent 的管理能力，并支持对 Agent 批量下和执行发命令或脚本。

•BK FileServer：蓝鲸管控平台文件传输控制服务端程序。

该程序对指定范围内Agent 节点提供 BT 种子服务，保证对传输的安全性、不同区域及业务模块间的隔离性，并控制BT传输在有限的贪婪特性范围内。

单独部署 BK FileServer 并不能提供文件传输服务，受限于安全性考虑，BK FileServer 必须和 BK TaskServer 配合才能完成完整的文件分发流程。

•BK DataServer：蓝鲸管控平台数据传输服务端程序。

该服务端主要提供对 Agent 采集的数据进行汇聚、分类、流转能力。

centos7单机部署腾讯蓝鲸运维平台6.0.2

centos7单机部署腾讯蓝鲸运维平台6.0.2⼀、环境准备1.配置腾讯yum源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backupmv /etc/yum.repos.d/epel.repo /etc/yum.repos.d/epel.repo.backupyum clean all && yum makecache2.关闭防⽕墙和selinuxsystemctl stop firewalld && systemctl disable firewalldsetenforce 0 或者 sed -i 's/^SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/configreboot3.安装脚本依赖 rsync 分发同步⽂件yum -y install rsync4.停⽌并禁⽤NetWorkManagersystemctl stop NetworkManager && systemctl disable NetworkManager5.调整最⼤⽂件打开数ulimit -n 查看执⾏cat >> /etc/security/limits.conf << EOF> root soft nofile 102400> root hard nofile 102400> EOF6.多机部署需要确认时间同步，单机不需要date -s ""hwclock --systohc7.检查DNS配置⽂件vim /etc/resolv.conf除注释外的第⼀⾏添加 nameserver 127.0.0.18.下载证书⼆、安装部署1.将证书包和安装包上传⾄/data⽬录下2.解压相关资源包cd /data && tar xf bkce_src-6.0.2.tgzcd /data/src/ && for f in *gz ; do tar xf $f ; doneinstall -d -m 755 /data/src/cert && tar xf /data/ssl_certificates.tar.gz -C /data/src/cert/ && chmod 644 /data/src/cert/*cp -a /data/src/yum /opt3.⾃定义安装配置(1)vim /data/install/install.config #因为是单机部署，所有IP都⼀样，多机根据实际情况修改IP<你的IP> iam,ssm,usermgr,gse,license,redis,consul,es7,monitorv3(influxdb-proxy),monitorv3(monitor),monitorv3(grafana)<你的IP> nginx,consul,mongodb,rabbitmq,appo,influxdb(bkmonitorv3),monitorv3(transfer),fta,beanstalk<你的IP> paas,cmdb,job,mysql,zk(config),kafka(config),appt,consul,log(api),nodeman(nodeman)(2)对 install.config 中的主机配置中控机 ssh 登录免密，根据提⽰，依次输⼊每台机器的 root 密码 #多机部署执⾏步骤bash /data/install/configure_ssh_without_pass4.初始化cd /data/install && ./bk_install common5.检查相关配置./health_check/check_bk_controller.sh6.部署全部组件cd /data/install && ./install_minibk -y(如果想要部署部分组件，执⾏ cd /data/install && ./install_minibk && ./bk_install paas && ./bk_install cmdb && ./bk_install job)三、访问蓝鲸根据 install/bin/04-final/global.env、install/bin/04-final/usermgr.env ⾥配置的 PaaS 域名(BK_PAAS_PUBLIC_ADDR)、账号 (BK_PAAS_ADMIN_USERNAME)、密码(BK_PAAS_ADMIN_PASSWORD)信息，登录访问(若域名没设置 DNS 解析，需配置本机 hosts).#配置本地hosts1.Windows 配置⽤⽂本编辑器（如Notepad++）打开⽂件： C:\Windows\System32\drivers\etc\hosts 将以下内容复制到上述⽂件内，并将以下 IP 需更换为本机浏览器可以访问的 IP，然后保存。

蓝鲸社区版（腾讯）部署简述

蓝鲸社区版（腾讯）部署简述参考地址：https:///u013295690/article/details/121438951蓝鲸社区版(腾讯)部署简述蓝鲸社区版，是蓝鲸智云提供的⾯向社区⽤户的基于 PaaS 的运维技术解决⽅案套件。

它永久免费，⽀持公有云环境、私有环境的独⽴搭建部署。

本⽂档主要介绍蓝鲸社区版的初次安装部署、⽇常维护、更新升级、故障排查等运维相关的内容。

关于蓝鲸各⼤平台、SaaS 应⽤的相关使⽤说明，请参考蓝鲸社区版产品⽩⽪书。

⼀、机器评估官⽹⽂档建议配置：详见：https:///docs/document/5.1/20/650PaaS：2 核 4GCMDB：2 核 2GJOB：2核 4GBKDATA：4 核 12GFTA：1 核 2G个⼈部署推荐配置：1 台 4 核 16G2 台 4 核 8G本部署⼿册使⽤配置环境：centos8.2 4核16Gcentos8.2 4核8G*2此处想说的是，电脑配置低了真玩不了，蓝鲸这货……⼆、环境准备1、获取安装包蓝鲸社区版包含部署脚本、产品软件和开源组件。

蓝鲸提供完整包与分包的下载通道，请⾃⾏到下载地址按需获取。

新装环境及新⽤户建议下载完整包使⽤。

下载地址：https:///download/2、配置 YUM 源(基础源、epel)在所有蓝鲸服务器上配置好 YUM 源，要求该 YUM 源包含 EPEL。

不能连外⽹ YUM 源的环境，可以配置⼀个内部的 YUM 源或者本地YUM 源。

yum install -y wget vim && \mkdir -p /etc/yum.repos.d/bak && \mv /etc/yum.repos.d/*.repo /etc/yum.repos.d/bak/ && \cp /etc/yum.repos.d/bak/CentOS-Base.repo /etc/yum.repos.d/ && \wget -O /etc/yum.repos.d/CentOS-Base7.repo /repo/centos7_base.repo && \wget -O /etc/yum.repos.d/epel7.repo /repo/epel-7.repo && \yum install -y pssh rsyncpip源配置mkdir -p ~/.pipcat >> ~/.pip/pip.conf << EOF[global]index-url = https:///pypi/simple/[install]trusted-host=EOF配置完毕pip后，需测试 curl https:///pypi/simple/，确认返回结果3、centos系统设置3.1 selinux关闭sed -i 's/^SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config3.2 防⽕墙关闭systemctl stop firewalld && systemctl disable firewalld3.3 安装 rsync 命令yum -y install rsync （已安装可忽略）3.4 停⽌并禁⽤ NetWorkManager(跳过，⽆须操作)systemctl stop NetworkManager && systemctl disable NetworkManager说明：（这⼀步虚拟机慎⽤）该操作前提需确保主机为静态 IP，若为 DHCP 获取的 IP，则⽆法直接 disable NetworkManager，否则会出现主机重启后，或者主机运⾏⼀段时间 IP 租约地址到期后，⽹卡⽆法从⽹络重新正常获取 IP 地址的情况。

蓝鲸存储系统通用管理架构的研究与设计

ＷＡＮＧＸｉ．ｅ，Ｅｕｗｎ，ＦＮＧｈｏ，ｉｉｇ，Ｘｕ一ＳｕＱＵＨａ．ｎ，ＵＬｐ一
（．ｎｔｕｅｆｏｕｉｇＴｃｎｌｇ，ｈｎｓａｅｆｃｎｅ，ｉｎ０００１ＩｓｉｔｍｐｔｅｈｏｏｙＣｉｅｅｔｏＣｎＡｃｄｍｙｏｉｃｓＢｅｉｇ１０８；Ｓｅｊ２ＧａｕｔｎｖｒｉｆｉｅｅａｅｆｃｅｃｓＢｉｎ００９．ｒｄａｅＵｉｅｓｙｏｎｓｄｍｙｏｉｎｅ，ｅｉｇ１０３）ｔＣｈＡｃＳｊ
文针对存储问题域，基于标准的信息模型和功能模型，提出一种通用管理架构，通过管理信息共享和管理行为共享集成了蓝鲸系列存储系
统，实现了存储系统间的互操作性。关健诃：管理架构；通用信息模型；功能模型
ＲｅｅｒｈａｄＤｅｉｎｏｍｍｏａａｅｅｔｃｉｃｕｅｆｒｓａｃｎｓｇｆＣｏｎＭｎｇｍｎＡｒｈｔｔｒｏｅＢｌｅａｅＳｏａｅＳｓｅｕｗｈｌｔｒｇｙｔｍ
理软件提出了更高要求。目前业界面临的主要管理问题是多种管理架构并存及管理数据的爆炸性增长。企业在自身发展过程中，会不断产Ｊ
生新需求，安装新的管理软件，因此，需要一种通用、开放、
基于标准的管理架构来统一处理软件的复杂性和多样性。在特定存储问题域中，上述问题普遍存在。本文使用的
ｎｃｓａｙｔｔｇａｅａｄｉｔｒｃｎｏｅｎｈｒｄｗａ．ｉａｅｏｃｎｒｔｓｏｔｒｇｅｄｍａｎ，ｎｒｓｎｓａｃｍｍｏｐｎｍａａｅｎｅｅｓｒｏｉｅｒｔｎｎｅａｔｎａｐｎａｄｓａｅｙＴｈｓｐｐｒｃｎｅｔａｅｎｓｏａｏｉａｄｐｅｅｔｏｎｉｎｏｅｎｇｍｅｔａｃｉｅｔｒａｅｎｓａｄｒｆｒｔｏｄｌｎｕｃｉｎｍｏｅ．ｒｕｇｈｈｅｏｎｇｍｅｔｉｆｒａｉｎａｄｍａａｅｎｅａｉｒｔｅｒｈｔｃｕｅｂｓｄｏｔｎａｄｉｏｍａｉｎｍｏｅｄｆｎｔｏｄ１Ｔｈｏｈｔｅｓａｆｍａａｅｎｎｏｍｔｎｎｇｍｅｔｈｖｏ，ｈｎａｒｏｂｓｒｅｆｕｗｈａｅｓｏａｅｓｔｍｓｉｔｇａｅ，ｎｈｎｅａｔｏｓｒａｉｅ．ｅｉｓｏｅＢｌｌｔｒｇｙｓｅｉｎｅｒｔｄａｄｔｅｉｔｒｃｉｎｉｅｌｚｄ

腾讯TBase运维平台架构详解

机架要求
每个节点独立机架，独立供电
机器类型
物理机，如果只能 CVM, 则需要控制节点不要存放于同一台母机上
网络要求
双网卡高可用bond
单中心部署规范
E tc d L e a d er C e n ter S l a ve Confdb Slave
机器 1
01
02
性能指标参考
配置
3 2 Core
128G
2TSSD
机器数 200
节点数 1000
存储周期 3个月
多可用区统一入口部署
广州机房
可用区一
广州机房
可用区二
广州机房
可用区...
谢谢！
20
异地双活四中心部署规范
南生产中心
机器1：ConfdbMaster+EtcdNode+CenterSlave 机器2：Confdb Slave + Etcd Leader + Center Master 北中心机器 5：Etcd Node
北同城中心
机器 3：Confdb Slave + Etcd Node + Center S lave 机器 4：Confdb Slave + Etcd Node + Center Slave
可用性及性能
一主多从，故障时自动选主，访问到备时自动转发，支持高并发，低延迟
故障管理
crontab定时脚本监控拉起，告警
部署要求
2个以上，对于生产系统建议3节点，与etcd共用机器部署
扩展性
可扩容，也可以缩容
承担功能
运营平台大脑，接收运维指令，派发任务给Agent,调度任务

数据中心运维管理框架

数据中心运维管理框架本文档旨在介绍数据中心运维管理框架的重要性和背景信息。

数据中心是现代组织中至关重要的基础设施，它承载着大量的信息和业务流程，对组织的运营至关重要。

数据中心的稳定运行和高效管理是确保组织正常运转的关键。

数据中心运维管理框架是一套指导数据中心运维管理工作的方法和策略。

它包括了各个方面的要素，从基础设施管理到应用服务管理，旨在促进数据中心的稳定性、可靠性、安全性和可扩展性。

随着组织对数据的依赖程度的不断增加，数据中心运维管理变得愈发复杂和关键。

一个良好的数据中心运维管理框架可以帮助组织更好地管理和维护数据中心，确保其高效运行。

数据中心运维管理框架涵盖了以下关键方面：基础设施管理：包括硬件设备的维护和监控、机房环境的管理和控制、网络设备的配置和优化等。

服务器管理：涉及服务器的部署、配置、监控和维护，保证服务器的稳定和高效运行。

存储管理：包括数据存储和备份策略的规划和执行，确保数据的可靠性和安全性。

安全管理：涵盖物理安全和网络安全，确保数据中心的安全性和可信度。

应用服务管理：涉及应用程序的部署、配置、监控和更新，确保应用程序的正常运行。

通过建立一个完善的数据中心运维管理框架，组织可以更好地规划和管理数据中心运维工作，提高数据中心的效率和稳定性，同时降低运维风险和成本。

请注意，本文档旨在提供数据中心运维管理框架的信息和背景，以供参考。

具体实施时，建议根据实际情况和需求进行调整和定制。

本文档旨在阐述数据中心运维管理框架的主要目标和预期结果。

提供清晰的指导和规范：该框架将为数据中心运维管理提供明确的指导和规范，确保运维工作的高效和合规性。

保障数据中心的稳定和可靠性：通过合理的管理策略和措施，该框架将确保数据中心的稳定运行，并提高其可靠性和可用性。

提升运维效率和响应能力：通过优化运维流程和采用适当的技术工具，该框架旨在提升运维效率，并加强对突发事件的快速响应能力。

最小化风险和故障：该框架将帮助数据中心运维团队识别和管理潜在风险，并采取预防措施，以减少故障和事故的发生。

运维架构

通用运维流程架构By@CodeBox-腾讯设计理念1.简单。

2.可扩展。

3.开发量少。

4.无状态。

5.容易问题定位。

设计目标1.单一性，每个运维子系统提供单一最纯粹的服务，比机器资源子系统，域名子系统。

2.原子性，每个子系统的只提供最原始的原子接口，即只提供机制，不提供策略。

3.幂等性，一个接口被多次调用，不会产生副作用。

4.松耦合，每个运维子系统不知道其它子系统的存在，最大程度上解耦。

5.无状态，架构中的每个点都是无状态的，可以任意水平扩展。

6.统一协议，每个运维子系统提供的都是http+json的接口。

架构解析架构图如下：Web层紫色部分是整个运维系统提供的http功能性接口，供web页面或其它系统调用。

设计思路是这样的：接收到大的功能请求后，将其拆成内部子系统(蓝色部分)的原子接口，并根据流程，排列成有序的步骤(图中将cmd拆解成step0,1,2)。

将其作为一个消息投递的绿色的消息总线中，然后http cgi就给调用方返回了(返回一个taskid,供调用方实轮询task运行结果)。

为方便前端调用，cgi可以将以上两个步骤合起了，形成一个同步接口。

消息队列绿色部分是消息队列，是驱动整个系统运转的消息总线。

执行器黑色部分是原子接口执行器excutor，每个excutor对应一个运维子系统(蓝色部分)。

Excutor监听消息总线中属于自己的消息，消息由1中的cgi投递或者其实它上游的excutor投递。

Excutor收到属于自己的消息后，进行个性化的逻辑处理，处理完成后将处理结果写到translog中，供cgi查询；最后excutor将消息重新投放到消息队列中，接收者为下一步的excutor，直到完成。

有两个比较特殊的excutor，Error和Debug。

所有的常规excutor执行发生错误，会将消息的接收者设置为Error，Error会把消息置成回滚状态，重新投递到消息队列中去。

这个时候的执行顺序就是反着的了，step2,step1,step0，依次执行回滚操作。

蓝鲸智云体系介绍

√
√
敏感数据加密
√
√
√
操作审计
√
√
√
作业全局变量
√
√
√
公共脚本库
√
√
√
SQL执行
×√
√
支持PowerShell
√
√
√
API访问次数无限制
×√
√
支持AIX小型机
×√
×
企业级分布式高可用方案
×√
√
表六：集成平台功能/服务差异
类别
社区版企业版公有云版
三个环境（本地开发环境，测试环境，正式环境） √
√
该 SaaS 已在蓝鲸社区版V3.0中推出。
3.标准运维
标准运维是通过一套成熟稳定的任务调度引擎，把在多系统间的工作整合到一个流程，助力运维实现跨系统调度自动化的 SaaS 应用。
该 SaaS 在蓝鲸社区版中暂未推出。
4.日志检索
蓝鲸智云日志检索是为了解决运维场景中查询日志难的问题而推出的一款 SaaS，基于业界主流的全文检索引擎，通过蓝鲸智云的专属 agent 进行日志采集，无需登录各台机器，集中管理所有日志。
该 SaaS 已在蓝鲸社区版V3.0中推出。
产品功能
产品种类
蓝鲸智云根据用户群体和版本特性的差异，目前为用户提供了3套产品：社区版、公有云版、企业版。
产品名称
面向对象
使用方法
描述
社区版
个人或企业
官网下载，自行搭建部署
由蓝鲸智云团队官方提供的一套基础的、基于 PaaS 的
技术解决方案，旨在提高行业运维技能。该版本终身
蓝鲸智云，运维领域的一张新名片，正在多个层次、多个领域崭露着头角，逐渐释放着自身特有的价值，引领着行业新标杆，开创了运维体系2.0的新局面。

蓝鲸 cmdb 表结构

蓝鲸 cmdb 表结构蓝鲸CMDB（Configuration Management Database）是一个用于管理IT资源的配置信息的系统。

CMDB的表结构是CMDB存储数据的基本架构，它包含了各种类型的表和字段，用于存储和管理不同类型的数据。

一、基础表结构1. 资源表（Resource T able）：用于存储所有的IT资源，包括服务器、网络设备、存储设备等。

该表包含字段：资源ID、资源名称、资源类型、IP地址、所属业务等。

2. 关联表（Relation Table）：用于描述资源之间的关系，比如服务器和网络设备之间的连接关系。

该表包含字段：关联ID、资源1 ID、资源2 ID、关系类型等。

二、配置表结构1. 配置项表（Configuration Item T able）：用于存储具体的配置项信息，比如操作系统版本、软件版本等。

该表包含字段：配置项ID、配置项名称、配置项类型、配置项值等。

2. 配置项模板表（Configuration Item Template Table）：用于存储配置项的模板信息，包括配置项名称、配置项类型等。

该表包含字段：模板ID、模板名称、模板类型等。

三、扩展表结构1. 扩展字段表（Extension Field Table）：用于存储自定义的字段信息，可以根据需要对不同类型的资源和配置项添加额外的字段。

该表包含字段：字段ID、字段名称、字段类型等。

2. 扩展关系表（Extension Relation T able）：用于描述资源和配置项之间的扩展关系，例如某个资源和某个配置项之间的关联关系。

该表包含字段：关联ID、资源ID、配置项ID等。

四、权限表结构1. 用户表（User T able）：用于存储系统中的用户信息，包括用户ID、用户名、密码等。

2. 角色表（Role Table）：用于定义不同用户角色的权限，例如管理员、操作员等。

该表包含字段：角色ID、角色名称等。

help_document

移动平台
数据平台
服务器资源集中拓扑化管理多样化的API服务便捷的shell查询脚本
完整的开发框架、调度引擎丰富的组件、页面样例助力运维快速开发自己的app
配置平台
集成平台
作业平台
实时、高并发的文件传输与脚本执行支持底层API封装自动化调用
II. 蓝鲸作业平台是什么？
蓝鲸作业平台
蓝鲸Agent是一个运行在业务机器上的后台程序，承载了蓝鲸体系对OS、容器以及大数据的所有管控功能，是蓝鲸控制IaaS的载体
访问链接 /，添加应用
搜索Agent，添加Agent安装app到桌面
打开Agent安装app，选择业务安装蓝鲸Agent
选择要安装蓝鲸Agent的机器，输入密码和ssh端口后，开始安装
自动化运维操作平台，是蓝鲸体系的一部分支持批量脚本执行、批量文件分发等运维场景，同时支持定时触发任务执行，实现各种复杂运维场景的一键式、自动化操作
支持多种脚本录入方式快速执行并返回结果适用场景：一次性执行脚本任务
脚本执行
支持任意时刻执行指定任务支持任务执行失败触发告警适用场景：需要重复执行的任务，比如：监控、定时备份
查看安装结果，安装成功即可
添加作业平台应用
同样访问：/ 添加作业平台应用，即可开始体验之旅
IV. 蓝鲸作业平台使用场景示
Thank U!
真诚期待，您的加入！
蓝鲸作业平台介绍
腾讯游戏运营部蓝鲸产品中心
I. 蓝鲸是什么？
II. 蓝鲸作业平台是什么？
III. 蓝鲸作业平台如何接入使用？
IV. 蓝鲸作业平台使用场景示例
I. 蓝鲸是什么？
强大的文件管道以及任务管道海量信息的数据上报管道

蓝鲸智云全体系文档

第1章品牌简介腾讯蓝鲸智云，简称蓝鲸，是腾讯互动娱乐事业群（Interactive Entertainment Group，简称 IEG）自研自用的一套用于构建企业研发运营一体化体系的 PaaS 开发框架，提供了 aPaaS（DevOps 流水线、运行环境托管、前后台框架）和 iPaaS（持续集成、CMDB、作业平台、容器管理、数据平台、AI 等原子平台）等模块，帮助企业技术人员快速构建基础运营 PaaS。

传统的 Linux 等单机操作系统已发展数十年，随着云时代的到来，企业所需资源数暴增，操作节点（物理或虚拟服务器及容器）数量普遍达到数千个，大型互联网公司甚至达到百万级别，混合云模式成为常态，虽然 IaaS 供应商的出现从一定程度上解决了资源切割调度问题，但并未很好的解决资源与应用的融合，企业需要一种介于 IaaS 与应用（SaaS）之间的层级，用于屏蔽及控制 IaaS，快速开发及托管 SaaS，我们将其称之为基础 PaaS 层，并着重发展用于研发及托管企业内技术运营类 SaaS 的基础运营 PaaS，并将其作为区别于传统 OS 的下一代企业级分布式运营操作系统。

企业 IT 应用的全生命周期可划分为研发、运维、运营三段，在各行业进行互联网化转型的过程中，融入敏捷思维，即形成持续集成、持续部署、持续运营的概念（CI-CD-CO）。

为降低转型成本，不以增加人力数量为转型前提，腾讯 IEG 以运维团队作为转型起点，充分利用这一群体低价值重复性工作量占比高的特点，从 CD 领域切入，以 PaaS 技术进行运维自动化领域的烟囱治理，形成运维 PaaS 体系。

将自动化所释放的人力资源，转型为运维开发团队，利用 PaaS 的自增长属性，将运维 PaaS 逐步向 CI 及 CO 拓展，最终完成企业级研发 - 运维 - 运营基础 PaaS 构建，落地企业研发运营一体化。

腾讯蓝鲸智云秉承开放共赢的理念，招募及联合国内优质合作伙伴，以改变中国运维行业为起点，致力于推动国内企业借助研发运营一体化，低成本实现企业 IT 经营管理模式升级和自主化。

蓝鲸产品体系生态全貌

器
数据视图
Data API
管
理
容器管理弹性扩缩容
服务发现镜像仓库
AI 平 AI 台
拖拽式建模多场景模型
自动化评估交互式调试
第
三
方
系
￥ OA
. . .
统
文件管道
命令管道
数据管道
管
公有云
控
平
···
台
linux windows 小型机 docker
虚拟机
私有云
linux windows 小型机 docker
SaaS
标准运维
监控系统
故障自愈
智能扩缩
容
日志检索
CI/C D
包管理
运营门户
···
移动平台
PaaS
蓝鲸集成平台
配置平台
作业平台
数据平台
容器管理平台
AI平台
下载平台
第三方系统
管控平台
运营决策
运营工具运营保障
G O P S 2017 全球运维大会 · 深圳站
运维自动化阶段和目标
···
虚拟机
混合云
linux windows 小型机 docker
···
虚拟机
G O P S 2017 全球运维大会 · 深圳站
体系化设计
G O P S 2017 全球运维大会 · 深圳站
技术运营的服务进阶
SaaS
标准运维
监控系统
故障自愈
智能扩缩
容
日志检索
CI/C D
目录
目录
CONTENTS

腾讯蓝鲸智云生态建设

实时t u c 标测试服发布系统
培训管理系统面试管理系统物资r 请系统技术大赛管理绩效考 L 系统业务y 级评定发文管理系统 DD 营xH
d
x x x 运维门
户大屏tu管理 51报表配置查询测试服管理
业务配置修K
运营M 动管理用户· 析 x x 运营n i 电竞管理系统 DD
专业领域人才挖掘，直通一线企业就业机会
海量自动化运营能力
传统运维到技术运营的理念- 级
认证工程师认证考试
认证工程师考试现场
目录
• 蓝鲸概况
• 行业影响 • 共建生态 • 依旧 ( 19) 前行
实战公开课
两地开课
内容丰富
基于PaaS快速构建企业自动化运营系统
上海北京
基于iPaaS调度引擎快速整合企业多样化系统基于开源CMDB轻松打造企业个性化配置管理系统
蓝鲸监控
【新增】主线模型限制添_关联字段
【新增】二进制文件 --version 输W 更多的构建S息【新增】删除模型时_T检测被删模型是p已被实例化，如果已被实例化则禁止删除【新增】导T 数据支持数字到字符 D 的自 a转换【M化】时区默认改 E A 海 mongdb 配置支持集群模式增 _关联关系存 v 检测等 d 多项
12月22日 11月3日 11月24日 10月13日
《依托开放式采集能力落地企业控& 《基于iPaaS调度引擎快速整合企业内多样化系统》故障自动处理一体化建设》
实战公开课－课程现场
2018年10月13日，-蓝鲸智云联合腾讯云学院主办TeckWork-蓝鲸智云专场第一讲《基千PAAS快速构建企业自动化运营系统》。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

腾讯蓝鲸运维体系架构设计引子蓝鲸是腾讯游戏应用运维（ARE）技术生态体系的代号，由正在逐步产品化的六大运维平台和众多应用运维（含devops）、运营规划等人员构成。

在应用运维这一领域，蓝鲸以“独特”的方式承载着半个腾讯，也承载着国内游戏行业半数份额。

出自应用运维团队的蓝鲸体系，最初的设计理念，是希望能武装运维，使其可以提供更高维度的服务。

例如，为产品、策划、运营等岗位提供：1.自助化的运营工具；2.数据化决策支持；3.直接的用户体验改善等。

我们受邀于7月16号晚上在高效运维1号群做一次专题分享（届时将有多个群转播，超过1500人在线收看、互动），本文是为保障群内分享效果而提前撰写的背景和概要介绍。

本文尝试以半叙事的方式，概述蓝鲸出现的背景，设计理念，和落地方式，希望业界广大应用运维同行们，在我们的发展历程中能找到自己现阶段的影子，共鸣共勉，共同努力，繁荣应用运维生态。

1. 蓝鲸的背景：运维转型十年前，我们的业务运维忙于这些工作：服务器、网络、OS、DB、发布、变更、监控、故障处理、运营环境信息维护提取等等。

这些工作大多是被动的，或者说是“需求驱动型的“，运维大多数时候在被动的为产品、策划、运营、开发等合作岗位的同学提供操作服务，而且很多是重复性的操作服务。

五年前，我们的一个运维小组发起了转型尝试，目标是使我们的运维团队从“操作服务输出”，转型为“解决方案服务输出”。

三年前，也就是2012年，依据这个先行试点团队的效果评估，整个腾讯游戏的十余个运维团队（目前200+运维）走上了艰难的转型之路，作为落地承载方案的蓝鲸体系同时开始构建。

当年促使我们决心转型的原因，可以归结为以下三点。

原因1：业务红海化行业竞争很激烈，精细化运营越来越重要。

产品和运营人员忙于更贴近用户体验的业务设计和运营设计，开发团队忙于更快更可靠的实现，运维团队则希望为用户提供更高的可用性，不论是刮风下雨，还是发布变更，都能将业务可用性保持在无限接近7*24（此处省略几万字）。

在此之上，还需要能为产品策划运营等其它岗位提供各类运营工具以提高“产品运营”的效率（一直以来，腾讯运维的职能在内部被定义为“技术运营”，所有运维们所在的职级通道就叫做“技术运营通道”），甚至能为运营决策提供准确的数据依据。

原因2：“传统运维”生存空间塌缩几年前我们预感到“传统运维”的职能空间会被逐步压缩：比如一些新技术对运维的传统工作会有一些冲击（此处省略几万字），这一点到今天已经不用再展开说了，近一年运维领域各类危机言论开始满天飞了。

再比如开发团队出于追求更高可用性等原因，在运维不给力的情况下会直接涉足精细化运营领域。

虽然我们认为运维始终是不可或缺的，但也不得不承认传统运维的需求量会有一定的减少，岗位的萎缩对所有从业者都不是好消息，出于自救我们也要尝试转型。

原因3：我们太累了那些年，腾讯游戏疯狂的增长，如果不转型，别提什么辅助决策这样的高级玩意儿，就是发布变更、故障处理之类的运维基础工作都会把我们拖死。

因此，运维转型的长远目标可以归结为：将基础运维服务（发布变更、监控处理、数值调整、数据提取等）尽可能做到运维无人值守，运维提供解决方案（工具）;同时负责随时调整解决方案，但不提供重复性的操作服务，由使用者自助或者外包团队操作；运维分出一部分精力，尝试“用户体验优化”和“运营决策辅助”等运维增值服务。

2. 蓝鲸的设计思想和很多公司的情况不同，在腾讯游戏设计运维技术体系，有4个天然的难处。

1.在运维眼里，这里几乎有着互联网行业中所有的业务类型：有重客户端游戏，网页游戏，各类官网，移动终端游戏，大型游戏平台（平铺式架构，拓扑关系复杂，模块数量上百，服务器数量几千）……2.这里几乎有着互联网行业中所有的流行技术，因为腾讯游戏300多款业务中，大多数是由世界各地开发商开发出来，由腾讯独家代理的所谓“独代游戏”。

因此，这些游戏所使用的开发语言、开发框架、操作系统、数据库等技术组合，是没有直观规律的。

而且由于游戏从签订代理合同到上线运营之间的间隔时间越来越短，开发商很难为了运维体系而对架构或技术做大规模的修改。

3.300多款游戏相互之间是没有关系的，发布变更、故障处理等运维操作场景和操作流程是没有直观规律的，即便是同一个游戏，也可能因为上了一个新版本，新增了几种后台server，或者改变了表结构，而导致运维操作流程发生改变。

4.这些游戏的服务器数量，也就是操作单元，有十余万，而随着容器技术的普及，操作单元的数量还会暴涨。

因此，蓝鲸的设计，不能侵入业务架构，不能依赖业务架构，不能依赖业务所使用的技术，不能依赖有统一的运维操作流程甚至，也最好别指望开发商为你做什么改造，还得支持海量场景（最好能支持十万级操作单元并发）。

最终，我们总结出来的共同点是：运维通过linux命令，可以搞定所有“发布变更故障处理等”运维操作流程。

虽然只有这一点，但也足够了，这至少说明，运维的基础服务，不论是发布变更还是告警处理，都是可以分步骤的，步骤可能是串行的，也可能有分支结构。

蓝鲸的设计思路是：尽可能将单个步骤抽象为原子，再将原子自动化，而后通过任务引擎连接成“串”或者“树状分支结构”实现全自动化。

这种参照SOA的设计，其最大优点在于不依赖业务类型，不依赖架构，不依赖场景，只要运维手工能做的，都可以做成无人值守。

运维需要做两件事，将原子自动化和将原子集成为工具，这两件事也正是蓝鲸体系武装运维的切入点。

1）将原子自动化：运维通过命令可以做的步骤，在蓝鲸作业平台上封装个脚本，就变成了可集成的自动化原子，而运维通过其他运营系统页面操作的步骤，由蓝鲸集成平台中的ESB平台与其对接好接口之后，也变成了可集成的自动化原子。

2）将原子集成为工具：运维/运营工具的开发对传统运维是有一定障碍的，蓝鲸通过几方面的工作来解决这个问题。

在“蓝鲸集成平台”（蓝鲸体系目前有6个平台）中构建了一个PaaS模块，业务运维（devops）无需关注找服务器、部署环境（各种包、mysql、nginx等）等步骤，只需要写好工具本身的逻辑代码上装到PaaS容器就行了，同时还免除了工具的运维成本（高可用、故障修复等）。

基于docker技术，工具的部署也是一键式的。

其次是开发了一套工具代码框架，内置了统一登录、权限、tag等通用功能，更重要的是，不需要一个一个去对接各个系统的接口（原子），因为ESB模块都封装好了，只要写个函数就可以调用这些原子。

再有就是解决运维的前端开发难题——前端样例库。

提供了“从各种页面元素到不同类型的运维工具的页面组合套餐”，减少了运维消耗在前端开发上的时间。

最后，还为蓝鲸开发者提供培训，一般来说，新进毕业生在通过四周以内的培训之后，就可以独立在蓝鲸集成平台中构建APP工具。

到此，蓝鲸已经基本解决了运维构建工具高门槛的问题，而且可以随时低成本的根据业务变化（例如新增了模块，导致发布变更、告警处理流程都变了）调整工具。

运维在“转型”的过程中，需要补充或者需要强化的技能，只有python（Django）和shell及初浅的web开发，这对大多数运维来说，都是可以接受的。

在这种设计模式下，蓝鲸团队的建设方向就很清晰了：1.继续降低工具本身的开发成本，提高PaaS模块的可靠性；2.扩展原子服务，找出运维海量操作流程中，重复度最高的一些原子，构建成平台，封装接口提供给PaaS作为自动化原子，让运维更轻松的调度更多节点，提升单个节点功能密度，升级拓展更多的流程，直到把流程升级到运维无人值守，升级到对产品、策划等岗位的闭环服务为止。

经过三年的发展，蓝鲸体系构建了六个平台，其中后四个都是直接或间接提供原子服务供运维集成的功能性平台：蓝鲸集成平台：包含PaaS、ESB、开发框架、web样例等模块，是运维制作工具APP的平台。

蓝鲸移动平台：蓝鲸体系的移动端操作入口。

蓝鲸作业平台：各种大小文件传输，含参脚本执行类的动作，可以在蓝鲸作业平台封装，通过接口操控。

蓝鲸配置平台：从业务的各层分级结构到子节点的各类属性，都可以直观的存储于蓝鲸配置平台，通过接口存取。

蓝鲸管控平台：一套基于海量标准设计的管控系统，为作业平台提供文件管道和任务管道，为数据平台提供数据管道等，整个蓝鲸体系对OS及容器单元、大数据的所有管控，只依赖管控平台的一个智能agent。

蓝鲸数据平台：基于kafka、storm构建的供应用运维使用的实时计算平台，为上层蓝鲸集成平台上的智能决策类工具族、数据视图类工具族、辅助决策类工具族提供大数据处理及实时计算能力。

Storm之类的技术早已不新鲜，但供运维“使用”的比较少见。

上述平台大多是由运维“维护”的，为了适应运维的技能树，蓝鲸数据平台包括如下特性：1.提供了在线IDE，运维可以用相对熟悉的yaml语言描述运算逻辑，而不需要学习java；2.通过各种渠道对接了大量常用的运营环境数据（客户端数据、服务端数据、网络数据、自定义数据源、在线、登陆、发布变更、营销活动、故障等运营事件）;3.提供了数据字典供运维针对个性化的业务选用实时数据组合来做“运维自动决策”或者“辅助运营决策”。

目前已有的这六个平台的组合，给了应用运维近乎无限的发挥空间。

我们内部有三个运维中心，十几个应用运维组，他们各自支持着不同的业务，各自处于不同的发展阶段和能力水平。

出自应用运维团队的蓝鲸团队，在与他们不断的磨合中持续改进着各个平台，武装应用运维逐级提升服务能力。

一般来说，分三个阶段.大家“尽量”将重复性的，由“运营环境”触发的工作，例如缩容、扩容、开区、合服、告警处理、故障处理等做成全自动化的无人值守，业务架构或者业务需求有变化的时候才去调整解决方案，这算是解放了应用运维自己，至少晚上可以好好睡觉。

因为这类运维基础服务，应用运维必须做好，至于付出的成本和代价，产品策划和开发团队其实并不在意。

或许只有运维经理或运维总监在意，不但在意团队做这类工作的质量成本和效率，还在意做的方式，至少在一个组织架构下，必须是相对标准化的，绝不能是一个人搞一套，走一个员工就要对单个业务的单个场景工具做交接或者推倒重来。

至少在蓝鲸体系下，这类工具用的都是相同的原子组件，相同的集成方式。

将“人”（产品、策划、开发等）触发的工作例如发布、变更、配置调整、日志或数据提取等工作封装成蓝鲸集成平台上的自助APP工具，由产品自己操作或者转给外包操作。

这样既进一步解放了应用运维自己，也让相关岗位的同事不用再看运维脸色，等运维排期，自己就能随时做“产品运营”。

如果做到这一步，应用运维就算是切入业务运营核心流程了，因为越是竞争激烈的重点产品，在“运营”过程中越需要频繁的做重复性的不涉及业务架构的功能或配置调整，例如改数值、改图片、上传加载新脚本等等，其实就是业务的“后台管理端”。