2020年全球运维大会-传统运维组织的破局转型之路
2020年GOPS全球运维大会-万亿数据量下美团实时监控体系演进
用户端大盘
用户访问监控
用户资源监控
CAT简介 - 服务端监控
• 性能指标:Transaction • 异常指标:Event/Problem • 系统指标:Heartbeat • 业务指标:Metric • 调用链路:Logview
性能指标 - Transaction
Transaction 趋势统计
通信 能力
存储 能力
架构演进 - 存储管理
CAT 消费机
CAT 消费机
CAT 消费机
• 分库分表
CAT 消费机
• HDFS访问优化
CAT Portal /API
架构演进 - 存储选型
ES 存储的引入
架构演进 - 计算架构1.0
1. 2. 3. 4.
多种类型分析器 占据较多计算 小时跨度、内存资源消耗多 高可用风险大
• Transaction • Event • Problem • Heartbeat • ……
架构演进 - 计算架构2.0
Elastic Search
1. 报表、指标拆分 2. 通用性、高健壮性 3. 初步聚合、减负,下放计算职责 4. 实时发送、减少内存
1. 二次聚合 2. 计算节点低耦合 3. 高可用、可回溯
水平扩容gops全球运维大会2020上海站架构2015年meta信息?配置cat服务端路由?本机维护?修改重启生效一个应用直连一个cat服务器水平扩容不够优雅gops全球运维大会2020上海站架构演进平滑扩容?去除本机配置依赖?动态负载均衡策略?路由实时生效catportalapicat消费机cat消费机gops全球运维大会2020上海站技术挑战消息量增长10倍处理能力通信能力存储能力gops全球运维大会2020上海站架构演进异地接入?数据增多?跨机房区域?专线压力catportalapicat消费机cat消费机catportalapicat消费机cat消费机gops全球运维大会2020上海站架构演进异地扩容北京机房扩容专线抖动压力cat消费机cat消费机cat消费机cat消费机catportalapigops全球运维大会2020上海站架构演进异地存储cat消费机cat消费机cat消费机cat消费机catportalapigops全球运维大会2020上海站客户端演进采样聚合未采样消息从内存队列取出后进行打包发送
2020年GOPS全球运维大会-云化环境下智能运维实践
当前最佳配置在 平台沉淀。配置 基线统一管理, 包括调优配置、 安全配置等,维 护版本基线和配 置基线,统一标 准管理,支持版 本管理,在平台 沉淀调优经验。
多种类批量 启停、配置变更 等生命周期管理 操作。
第五步.构建运维大脑,AI赋能运维
智能发现
第六步.监控运维操作联动-故障自愈
提前在平台内预置维护故障自愈的场景,选
01
择是否需要人工干预。
基于多维度监控指标数据, 通过A I 中台进
02
行 数据分析, 及时发现存在实例宕机情况
,告 警的同时发送信息到相关运维人员。
运维人员确认后,触发相关的故障自愈动作,
03
并在对话框返回处理结果。
在故障自愈结果中反馈故障自愈效果,以
以“智能”为内核,以TL和DevOps最佳实践为指导I
以资源为核心建立统一运维管理门户
以流程、自动化,智能化为手段实现运维的全生
命
周期管理
以数据为基础驱动建立数字化运营平台
智能运维解决方案落地思考-价值驱动
面向应用资源管理
实现资源的集中化、标 准化、规范化管理。 • 构建适合云环境的
资 源模型。 • 数据的实时性、准
支持跨模型的全 局检索,快速查 询资产详细信息, 例如:资源关系、 资源归属、应用 管理关系等。
平台内置多种软 硬件资源自动发 现能力,可扩展, 自动纠错与稽查 资源数据质量, 确保准确性。
整合用户现有运 维能力,统一运 维门户,运维操 作可跟踪、可审 计、更安全,统 一API服务,能力 开放促进数据消 费。
异常检测 系统健康分析 低效资产判定 调用链异常检
测
智能定位
根因分析 告警收敛 智能巡检 多源日志分
运维的趋势
运维的趋势运维的趋势随着信息技术的快速发展和互联网的普及,运维作为企业信息化建设的重要组成部分,其重要性也日益提升。
而在不断变化的技术环境下,运维也在发生许多新的变化和趋势。
以下是当前运维领域的几个重要趋势。
第一,自动化与自动化运维工具的普及。
随着云计算、大数据、人工智能等新技术的发展,以及业务的快速增长,运维工作变得越来越复杂和繁琐。
在这种情况下,运维团队积极采用自动化工具和技术,以提高运维效率和质量。
例如,通过编写脚本和使用自动化工具,可以实现自动化部署、自动化监控、自动化故障排除等操作。
这不仅可以节省人力成本,提高工作效率,还可以减少人为错误,提高系统的可靠性和稳定性。
第二,DevOps文化的推广。
DevOps是开发(Development)和运维(Operations)的结合,通过加强开发和运维之间的合作与沟通,实现软件开发、交付和运维的快速、稳定和高质量。
DevOps文化强调跨职能团队协作、自动化和持续集成等理念,使得软件开发和运维不再是相互独立的环节,而是紧密结合、相互支持的过程。
在DevOps模式中,运维人员参与到整个软件开发的过程中,及早解决潜在的运维问题,提高服务的可靠性和稳定性。
第三,容器技术的应用。
容器技术是一种轻量级的虚拟化技术,可以将应用程序及其依赖项打包成可移植的容器,实现快速部署和可靠运行。
运维团队可以使用容器技术来实现快速的应用部署、动态的资源调度和弹性扩展等目标。
与传统的虚拟机相比,容器具有更低的资源消耗和更快的启动速度,能够提高系统的利用率和灵活性。
因此,容器技术在运维领域得到广泛的应用和推广。
第四,安全运维的重要性凸显。
随着互联网的快速发展,网络安全问题也日益严重。
对于运维团队来说,确保系统和数据的安全性是至关重要的。
因此,安全运维成为当前运维领域的一个重要趋势。
运维人员需要具备网络安全方面的知识和技能,建立健全的安全管理制度,采用安全监控和防护工具,及时发现和应对各种安全威胁。
阿里巴巴运维体系变迁史
阿里巴巴运维体系变迁史作者丨毕玄编辑|谢然每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。
本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点,回顾了阿里巴巴从工具化到自动化的过程,接着分享了阿里巴巴在智能化领域的探索路线,最后总结了未来运维团队所面临的巨大挑战,特别是运维智能化落地,有效性提升,以及最终效率提升及成本节约上带来的挑战。
注:本文首发自InfoQ 运维公众号,高效开发运维,ID:DevOpsGeek,推荐关注。
随着大数据、机器学习和AI 技术的飞速发展,智能化运维成为运维的热点领域。
Gartner 的报告宣称,到2020 年,将近50% 的企业将会在他们的业务和IT 运维方面采用AIOps,远远高于今天的10%。
尽管AIOps 还是一个新名词,但它无疑代表了运维未来的一种趋势。
智能化运维的终极目标,就是将运维人员从繁琐的工作中解放出来,提高整体运维效率,降低运维成本,实现业务系统的高可用性。
运维环境的异构和复杂化,导致日常运维工作需要付出的人力、时间成本越来越高。
大约两年前,智能化运维开始被大家广泛关注,随着大数据分析、APM、智能异常检测、机器学习等技术的兴起和逐渐成熟,运维需求也逐渐向自动化和智能化过渡。
从最初级运维发展到现在智能化运维,大致经历了四个阶段:脚本时代——工具时代——自动化时代——智能化时代。
目前业界真正的智能化运维的落地实践其实并不多,大多还是停留在自动化甚至人工化阶段,然而智能化运维是大势所趋,对于大公司来说,更是尤为重要。
以下整理自2017 上海CNUTCon 全球运维技术大会上,阿里巴巴研发效能团队负责人,阿里研究员毕玄的演讲《智能时代的新运维》。
1 阿里的运维体系承载着怎样的责任?阿里的运维体系介绍阿里的运维团队,主要覆盖五个层面。
一.资源的规划与支付是运维的基石整个运维团队需要负责资源的规划、资源的交付。
Quota 管理:比如我们会跟业务团队做一些预算的管理,对于每个业务团队首先需要有预算。
it运维发展历程
it运维发展历程IT运维发展历程随着信息技术的不断发展,IT运维作为一项重要的工作职能逐渐崭露头角,并在过去几十年中经历了较长的发展历程。
本文将从IT运维的起源、发展、现状等方面进行探讨。
一、起源IT运维的起源可以追溯到计算机诞生之初。
当时,计算机主要由大型机和批处理系统组成,这些系统需要专门的人员进行操作和维护。
随着计算机的普及,运维工作也逐渐成为企业中不可或缺的一部分。
二、发展1. 传统运维时代在早期,IT运维主要是以硬件维护为主,包括设备安装、维修、故障处理等。
这个时期的运维人员主要是技术工程师,对于软件的维护和优化了解较少。
2. 自动化运维时代随着计算机技术的不断进步,自动化运维逐渐成为主流。
自动化运维工具的出现,使得运维人员可以通过脚本和程序实现一些常规操作的自动化,减少了人工操作的工作量。
3. 云计算时代随着云计算技术的兴起,IT运维也发生了革命性的变化。
云计算提供了更灵活、高效的资源管理方式,使企业能够按需购买和使用计算资源。
IT运维人员需要适应云计算环境下的管理方式,掌握云平台的操作和维护技术。
4. DevOps时代DevOps是开发(Development)和运维(Operations)的结合,旨在实现软件开发和运维工作的紧密结合,加快软件的交付和部署速度。
DevOps倡导自动化、协作和持续交付的理念,使得IT运维作为一个整体流程被更好地管理和优化。
三、现状IT运维已经成为企业中不可或缺的一部分,并且得到了越来越多的重视和投入。
随着技术的不断发展,IT运维的工作内容也在不断扩展和深化。
除了传统的硬件维护和故障处理外,IT运维人员还需要掌握网络安全、数据库管理、云计算等技术,以应对不断变化的需求。
IT运维也面临一些挑战。
例如,随着云计算的普及,传统的硬件维护工作逐渐减少,IT运维人员需要转型学习新的技术和理念。
此外,IT运维人员还需要不断提升自己的技术能力,跟上技术的发展步伐。
总结起来,IT运维发展历程经历了从传统运维到自动化运维,再到云计算和DevOps的演变过程。
2020年中国IT运维管理行业下游行业发展现状和前景分析
十张图带你看2020年中国IT运维管理行业下游行业发展现状和前景分析随着5G的全面商用,IT运维成为企业的技术管理中的重中之中。
在下游需求端中,电信、政府机构、金融、电力和互联网等行业成为IT运维管理的重要客户。
长远来看,在大数据背景下,IT运维管理有着良好的发展前景。
中国IT运维管理行业下游行业发展现状和前景趋势从需求端来看,中国IT运维管理行业主要应用于电信、政府机构、金融、电力行业和互联网行业。
随着5G的商用以及“云端”等大数据的深度融合,各行各业已经在大数据的背景下进行了全新的转型。
而在这个过程中,数据的运营和维护变得极为重要;就政府机构来说,相比其他行业,政府机构对运维的安全保障有着更高的要求。
为顺应软硬件产品国产化的紧迫需要,第三方运维服务商加大对国产产品的研发投入,以支持国产化政府数据中心的运维管理。
云计算环境下,政府数据中心的安全维护涉及业务信息安全、网络隐患、系统安全、数据安全的等层面,具备相应专业能力和经验积累的第三方运维服务商竞争优势较大。
——电信行业IT运维服务将保持10%左右的增速移动互联网时代下的短信和语音等传统现金流业务受到冲击,运营商需要建立起面向客户的,以服务保障为手段、以客户业务包装和服务质量为主要管理内容的运维管理体系,通过在运维流程中引入ITIL标准,运营商建立起规范的服务体系,为优化改善服务质量和流程提供有限支撑。
云计算和物联网等新兴业务的出现,加之传统的固网和无线网络业务量的增长,导致运营商网络的运维管理变得日益复杂,网络维护的难度和工作量已经超出其自身可承担的能力范围。
电信行业对产品和服务精细化运营的需求,电信运营商倾向于将网络优化、集成开发以外的运维工作外包给专业的运维服务商。
信息系统的建设是电信运营商发展的重中之重,电信行业的IT成熟度远超过其他行业。
2019年,电信行业IT运维服务市场规模达到291.8亿元。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
望楼Βιβλιοθήκη 云技术栈转型-肉牛架构• 随意割肉 • 随意交换
云技术栈转型-肉牛架构
• 随意宰杀 • 随意丢弃
当云服务器遇到问题时,不会 分 析或尝试修复它,而是“宰 杀”“丢弃”它,另启一台!
云技术栈转型-肉牛架构
• 可以死牛不能傻牛
运维理念转型-全局智能
单 个 网 元 打 分 + 全 局 智 能 关 联
训狗师
渐变区
高技能、 非结构化
优化型
远程家教老师
客户代表
放射科医生
税务助理
危险区
核保人
简单翻译
创意、 决策型
专栏作家
渐变区 美术设计师
医学研究
员财务分析师
科学家
弱社交
个人信用评估
弱社交
艺术家
体力劳动就业风险
脑力劳动就业风险
强社交、高技能、创意决策型的工作才不会被替代!
传统运维弱社交、结构化技能、优化型技能!
万物互联的智能时代
工业革命 电力革命
5G 物联网
云计算
信息革命
未来第四次革命 IT构筑智能时代泛在智能基础设施!
大数据 人工智能
危机中的机遇——浙江移动IT发展为例
开始研究云 计算技术
2009
研究并推广 数据库一体
机
尝试容器技术建 设DCOS平台 尝试敏捷方法 界面互联网化
2013
2014
研究并推广微服 务架构
”
背锅低落丧气
运维士气 斗志高昂积极创新的主力
传统保守维稳
运维心态 既能保稳定,又能拥抱变化
转型落地心得
AI目前只擅长解决部分问题, 这类问题的特点是:
1 有充足的数据或知识 2 信息是确定的 3 信息是完全的 4 有明确定义的 5 单领域 -中 科 院院 士 张 钹 2018.05
肉牛
在 Acquire、 Aggregate、 Analyze、 Act四个阶段, AIOps在不断进化,但能力有高下
大案牍术 案件关联
运维技能转型-多维技能
运维人员
开发工程师? 算法工程师?
全栈工程师!!!
运 营 运 维 建模 开发 算法 测试
。。。
运维技能转型-多维技能
运维人员
技术架构师 产品经理 数据工程师 算法工程师
运维战略转型-数字世界
运维对象
属性
运维动作
操作记录
关系
变更记录
状态 (指标、日志、告警)
传统运维组织的破局转型之路
传统运维人员困局
强社交
结合区餐厅饮食服务
酒吧接待
人工智能时代就业风险图
强社交
老人看护
理安疗师 全区
发型师
老师
门房
结合区 婚礼策划师
全科医生
社工
导游
CEO
安全区并购专家 心理治疗师
理财顾问
市场公关总监
低技能、 结构化
酒店接待
危险区 出纳/收银
配送工
洗碗工
服装厂工人 快餐厨师
网络攻击?文件篡改?……
浙江移动专场(四)浙江移动运维大数据中台建设之路
转型迷茫期:拥抱智慧运 维该走那条路?
运维大中台到底是什么, 凑热闹还是刚需?
AIOPS落地有哪些坑?如何 进行AIOPS场景化实践
《服务亿级用户:浙江移动运维大数据中台建设之路》
谢谢
Ambiguity (模糊性)
组织架构复杂
故障定界不确定 维护界面模糊
运维十二时辰破局转型
组织架构转型
从竖井架构到分层架构
运维技能转型
从单一技能到多维技能
基础设施 搭建者
运维理念转型
从单点智能到全局智能
云技术栈转型 从宠物主机到肉牛设备
运维战略转型
从物理世界到数字世界
组织架构转型-分层架构
业务运维:用户体验
浙江移动专场(一)SRE转型之路
浙江移动专场(二)网络转型之路
浙江移动专场(三)容器云如何助力企业云原生应用落地?
高可用性、低故障率?……
走好“最后一公里”,标 准明确,技术规范?……
传统无状态?有状 态服 务 ? AI等新场景?……
稳定
上线快
容器云
应用广
安全
自主 可控
高效
架构可控、组件可控?…… 弹性扩缩?智慧运维?……
建成DevOps平 台
完成核心系统全面
容器化
研究并试点 AI
完成核心系统全面 微服务化 实施SRE
提出大IT架构
实施运维大数据 中台
实施AIOps
2016
2017
2018
危机中的机遇——云化后的VUCA世界
新技术栈/组件层出不穷
Volatility (易变性)
Uncertainty (不确定性)
Complexity (复杂性)
运维知识
专家经验
数字运维世界
通过对运维数据服务化和操作服务化, 将物理运维世界的对象转变为数字世界
运维面貌变化
MTTR
MTBF
转型前
转型后
运
日常操作执行为主 工作重心 运维开发代码为主
维
面 貌
人维护系统
维护角色 人维护代码,代码维护系统
”
六 大
开发追着运维交维 交维过程 运维追着开发交维
转
变
与开发从原先上下游 开发协同 双向赋能的平行关系
应用运维:业务连续端到端-SRE 平台运维:平台集成一体化-CIE
组织架构转型-分层架构
靖安司
保障云上业务 高可用
运维不再 是背锅侠
利益
管控业务应用 架构和上云
SRE/CRE 责权利平等,促使驱动力改变
云技术栈转型-肉牛架构
• 精心呵护 • 悉心照料 • 实时照看
肉牛! 肉牛!!
• 随意割肉 • 随意宰杀 • 随意丢弃 • 随意交换 • 可以死牛不能傻牛