2020年全球互联网运维大会-移动基础设施AIOps实践及探索v2.1
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
位提升办公来访、机房出入的管理效率,增强基础设施安全管理能力。
移动方
合作方
安保
进入9、10楼 办公区
离园打卡
来访申请
申请审核
获得 通行码
扫码放行 入园
扫码过 一楼闸机
办公
u 未来功能演进
进一步结合5G、AR、AI、MEC技术,将资源数据融合,识别机房设备,为现场运维人员第一时间呈现 设备运行状态、告警、业务量等数据。
智慧机房实践案例分享
云巢系列
网络故障频发
独孤九剑 之 破掌式
智码开门
智慧机房——智码开门
智码开门——通过融合互联网、物联网、AI技术,打造集自动化、智能化为一体的办公来访、机房出入管理工具,全方
当基础设施运维遇到AIOps
l AIOps智能运维 = 机器学习+自动化运维
基础运维 = 气宗 + 剑宗
人工运维
主要是利用单独的脚
本、或基者一础些简单的 工具,武没有学较为完善
的系统和运维理念, 流程在于摸索阶段。
工具运维
开发功能较为完善的
工具,剑并经术过不断改 进,工研具越习来越成熟,
业内就IT研发和运维 逐步达成共识, Devops理念开始提出。
需求分析、规划开发、业务测试、业务加载、精细运营、下线
协作部门多
采购物流部、工程建设部、规划技术部、网络部
涉及平台多
相关平台脉络复杂,纵横交错
自动化水平弱
人工录入
手工配置 邮件沟通
运营商基础设施运维现状
基础运维门派解析
厂商依赖
网络关故系障错频综发复杂
厂家一 网管/控制器
厂家二 网管/控制器
软硬件耦合
云之巢,莫问运维路—— 浙江移动基础设施AIOps实践及探索
有人的地方,就有江湖。
斗转星移,日月流梭,转眼来到了二十一世纪……. 有江湖的地方,就有纷争。 这是一个互联网的江湖…… 于是,便诞生了武功。
武功化身为技术。 基础运维则是整个互联网的根本,
支撑着江湖的潮起潮涌……
目录
1 运营商基础设施运维现状 2 当基础设施运维遇到AIOps 3 智慧机房实践案例分享 4 运营商领域AIOps实施的困难及思考 5 “莫问”AI使能平台介绍
DevOps
Devops工具链非常成
熟 , SR内E 、力Chatops 等高级形修式出炼现,运
维流程和运维措施方 面实现完全自动化。
AIOps
主要强调运维类人化,
机器的人自我剑学习、自 行分析合决策一,自动化
去执行脚本。
当基础设施运维遇到AIOps
l CT领域基础设施运维
聚焦下一代网络云资源管理、设备及工程人员出入、故障抢修、动力设备节能降耗。
u 现有功能简介 AR眼镜将现场拍摄到的图像实时传给专家,专家可在图像上勾画标记并回传给现场的AR眼镜上,从而
实现远程协助。
l 专家可以选择画箭头,画框,标记,输入文字 等方法,向眼镜端传递更准确的信息。
l 眼镜端可以实时呈现专家所做出的标记, 辅助语音视频,使远程协助更流畅。
智慧机房——远程抢修
审核粗放
审核操作共用帐号、进出操作共用白卡,风险大
进出权限非本人审批,存在引发核心机房故障,用户及重要 设备数据泄露的风险。
运营商基础设施运维现状
基础运维门派解析
全球数据中心耗电量
网络修故炼障消频耗发巨大
10年数据中心运营成本构成
以PUE=2.0计算
数据来源:2018全球电力报告,Forbes
l 腾讯天津数据中心
智慧机房实践案例分享
云巢系列
网络故障频发
独孤九剑 之 破箭式
远程抢修
智慧机房——远程抢修
随着通信技术的飞速发展,业务数据量迅猛增长,机房维保工作面临着巨大的考验。基于AR+AI的 远程抢修,实现了远程专家对现场抢修的隔空指导,解决了机房维保工作时效性不足,成本高等问题。
5G
边缘计算
AR
AI
智慧机房——远程抢修
运营商基础设施运维现状
基础运维门派解析 网络管故理障粗频放发陈旧
模式陈旧
基础设施运维欠缺自动化、智能化管理能力
工程进度难管控
作业时段不可控,脱离内部人员管控
工程时间不确定,内部人ቤተ መጻሕፍቲ ባይዱ难以掌控工程进度、结果,延 长工程时间申请不够正式,难追溯。
来访接人登记耗时长,线下操作不够便携,白卡、半个小时。
因服务器故障,今日头条全站及头 条号后台全部无法访问
新浪微博的服务器失去响应,宕机 时间接近1小时。
运营商基础设施运维现状
基础运维门派解析 网络入故门障庞频杂发繁琐
更新迭代快
建设环节多
自2016年起,集团组织三轮NFV试点测试、两轮Novonet试点
pue<1.3
l 阿里巴巴张北数据中心 pue=1.2
电费占70%,制冷占总能耗30%+
l Yahoo Lockport pue=1.08 l Facebook Oregon Prineville pue=1.07
注:PUE = 数据中心总设备能耗/IT设备能耗
目录
1 运营商基础设施运维现状 2 当基础设施运维遇到AIOps 3 智慧机房实践案例分享 4 运营商领域AIOps实施的困难及思考 5 “莫问”AI使能平台介绍
独孤九剑--云巢系列(智慧机房)
狂风快剑--天枢系列(智慧网络) 连环三仙剑--地脉系列(智慧传输)
• 支撑DevOps/SRE • 一站式开发测试环境
——
智
慧
网
络
「狂风快剑」
——
智
慧
机
「独孤九剑」
房
——
智 慧 传
输
「连环三仙剑」
目录
1 运营商基础设施运维现状 2 当基础设施运维遇到AIOps 3 智慧机房实践案例分享 4 运营商领域AIOps实施的困难及思考 5 “莫问”AI使能平台介绍
运营商基础设施运维现状
互联网纷争
网络故障频发 发
IBM云的信用度受到影响,客户用 户访问其Bluemix云基础框架的一 个管理网站服务中断了数小时。
GitLab极受欢迎的线上代码库— —遭遇了18小时的服 务中断,最终无法完全修复。
微软Azure公有云出现超过8小时存 储可用性问题,导致用户无法配置 新的存储空间或访问本地现有资源。
+
=?
支撑未来网络数字化转型
长期积累的自主研发聚焦形成的体系化产品,是在网络运维领域推进网络智
能化中台和DevOps理念落地的具体实践 注重于内力修炼,提供人工智能、 数据资源、原子服务等各项中台能
力
侧重于外在剑法,提供多元多样 的解决方案,作用于不同的业务 场景
OSS4.0开发者中心--天山平台
移动方
合作方
安保
进入9、10楼 办公区
离园打卡
来访申请
申请审核
获得 通行码
扫码放行 入园
扫码过 一楼闸机
办公
u 未来功能演进
进一步结合5G、AR、AI、MEC技术,将资源数据融合,识别机房设备,为现场运维人员第一时间呈现 设备运行状态、告警、业务量等数据。
智慧机房实践案例分享
云巢系列
网络故障频发
独孤九剑 之 破掌式
智码开门
智慧机房——智码开门
智码开门——通过融合互联网、物联网、AI技术,打造集自动化、智能化为一体的办公来访、机房出入管理工具,全方
当基础设施运维遇到AIOps
l AIOps智能运维 = 机器学习+自动化运维
基础运维 = 气宗 + 剑宗
人工运维
主要是利用单独的脚
本、或基者一础些简单的 工具,武没有学较为完善
的系统和运维理念, 流程在于摸索阶段。
工具运维
开发功能较为完善的
工具,剑并经术过不断改 进,工研具越习来越成熟,
业内就IT研发和运维 逐步达成共识, Devops理念开始提出。
需求分析、规划开发、业务测试、业务加载、精细运营、下线
协作部门多
采购物流部、工程建设部、规划技术部、网络部
涉及平台多
相关平台脉络复杂,纵横交错
自动化水平弱
人工录入
手工配置 邮件沟通
运营商基础设施运维现状
基础运维门派解析
厂商依赖
网络关故系障错频综发复杂
厂家一 网管/控制器
厂家二 网管/控制器
软硬件耦合
云之巢,莫问运维路—— 浙江移动基础设施AIOps实践及探索
有人的地方,就有江湖。
斗转星移,日月流梭,转眼来到了二十一世纪……. 有江湖的地方,就有纷争。 这是一个互联网的江湖…… 于是,便诞生了武功。
武功化身为技术。 基础运维则是整个互联网的根本,
支撑着江湖的潮起潮涌……
目录
1 运营商基础设施运维现状 2 当基础设施运维遇到AIOps 3 智慧机房实践案例分享 4 运营商领域AIOps实施的困难及思考 5 “莫问”AI使能平台介绍
DevOps
Devops工具链非常成
熟 , SR内E 、力Chatops 等高级形修式出炼现,运
维流程和运维措施方 面实现完全自动化。
AIOps
主要强调运维类人化,
机器的人自我剑学习、自 行分析合决策一,自动化
去执行脚本。
当基础设施运维遇到AIOps
l CT领域基础设施运维
聚焦下一代网络云资源管理、设备及工程人员出入、故障抢修、动力设备节能降耗。
u 现有功能简介 AR眼镜将现场拍摄到的图像实时传给专家,专家可在图像上勾画标记并回传给现场的AR眼镜上,从而
实现远程协助。
l 专家可以选择画箭头,画框,标记,输入文字 等方法,向眼镜端传递更准确的信息。
l 眼镜端可以实时呈现专家所做出的标记, 辅助语音视频,使远程协助更流畅。
智慧机房——远程抢修
审核粗放
审核操作共用帐号、进出操作共用白卡,风险大
进出权限非本人审批,存在引发核心机房故障,用户及重要 设备数据泄露的风险。
运营商基础设施运维现状
基础运维门派解析
全球数据中心耗电量
网络修故炼障消频耗发巨大
10年数据中心运营成本构成
以PUE=2.0计算
数据来源:2018全球电力报告,Forbes
l 腾讯天津数据中心
智慧机房实践案例分享
云巢系列
网络故障频发
独孤九剑 之 破箭式
远程抢修
智慧机房——远程抢修
随着通信技术的飞速发展,业务数据量迅猛增长,机房维保工作面临着巨大的考验。基于AR+AI的 远程抢修,实现了远程专家对现场抢修的隔空指导,解决了机房维保工作时效性不足,成本高等问题。
5G
边缘计算
AR
AI
智慧机房——远程抢修
运营商基础设施运维现状
基础运维门派解析 网络管故理障粗频放发陈旧
模式陈旧
基础设施运维欠缺自动化、智能化管理能力
工程进度难管控
作业时段不可控,脱离内部人员管控
工程时间不确定,内部人ቤተ መጻሕፍቲ ባይዱ难以掌控工程进度、结果,延 长工程时间申请不够正式,难追溯。
来访接人登记耗时长,线下操作不够便携,白卡、半个小时。
因服务器故障,今日头条全站及头 条号后台全部无法访问
新浪微博的服务器失去响应,宕机 时间接近1小时。
运营商基础设施运维现状
基础运维门派解析 网络入故门障庞频杂发繁琐
更新迭代快
建设环节多
自2016年起,集团组织三轮NFV试点测试、两轮Novonet试点
pue<1.3
l 阿里巴巴张北数据中心 pue=1.2
电费占70%,制冷占总能耗30%+
l Yahoo Lockport pue=1.08 l Facebook Oregon Prineville pue=1.07
注:PUE = 数据中心总设备能耗/IT设备能耗
目录
1 运营商基础设施运维现状 2 当基础设施运维遇到AIOps 3 智慧机房实践案例分享 4 运营商领域AIOps实施的困难及思考 5 “莫问”AI使能平台介绍
独孤九剑--云巢系列(智慧机房)
狂风快剑--天枢系列(智慧网络) 连环三仙剑--地脉系列(智慧传输)
• 支撑DevOps/SRE • 一站式开发测试环境
——
智
慧
网
络
「狂风快剑」
——
智
慧
机
「独孤九剑」
房
——
智 慧 传
输
「连环三仙剑」
目录
1 运营商基础设施运维现状 2 当基础设施运维遇到AIOps 3 智慧机房实践案例分享 4 运营商领域AIOps实施的困难及思考 5 “莫问”AI使能平台介绍
运营商基础设施运维现状
互联网纷争
网络故障频发 发
IBM云的信用度受到影响,客户用 户访问其Bluemix云基础框架的一 个管理网站服务中断了数小时。
GitLab极受欢迎的线上代码库— —遭遇了18小时的服 务中断,最终无法完全修复。
微软Azure公有云出现超过8小时存 储可用性问题,导致用户无法配置 新的存储空间或访问本地现有资源。
+
=?
支撑未来网络数字化转型
长期积累的自主研发聚焦形成的体系化产品,是在网络运维领域推进网络智
能化中台和DevOps理念落地的具体实践 注重于内力修炼,提供人工智能、 数据资源、原子服务等各项中台能
力
侧重于外在剑法,提供多元多样 的解决方案,作用于不同的业务 场景
OSS4.0开发者中心--天山平台