2020年全球互联网运维大会-华泰证券智能运维体系探索与实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运维的现状与挑战
+
统一监控平台
+
自动化系统
ITOM流程 管理系统
运维体系的转型
3 建立流程驱动的IT资源 管理体系 成立开发团队,打造体系
2 化的运维系统 1 推动运维管理向运维
分析的转型
4 统一自动化运维平台 5 打造层次化、精细化的监
控体系
6 成立IT技术支持团队, 打造技术支持体系
智能化的运维工作台
一线运维人员
业务监控大屏
日志搜索
告警处理
二线运维人员
业务全景监控
性能管理
容量管理
故障处理
运维数据中心
运维对象
业务系统
中间件
计算资源
网络环境
统一监控平台
灵活的数据分析仪表盘
统一告警处理平台
日志分析系统:故障排查与运营分析
系统核心功能
• 秒级搜索 • 日志告警 • 运营分析 • 故障定位
• 性能监控 • 指标抽取 • 集中管理 • 数据核对
2020年
容量预测与管理 智能故障预测 移动化运维 无人值守
谢谢
目录
1 券商运维的痛点 2 运维体系的介绍 3 层次化监控的建设 4 智能运维的案例
分层分级的监控
层次化划分 精细化指标 关联依赖关系
- 网络拓朴 - 应用拓朴 - 应用-服务器关系 - 服务器-网络关系
业务逻辑 应用程序 中间件和数据库 服务器及操作系统
网络及网络设备
层次化监控体系
统一监控平台:监控数据门户
• 秒级查询,秒级告警
日志分析的价值
交易流水查询
小时 秒级
业务层监控
不足 丰富
故障快速定位
量化、可视化
实时运营分析
T+1
分钟
监控可视化大屏
从业务视角,全局运营信息系统
3
10+
100Fra Baidu bibliotek+
50+
大屏模式
大屏数量 涉及指标数量 涉及系统
部门级应用全景视图 全系统整体运行状态及故障发现
网络质量感知系统
华泰证券智能运维体系的探索与实践
目录
1 券商运维的痛点 2 运维体系的介绍 3 层次化监控的建设 4 智能运维的案例
券商运维特点
强周期性,强实时性 高并发,高可用 业务系统多,架构多样化 资源规模不断变大 稳定要求高,监管要求严
运维的发展阶段
手工运维
- 原始方法 - 纯手工操作完成 - 低效、重复
日志异常检测框架
异常告警
ES/日志 监控模型
采集规则
数据采集
时序数据库
模型参数
自动调节 手工调节
模型调节器
模型配置
日期标签
日志异常检测的价值
检测模型
- 简单阈值模型 - 周期性检测模型 - 请求有无模型 - 新标签模型 -…
异常检测的价值
- 某请求负载变大 - 单用户大量请求 - 单节点硬件异常 - 下线业务检测
数据源 业务日志 运行日志 系统日志 网络日志
南京主机房
日志接入 集群
Storm
搜索与分析
Kafka ES
日志告警
同城灾备 ES
ES 异地灾备
日志分析的规模
20+
Logstash
3000+
10+ 60+
Storm
• 3000+采集节点
• 60+的ES存储节点
10+
• 每日采集1TB+日志
1TB+ 每天
• 全网覆盖 • 分层Ping测 • 自动配置 • 多地部署 • 智能告警
网络质量感知
单设备故障
IDC线路故障
目录
1 券商运维的痛点 2 运维体系的介绍 3 层次化监控的建设 4 智能运维的案例
日志异常检测背景
业务特点 • 强周期性业务明显 • 不同业务指标有差异 • 每日业务存在差异
发行新股、新债 夜市委托
脚本运维
- 重复、高频操作通 过脚本、小工具
- 系统间差异明显
平台运维
- 统一监控、自动化 运维平台
- 运维效率提升 - 人工分析和决策
智能运维
- 汇集海量运维数据 - AI算法分析决策 - 运维经验反馈 - 大幅提升运维效率缩
短时间,提高准确性
目录
1 券商运维的痛点 2 运维体系的介绍 3 层次化监控的建设 4 智能运维的案例
日志异常检测的不足
02 03
04
告警准确率、召回率的提升 不同的场景使用不同的检测算法 解决异常检测的“普适性”问题 不是所有的时序都需要“智能”检测
未来的建设方向
自动化
体系化
工作台
智能化
建设路线规划
2018年
日志分析系统 统一监控平台 网络质量感知 日志数据异常检测
2019年
运维数据中心 智能算法库和计算平台 业务全景监控 资源效能分析与画像 自动化服务平台