大数据应用-系统监控与日志分析(PPT 35张)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2/25/2019
有道产品
• 搜索类
网页搜索 图片搜索 有道热闻 音乐搜索
2/25/2019
博客搜索 地图搜索 视频搜索 购物搜索
有道产品
• 翻译类
海量词典 桌面词典 有道翻译
• 其他产品
有道阅读 手机服务 有道快贴 有道影讯
2/25/2019
在线监控与离线分析
2/25/2019
设计原则
• 不影响正常服务
<Key, Count>
<Key, Count>
<Key, Count>
<Key, Count>
<Key, Count>
Sort
Sorter
Sorter
Sorter
Result
2/25/2019
常规统计
• 访问量
– 时间 ຫໍສະໝຸດ Baidu 地域
• 用户
– 新用户:推广与传播的效果 – 老用户:真正使用这个产品
• 功能切换
• 防止日志丢失
– 支持备份服务器 – 分布式文件系统保证可靠性
2/25/2019
日志收集系统
Products
Service 1 Service 2 Service N
...
Sender Sender Sender
Log-Server
Log-Server (Backup)
Log Servers
Local Disk Local Disk
• span:3600000 threshold:1000
2/25/2019
访问控制系统
• 总体结构
– 旁路统计 – 规则封禁
• 访问控制服务器
– 维护规则库 – 按规则进行统计 – 为产品生成封禁列表
• 产品服务端
– 转发请求 – 同步封禁列表 – 实施访问控制
2/25/2019
访问控制系统
Request
2/25/2019
监控系统的设计
• 松耦合
– 通过日志文件交换数据 – 文本格式
• 自定义统计量
– <产品名, 变量名, 取值>的三元组
• 大数据量
– 多分辨率压缩存储
2/25/2019
监控系统结构图
Service Web UI
Collector
Sender
UDP
Receiver
Analyzer
2/25/2019
离线日志统计
• 主要的目的
– 用户使用习惯 – 用户对产品的好感度 – 系统运行状态 – 市场推广情况
2/25/2019
日志收集
• 集中的日志服务器
– 产品的服务器是分布式的,需要统一分析 – 所有产品公用,降低运营复杂度
• 大数据量存储
– 服务器建立本地缓存 – 最终保存在分布式文件系统中 – 压缩存储
Backup Daemon
Backup Daemon
DFS
2/25/2019
...
日志分析
• 主要的挑战
– 超大数据量 – 运算时间的要求 – 组合统计
• 解决方法
– 分布式计算
2/25/2019
分布式分析程序
DFS ... LOG
Parse
Parser
Parser
Parser
Parser
Parser
Product Bans
2/25/2019
性能监控系统
• 功能:实时统计服务中的性能参数
– 如处理时间、吞吐率等
• 特点
– 通用性 – 集中的数据分析与存储 – 直观的展现方式
2/25/2019
性能监控的需求
• 通用性
– 各种产品不同的需求 – 自定的统计量 – 不同的编程语言
• 性能要求
– 减小对产品服务的影响 – 大数据量的分析与存储
大数据应用-系统监控与日志分 析
目录
• 网易有道简介 • 在线服务监控 • 离线日志分析
2/25/2019
关于有道
有道的发起者是一群执着于搜索技 术的年轻人,我们发现中文网络中 的搜索还远未达到理想,所以希望 通过我们现在和将来的努力,把设 想中的服务一点点变成现实,分享 给大家使用,让你更快一秒找到想 要的好东西。
LOG
UDP Service
Collector
Sender
Multi-Resolution
LOG
2/25/2019
2/25/2019
2/25/2019
异常报警系统
• 功能
– 自动筛查日志中的Exception – 发现问题自动发信报警
• 优点
– 通用性强 – 使用简单
2/25/2019
目录
• 有道产品简介 • 在线服务监控 • 离线日志分析
– 页面切换 – 产品切换
2/25/2019
一些有意思的统计规律
• 周末与非周末
– 什么时候流量更大?
2/25/2019
0.2 1
0.4
0.6
0.8
0
2/25/2019
THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED
• 挑战
– 灵活的控制规则 – 减小对产品服务的影响
2/25/2019
访问控制规则
• 过滤规则
– Key: Header字段,parameter – Key: 正则表达式 – 例子:
• Ip=123\.45\..*, agent=“firefox.*”
• 频度控制
– 统计时间(span) – 次数的阈值(threshold) – 例子:
USER
Sender UDP
Request Filter
Synchronizer TCP
Collector
Controller
Product Bans
UDP Request
USER
Sender
Ban Repository
Request Filter
Rule Sets
TCP Synchronizer
Web
周末与非周末
海量词典 视频搜索
• 工具(网页搜索、海量词典)vs 娱乐(视频搜索、音乐搜索)
平时需要工具,周末需要娱乐
一些有意思的统计规律
• 不同的时段访问有区别吗? • 搜索和吃饭的关系?
2/25/2019
工具 vs 娱乐
8%
海量词典
7%
视频搜索
6%
5%
4%
3%
2%
1%
0% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
– 水表不能把水堵了
• 通用性
– 如果不够通用…
2/25/2019
2/25/2019
目录
• 有道产品简介 • 在线服务监控 • 离线日志分析
2/25/2019
在线服务监控
• 访问控制系统 • 性能监控系统 • 异常报警系统
2/25/2019
访问控制系统
• 主要目的:防止非用户抓取
– 冲击系统服务 – 影响访问统计 – 非法使用数据
有道产品
• 搜索类
网页搜索 图片搜索 有道热闻 音乐搜索
2/25/2019
博客搜索 地图搜索 视频搜索 购物搜索
有道产品
• 翻译类
海量词典 桌面词典 有道翻译
• 其他产品
有道阅读 手机服务 有道快贴 有道影讯
2/25/2019
在线监控与离线分析
2/25/2019
设计原则
• 不影响正常服务
<Key, Count>
<Key, Count>
<Key, Count>
<Key, Count>
<Key, Count>
Sort
Sorter
Sorter
Sorter
Result
2/25/2019
常规统计
• 访问量
– 时间 ຫໍສະໝຸດ Baidu 地域
• 用户
– 新用户:推广与传播的效果 – 老用户:真正使用这个产品
• 功能切换
• 防止日志丢失
– 支持备份服务器 – 分布式文件系统保证可靠性
2/25/2019
日志收集系统
Products
Service 1 Service 2 Service N
...
Sender Sender Sender
Log-Server
Log-Server (Backup)
Log Servers
Local Disk Local Disk
• span:3600000 threshold:1000
2/25/2019
访问控制系统
• 总体结构
– 旁路统计 – 规则封禁
• 访问控制服务器
– 维护规则库 – 按规则进行统计 – 为产品生成封禁列表
• 产品服务端
– 转发请求 – 同步封禁列表 – 实施访问控制
2/25/2019
访问控制系统
Request
2/25/2019
监控系统的设计
• 松耦合
– 通过日志文件交换数据 – 文本格式
• 自定义统计量
– <产品名, 变量名, 取值>的三元组
• 大数据量
– 多分辨率压缩存储
2/25/2019
监控系统结构图
Service Web UI
Collector
Sender
UDP
Receiver
Analyzer
2/25/2019
离线日志统计
• 主要的目的
– 用户使用习惯 – 用户对产品的好感度 – 系统运行状态 – 市场推广情况
2/25/2019
日志收集
• 集中的日志服务器
– 产品的服务器是分布式的,需要统一分析 – 所有产品公用,降低运营复杂度
• 大数据量存储
– 服务器建立本地缓存 – 最终保存在分布式文件系统中 – 压缩存储
Backup Daemon
Backup Daemon
DFS
2/25/2019
...
日志分析
• 主要的挑战
– 超大数据量 – 运算时间的要求 – 组合统计
• 解决方法
– 分布式计算
2/25/2019
分布式分析程序
DFS ... LOG
Parse
Parser
Parser
Parser
Parser
Parser
Product Bans
2/25/2019
性能监控系统
• 功能:实时统计服务中的性能参数
– 如处理时间、吞吐率等
• 特点
– 通用性 – 集中的数据分析与存储 – 直观的展现方式
2/25/2019
性能监控的需求
• 通用性
– 各种产品不同的需求 – 自定的统计量 – 不同的编程语言
• 性能要求
– 减小对产品服务的影响 – 大数据量的分析与存储
大数据应用-系统监控与日志分 析
目录
• 网易有道简介 • 在线服务监控 • 离线日志分析
2/25/2019
关于有道
有道的发起者是一群执着于搜索技 术的年轻人,我们发现中文网络中 的搜索还远未达到理想,所以希望 通过我们现在和将来的努力,把设 想中的服务一点点变成现实,分享 给大家使用,让你更快一秒找到想 要的好东西。
LOG
UDP Service
Collector
Sender
Multi-Resolution
LOG
2/25/2019
2/25/2019
2/25/2019
异常报警系统
• 功能
– 自动筛查日志中的Exception – 发现问题自动发信报警
• 优点
– 通用性强 – 使用简单
2/25/2019
目录
• 有道产品简介 • 在线服务监控 • 离线日志分析
– 页面切换 – 产品切换
2/25/2019
一些有意思的统计规律
• 周末与非周末
– 什么时候流量更大?
2/25/2019
0.2 1
0.4
0.6
0.8
0
2/25/2019
THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED
• 挑战
– 灵活的控制规则 – 减小对产品服务的影响
2/25/2019
访问控制规则
• 过滤规则
– Key: Header字段,parameter – Key: 正则表达式 – 例子:
• Ip=123\.45\..*, agent=“firefox.*”
• 频度控制
– 统计时间(span) – 次数的阈值(threshold) – 例子:
USER
Sender UDP
Request Filter
Synchronizer TCP
Collector
Controller
Product Bans
UDP Request
USER
Sender
Ban Repository
Request Filter
Rule Sets
TCP Synchronizer
Web
周末与非周末
海量词典 视频搜索
• 工具(网页搜索、海量词典)vs 娱乐(视频搜索、音乐搜索)
平时需要工具,周末需要娱乐
一些有意思的统计规律
• 不同的时段访问有区别吗? • 搜索和吃饭的关系?
2/25/2019
工具 vs 娱乐
8%
海量词典
7%
视频搜索
6%
5%
4%
3%
2%
1%
0% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
– 水表不能把水堵了
• 通用性
– 如果不够通用…
2/25/2019
2/25/2019
目录
• 有道产品简介 • 在线服务监控 • 离线日志分析
2/25/2019
在线服务监控
• 访问控制系统 • 性能监控系统 • 异常报警系统
2/25/2019
访问控制系统
• 主要目的:防止非用户抓取
– 冲击系统服务 – 影响访问统计 – 非法使用数据