大数据应用-系统监控与日志分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如处理时间、吞吐率等
❖ 特点
通用性 集中的数据分析与存储 直观的展现方式
4/1/2020
性能监控的需求
❖ 通用性
各种产品不同的需求 自定的统计量 不同的编程语言
❖ 性能要求
减小对产品服务的影响 大数据量的分析与存储
4/1/2020
监控系统的设计
❖ 松耦合
通过日志文件交换数据 文本格式
❖ 自定义统计量
Sorter
4/1/2020
Result
常规统计
❖ 访问量
时间 地域
❖ 用户
新用户:推广与传播的效果 老用户:真正使用这个产品
❖ 功能切换
页面切换 产品切换
4/1/2020
一些有意思的统计规律
❖ 周末与非周末
什么时候流量更大?
4/1/2020
周末与非周末
❖ 工具(网页搜索、海量词典)vs 娱乐(视频搜索、音乐搜索)
❖ 搜索类
有道产品
网页搜索
博客搜索
图片搜索
地图搜索
有道热闻
视频搜索
音乐搜索
购物搜索
❖ 翻译类
有道产品
海量词典
有道翻译
桌面词典
❖ 其他产品
有道阅读
有道快贴
手机服务
有道影讯
4/1/2020
在线监控与离线分析
4/1/2020
设计原则
❖ 不影响正常服务
水表不能把水堵了
❖ 通用性
如果不够通用…
4/1/2020
4/1/2020
日志收集
❖ 集中的日志服务器
产品的服务器是分布式的,需要统一分析 所有产品公用,降低运营复杂度
❖ 大数据量存储
服务器建立本地缓存 最终保存在分布式文件系统中 压缩存储
❖ 防止日志丢失
支持备份服务器
4/1/2020
分布式文件系统保证可靠性
Products
日志收集系统
Service 1 Sender
一些有意思的统计规律
❖ 不同的时段访问有区别吗? ❖ 搜索和吃饭的关系?
4/1/2020
工具 vs 娱乐
8%
海量词典 视频搜索
7%
6%
5%
4%
3%
2%
1%
0%
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
4/1/2020
白天需要工具,晚上需要放松
公网 vs 教育网
9%
公网 教育网
8%
7%
6%
5%
4%
3%
2%
1%
0% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
4/1/2020 白领和中小学生要早睡,大学生都是夜猫子
更多的分析
❖ 《有道阅读的12个有趣的发现》
订阅博客范围,新老各有地盘 职业和阅读习惯 阅读真的变成快餐了 明星博客,各领风骚三两天 大部分人订阅不过10个,阅读不超20分钟 阅读还是很个人 …
4/1/2020
❖ 有道产品简介 ❖ 在线服务监控 ❖ 离线日志分析
目录
4/1/2020
在线服务监控
❖ 访问控制系统 ❖ 性能监控系统 ❖ 异常报警系统
4/1/2020
访问控制系统
❖ 主要目的:防止非用户抓取
冲击系统服务 影响访问统计 非法使用数据
❖ 挑战
灵活的控制规则 减小对产品服务的影响
<产品名, 变量名, 取值>的三元组
❖ 大数据量
多分辨率压缩存储
4/1/2020
监控系统结构图
Service
Web UI
Collector
Sender
UDP
LOG
Service
UDP
Receiver
Analyzer
LOG
Collector
Sender
Multi-Resolution
4/1/2020
1
0.8
0.6
0.4
0.2
4/1/2020
0
海量词典 视频搜索
平时需要工具,周末需要娱乐
THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED
4/1/2020
4/1/2020
异常报警系统
❖ 功能
自动筛查日志中的Exception 发现问题自动发信报警
❖ 优点
通用性强 使用简单
4/1/2020
❖ 有道产品简介 ❖ 在线服务监控 ❖ 离线日志分析
目录
4/1/2020
离线日志统计
❖ 主要的目的
用户使用习惯 用户对产品的好感度 系统运行状态 市场推广情况
Service 2
Service N
...
Sender
Sender
Log Servers
4/1/2020
DFS
Log-Server Local Disk Backup Daemon
Log-Server (Backup)
Local Disk Backup Daemon
...
日志分析
❖ 主要的挑战
超大数据量 运算时间的要求 组合统计
Request Request Filter
4/1/2020
Product Bans
Synchronizer TCP
Sender
UDP
TCP Synchronizer
Collector
Controller
Ban Repository Rule Sets
Web
性能监控系统
❖ 功能:实时统计服务中的性能参数
4/1/2020
访问控制规则
❖ 过滤规则
Key: Header字段,parameter Key: 正则表达式 例子:
❖Ip=123\.45\..*, agent=“firefox.*”
❖ 频度控制
统计时间(span) 次数的阈值(threshold) 例子: 4/1/2020
❖span:3600000 threshold:1000
❖ 网易有道简介 ❖ 在线服务监控 ❖ 离线日志分析
目录
Baidu Nhomakorabea
4/1/2020
关于有道
有道的发起者是一群执着于搜索技 术的年轻人,我们发现中文网络中 的搜索还远未达到理想,所以希望 通过我们现在和将来的努力,把设 想中的服务一点点变成现实,分享 给大家使用,让你更快一秒找到想 要的好东西。
4/1/2020
❖ 解决方法
分布式计算
4/1/2020
分布式分析程序
DFS
...
LOG
Parse Parser
Parser
Parser
Parser
Parser
<Key, Count> <Key, Count> <Key, Count> <Key, Count> <Key, Count>
Sort
Sorter
Sorter
访问控制系统
❖ 总体结构
旁路统计 规则封禁
❖ 访问控制服务器
维护规则库 按规则进行统计 为产品生成封禁列表
❖ 产品服务端
转发请求 同步封禁列表
4/1/2020
实施访问控制
USER
Request Request Filter
访问控制系统
Sender
UDP
Product Bans
USER
❖ 特点
通用性 集中的数据分析与存储 直观的展现方式
4/1/2020
性能监控的需求
❖ 通用性
各种产品不同的需求 自定的统计量 不同的编程语言
❖ 性能要求
减小对产品服务的影响 大数据量的分析与存储
4/1/2020
监控系统的设计
❖ 松耦合
通过日志文件交换数据 文本格式
❖ 自定义统计量
Sorter
4/1/2020
Result
常规统计
❖ 访问量
时间 地域
❖ 用户
新用户:推广与传播的效果 老用户:真正使用这个产品
❖ 功能切换
页面切换 产品切换
4/1/2020
一些有意思的统计规律
❖ 周末与非周末
什么时候流量更大?
4/1/2020
周末与非周末
❖ 工具(网页搜索、海量词典)vs 娱乐(视频搜索、音乐搜索)
❖ 搜索类
有道产品
网页搜索
博客搜索
图片搜索
地图搜索
有道热闻
视频搜索
音乐搜索
购物搜索
❖ 翻译类
有道产品
海量词典
有道翻译
桌面词典
❖ 其他产品
有道阅读
有道快贴
手机服务
有道影讯
4/1/2020
在线监控与离线分析
4/1/2020
设计原则
❖ 不影响正常服务
水表不能把水堵了
❖ 通用性
如果不够通用…
4/1/2020
4/1/2020
日志收集
❖ 集中的日志服务器
产品的服务器是分布式的,需要统一分析 所有产品公用,降低运营复杂度
❖ 大数据量存储
服务器建立本地缓存 最终保存在分布式文件系统中 压缩存储
❖ 防止日志丢失
支持备份服务器
4/1/2020
分布式文件系统保证可靠性
Products
日志收集系统
Service 1 Sender
一些有意思的统计规律
❖ 不同的时段访问有区别吗? ❖ 搜索和吃饭的关系?
4/1/2020
工具 vs 娱乐
8%
海量词典 视频搜索
7%
6%
5%
4%
3%
2%
1%
0%
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
4/1/2020
白天需要工具,晚上需要放松
公网 vs 教育网
9%
公网 教育网
8%
7%
6%
5%
4%
3%
2%
1%
0% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
4/1/2020 白领和中小学生要早睡,大学生都是夜猫子
更多的分析
❖ 《有道阅读的12个有趣的发现》
订阅博客范围,新老各有地盘 职业和阅读习惯 阅读真的变成快餐了 明星博客,各领风骚三两天 大部分人订阅不过10个,阅读不超20分钟 阅读还是很个人 …
4/1/2020
❖ 有道产品简介 ❖ 在线服务监控 ❖ 离线日志分析
目录
4/1/2020
在线服务监控
❖ 访问控制系统 ❖ 性能监控系统 ❖ 异常报警系统
4/1/2020
访问控制系统
❖ 主要目的:防止非用户抓取
冲击系统服务 影响访问统计 非法使用数据
❖ 挑战
灵活的控制规则 减小对产品服务的影响
<产品名, 变量名, 取值>的三元组
❖ 大数据量
多分辨率压缩存储
4/1/2020
监控系统结构图
Service
Web UI
Collector
Sender
UDP
LOG
Service
UDP
Receiver
Analyzer
LOG
Collector
Sender
Multi-Resolution
4/1/2020
1
0.8
0.6
0.4
0.2
4/1/2020
0
海量词典 视频搜索
平时需要工具,周末需要娱乐
THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED THU FRI SAT SUN MON TUE WED
4/1/2020
4/1/2020
异常报警系统
❖ 功能
自动筛查日志中的Exception 发现问题自动发信报警
❖ 优点
通用性强 使用简单
4/1/2020
❖ 有道产品简介 ❖ 在线服务监控 ❖ 离线日志分析
目录
4/1/2020
离线日志统计
❖ 主要的目的
用户使用习惯 用户对产品的好感度 系统运行状态 市场推广情况
Service 2
Service N
...
Sender
Sender
Log Servers
4/1/2020
DFS
Log-Server Local Disk Backup Daemon
Log-Server (Backup)
Local Disk Backup Daemon
...
日志分析
❖ 主要的挑战
超大数据量 运算时间的要求 组合统计
Request Request Filter
4/1/2020
Product Bans
Synchronizer TCP
Sender
UDP
TCP Synchronizer
Collector
Controller
Ban Repository Rule Sets
Web
性能监控系统
❖ 功能:实时统计服务中的性能参数
4/1/2020
访问控制规则
❖ 过滤规则
Key: Header字段,parameter Key: 正则表达式 例子:
❖Ip=123\.45\..*, agent=“firefox.*”
❖ 频度控制
统计时间(span) 次数的阈值(threshold) 例子: 4/1/2020
❖span:3600000 threshold:1000
❖ 网易有道简介 ❖ 在线服务监控 ❖ 离线日志分析
目录
Baidu Nhomakorabea
4/1/2020
关于有道
有道的发起者是一群执着于搜索技 术的年轻人,我们发现中文网络中 的搜索还远未达到理想,所以希望 通过我们现在和将来的努力,把设 想中的服务一点点变成现实,分享 给大家使用,让你更快一秒找到想 要的好东西。
4/1/2020
❖ 解决方法
分布式计算
4/1/2020
分布式分析程序
DFS
...
LOG
Parse Parser
Parser
Parser
Parser
Parser
<Key, Count> <Key, Count> <Key, Count> <Key, Count> <Key, Count>
Sort
Sorter
Sorter
访问控制系统
❖ 总体结构
旁路统计 规则封禁
❖ 访问控制服务器
维护规则库 按规则进行统计 为产品生成封禁列表
❖ 产品服务端
转发请求 同步封禁列表
4/1/2020
实施访问控制
USER
Request Request Filter
访问控制系统
Sender
UDP
Product Bans
USER