大数据应用案例-手机上网日志分析系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
热门词汇 学习
以小时为单位更新 辞典,包括基础词 汇与最新热门词汇
分类词汇 学习
以周为单位学习已 知分类的URL,精 准区分分词所属分 类
通过分词学习扩充 已知分类的词汇量
陌生分词 学习
通过爬虫技术爬取 未知URL分词 通过词频、权重确 定分词价值 对应爬取分词与已 知分类的分词
9 手机上网日志分析系统 – 核心业务
Data Export
Data Import Sqoop Flume Basic
应用层 云计算平台层
日志信息 分布式导入模块
日志入库 访问分类统计
网站流量统计 上网趋势分析
用户画像Leabharlann Baidu热门站点统计
系统 管理
Management Console Restful API/Job API
Deployment Notification
自动运营和分析
4 手机上网日志分析系统-原有系统架构
用户
数据处理层 硬件层
简 单 查 询
RDB
数据收集系统
数据采集
数 据 导 入
SQL
5
手机上网日志分析系统-客户问题
• 数据量巨大扩容困难(每日数亿日志)。 • 复杂分析模型单机较难运算。 • 可计算的数据量不够大、覆盖不够广导致结果不
准确。 • 现有系统缺乏自我知识成长。(URL分类) • 随之数据量增加查询性能越来越差 • 数据安全性较低 • 单节点系统稳定性没有保证 • 前沿的业务需求无法满足
不断成长的智慧分词库库
手机上网日志分析系统的分词库,一直在不断成长和不断完善。通过学习百度热词榜吸纳新的词汇 ;通过对已知分类URL的分词学习扩充不同分类的分词量;通过对未知分类URL的分词学习确定URL 的分类。
来自网关的日志
基础辞典
已知URL分词自动学习 未知URL分词自动学习
分词源
采集手机用户访问网 络产生的URL日志 由中央端服务器处理 URL日志
核心需求 - 整合、存储各类用
户数据 - 形成完整的用户理
解
处理非结构化数据
客观问题 -数据量巨大 -存储成本高, -计算难度大性能低
该如何解决?
基本理论 -利用分词技术刻画 用户 -借助语义分析划分 可营销的用户分类
通过标签对用户画像
最终目标 - 将分析结果转化为
营销能力 - 自动完成营销能力
的转化
大数据应用案例—— 手机上网日志分析系统
2 案例一手机上网日志分析系统
• XX通讯公司国内首屈一指的运营商核心业务战略合 作伙伴,总部设在北京,在上海、湖北、福建、四川、 广东等多个省份设有分公司。拥有雄厚的技术实力和 数据业务深度运营能力,为各大核心运营商提供语音、 短彩信、手机上网、数据增值业务的运营支撑服务, 帮助运营商实现平台搭建、内容引入、运营分销的全 流程闭环运营。
• 目前公司全国业务服务用户数逾1.1亿,全国范围内 覆盖20多个省、市、直辖市,每日手机上网日志超过 一千万条。基于超大规模WAP日志的数据分析 (TB 级),从中得出用户想要的信息,这样的紧迫需求继而 产生,也就有了《手机上网日志分析系统》。
3 手机上网日志分析系统-需求场景
手机上网日志分析平台具备融合多种来源和格式的非结构化数据的能力,并通过短信、与 上网分词与画像技术、关系数据将非结构化的数据形成标签化的用户理解,并最终实现人 与内容、人与商品、人与人的智能配对。
6 手机上网日志分析系统 - hadoop解决方案
用户
云计算应用层 云计算平台层 云计算基础设施层
硬件层
数据分析门户
SQL
分 析 结 果
数据分析应用
数据收集系统
数据采集
数 据 导 入
海量数据处理平台
Cloud平台
分布式存储
7 手机上网日志分析系统 – 系统架构
支撑层
日志存档集群
应用管理
URL Sqoop Basic
应用偏好特征: 通讯、音乐、游戏、阅读等
10
Monitoring
MapReduce Launcher (Hive)
Spark
。 热
词
MapReduce Runtime
Distributed DB (HBase)
管
理
云
Hadoop Distributed File System
Cloud Big Data Appliance
8 手机上网日志分析系统 – 核心业务
上网活跃度:高
终端:HTC
上海 28岁
男 游戏迷
性每月80M流量
晚8点
android
音乐下载
手机上网日志系统将机器识别的 log文件整理、汇总、挖掘成五个 维度诠释每个独立用户
基础属性特征: 年龄、性别、上网时间等
内容喜好特征: 军事、体育、音乐、游戏等
行为特征: 下载、浏览、搜索、邮件等
终端属性特征: 手机品牌、型号等