用户行为数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 每百万用户软件成本:0
• 商业模式
– 直接投放广告 – 合作运营
商业模式
• 直接广告投放 • 网站广告合作
广告客户的长尾效应,目前搜索引擎的收入高于门户网站, 门户网站的广告位有限,大量PV被浪费,基于用户行为 的精准投放极大的提高门户的广告价值。 中小网站或BBS拥有可观的流量和用户眼球。但由于其内 容相关性和品牌价值不高,导致广告价值低下。(新浪汽 车的用户可能同时也是天涯论坛的用户) ,通过提供用户行为特征实现实时精准投放可使其“一亩 地产百亩粮”,是真正优质的催化剂
基于海量用户行为数据分析的 互联网增值新业务
What , Why and How
What ? – 要作什么事
• 对每个宽带用户的每次浏览网页行为进行 记录,在海量的数据记录上分析用户的浏 览习惯、兴趣爱好、关注焦点等,对用户 进行全方位的“画像”。 • 按用户属性和行为特征对全部宽带用户进 行聚类和精细化的客户群划分。 • 依托运营商平台,利用网络广告、直投、 个性化内容推送等手段对宽带用户进行 “一对一”的精准营销。
• 线下DM直投
请领导和专家指正!
谢 谢!
• Distributed Computing with Map-reduce
– 分布式计算架构,处理100G的文本时间小于10min ( 10 * Dell 1950 Dual Quad-Core, 3.0Ghz )
高吞吐率的运营服务子系统
LVS (soft F5) Squid Memcache Cluster
• • •
条带化存储,多数据通路聚合 支持对象存储(OSD)接口 I/O缓存
平滑可扩展的分布式运算子系统
• 3M架构:借鉴Google的分布式计算架构,针对海 量数据挖掘的需求对单点性能和多点负载均衡作 最大限度的优化 • Key-Value Query with Memory Cache
– 突破Key-Value Query的瓶颈,单点上亿条规模KeyValue对的查询时间小于200ms (传统DB的1/20), Dell 1950 Dual Quad-Core, 3.0Ghz
统计 过滤 器
样本 库 垃圾流量排名 广告流量排名 第三方PV,UV,ADV,PUV 权威排名
访问统计 过滤器
爬取分词
关键词排 序(ML)
热点、 舆情、 行业咨询
样本库
演示
• Get a feeling of it …
演示用的数据样本来源
• 某运营商(江苏南京) 20000用户一周数据
– 计费系统Radius数据:1000万条 , ~10GB
• Range Query with Memory Database
– 列存储(Column-based)结构,突破Range Query的瓶颈, 单点上亿条记录的Range Query ( select x from t where a < y and y < b ) 小于1000ms, 为传统DB的1/10, Dell 1950 Dual Quad-Core, 3.0Ghz
• 从亿万网页中发现词的相关性 • 从单个页面中发现最重要的词
• 面向数据挖掘优化的海量计算
– 将传统的Data Mining算法移植到分布式平台上,实现 PB级数据上
• 快速聚类和分类 • 快速关联分析
核心处理算法(2)-如何对用户行为分析建模
• 基本思想
– 发掘用户的显性特征 ( 关注关键词或相关词) – 推理用户的隐性特征 (用户的自然属性和社会属性, 性别、职业、 年龄、阶层、爱好…)
• 显性特征-> 隐性特征是大样本基础上的机器学习 Machine Learning,ML ),例子 “劲舞团” => 游戏 - 舞蹈类 | 青少年 85% “兰寇” => 化妆品 - 兰寇 | 女 70% 高端 => 65% “铁血” => 爱国 | 男 90% “美女” => 闲逛 | 男 90% “爱卡论坛” /“宝马” => 汽车 - 宝马 | 高端消费人群 70% 中端消费人群 60% 低端 30% “奶粉” => 婴幼儿用品 - 奶粉 | 女 70%,有小孩90% “内衣”, “爱慕” => 内衣 - 文胸 - 爱慕 | 女 85%
核心处理算法 (3)-处理流程
对接运营服务 系统( 系统(广告或 内容推送) 内容推送)
用户隐性特征 (用户分群) 精准匹配模式库 行业Top 20 Radius 计费镜 像数据 HTTP 请求数 据 样本库 Radius 归并过 滤器 垃圾流 量过滤 器(ML) 广告流 量过滤 器(ML) 用户会 话/ 点击 路径识 别过滤 器 隐性特征推理器(ML) 分类库 (行业/ 职业、商品) Top 10000 词推理样本 高权重行 为模式分 析器 用户显性特征 (关键词) 泛行为模 式分析器
• 包含:ADSL帐号、上线时间、离线时间、IP地址 帐号、上线时间、离线时间、 地址 帐号
– 用户所有上网行为数据(未清洗前):14亿条 HTTP Requests, ~1TB
• 包含:Client IP地址 HTTP Host, URL, Cookie, 地址, 地址 Referer, Agent
• 提升ARPU值,快速拓展新用户
– 采用精准的营销策略 精准的营销策略带动用户升速 精准的营销策略
分析升速用户的行 为习惯:什么样的用户需要升速?什么样的SP会吸引升 速用户? 在新竞争格局中领先一步,形成良性的循环:更低的接入 价格带来更多的用户,获得更多的增值业务收入
ቤተ መጻሕፍቲ ባይዱ
– 通过DM捆绑销售和优惠的接入价格 优惠的接入价格快速拓展新用户 优惠的接入价格
What 图解
男性 年龄25-35岁 来自北京.海淀.上地 IT从业人士 热衷科技产品 Nokia N95用户 中高端消费等级 喜欢户外运动和旅游 追求奢侈品 . . . 用户上网的历史行为 … 用户属性和行为特征
What 图解 – 续
客户群A
用户标识和特征
…
客户群B 客户群C 客户群D 客户群E
…
客户群F 用户精细划分
…
精准营销
…
Why ? - 为网通带来新价值
• 精准广告收入
– 合作模式:与网络广告商、传统广告商、SP、广告联盟 分成 精准的用户属性将大幅度提高广告的价值,让每 一次Page View都变成金子 – 自营模式:个性化内容推送 [例子: “一对一”的个性化号 百和12580 ] 想用户所想,急用户所急 – 直销(DM)分成收入:与最终厂商合作
2、用户群精准定位演示 – 按行业
对其中某 个频道关 注的用户 群
行业“汽车” 行业“汽车”
“汽车”相 汽车” 汽车 关的SP频 关的 频 道Top排名 排名
3、用户深度分析演示
宽带用户帐号 性别分析 消费层次分析
最经常访问的 内容频道
最经常上的 网站 最关注的关键 词
ROI分析
• 成本
– 每百万用户硬件成本(不含推送系统):
How ? – HyperCloud解决方案
平滑可扩展的 分布式运算子 系统
低成本和可靠的 海量存储子系统
高吞吐率的 运营服务子 系统
• • • •
技术架构 核心处理算法 演示 ROI分析
低成本和可靠的海量存储子系统
• • • •
多级别存储,成本降到300$/TB 无需RAID支持,保证99.9%可用性 多元数据服务器,管理亿级数量文件 可在线扩展至PB级规模
• 服务器:规格:Dell PowerEdge 1950 ( 1U ) , 双路4 核, 4G, SAS 300G * 2,数量:50,造价:15000*50 = 75 (万元) • 存储设备,用于存档备份 规格: Dell MD1000 + DIY 磁盘 ,40T,数量: 2-3台,成本:10万元
Niginx ADWords /User Search Engine
DNS, Billing…
MySQL Cluster ( ndb)
核心处理算法 (1)- 基础
• 发现用户真正的点击行为
– 改进的贝叶斯算法过滤超过95%的垃圾或广告流量
• 语义分析技术
– 单字和词库结合的中文智能分词技术 – 大规模统计分析基础上的机器学习
• 数据分析平台
– 使用2台双路4核 Dell 1950需要16小时 – 使用10台双路4核 Dell 1950只需要1小时
1、用户群精准定位演示 – 按关键词
宽带帐号 关键词“ 关键词“二手 房” DSLAM位置 位置 性别推断
对“二手 房”关注 的用户群
宽带用户z68862449的 的 宽带用户 敏感关键词表