用户行为数据分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ROI分析
• 成本
– 每百万用户硬件成本(不含推送系统):
• 服务器:规格:Dell PowerEdge 1950 ( 1U ) , 双路4 核, 4G, SAS 300G * 2,数量:50,造价:15000*50 = 75 (万元)
• 存储设备,用于存档备份 规格: Dell MD1000 + DIY 磁盘 ,40T,数量: 2-3台,成本:10万元
关键词“二手 房”
宽带帐号
DSLAM位置 性别推断
宽带用户z68862449的 敏感关键词表
2、用户群精准定位演示 – 按行业
行业“汽车”
对其中某个 频道关注的
用户群
“汽车”相 关的SP频 道Top排名
3、用户深度分析演示
宽带用户帐号 性别分析
消费层次分析
最经常访问的 内容频道
最经常上的 网站
最关注的关键 词
• 依托运营商平台,利用网络广告、直投、 个性化内容推送等手段对宽带用户进行 “一对一”的精准营销。

What 图解
用户上网的历史行为
男性 年龄25-35岁 来自北京.海淀.上地 IT从业人士 热衷科技产品 Nokia N95用户 中高端消费等级 喜欢户外运动和旅游 追求奢侈品
. . .
用户属性和行为特征
LVS (soft F5) Squid
Niginx ADWords /User Search Engine
MySQL Cluster ( ndb)
核心处理算法 (1)- 基础
• 发现用户真正的点击行为
– 改进的贝叶斯算法过滤超过95%的垃圾或广告流量
• 语义分析技术
– 单字和词库结合的中文智能分词技术 – 大规模统计分析基础上的机器学习

What 图解 – 续
客户群A 客户群B
客户群C

用户标识和特征

客户群D 客户群E 客户群F
用户精细划分

精准营销
Why ? - 为网通带来新价值
• 精准广告收入
– 合作模式:与网络广告商、传统广告商、SP、广告联盟
分成 精准的用户属性将大幅度提高广告的价值,让每 一次Page View都变成金子
基于海量用户行为数据分析的 互联网增值新业务
What , Why and How
What ? – 要作什么事
• 对每个宽带用户的每次浏览网页行为进行 记录,在海量的数据记录上分析用户的浏 览习惯、兴趣爱好、关注焦点等,对用户 进行全方位的“画像”。
• 按用户属性和行为特征对全部宽带用户进 行聚类和精细化的客户群划分。
年龄、阶层、爱好…)
• 显性特征-> 隐性特征是大样本基础上的机器学习 Machine Learning,ML ),例子 “劲舞团” => 游戏 - 舞蹈类 | 青少年 85% “兰寇” => 化妆品 - 兰寇 | 女 70% 高端 => 65% “铁血” => 爱国 | 男 90% “美女” => 闲逛 | 男 90% “爱卡论坛” /“宝马” => 汽车 - 宝马 | 高端消费人群 70% 中端消费人群 60% 低端 30% “奶粉” => 婴幼儿用品 - 奶粉 | 女 70%,有小孩90% “内衣”, “爱慕” => 内衣 - 文胸 - 爱慕 | 女 85%
• 条带化存储,多数据通路聚合 • 支持对象存储(OSD)接口 • I/O缓存
平滑可扩展的分布式运算子系统
• 3M架构:借鉴GoogleБайду номын сангаас分布式计算架构,针对海 量数据挖掘的需求对单点性能和多点负载均衡作 最大限度的优化
• Key-Value Query with Memory Cache
– 突破Key-Value Query的瓶颈,单点上亿条规模KeyValue对的查询时间小于200ms (传统DB的1/20), Dell 1950 Dual Quad-Core, 3.0Ghz
广告流 量过滤
用户会 话/ 点击 路径识 别过滤 器
高权重行 为模式分 析器
泛行为模 式分析器
用户显性特征 (关键词)
器(ML)
统计 过滤 器
样本库
样本 库
访问统计 过滤器
爬取分词
垃圾流量排名 广告流量排名
第三方PV,UV,ADV,PUV 权威排名
关键词排 序(ML)
热点、 舆情、
行业咨询
样本库
演示
– 每百万用户软件成本:0
• 商业模式
– 直接投放广告 – 合作运营
商业模式
• 直接广告投放
• 网站广告合作
广告客户的长尾效应,目前搜索引擎的收入高于门户网站, 门户网站的广告位有限,大量PV被浪费,基于用户行为 的精准投放极大的提高门户的广告价值。 中小网站或BBS拥有可观的流量和用户眼球。但由于其内 容相关性和品牌价值不高,导致广告价值低下。(新浪汽 车的用户可能同时也是天涯论坛的用户) ,通过提供用户行为特征实现实时精准投放可使其“一亩 地产百亩粮”,是真正优质的催化剂
• 线下DM直投
请领导和专家指正!
谢 谢!
核心处理算法 (3)-处理流程
对接运营服务 系统(广告或
内容推送)
Radius 计费镜 像数据
HTTP 请求数 据
Radius 归并过 滤器
垃圾流 量过滤 器(ML)
用户隐性特征 (用户分群)
隐性特征推理器(ML)
Top 10000
分类库 (行业/
精准匹配模式库 词推理样本 职业、商品)
行业Top 20
• Distributed Computing with Map-reduce
– 分布式计算架构,处理100G的文本时间小于10min ( 10 * Dell 1950 Dual Quad-Core, 3.0Ghz )
高吞吐率的运营服务子系统
Memcache Cluster
DNS, Billing…
• Range Query with Memory Database
– 列存储(Column-based)结构,突破Range Query的瓶颈, 单点上亿条记录的Range Query ( select x from t where a < y and y < b ) 小于1000ms, 为传统DB的1/10, Dell 1950 Dual Quad-Core, 3.0Ghz
• 包含:Client IP地址, HTTP Host, URL, Cookie, Referer, Agent
• 数据分析平台
– 使用2台双路4核 Dell 1950需要16小时 – 使用10台双路4核 Dell 1950只需要1小时
1、用户群精准定位演示 – 按关键词
对“二手房” 关注的用户

How ? – HyperCloud解决方案
低成本和可靠的 海量存储子系统
平滑可扩展的 分布式运算子
系统
高吞吐率的 运营服务子
系统
• 技术架构 • 核心处理算法 • 演示 • ROI分析
低成本和可靠的海量存储子系统
• 多级别存储,成本降到300$/TB • 无需RAID支持,保证99.9%可用性 • 多元数据服务器,管理亿级数量文件 • 可在线扩展至PB级规模
• 从亿万网页中发现词的相关性 • 从单个页面中发现最重要的词
• 面向数据挖掘优化的海量计算
– 将传统的Data Mining算法移植到分布式平台上,实现 PB级数据上
• 快速聚类和分类 • 快速关联分析
核心处理算法(2)-如何对用户行为分析建模
• 基本思想
– 发掘用户的显性特征 ( 关注关键词或相关词) – 推理用户的隐性特征 (用户的自然属性和社会属性, 性别、职业、
– 自营模式:个性化内容推送 [例子: “一对一”的个性化号
百和12580 ] 想用户所想,急用户所急
– 直销(DM)分成收入:与最终厂商合作
• 提升ARPU值,快速拓展新用户
– 采用精准的营销策略带动用户升速 分析升速用户的行 为习惯:什么样的用户需要升速?什么样的SP会吸引升 速用户?
– 通过DM捆绑销售和优惠的接入价格快速拓展新用户 在新竞争格局中领先一步,形成良性的循环:更低的接入 价格带来更多的用户,获得更多的增值业务收入
• Get a feeling of it …
演示用的数据样本来源
• 某运营商(江苏南京) 20000用户一周数据
– 计费系统Radius数据:1000万条 , ~10GB
• 包含:ADSL帐号、上线时间、离线时间、IP地址
– 用户所有上网行为数据(未清洗前):14亿条 HTTP Requests, ~1TB
相关文档
最新文档