用户行为分析平台建设方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可在线扩展至PB级规模
• 条带化存储,多数据通路聚合 • 支持对象存储(OSD)接口 • I/O缓存
(六)平滑可扩展的分布式运算子系统
• 3M架构:借鉴Google的分布式计算架构,针对海量数据挖掘的需求 对单点性能和多点负载均衡作最大限度的优化。 • Key-Value Query with Memory Cache :突破Key-Value Query的瓶颈, 单点上亿条规模Key-Value对的查询时间小于200ms (传统DB的1/20), Dell 1950 Dual Quad-Core, 3.0Ghz • Range Query with Memory Database :列存储(Column-based)结构, 突破Range Query的瓶颈,单点上亿条记录的Range Query ( select x from t where a < y and y < b ) 小于1000ms, 为传统DB的1/10, Dell 1950 Dual Quad-Core, 3.0Ghz • Distributed Computing with Map-reduce:分布式计算架构,处理 100G的文本时间小于10min ( 10 * Dell 1950 Dual Quad-Core, 3.0Ghz )
最经常上的 网站
最关注的关键 词
一、应用介绍 二、业务展示 三、商务模式
(十四)商业模式
• 直接广告投放 • 网站广告合作 广告客户的长尾效应,目前搜索引擎的收入高于门户网站,门户网站的广 告位有限,大量PV被浪费,基于用户行为的精准投放极大的提高门户的广 告价值。 中小网站或BBS拥有可观的流量和用户眼球。但由于其内容相关性和品牌 价值不高,导致广告价值低下。(新浪汽车的用户可能同时也是天涯论坛 的用户),通过提供用户行为特征实现实时精准投放可使其“一亩地产百 亩粮”,是真正优质的催化剂 • 线下DM直投
男性 年龄25-35岁 来自北京.海淀.上地 IT从业人士 热衷科技产品 Nokia N95用户 中高端消费等级 喜欢户外运动和旅游 追求奢侈品 . . .
用户属性和行为特征
…
(十)平台流程图解二 客户群A 客户群B 客户群C
v 用户标识和特征
客户群D 客户群E 客户群F
用户精细划分
精准营销
(十一)按关键词精准定位演示
用户行为分析平台建设方案
一、应用介绍 二、业务展示 三、商务模式
(一)背景介绍
平台要作什么事?
(1)对每个互联网用户的每次浏览网页行为、移动应用的操作行为进行记录,在海量 的数据记录上分析用户的浏览习惯、兴趣爱好、关注焦点等,对用户进行全方位的 “画像”。 (2)按用户属性和行为特征对全部互联网用户进行聚类和精细化的客户群划分。 (3)依托运营商平台,利用网络广告、直投、个性化内容推送等手段对互联网用户进 行“一对一”的精准营销。
Radius 计费镜 像数据
HTTP 请求数 据
Radius 归并过 滤器
垃圾流 量过滤 器(ML)
用Baidu Nhomakorabea隐性特征 (用户分群)
隐性特征推理器(ML)
Top 10000
分类库 (行业/
精准匹配模式库 词推理样本 职业、商品)
行业Top 20
高权重行 为模式分
用户会
析器
广告流 量过滤
话/ 点击 路径识 别过滤 器
(二)建设意义
精准广告收入
• 合作模式:与网络广告商、传统广告商、SP、广告联盟分成; • 自营模式:个性化内容推送 [例子: “一对一”的个性化服务] ; • 直销(DM)分成收入:与最终厂商合作;
提升ARPU值,快速拓展新用户
• 采用精准的营销策略带动用户升速; • 通过DM捆绑销售和优惠的接入价格快速拓展新用户;
泛行为模 式分析器
用户显性特征 (关键词)
器(ML)
统计 过滤 器
样本库
样本 库
垃圾流量排名 广告流量排名
访问统计 过滤器
爬取分词
第三方PV,UV,ADV,PUV 权威排名
关键词排 序(ML)
热点、 舆情、
行业咨询
样本库
一、应用介绍 二、业务展示 三、商务模式
(九)平台流程图解一
用户上网的历史行为
对“二手房” 关注的用户
群
关键词“二手 房”
用户帐号
DSLAM位置 性别推断
互联网用户z68862449的 敏感关键词表
(十二)按行业精准定位演示
“汽车”相 关的SP频道
Top排名
行业“汽车”
对其中某个 频道关注的
用户群
(十三)用户深度分析演示
互联网用户帐号
性别分析
消费层次分析
最经常访问的 内容频道
(三)平台的特色
1、发掘用户的显性特征 ( 关注关键词或相关词)。 2、推理用户的隐性特征 (用户的自然属性和社会属性, 性别、职业、 年龄、阶层、爱好…)。 3、精准的用户属性将大幅度提高广告的价值,让每一次Page View都 变成金子。 4、想用户所想,急用户所急。 5、分析升速用户的行为习惯:什么样的用户需要升速?什么样的SP 会吸引升速用户? 6、在新竞争格局中领先一步,形成良性的循环:更低的接入价格带 来更多的用户,获得更多的增值业务收入。
(七)高吞吐率的运营服务子系统
Memcache Cluster
DNS, Billing…
LVS (soft F5) Squid
Niginx ADWords /User Search Engine
MySQL Cluster ( ndb)
(八)核心处理算法
对接运营服务系统 (广告或内容推送)
感谢聆听 批评指导
(四)解决方案
低成本和可靠 的海量存储子
系统
平滑可扩展
的分布式运 算子系统
• 技术架构 • 核心处理算法 • 演示 • ROI分析
高吞吐率的 运营服务子
系统
向企业
个人发卡
(五)低成本和可靠的海量存储子系统
多级别存储,成本降到300$/TB 无需RAID支持,保证99.9%可用性 多元数据服务器,管理亿级数量文件
• 条带化存储,多数据通路聚合 • 支持对象存储(OSD)接口 • I/O缓存
(六)平滑可扩展的分布式运算子系统
• 3M架构:借鉴Google的分布式计算架构,针对海量数据挖掘的需求 对单点性能和多点负载均衡作最大限度的优化。 • Key-Value Query with Memory Cache :突破Key-Value Query的瓶颈, 单点上亿条规模Key-Value对的查询时间小于200ms (传统DB的1/20), Dell 1950 Dual Quad-Core, 3.0Ghz • Range Query with Memory Database :列存储(Column-based)结构, 突破Range Query的瓶颈,单点上亿条记录的Range Query ( select x from t where a < y and y < b ) 小于1000ms, 为传统DB的1/10, Dell 1950 Dual Quad-Core, 3.0Ghz • Distributed Computing with Map-reduce:分布式计算架构,处理 100G的文本时间小于10min ( 10 * Dell 1950 Dual Quad-Core, 3.0Ghz )
最经常上的 网站
最关注的关键 词
一、应用介绍 二、业务展示 三、商务模式
(十四)商业模式
• 直接广告投放 • 网站广告合作 广告客户的长尾效应,目前搜索引擎的收入高于门户网站,门户网站的广 告位有限,大量PV被浪费,基于用户行为的精准投放极大的提高门户的广 告价值。 中小网站或BBS拥有可观的流量和用户眼球。但由于其内容相关性和品牌 价值不高,导致广告价值低下。(新浪汽车的用户可能同时也是天涯论坛 的用户),通过提供用户行为特征实现实时精准投放可使其“一亩地产百 亩粮”,是真正优质的催化剂 • 线下DM直投
男性 年龄25-35岁 来自北京.海淀.上地 IT从业人士 热衷科技产品 Nokia N95用户 中高端消费等级 喜欢户外运动和旅游 追求奢侈品 . . .
用户属性和行为特征
…
(十)平台流程图解二 客户群A 客户群B 客户群C
v 用户标识和特征
客户群D 客户群E 客户群F
用户精细划分
精准营销
(十一)按关键词精准定位演示
用户行为分析平台建设方案
一、应用介绍 二、业务展示 三、商务模式
(一)背景介绍
平台要作什么事?
(1)对每个互联网用户的每次浏览网页行为、移动应用的操作行为进行记录,在海量 的数据记录上分析用户的浏览习惯、兴趣爱好、关注焦点等,对用户进行全方位的 “画像”。 (2)按用户属性和行为特征对全部互联网用户进行聚类和精细化的客户群划分。 (3)依托运营商平台,利用网络广告、直投、个性化内容推送等手段对互联网用户进 行“一对一”的精准营销。
Radius 计费镜 像数据
HTTP 请求数 据
Radius 归并过 滤器
垃圾流 量过滤 器(ML)
用Baidu Nhomakorabea隐性特征 (用户分群)
隐性特征推理器(ML)
Top 10000
分类库 (行业/
精准匹配模式库 词推理样本 职业、商品)
行业Top 20
高权重行 为模式分
用户会
析器
广告流 量过滤
话/ 点击 路径识 别过滤 器
(二)建设意义
精准广告收入
• 合作模式:与网络广告商、传统广告商、SP、广告联盟分成; • 自营模式:个性化内容推送 [例子: “一对一”的个性化服务] ; • 直销(DM)分成收入:与最终厂商合作;
提升ARPU值,快速拓展新用户
• 采用精准的营销策略带动用户升速; • 通过DM捆绑销售和优惠的接入价格快速拓展新用户;
泛行为模 式分析器
用户显性特征 (关键词)
器(ML)
统计 过滤 器
样本库
样本 库
垃圾流量排名 广告流量排名
访问统计 过滤器
爬取分词
第三方PV,UV,ADV,PUV 权威排名
关键词排 序(ML)
热点、 舆情、
行业咨询
样本库
一、应用介绍 二、业务展示 三、商务模式
(九)平台流程图解一
用户上网的历史行为
对“二手房” 关注的用户
群
关键词“二手 房”
用户帐号
DSLAM位置 性别推断
互联网用户z68862449的 敏感关键词表
(十二)按行业精准定位演示
“汽车”相 关的SP频道
Top排名
行业“汽车”
对其中某个 频道关注的
用户群
(十三)用户深度分析演示
互联网用户帐号
性别分析
消费层次分析
最经常访问的 内容频道
(三)平台的特色
1、发掘用户的显性特征 ( 关注关键词或相关词)。 2、推理用户的隐性特征 (用户的自然属性和社会属性, 性别、职业、 年龄、阶层、爱好…)。 3、精准的用户属性将大幅度提高广告的价值,让每一次Page View都 变成金子。 4、想用户所想,急用户所急。 5、分析升速用户的行为习惯:什么样的用户需要升速?什么样的SP 会吸引升速用户? 6、在新竞争格局中领先一步,形成良性的循环:更低的接入价格带 来更多的用户,获得更多的增值业务收入。
(七)高吞吐率的运营服务子系统
Memcache Cluster
DNS, Billing…
LVS (soft F5) Squid
Niginx ADWords /User Search Engine
MySQL Cluster ( ndb)
(八)核心处理算法
对接运营服务系统 (广告或内容推送)
感谢聆听 批评指导
(四)解决方案
低成本和可靠 的海量存储子
系统
平滑可扩展
的分布式运 算子系统
• 技术架构 • 核心处理算法 • 演示 • ROI分析
高吞吐率的 运营服务子
系统
向企业
个人发卡
(五)低成本和可靠的海量存储子系统
多级别存储,成本降到300$/TB 无需RAID支持,保证99.9%可用性 多元数据服务器,管理亿级数量文件