腾讯玩转数据挖掘
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据
覆盖超过3亿台智能终端设备
最权威的移动设备/WAP Cookie与QQ账号关联
Android
iOS
WAP
系统
毫秒实时
高并发
稳定
数据安全
移动APP没有QQ登录,我也知道你是谁
移动用户画像
移动互联网的浪潮席卷所有产品线,公司的移动产品进入精细化数据 运营阶段,机器人帮助业务洞察每一台终端设备背后活生生的用户
空间、朋友个人中心广告位
空间、朋友应用中心各个广告位 时下最热门的应用平台活跃度高
空间、朋友单个应用右侧广告位 活跃度高的应用,受关注度高
用户进入必经之地
精准推荐案例-广点通
相册日上传量超过3.6亿
数据门户 – 数据提取分析 IDEA
http://idea.oa.com/
数据分析人员可通过IDEA进行自助数据提取及
选取数据源
统计分析。支持灵活的提取条件及多种提取方法;
特点:
丰富的数据源可供自助提取(依托TDW); 任务执行时间缩短(由原来的2-3小时缩短至 平均20分钟,依托LHotse),提升效率;
对分析结果没有很好沉淀
让用户轻松感受到数据价值
废话也是数据
例如: ----废话也能完成大买卖:
1.社交数据揭示“我们是谁”
2.社交数据揭露消费者对产品和企业的真实想法
3.社交数据也揭示了“我们干什么”
让数据跟着“人”走
像人脑开发一样:大数据目前利用率仅为1%?
用户分群是一切分析基础
颠覆创新来自“分类”和“聚类”
经营分析
战略决策
数据预测
A/B Test
用户分群分层
分 析 方 法
战略决策层
产品经理
数据分析师
数据门户产品流程
提取分析
海量数据 灵活条件 自助提取
数据互通
用户画像
实时分析 数千维度 多样分析方法
固化报表
黄金眼 (报表引擎)
可视化配置 关键指标展示 PushMail
其他 (搜索、付费、 营销…)
实时计算输出所需分析结果,无需等待; 丰富的数据分析维度(目前已达3000+);
用户画像
电商 (网购、拍拍…)
媒体 (腾讯网, 视频,微博)
多样化分析方法(支持对比分析、交叉分析、下钻分
析等);
覆盖超过8.2亿的QQ号码,日均超过40亿条行为数据
游戏 (游戏时长、 付费…)
• 大数据关键领域
– 数据仓库、数据安全、数据分析、数据挖掘
腾讯的数据现状
月活跃用户超 8 亿; 在线人际关系链超 1000 亿;
•日新增数据 200TB+;
注册用户数突破 4 亿; 月活跃近 2 亿; 活跃用户数超 6 亿; 日均相册上传超过4 亿;日写操作总数过10 亿;
•月数据增长率10%+;
定义筛选条件
设置结果字段
数据门户 – 用户画像 FACE
http://face.oa.com/
数据分析人员可通过FACE平台实时分析用户组的
特征(如年龄、性别、消费行为、社交行为、游戏行为 自然属性
(年龄,性 别,环境…)
等),即时了解用户构成及行为; 特点:
社交 (QQ,qzone、 朋友…)
未来十年最热门的工作:数据科学家
volume(容量)、variety(类型)、velocity(速度)、 value (价值)
大数据简介
• 大数据(Big Data)
– – – – – 海量PB级以上,非标准化数据比例高 数据种类多(日志、视频、图片、LBS信息等) 价值密度低,商业价值高 处理速度快 互联网为行业代表
独立QQ号码超过8.2亿 100万+标签数
社交 (QQ,qzone、 朋友…)
用户画像
电商 (网购、拍拍…) 媒体 (腾讯网, 视频,微博)
近2000个产品分析指标
覆盖30个平台产品
游戏 (游戏时长、 付费…)
平均每天约40亿条行为数据
移动用户画像的基础 机器人
机器人建立了公司最权威的移动设备/WAP Cookie与QQ账号的关联 体系,并开放实时API支持公司各业务查询移动设备的QQ账号
•支撑公司 7 大BG;
• 存储100+个产品数据; •TDW存储16W+个表; •日均计算量约 1.5 P; •日均任务数达 20W; •TDW单集群最大机器数 超过 4,048 台;
月度覆盖用户超 2.7 亿;
日均浏览量PC侧超17亿,手机侧近13亿; 日访问用户量PC侧近1.3亿;手机侧近8千万;
数据
采集
• 实时采集 • 离线采集
数据
处理
• 实时计算 • 数据仓库
推荐
算法
• 实时算法 • 离线算法
实时推荐能更好地抓住用户以短期兴趣带来的即时行为和消费机会 离线推荐通过累积用户长期兴趣画像,激发用户可能的行为和消费 个性化推荐是大数据应用的最典型价值体现
精准推荐关键点
用户 画像 算法
海量 处理 效果
静态动态 报表
自助分析 工具
数据 提取
数据集市
SNS 主题 游戏 主题 电商 主题 视频 主题 支付 主题 ……
采 集 存 储
分布式数据仓库 数据采集与分发
数据全流程
数据准备/接入 数据 格式
Meta 元数据平台
数据 接入
TDBank 数据接入平台
数据存储与计算 任务 调度
Lhotse洛子
数据 计算
• 以视频推荐为代表的内容推荐
– 长期兴趣的累积影响力大 – 时段和热点事件 – 多维度内容相关性很重要
• 以电商推荐为代表的购物推荐
– 长期+短期兴趣+即时行为综合 – 最贴近现实,季节与用户生活信息很关键 – 追求下单与成交,支付相关
精准推荐案例-广点通 已经开放每天110亿以上最优质的售卖浏览量 多种形式和场景灵活选择
玩转数据 发掘价值
杭州
目录 一 二 三
四 五 • 腾讯大数据简介 • 从产品到数据 • 大数据应用:数据分析 • 大数据应用:数据挖掘 • 大数据应用:数据平台
腾讯大数据简介
引言:选自文章《“大数据”时代的数字淘宝》
数据将会像土地、石油和资本一样,成为经济运行中的根本性资源 大数据摩尔定律,每二十个月世界上的数据就会翻一番 阿里三步战略:平台、金融、数据
支撑多产品精准推荐的算法体系
上 下 文 环 境 过 滤
精准推荐典型应用方向
• 用户画像的建立是精准推荐的基础
– 虚拟用户现实化,人口属性的建立 – 长期兴趣+短期兴趣 – 定制化定向人群
• 以效果广告为代表的精准营销
– 推荐周期短,实时性要求高 – 用户短期兴趣和即时行为影响力大 – 投放场景上下文和访问人群特性
支持快速的数据决策;
数据分析应用平台框架
产 品 结 构 / 特 性
tdw.oa.com
idea.oa.com
黄金眼
指标快捷接入 自助配置生效
face.oa.com
data.oa.co m
我的数据中心
海量、分布式 数据便捷接入
自助 易用
实时分析 纬度灵活丰富
数 据 应 用 服 务 人 群
用户推荐
数据应用
腾讯大数据典型应用 ---数据分析&展现
典型应用:数据分析
• 大数据的复杂性不仅体现在在多源异构,由于多实体和多空间的交互动态性, 需要将高维数据降维,并从大量动态且可能是模棱两可的数据中提取特征,生 成可理解的知识
分 析 展 现 降 维 处 理
实时 查询 按需定 制专题
实时 计算
关键指标 展现
定义筛选条件
多样化功能(任务例行化、模板提取等满足
多样化需求);
使用场景:
设置结果字段
提取精准的目标用户群体,做精准营销推广; 提取原始数据,做进一步数据分析;
提取统计分析结果(如求和、去重计数等);
………
数据门户 – 数据提取分析 IDEA
http://idea.oa.com/
选取数据源
由离线向实时推荐演进,支撑能力和效果有本质提升
广告投放系统
广告投放系统
hina系 统
实时查 询
Tdbank 数据采集
TDProcቤተ መጻሕፍቲ ባይዱss 流式计算
实时推荐 实时查询 引擎
TDEngine 分布式存储引擎 分布式计算平台 算法模型+用户画像
分布式计算平台
算法模型+用户画像
老架构 - 小时级
新架构 - 秒级
颠覆式创新
增量式创新
通过分享数据产生更多数据
“以亚马逊为例,它可以做到根据验孕棒、防辐射服的购买数据,去制定奶粉营销计划, 这些数据分析显然是各业务线的交织、共享下完成的。”
数据开放是王道
让更多有能力的人来参与数据
人人都是数据分析师
数据是一种信仰和态度 数据化运营是一种对待数据态度
我们必须解决的问题:数据质量,数据安全和开放
TDW分布式数据仓库
TRC实时计算平台
TA/MTA腾讯分析(移动)
精准推荐的数据基础:用户画像
定向人群
婚恋状态
单身人群 新婚人群 母婴人群 子女教育人群 …
职业状态
学生人群 蓝领人群 白领人群 退休人群 …
消费能力
高消费人群 低消费人群 网购付费人群 虚拟付费人群 …
电商偏好
3C人群 美容人群 折扣人群 装修人群 …
来源:腾讯2013第一季度综合业绩报告
以用户数据为核心的 应用支撑体系
数据 挖掘
数据
分析
用户
数据
数据
展现
数据 仓库
如何从产品到数据
一切从问题出发
产品面对的top 3 问题? 下一个月准备如何解决 过去的一个月做过了什么
让数据变得更简单
面对复杂报表无法看清楚业务问题
系统效率太低,没有得到很好整合
实时输出分析结果
数据门户 – 报表引擎 黄金眼
http://data.oa.com/ge
当在数据提取或分析过程中,有需要固化查看
接入业务数据
的数据指标,可以通过黄金眼平台进行可视化的报 表配置,所见即所得; 特点:
数据指标化
与TDW打通,方便数据配置; 可视化的配置平台,易操作; 提供丰富功能控件(提供报表导出、发送Email、 收藏、权限控制等功能);
使用场景: 分析用户群体属性特征(基础属性、社交属性、游戏 属性等); 分析某产品用户群体在其它产品上的交叉行为;
………
数据门户 – 用户画像 FACE
http://face.oa.com/
选取分析数据组,可选择对 照组进行对比分析
选择分析维度
可进行下钻分析,亦可生成数据 包进行进一步的分析或提取
大数据服务总体框架
数据开发者平台 + 数据应用者门户
数 据 分 析
Lhotse统一调度
自助提取与分析
专题分析
T D B A N K
数据采 集与分 发
在线推荐模型
TDW海量数据存 储与计算
社交广告 电商 视频 其它
实时推荐引擎
实时计算平台
数据规范化管理
精 准 推 荐
实时采集
流式计算 分布式存储引擎
数据仓库
TDW/IDE
数据 存储
TDW 腾讯分布式数据仓库
数据门户
提取 分析
数据应用
IDEA提取分析
用户 画像
FACE用户画像 通用的标准化数据分析解决方案
报表 引擎
GE黄金眼
……
数据分析应用关键点
自助
丰富
实时
灵活
数据分析应用平台-数据门户
http://data.oa.com/
提升数据提取分析效率;
…
QQID用户画像
离线
用户Tag 用户长期兴趣 用户基础属性 …
移动设备号用户画像 离线
LBS定位数据 移动app行为 设备号长期兴趣…
实时
用户实时Tag 用户实时兴趣 …
实时
LBS实时定位数据 移动app实时行为 设备号实时兴趣…
8亿用户画像
其他 (搜索、付费、 营销…)
自然属性 (年龄,性 别,环境…)
消费能力
LBS轨迹
手游偏好
APP偏好
时间行为
设备型号
购物兴趣
终端品牌
基于用户画像 细化定向人群
游戏人群,并再细分超过130 个游戏子类人群 电商付费人群 3C人群 新婚人群 母婴人群 高消费人群 低消费人群 白领人群
……
海量数据实时处理能力
推荐引擎请求量: 接近200亿每天 广告预测量: 200×100亿每天 TDP 实时计算量: 200亿×50每天 TDE数据存储量: 3T,包括用户画像、关系链、 实时效果数据等
体系
闭环
精准推荐体系
精准推荐应用
效果广告推荐 数据分析 视频推荐 游戏推荐 电商推荐 通用推荐 评估系统
投放系统 基于用户画像的数据挖掘算法库
高纬监督/非监督在线学习 算法
重定向算法 内容推荐
流式挖掘算法 腾讯分布式实时混合算 法模型
数据可视化 协作推荐
… …
支持多业务需求 定向人群 QQ体系用户画像 移动设备号用户画像
使用场景:
可视化配置报表
配置固化、例行化的产品关键指标数据报表; 定期发送PUSHMAIL,时刻关注关键产品指标;
数据门户 – 报表引擎 黄金眼
http://data.oa.com/ge
腾讯大数据典型应用 --数据挖掘
典型应用:精准推荐
社交网络兴起,大量的UGC内容、音频、文本信息、视频、图片等非结构 化数据出现 电子商务的快速发展,能更全面丰富的捕捉用户现实购物兴趣 移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。