数据之美-浅谈数据分析和数据解读的方法和技巧

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

假设某游戏的数据有一定程度的下降，那么我们担心是新增不足导致的，现在我们用数据做个验证，怎么做？
数据解读：相互验证，大胆假设，多方求证
综合下来我们倾向于认为武魂这次的软性做的并不是很理想
推荐率不高，那是基于口碑的营销不足，还是产品问题武魂1018 斩魂913 具体认知渠道朋友告知或推荐 24.62% 31.48% 游戏媒体广告 22.23% 42.23% 网易首页及下属各频道广告 12.39% 4.67% 网易发的邮件告知/短信 11.96% 5.55% 网吧游戏菜单/桌面图标 10.71% 10.97% 游戏媒体的新闻或文章或排行榜 8.70% 15.39% QQ广告 8.17% 4.46% 网吧工作人员/推广员推荐 7.99% 8.28% GS 7.98% 5.06% 网吧的宣传海报/信息/单张 6.98% 5.59% 网吧游戏登录界面广告 6.91% 7.15% 搜索引擎搜索得知 6.82% 3.35% 迅雷等下载软件 6.69% 5.60% 网吧桌面的弹窗广告 6.44% 5.70% 浏览器导航页广告/信息 6.44% 3.90% 360安全卫士 5.87% 4.53% 视频类相关网站或软件信息/广告 5.39% 5.81% 游戏报刊 4.94% -其它 4.18% 3.87% 微博 3.92% 2.71% 论坛的帖子/贴吧 3.83% 7.61% 公会消息 3.58% 2.75%
数据解读：选择一个基点，一个参照系
单独的一个数值往往不具备价值，他只是数字
数据解读：关注异常值，并深究WHY?
从以下图表中，你可以得出哪些结论？
商城收入每日变化情况
250
商城收入（单位：万元）
200
198.62
150
100
50
0
数据解读：关注异常值，并深究WHY?
以下数据，这个大家又能怎么看？
7/15/30日留存率
3日回流率
持续付费率
ARPU
周回流率
回流付费率
什么是一个好的指标
数据指标的类型：绝对水平：数量，次数，额度，时间间隔……相对水平：比例，比率，倍数，变化率，同比，环比…… 统计描述量：平均数，中位数，众数，分位数，方差，标准差，偏度，峰度，相关系数，…… 去医院的次数去医院看病的次数尝试意愿激活码申请率/点击率新增玩家数
当我接到一个问题时，我应该如何去回答？如何让我的报告一目了然，领导2分钟就能明白我想要说什么？如何让我的分析和回答毫无遗漏？如何让我的逻辑无懈可击
如何让我的报告和回答更容易让人看懂和记住
这个时候，我们需要构建一个一个金字塔，因为它是世界上最稳固的建筑结构
所谓的结构化思维从解决问题的角度来看，就是将问题按照一定的逻辑进行拆分，拆分成各个子项，然后再对子项进行拆分，直到不能拆分或者没有必要拆分为止
如何做数据分析?
引言一个经典的段子：周恩来不抽烟不喝酒，活到78岁；毛泽东只抽烟不喝酒，活到83岁；邓小平又抽烟又喝酒，活到98岁，因此抽烟喝酒的人更加长寿
例子：评价广东人跟广西人的身高 • • 广东人A有180cm，广西人B有179cm，我们说：广东人A比广西人B高；一群广东人A平均身高180cm，一群广西人B平均身高179cm，经过统计分析，我们说：广东人平均身高与广西人没有差异
18.8%
20.0%
10.0%
35.7%
12.1% 7.9%
92.9%
7.1%
16.7%
27Biblioteka Baidu2%
12.7%
14.2%
10.4%
92.9%
7.1%
21.5%
22.0%
32.6%
5.4% 7.5% 10.9%
95.9%
4.1%
23.7%
18.7%
38.4%
4.7% 12.0%
93.9%
6.1%
MMO
15.1%
游戏满意度
非常满意比较满意一般比较不满意非常不满意
精灵-12年6月
31.2%
54.4%
12.4%
4.14
梦幻-12年6月
13.9%
52.0%
25.9%
3.69
大话3-12年6月
20.6%
43.7%
26.7%
3.72
大话2-12年6月
16.3%
40.5%
31.5%
3.57
数据解读：基于目的，转动数据魔方，各种转化
18.4% 30.1% 43.5% 0.0% 43.5% 3.09
13.3% 29.3% 42.2% 7.9% 50.0% 3.30
最常见的分析-均值分析
通常的情况下，总量对比不能很好反映问题，我们做一些均值处理，均值衡量的是平均水平
最常见的分析-相关系数
服务器数量和百度指数那个跟在线更加相关？到底用百度指数来估算在线更靠谱还是服务器数量？
19.4%
14.8% 6.6%
33.0%
9.4%
最常见的分析-交叉分析
交叉分析方法通常是通过不同群体的人对一个看法的差异，以便达到问题更加深入的认识
职业上班族打工族中小学生大学生其他
Total Column %
精灵传说尝试可能
一定不会玩可能不会玩可能玩也可能不玩可能会玩一定会玩 5+4占比 Mean
结构分析法
平均分析法
交叉分析法
回归分析
因子分析
聚类分析
对应分析
判别分析
参数估计
假设检验
…...
经常使用，需要熟练掌握
较少使用，不需深入了解
最常见的分析-对比分析
对比分析有可分为横向对比和纵向对比
最常见的分析-结构分析法
结构分析法更多内部的占比，试图接受大部分人多数人是怎样的概念
人均收入上涨幅度有过晋升人数比例
从问题到拆分到指标的实例
ROI
那个渠道出了问题？
硬广ROI
区域ROI
商务ROI
百度ROI
平煤 ROI
173ROI 效率问题？新增成本
优酷ROI
多玩ROI
QQROI
具体哪个媒体？
用户质量问题？单个新增价值
点击成本
新增流失率
哪个环节出现问题
注册成本
付费率
下载成本
ARPU
同样是180cm与179cm的比较，结果为何不同？
2
什么是数据分析？
准确定义：数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。分析目的：把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来，以找出所研究对象的内在规律，以解决问题、解释问题，并提供决策依据。
0.0%
6.2%
4.0%
13.7%
8.1%
7.4%
23.6% 25.3% 42.3% 8.8% 51.1% 3.36
11.1% 31.0% 44.1% 7.7% 51.8% 3.36
6.4% 24.0% 55.2% 10.4% 65.6% 3.62
7.7% 32.3% 35.9% 10.4% 46.2% 3.21
Step 1：了解事情的背景
什么时候做的推广？为什么要做这个推广？这次推广都做了什么？有哪些做法跟以前不一样的？花了多少钱？预期目标是多少？
Step2 了解问题的具体所指
这里的效果具体是指……? 是单个活动的效果还是总效果是品牌提升还是指ROI
Step 2 有哪些假设
D
D是A、B、C的概括
A、B、C属于统一范畴 A B C A、B、C具备一定逻辑关系
A1
A2
A3
B1
B2
B3
C1
C2
C3
A1.1
A1.2
A2.1
A2.2
A3.1
A3.2
B2.1
B2.1
C1.1
C1.2
C1.3
这是否是一个合格的金字塔金字塔？
解构我们常见的模型
选用合适的指标体系
指标是连接问题和数据的纽带，只有选择合适的指标才能充分的反应问题指标为问题而生，能精准反映问题、且可量化、易测量的指标才是好指标
问卷深访
座谈会
统计年鉴行业报告
战略研究中心数据仓库
数据的分析和解读
只要经过较好的分析，才能有较好的解读只要基于对问题的了解和思考，才能发现有价值的结论
常见的数据分析方法
数据分析
描述性数据分析

矩阵关联分析法综合评价分析法相关分析
探索性数据分析
推断统计分析
对比分析法
分组分析法
我觉得可能推广节奏有问题导致效果不好我觉得这次软性做的不错，应该效果不错
Step3 了解问题目的和下一步的行为关于需求了解，可以参照 5W2H方法
评估的目的是什么？假设得到了答案你下一步的行为是什么？
8
构建你的分析框架
利用金字塔结构，用一定的逻辑框架将大问题拆成小问题，无框架不成体系
已经发生的事情为什么发生？
预测未来将会发生什么
3
为什么要做数据分析
1. 富数据时代的必然选择 2. People Always Lie …
4
数据分析师的要求
宁可折断骨头，不可背弃信念
态度客观
图表会说话
报告的撰写与展现
逻辑慎密
让你的报告无懈可击
工具善其事，必先利其器
分析方法和
工具运用
精通业务
精准反馈
离婚率婚姻满意度吵架次数空气质量星星可见度
可量化易测量
善良月做善事的次数美五官端正鼻眼嘴比例/眉眼间距/ 饭熟了煲饭时间环境好绿化面积/空气质量
利用合适的渠道进行数据收集
常见的收集渠道
各种程序LOG 问卷调研 cookies 国家统计局
观测
实验室
POS机测量
数据收集——我们的数据从何处来
从问题到拆分到指标的实例
运营状况让更多的人花钱让花过的继续花钱让没有花过的花钱新增付费率
留住更多用户
让用户更活跃
让用户更早花钱首次付费的等级首次付费的在线时长
让花钱花更多
留住新用户
维持老用户
让玩家回头
周在线天数周人均在线时长
付费频次
首日留存率 5分/30分钟留存率 1/10/级留存率
Business First， Technique Second
数据敏感性强烈好奇心
洞悉数据背后的含义
发现新大陆!
5
明确你要解决的问题
一切的分析都是针对某个问题，以及未来要进行的某项行为，不然没有意义
问题天天都多
产品概念玩家是否喜欢？
7
一个问题的背后还有很多不为认知的故事
需求：XX游戏XX推广的效果评估？
何为指标
指标是说明总体数量特征的概念。例如，在工业普查中，所有工业企业构成总体，工业企业总数、工业职工总数、工资总额、平均工资、固定资产总值、利润总额等就是指标，它们都从不同的方面反映总体的数量特征。
如何衡量工作效率？
从问题到拆分到指标的实例
人均月娱乐活动次数万人娱乐场所数量万平方米医院数万人医院数精神愉悦（娱乐）
常见疾病发病率/频次
每月人均看病次数
健康（卫生）
（治安）夜不闭户
抢劫案发率偷盗案发率死亡案发率空气质量指数人均绿化面积万平方公里公园数
（环境）环境优美
离婚率婚外情比例长辈相处满意度
家庭美满（家庭）
（生存）衣食无忧事业顺利（发展）房贷占收入比例家庭/生活固定支持占收入比例人均购房时长
关于数据解读
有进步哦，上次才考85分这次平均分多少啊上次平均分呢那还好意思，快做作业去哦，那还是去玩游戏吧
妈妈，我这次考了90分哈哈，那我可以多玩游戏了吧 85分
70分
可是我这次排在了班里的第3名啊，上次第10名啊
数据解读：首先，明确指标的计算法则
假设使用非新增流失率衡量老用户的留存效果，下面我们又会看到什么结论？
从呈现和演示的角度，就是从结论说起，然后在阐述支持结论的分论点，然后再阐述支持分论点的论点
D
A
B
C
A1
A2
A3
B1
B2
B3
C1
C2
C3
A1.1
A1.2
A2.1
A2.2
A3.1
A3.2
B2.1
B2.1
C1.1
C1.2
C1.3
什么才是一个合格的金字塔任一层次上的思想是下一层思想的概括每一组的思想必须是同一范畴每一组的思想必须具备一定的逻辑关系
但是这个结论可靠吗，可能存在的误差在哪里？非新增流失率的计算公式=上一期的非新增用户中本期没有登录的用户数/上一期的非新增用户数
1st 100000 2nd 53000 80000 3rd 28090 40000 200000 4th 14888 20000 118000 50000 5th 7890 10000 69620 23500 40000 6th 4182 5000 41076 11045 18800 20000 7th 2216 2500 24235 5191 8836 8600 10000 8th 1175 1250 14298 2440 4153 3698 3900 5000 9th 623 625 8436 1147 1952 1590 1521 2800 2000 10th 330 313 4977 539 917 684 593 1568 1200 50000
玩家性别结构情况
男女私营业主/自由职业者
玩家职业分布
上班族打工族小初高学生大学生其他
精灵-12年6月精灵1112新增梦幻-12年6月大话3-12年6 月大话2-12年6 月 MMO总体
58.5%
41.5%
精灵-12年6…
8.8%
63.2%
9.4% 10.9%
81.2%
18.8%
精灵1112… 14.3% 梦幻-12年6… 大话3-12年… 大话2-12年…