大数据应用基础(统计学).pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 它是为了验证已有产品想法。你只有知道 A方案和B方案分别是什么,才能去比较这 两种方案。
– 你在A和B之间做比较的时候,可能会忽略了 其他很多可能更好的方案
24
A/B测试的基本注意事项
• A/B测试必须是单变量 • 一般都着眼于转化率 • 注意控制访问各个版本的人数,大多数情况下
希望将访问者平均分配到各个不同的版本上。 • 不一定仅限于分成两个组。分成多个组也可以。 • 要确保两个组的用户是来自同一个总体的,也
• 相关关系并不等同于因果关系。 • 最强的用于检测因果关系的统
计学武器:随机对照试验 • 无法进行随机对照试验时该怎
么办? 做回归分析。
16
回归分析中的遗漏变量偏差
• 在回归分析时,有时会出现变量遗漏偏差。比 如,有研究认为“常打高尔夫易患心脏病、癌 症和关节炎”——真的吗?其实是因为打高尔 夫者年龄更大,疾病多只是因为年龄大而已。
• 以先后论因果:A在B之后发生,不见 得说明A会导致B
• 很多事情发生的原因其实不止一个 • 不应盲目以结果好坏判断决定的优劣 • 分析的结论不一定只有一个
6
证据与信息源
• 发言者有时把个人经历、典型个案、 专家意见作为证据。这些证据都可靠 吗?
• 发言者是否省略了重要的数据 • 信息源可靠吗? • 发言者所引用的数据是否来历不明
• 接下来分别统计两个页面的用户转化率, 即可清晰的了解到两种设计的优劣。
22
A/B测试怎样识别用户
• 它通过Cookie或用户名识别用户。 • 它对同一个用户展现同一个版本。所以,同一
个用户不会发现不同的测试版本。不过,如果 你换台电脑,可能就会发现网站的不同版本。
23
A/B测试的局限性
• 必须在有大量被测用户的前提下,才是有 意义的。很多用户少的网站不适合做这种 测试。
• 你是否纠缠于沉没成本?为什么我 们试过衣服后一般就会买下来?为 什么经验有时让人变蠢?为什么拿 锤子的人会把一切看成钉子?为什 么自己做的菜吃起来更香?为什么 我们会认为现状最好?
9
分析一下发言者的背景和目的
• 应该试图了解发言者的背景、并判断其可 能想要达到的目的。
• 发言者是否试图转移别人的注意力,回避 真正的问题。为什么推销员说出产品缺陷 时,我们也须谨慎?显眼的不一定等于是 重要的
7
证据
• 从众心理:大家都认为如此,就一定如此吗? 共识有可能是危险的。就算有数百万人声称某 件蠢事是对的,这件蠢事也不会因此成为聪明 之举。
• 虚假类比——他总玩游戏但是上MIT了,你跟 他都是人,所以你总玩游戏也能上MIT。
• 样本能代表总体吗?样本有代表性吗? • 样本足够大吗?
8
个人经验可靠吗?
• A/B测试有点类似于统计学里面的随机对 照实验。
20
A/B测试的重要性
• 不少互联网巨头都是A/B测试的忠实 信徒,这其中就包括Google、 Amazon、Bing、Netflix等。
• 搜索引擎、有推荐系统的网站、大型 门户网站往往非常倚重A/B测试。这 种公司的网站设计很多时候是数据驱 动的。
• 谷歌连工具栏上的颜色选择也要A/B 测试。
21
A/B测试的步骤
• 使用A/B测试首先需要建立一个测试页面 (variation page),这个页面可能在标 题字体、背景颜色、措辞等方面与原有页 面(control page)有所不同。
• 然后将这两个页面以随机的方式同时推送 给所有浏览用户。
统计学
1
目录
• 批判性思维 • 统计学思维 • A/B测试 • 统计学方法分类
2
懂统计学有什么用?
• 能更好地辨别各种分析。
3
熟悉一下常见的批判性思维
4
歧义
• 语言经常是模糊的。有些词是多义 词。
–听众要结合上下文弄明白发言者的 每个词的确切意思。发言者要界定 清楚那些多义词的确切含义。
5
因果关系
• 另一方面,如果你觉得奇迹的发生是天意, 你就错了。几乎不可能发生的事件也有发生 的必然性。
14
尽量提高预测精度
• 在有监督学习中,应努力减少假阴 性和假阳性,两者都要尽量减少。 –比如,在通过分析网上数据识别 恐怖分子时,如果宁可错杀三千, 不可放过一个,那么很可能会冤 枉很多好人。
15
重视随机对照试验和回归分析
• 为什么我们不要购买包装过于精美的产品? 为什么要忽略讨人喜欢的推销员?
10
典型的统计学思维
11
重视变异性
• 应高度关注变异性,不要用平均数来掩盖异常 值。在社会上,对平均值的滥用随处可见。平
均值就像安眠药,把你催眠,但你没有注意到
变异性,就有可能带来损失。
– 比如,一个富翁走入一家坐满了穷人的酒吧,酒吧 里人均收入将迅速提升,但每个穷人并没有因此致 富。
– 比如,有两家公司的年均增长率都相同,但是其中
一家每年增长率很稳定,而另一家的每年的增长率
不ห้องสมุดไป่ตู้上下波动,那么显然,两家公司的资金需求就
截然不同了。
12
重视组间差异
• 如果组间存在差异,就应该 把几个组分开,而不应合并 起来统计。
• 不同的组有时是不具有可比 性的。
13
不要过分在意小概率事件
• 不要过分在意小概率事件:遭遇空难和中彩 票其实都是小概率事件,发生的可能性很小, 所以不必为了活命而惧怕坐飞机,也不必为 了赚钱而玩彩票。在个体遇到医疗健康相关 的问题,或者企业家遇到经营管理问题的时 候,都容易以偏概全,认为个人体验到的就 是总体的全局的情况。
• 一些教育学者就常常用数据说话,声称电子游 戏会加大孩子的暴力倾向,却遗漏了暴力倾向 加大有着多重诱因。家庭教育、父母性格及行 为习惯所起到的作用更大。
17
循环论证
• 即便存在因果关系,因与果之间可能 会存在双向影响。需要在得出结论前 把这一点考虑到。
• 是否存在循环论证?
18
统计学思维的通俗入门书
• 《看穿一切数字的统计学》 • 《赤裸裸的统计学》 • 《数据统治世界》
19
A/B测试
• A/B测试是互联网产品设计人员最熟悉的 网页优化方法,能够对比不同版本的设 计,选取更吸引用户眼球的那一款,以 便增加用户点击、回访、购买等行为, 或者增加转化率注册率等。
• 为了搞清楚哪个功能或设计更好,每个 网站或移动应程序的数据科学家都离不 开A/B测试工具。
– 你在A和B之间做比较的时候,可能会忽略了 其他很多可能更好的方案
24
A/B测试的基本注意事项
• A/B测试必须是单变量 • 一般都着眼于转化率 • 注意控制访问各个版本的人数,大多数情况下
希望将访问者平均分配到各个不同的版本上。 • 不一定仅限于分成两个组。分成多个组也可以。 • 要确保两个组的用户是来自同一个总体的,也
• 相关关系并不等同于因果关系。 • 最强的用于检测因果关系的统
计学武器:随机对照试验 • 无法进行随机对照试验时该怎
么办? 做回归分析。
16
回归分析中的遗漏变量偏差
• 在回归分析时,有时会出现变量遗漏偏差。比 如,有研究认为“常打高尔夫易患心脏病、癌 症和关节炎”——真的吗?其实是因为打高尔 夫者年龄更大,疾病多只是因为年龄大而已。
• 以先后论因果:A在B之后发生,不见 得说明A会导致B
• 很多事情发生的原因其实不止一个 • 不应盲目以结果好坏判断决定的优劣 • 分析的结论不一定只有一个
6
证据与信息源
• 发言者有时把个人经历、典型个案、 专家意见作为证据。这些证据都可靠 吗?
• 发言者是否省略了重要的数据 • 信息源可靠吗? • 发言者所引用的数据是否来历不明
• 接下来分别统计两个页面的用户转化率, 即可清晰的了解到两种设计的优劣。
22
A/B测试怎样识别用户
• 它通过Cookie或用户名识别用户。 • 它对同一个用户展现同一个版本。所以,同一
个用户不会发现不同的测试版本。不过,如果 你换台电脑,可能就会发现网站的不同版本。
23
A/B测试的局限性
• 必须在有大量被测用户的前提下,才是有 意义的。很多用户少的网站不适合做这种 测试。
• 你是否纠缠于沉没成本?为什么我 们试过衣服后一般就会买下来?为 什么经验有时让人变蠢?为什么拿 锤子的人会把一切看成钉子?为什 么自己做的菜吃起来更香?为什么 我们会认为现状最好?
9
分析一下发言者的背景和目的
• 应该试图了解发言者的背景、并判断其可 能想要达到的目的。
• 发言者是否试图转移别人的注意力,回避 真正的问题。为什么推销员说出产品缺陷 时,我们也须谨慎?显眼的不一定等于是 重要的
7
证据
• 从众心理:大家都认为如此,就一定如此吗? 共识有可能是危险的。就算有数百万人声称某 件蠢事是对的,这件蠢事也不会因此成为聪明 之举。
• 虚假类比——他总玩游戏但是上MIT了,你跟 他都是人,所以你总玩游戏也能上MIT。
• 样本能代表总体吗?样本有代表性吗? • 样本足够大吗?
8
个人经验可靠吗?
• A/B测试有点类似于统计学里面的随机对 照实验。
20
A/B测试的重要性
• 不少互联网巨头都是A/B测试的忠实 信徒,这其中就包括Google、 Amazon、Bing、Netflix等。
• 搜索引擎、有推荐系统的网站、大型 门户网站往往非常倚重A/B测试。这 种公司的网站设计很多时候是数据驱 动的。
• 谷歌连工具栏上的颜色选择也要A/B 测试。
21
A/B测试的步骤
• 使用A/B测试首先需要建立一个测试页面 (variation page),这个页面可能在标 题字体、背景颜色、措辞等方面与原有页 面(control page)有所不同。
• 然后将这两个页面以随机的方式同时推送 给所有浏览用户。
统计学
1
目录
• 批判性思维 • 统计学思维 • A/B测试 • 统计学方法分类
2
懂统计学有什么用?
• 能更好地辨别各种分析。
3
熟悉一下常见的批判性思维
4
歧义
• 语言经常是模糊的。有些词是多义 词。
–听众要结合上下文弄明白发言者的 每个词的确切意思。发言者要界定 清楚那些多义词的确切含义。
5
因果关系
• 另一方面,如果你觉得奇迹的发生是天意, 你就错了。几乎不可能发生的事件也有发生 的必然性。
14
尽量提高预测精度
• 在有监督学习中,应努力减少假阴 性和假阳性,两者都要尽量减少。 –比如,在通过分析网上数据识别 恐怖分子时,如果宁可错杀三千, 不可放过一个,那么很可能会冤 枉很多好人。
15
重视随机对照试验和回归分析
• 为什么我们不要购买包装过于精美的产品? 为什么要忽略讨人喜欢的推销员?
10
典型的统计学思维
11
重视变异性
• 应高度关注变异性,不要用平均数来掩盖异常 值。在社会上,对平均值的滥用随处可见。平
均值就像安眠药,把你催眠,但你没有注意到
变异性,就有可能带来损失。
– 比如,一个富翁走入一家坐满了穷人的酒吧,酒吧 里人均收入将迅速提升,但每个穷人并没有因此致 富。
– 比如,有两家公司的年均增长率都相同,但是其中
一家每年增长率很稳定,而另一家的每年的增长率
不ห้องสมุดไป่ตู้上下波动,那么显然,两家公司的资金需求就
截然不同了。
12
重视组间差异
• 如果组间存在差异,就应该 把几个组分开,而不应合并 起来统计。
• 不同的组有时是不具有可比 性的。
13
不要过分在意小概率事件
• 不要过分在意小概率事件:遭遇空难和中彩 票其实都是小概率事件,发生的可能性很小, 所以不必为了活命而惧怕坐飞机,也不必为 了赚钱而玩彩票。在个体遇到医疗健康相关 的问题,或者企业家遇到经营管理问题的时 候,都容易以偏概全,认为个人体验到的就 是总体的全局的情况。
• 一些教育学者就常常用数据说话,声称电子游 戏会加大孩子的暴力倾向,却遗漏了暴力倾向 加大有着多重诱因。家庭教育、父母性格及行 为习惯所起到的作用更大。
17
循环论证
• 即便存在因果关系,因与果之间可能 会存在双向影响。需要在得出结论前 把这一点考虑到。
• 是否存在循环论证?
18
统计学思维的通俗入门书
• 《看穿一切数字的统计学》 • 《赤裸裸的统计学》 • 《数据统治世界》
19
A/B测试
• A/B测试是互联网产品设计人员最熟悉的 网页优化方法,能够对比不同版本的设 计,选取更吸引用户眼球的那一款,以 便增加用户点击、回访、购买等行为, 或者增加转化率注册率等。
• 为了搞清楚哪个功能或设计更好,每个 网站或移动应程序的数据科学家都离不 开A/B测试工具。