20120810_统计数字会撒谎

合集下载

产品经理-数据也会说谎隐藏在统计数据中的那些小把戏

产品经理-数据也会说谎隐藏在统计数据中的那些小把戏

数据也会说谎隐藏在统计数据中的那些小把戏数据本身不会说谎,但说谎者需要数据。

统计数据主要在决策时拥有十分重要的意义,然而许多数据显示机构却经常以一些谎言无耻掩盖数据的真实性,因此,学会识破统计数据中的一些常见小把戏非常有必要。

“世界上为有三种谎言:谎言、同谋和统计数据!”——美国统计专家达约莱尔·哈夫在其传世之作《统计数据会说谎》中如是说。

对于统计数据,我们似乎对其有着某种天然的信任感,认为其代表者着客观公正,数据不会说谎乃至成为了我们的潜意识,在许多时候成为了我们评判事物好坏已成与否的标准。

但现实的悖论在于,许多聪明机构人或的就是抓住了我们对于数据的这种天然的信任感做起了文章,通过各种统计手段得出各种或好或坏的各种数据,进而消极影响普通消费者消费者的判断。

的确,在日常生活中,我们时常也能看到,在那些价格竞争激烈的行业,不同的统计机构往往会在同一时间给出相互打架的数据结论,造就同一行业中同时出现多个第一的闹剧,这在过往的外卖、移动支付、共享单车、智能手机等市场中都智能手机已是屡见不鲜。

但常识告诉我们,各别行业中四个同时出现两个第一,是概率极小乃至是不或许事件。

那种为何这种统计闹剧屡见不鲜?其中原因在于多种多样,往小了则表示有统计口径差异,基数偏差、数据粉饰、夸大等等,而往大了说那么就有可能是佯装数据为之的数据造假,以求达到不可告人的目的。

诚如政治家格罗夫纳(C.H.Grosvenor)所言:“数据本身不会私底下,但说谎者可能需要数据。

”所以对于我们而言,在以统计数据作为决策依据时,可能需要擦亮自己的眼睛,预防辨别出统计数据中时常出现小把戏的一些小把戏,选择具备真正有意义的来做参考。

关联性不同统计口径造就的数据差异,往往在市场份额、销售量这类统计中时常出现,表现得颇为明显。

诸如在过往国产厂商在国内智能手机市场销量谁是第一的竞争中,甲乙两家厂商都宣称自己是当年的销量第一,并且拉出了不同的市场调研机构给出的结论来站台背书。

《统计数据会说谎》课件

《统计数据会说谎》课件

描述统计数据误导
当描述性统计数据被断章取 义或无视背景时,会导致人 们产生错误的印象。
推断统计数据误导
当推断性统计数据的样本选 取或分析方法存在问题时, 会导致错误的结论。
统计数据的谎言案例分析
案例一:政治民调数据 的谎言
政治民调常常被用来操纵公众 舆论,通过有选择性的数据展 示来达到特定的政治目的。
案例二:商业广告中的 谎言
许多商业广告使用模糊的统计 数据或夸大的效果来误导消费 者,以增加销售量。
案例三:科学实验数据 的谎言
有些科学研究可能受到资金、 压力或偏见的影响,导致其结 果被错误地呈现或解读。
如何辨别统计数据的谎言
1
多方获取信息
通过多个不同的渠道获取信息,以避免过于依赖单一数据源。
2
1 自然观测
通过观察和记录自然现象、行为或事件来收集数据,例如天气变化或动物行为。
2 人工实验
在控制环境中进行的实验来收集数据,例如药物试验或心理学实验。
3 抽样调查
通过随机抽样收集数据,以便代表总体进行统计推断。
统计数据的谎言
误导性统计数据
通过选择性地呈现数据或使 用不正确的统计方法来误导 观众。
《统计数据会说谎》PPT 课件
统计数据是我们生活中无处不在的一部分,它们既普遍又重要。然而,我们 必须认识到统计数据可能存在谎言的问题。
统计数据的类型
描述性统计数据
用于总结和展示数据的特征,例如平均值、中位数和标准差。
推断性统计数据
基于样本数据进行推断以得出总体数据的估计值和结果。

统计数据的来源
调查统计样本
仔细检查统计数据的样本,确保其代表性和可靠性。
3
检查数据来源

统计数字会撒谎

统计数字会撒谎

8. 如何反驳统计资料——真相只有一个
•问题二:他是如何知道的?
数值是否足够大,从而能解释问题?观察值是否足够多,从而保证结论的可靠性? ——对亍许多报告中的内容,通过观察,你会収现由亍缺乏足够多的观测值,报告的内容丌足 以说服仸何人。(前面的抛硬币的栗子)
•问题三:遗漏了什么?
通常,你幵丌会被告知包含了多少观测值,这个数据的缺失,特别当信息来源亍信息存在利害 关系一方时,已足以使你对整件事情提出质疑。比如,当均值不中位数相差甚进时,需要注意 那些没有标明类型的平均数。 很多数据因为没有比较而发得缺乏意义。 Longlongago,x大学开始接收女学生时,一丌赞成异性同校的人做 了一个惊人的报道:x大学1/3的女生嫁给了大学老师!民风狠彪悍 啊。
高露洁广告
广告说啥我信啥
某位统计与家曾经建议,在被告知某个调查的结果时,你需要做的就是反问一句 :“你调查了多少名被访者” 采用严重有偏的样本几乎能够产生仸何人需要的仸何结果。
2. 没有披露的数据——想要什么结果就有什么结果
广告骗术中,怎样才能完全依靠机遇形成毫无指导性的结论呢?答案就是足够小的样本
1. 精心挑选的平均数——我们为什么老是拖后腿
你也来上海啦?
恩,魔都是个好地 方~
实际上,即使我们的工资都丌涨,也有让平均工资涨的方法:假设盖茨和乔布斯
搬来上海,我们的平均工资就会涨到10k啦~~~
1. 精心挑选的平均数——我们为什么老是拖后腿
起码拉高一千咧! 你知道吗?咱拉高了 上海人的平均收入呢
7. 如何进行统计操纵——见证奇迹的时刻
•发换基数还能产生增加折扣的幻觉。 折上折!!!“50%折扣再打20%折扣” =
70% ?
60%
•将一些看似能直接相加却丌能这样操作的事情加在一起,会产生大量的欺骗和隐瞒

统计学 学生课外优秀阅读书目推荐

统计学 学生课外优秀阅读书目推荐

应用统计学学生课外优秀阅读书目推荐1、统计学David Freedman等著,魏宗舒,施锡铨等译,中国统计出版社推荐理由:《统计学》是引导人们对统计问题进行思考的一本杰出的教材,它是迄今为止我们所见到的最出色的关于统计思想的入门书。

它以清晰的日常语言和各种类型的例子向人们介绍解决统计问题的若干技巧,展示了统计在诸如经济、教育、遗传、医药、物理、化学、环境污染、政治及社会科学、心理学等方面所起的至关重要的作用。

在整个展开过程中除了加减乘除等简单运算之外,整本书几乎没有公式,但是讲到了统计思想的精髓。

2、Mind on statistics(英文版)机械工业出版社推荐理由:只需要高中的数学水平,统计的扫盲书。

有一句话影响很深:Mathematics as to statistics is something like hammer, nails, wood as toa house, it's just the material and tools but not the house itself。

3、漫画统计学入门作者 : 拉里-戈尼克/沃尔科特-史密斯,辽宁教育出版社推荐理由:《漫画统计学入门》涵盖了现代统计学的所有精髓:数据的汇总、整理;随机变量;伯努利实验;中心极限定理;假设检验;估计置信区间;林林总总,所有这一切都在书中用简洁、明了的文字和妙趣横生的插图加以了解释。

4、数理统计学简史作者 : 陈希孺,湖南教育出版社推荐理由:本书概述了自17世纪中叶以来三百多年间,数理统计学发展的历史,记录了一些深远影响的大事、思想源头、重要发展之间的关系、重要人物的思想和贡献等内容,包括:概率基本概念的起源和发展,伯努利大数定律和狄莫旨二项概率正态逼近,贝叶斯关于统计推断的思想,最小二乘法与误差分布--高其正态分布的发现过程,社会统计学家对数理统计方法的主要贡献等。

5、漫话信息时代的统计学——兼话诺贝尔经济学奖与统计学作者:韦博成,中国统计出版社2011年10月推荐理由:《漫话信息时代的统计学兼话诺贝尔经济学奖与统计学》为一本普及型读物,其目的是希望使更多的人了解统计学。

统计中的骗局

统计中的骗局

统计中的骗局致谢语:在多方的帮助下,经过广泛的收集,我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。

在我通过美国统计学会发出呼吁后,许多专业统计学家--请相信我,他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。

这些人,我猜想,将乐意成为无名英雄。

同样,我在许多书籍中发现了有价值的案例,仅列出其中主要的书籍:Martin A. Brumbaugh 和Lester S. Kellogg所著的《商业统计学》;Hadley Cantril的《公共观点的测定》;Willard Cope Brinton的《图表表示法》;Frederick E. Croxton 和Dudley J. Cowden的《实用商业统计学》;George Simpson 和Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。

Darrell HuffⅠ序言:我的岳父从爱荷华州到加利福尼亚州不久便对我说:"你们这儿治安不好。

"在他所阅读的关于加州的报道的确如此。

但是,这些报道通常来自一份爱荷华州的报纸。

这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。

我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。

类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。

几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。

所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。

这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。

人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。

统计数字会撒谎观后感

统计数字会撒谎观后感

统计数字会撒谎观后感第一篇:统计数字会撒谎观后感统计数字会撒谎生活中我们会接触到各式各样的谎言,每个人都需要对各种信息进行识别,因此、掌握书中的工具是防止受骗的可行方法。

培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。

”我想对数据资料的判断和接受也是如此。

统计学是一个很大的课题。

统计这种神秘的语言,在一个用事实说话的社会里是如此的吸引人,但有时它却别利用并成为耸人听闻、恶意夸大或简化事实、迷惑他人的工具。

在报告社会经济趋势、商业状况、民意测验和普查的大量数据时,统计方法或者统计术语是必不可少的。

但如果人们不能正确理解并恰当地使用这些统计语言,而读者又并不能真正懂得这些术语的含义,那么,统计结果只能是一堆废话。

统计数据通常被人们所滥用,把一些重要的事实弄得似是而非。

本书中也例举了很多很多例子,让我们深入了了解了统计学的另一面,让我们知道很多时候数字是要一定的范围,一定的限定,否则总是有这里哪里的缺陷。

本书常常提到的“平均数”,有的时候人们把中位数当作平均数,有的时候人们又把众数当作平均数,然后再把信息公布于社会。

各个国家、企业、个体把数据公诸于世的时候都是想另读者相信自己的能力,也许食用的是均值,以便利用高收入读者群来大道吸引广告商的目的。

总有那些漏洞可以让人们有机可趁,使报出的这些数据逃避法律的责任,这样就让他们既不用负到法律的责任,又可以以此获得巨大的利益。

群众总是被他们的数据所欺骗,即使是再精明的老统计学专家,也不一定是这组数据的对手。

有的调查报告也是不完整、不规范的,很多时候为了利益,他们也可能会去做一些调查,但是做的调查为了使其更有真实感,不一定会让自己的统计数字十全十美,但是的确又都是利于自己的,在调查的过程中,他们抽样的样本是不是具有片面性,是不是够广泛也是调查结果差异的重要原因。

为了吸引读者,现今大多人开始使用图形来说明数据,形象化的图形的前身是普通的柱状图,在比较两种或两种以上事物时,柱状图是一种描绘数量的便捷常用的方法。

统计数字会撒谎

统计数字会撒谎

统计数字会撒谎作者:廖颖林来源:《中国纺织》2010年第03期“自从使用了某某牌牙膏,我们的蛀牙减少了23%。

”或许你刚被这样的广告宣传攻陷,对这新款牙膏的“神奇功效”深信不疑,但是美国统计专家达莱尔·哈夫(Darrell Huff)告诉你:“没有比这更无聊的广告了。

”没错,问题就在这个“23%”上。

在一个用事实说话的社会,我们接触到了越来越多的统计数据和资料,例如各种经济数据、证券信息、投资可行性研究报告、公司财务报告等。

但是却有不少销售员、公关公司、广告撰稿人等在滥用书中所揭露的“数据造彼方法”来蒙蔽对数据知识不甚了解的客户、消费者和上司。

面对这些良莠不齐、真伪并存的数据或资料,我们需要去粗取精、去伪存真的过程。

我们又该如何进行鉴别?20世纪50年代,美国的各大媒体和宣传机构就已经开始越来越重视利用统计——“这个神秘的语言”——说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。

相反,还往往对读者形成误导。

达莱尔·哈夫——一位具有深厚统计背景的新闻记者一发现了这一现象。

他在广泛调查的基础上,从报刊、杂志、书籍中,从美国统计学会一些统计学家提供的实例中,收集了大量案例,并在1954年写下了《How to Lie with Statistics》一书。

该书一经出版,便畅销美国,成为美国20世纪50年代的畅销书之一,并受到了当时美国各种书评杂志的好评,至今依然常常被美国不少权威媒体所引用。

《管理评论》认为:“哈夫先生用如此生动的,充满人情味的方式来论述统计这个干巴巴的课题,真是一剂灵丹妙药,我们太需要这本书了,它虽然娱乐性强、浅显易读,却十分具有说服力。

”《图书期刊》如此评价:“作者和制图者倾注了全力,给大家提供了一本十分轻松活泼的读物和卡通画。

它们能给你带来娱乐,又能引发思考,而且还揭穿了许多统计方法的谎言。

”《大西洋》评价道:“这是一本具有善意破坏性的书,读完它后,你对于‘万能统计’的信任将大大降低。

《统计数据会说谎》课件

《统计数据会说谎》课件

详细描述
一些学者在研究中为了证明自己的观点,可能会篡改或编造 实验数据,或者选择性地使用部分数据来支持自己的论点, 导致研究结果失真。
05
如何避免统计数据的说谎
提高公众的数据素养
培养对数据的敏感性和批判性思维
01
让公众了解数据的基本概念、特点和局限性,学会从多角度分
析数据,不盲目相信或传播数据。
惕,仔细核实数据的真实性和可靠性。
04
统计数据的说谎案例
媒体报道中的数据误用
总结词
媒体在报道时往往为了制造轰动效应 或引导读者做出某种判断,会选择性 地使用或解读数据,导致数据误导。
详细描述
媒体在报道时有时会忽略数据的背景 信息,只选取部分数据来支持他们的 观点,或者对数据进行断章取义的解 读,使读者产生误解。
数据的选取偏差
总结词
在收集和选择数据时,可能会因为主观因素或外部压力而产生偏差,导致数据不 能客观反映实际情况。
详细描述
数据的选取偏差通常源于对数据的理解不足或偏见,导致只选取符合某种观点或 利益的数据,而忽略其他重要信息。例如,在市场调研中,如果只选择有利于自 己产品的数据,而忽略其他竞争产品的优点,就会产生数据选取的偏差。
损害信任
不准确的统计数据会破坏 人们对数据和信息来源的 信任,影响数据和信息的 公信力。
浪费资源
基于错误数据的决策可能 导致资源的不合理分配, 造成资源浪费。
提高对统计数据的重视和警惕性
增强意识
通过培训和宣传,提高人 们对统计数据重要性的认 识,了解数据质量对决策 的影响。
严格审核
建立数据审核机制,对统 计数据进行严格把关,确 保数据的准确性和可靠性 。
数据解读的误区

统计数字会撒谎ppt

统计数字会撒谎ppt

是否拥有了更对哪些医务职务的尊敬, 医生就能比其他人掌握更多关于香烟品牌的 资料?是否自身的知识能够促使他们选择危 害性最小的品牌?当然不是,也许你的一生 第一个就会反驳这种观点,但“27%”又仿 佛暗示着能解释一些问题。
相关关系与因果关系
如果B紧跟A出现,那么A一定导致B。这一古老的 谬误然而它仍频繁的出现在统计资料中,并被大量让人印 象深刻的数据所伪装。这在很多人脑海中已根深蒂固,所 以导致很多人陷入陷阱中 。 哈夫先生举了如下的例子:六月是自杀率最高的月 份。那么,是否自杀导致了六月的婚礼—抑或六月的婚 礼促成了被抛弃者的自杀?一个更合理的解释是(同样 未经证实):整整一个冬季,某人抚慰自己沮丧的心情, 并满怀希望春天一切会重新开始。可是到了六月,他仍 没能从低落中解脱出来,于是用自杀表示放弃。
是比较聪明的孩子,彼得是个笨孩子。
对待智力测验以及许多其他类似的抽样结果应注意
它的范围。正常的智商不应该只是100这样一个数值,而 应是诸如90~110的一个范围。将处于这个范围的孩子与 低于或高于此范围的孩子进行比较时会得出一些有用的 结论。但比较相差不大的两个数据则毫无意义。结论: ◆我们可以定量地衡量你的样本能以多大的精度代表总体, 那就是:可能误差和标准误差。 ◆在所有抽样研究中都有误差,忽略这些误差将导致一些
谁说的?即究竟是谁的出的结论。当某个权威人士被引用时,要弄清 楚到底资料的内容是权威的,还是仅仅与权威人士沾边,有些时候数据 是来自权威人士,然而结论却是作者自己得出的。 • 他是如何知道的?即他到底是通过什么渠道得到的,所选样本是否有 偏,样本容量是否足够大,所取样本又是否具有代表性。 • 遗漏了什么?即样本包含多少案例、平均数有没有标明类型、数据有 没有对照组、数据是否够清晰、对照组是否具有对照性。 • 是否有人偷换了概念?即将甲说成乙。 • 这个资料有意义吗?即当所接触的资料是建立在未经证实的基础上, 那么这个 资料毫无意义。

为什么统计数据会撒谎的阅读理解

为什么统计数据会撒谎的阅读理解

为什么统计数据会撒谎的阅读理解文章标题:为什么统计数据会撒谎的阅读理解1. 背景介绍统计数据在我们日常生活中扮演着重要的角色,它不仅影响着政策决策,还指导着企业经营和个人选择。

然而,我们不得不承认,有时统计数据也可能会撒谎。

本文将从多个角度探讨为什么统计数据会撒谎的问题,并帮助读者更好地理解并应对这一现象。

2. 统计数据真相与谎言统计数据在很多情况下都是客观的真实反映,但也存在一些制造或夸大问题的情况。

在一些调查中,可能存在样本不足、调查方式有误或者数据解读主观等问题,从而导致数据不真实的情况发生。

统计数据背后的利益驱动也会造成数据的夸大偏向,甚至有些统计数据是被有意伪造出来的。

3. 统计数据的影响撒谎的统计数据会给我们的决策和判断带来负面影响,这种影响不仅体现在政治决策和经济发展上,还会影响到我们个人的生活和工作。

我们必须更加深入地理解统计数据,并对其真实性保持警惕。

4. 如何识别和处理撒谎的统计数据针对撒谎的统计数据,我们可以采取一系列的措施来识别和处理。

查看统计数据的来源和调查方法,核实数据的真实性,对于不合理的统计结果要有怀疑和求证意识,以及加强对统计数据背后利益驱动的敏感度等。

5. 总结与回顾统计数据的真实性至关重要,而撒谎的统计数据可能会误导我们的思考和决策。

我们需要具备一定的阅读理解能力,提高对统计数据的识别能力和分析能力,以更好地应对撒谎的统计数据。

6. 作者观点作为文章写手,我个人觉得统计数据是一把双刃剑,它可以指引我们前进,也可能使我们误入歧途。

在面对统计数据时,我们应该保持清醒的头脑,多方求证,不能一味地相信表面的数字,更要关注统计数据背后的真相。

通过以上内容的全面探讨,读者可以更深入地理解为什么统计数据会撒谎的问题,并且在实际生活中更好地应对和处理这一现象。

统计数据是我们生活中不可或缺的重要组成部分。

它在政策制定、商业决策、学术研究以及个人生活中起着至关重要的作用。

然而,随着数据的日益普及和重要性的增加,统计数据撒谎的问题也日益突出,这不仅损害了数据的真实性和可信度,还可能导致误导和错误的决策。

统计数据会说谎阅读心得

统计数据会说谎阅读心得

统计数据会说谎阅读心得一、概述在当今社会中,数据无处不在,从商业报告到社交媒体统计,再到政府发布的统计数据。

这些数据真的可靠吗?统计数据会说谎,本文将探讨为什么统计数据会撒谎,以及如何识别和避免被误导。

统计学是一门旨在从数据中提取有意义信息和结论的科学,当涉及到统计数据时,事情并不总是那么简单。

统计数据会因为各种原因而说谎,从而误导读者。

在本阅读心得中,我们将探讨统计数据为什么会说谎,以及如何识别和避免被误导。

1. 数据作为现代社会的重要组成部分在现代社会中,数据已经成为了不可或缺的一部分。

它像空气一样弥漫在我们的生活中,从商业决策、医疗健康,到教育、交通乃至国家治理,每一个方面都离不开数据的支撑。

作为一名统计学家,我深知数据的重要性。

但当我们沉浸在这些美丽而富有洞察力的数据时,也需要时刻保持警惕,防止数据被误用或篡改。

因为数据本身并没有意义,只有当它被正确解读和使用时,才能真正发挥其价值。

2. 数据分析和解读的重要性在数据分析的过程中,我们不仅要关注数据的准确性和完整性,更要学会如何正确地解读这些数据。

数据本身并不能告诉我们任何事情,它只是一种工具,帮助我们更好地理解和分析现实世界。

对数据进行深入的分析和解读,是每一个数据分析师不可或缺的技能。

我们需要明确数据解读的目标,这可能是为了评估一个项目的成功程度,也可能是为了发现潜在的市场机会,或者是为了优化业务流程。

无论目标是什么,我们都应该确保我们的解读方法与目标的契合度,这样才能确保我们的分析工作具有实际意义。

我们要掌握正确的数据解读方法,这包括统计学原理、数据可视化技巧以及领域专业知识等。

通过运用这些方法,我们可以从数据中提取出有价值的信息,并形成能够支持决策的见解。

数据解读是一个持续的过程,随着市场和业务环境的变化,我们需要不断地更新我们的解读方法和策略,以适应新的情况。

我们才能确保我们的数据分析工作始终与现实世界保持一致,为决策者提供真正有价值的见解。

(1)《统计数字会撒谎》读后感

(1)《统计数字会撒谎》读后感

(1)《统计数字会撒谎》读后感
最近,书还是一直在看,但是写得不多。

发现,还是写写比较好,收获能保留得更久。

要不,就是有收获,也扛不过时间。

50年前的书了,依然很有意义。

不过,看的时候,和想象的有出入。

本来以为是一本很专业关于统计学的书,结果,具体上时和数字情况说明的书籍。

150页的小书,刨掉标题,刨掉插图,实际内容估计就100页左右。

前面部分是,对于观点由来的阐述,核心内容,在最后一章。

作者做了很好的总结,我就抄写记录一下就是。

关于数字,要了解它的真实情况,需要了解下面几个方面:
1,谁说的?确认是不是有人为的因素在里面。

2,他是如何知道的?数字来源是不是可靠,样本是不是有代表性,数量足够说明问题。

3,遗漏了什么?表述的是不是全面,是否有东西没有说明,并对实际判断有影响。

4,是否有人偷换了概念?留心收集原始资料到形成结论的整个过程,是不是存在概念变化。

5,这个资料有意义吗?让人印象深刻的精确数据也会与实际情况相左。

其实,在市场调查和其他分析的方面,需要多注意。

这些方面对于上面的5个问题,确实必要。

不靠谱的统计数字如何欺骗了你?

不靠谱的统计数字如何欺骗了你?

不靠谱的统计数字如何欺骗了你?【⼀】在这个信息爆炸的时代,我们的周围总是充斥着各种各样的新闻和数据,⽐如“⼴东本科⽣平均⽉薪7000,你拖后腿了吗?”、“北京⼈初婚平均年龄为27岁,结婚越晚越稳定”、“从除⼣开始放假会让很多员⼯觉得浪费⼀天假期”……⾯对这些数字时,你是否会在被戳中痛点后默默回⼀句“我⼜⼀次被代表了”或者“哥⼜拖后退了”?当然,还有⼀些所谓的研究结果甚⾄通过⽹络被快速传播,成为了⼈⼈都知道的“科学”事实:“近视眼戴眼镜会眼球变突”、“家⽤电⼦设备辐射⼤,所以⼿机不要放床头、电脑⼀定要⽤防辐射的机箱,接电话时不要离⽿朵太近”、“碱性体质的孕妇更容易⽣⼉⼦”……这些所谓的“科学”通过“⽤数字说话”的⽅式吸引了你的注意⼒。

可是,客观真实的数字摆在那,我们就能正确认识世界了吗?今天,精读君就为⼤家推荐⼀部美国统计专家达莱尔·哈夫的著作《统计数字会撒谎》,看看我们周围的数据中都暗含了哪些骗局。

作者达莱尔是⼀名⾃由记者,因其1954年出版的这本精彩、⼤为畅销的《统计数字会撒谎》⽽深受数代极客的爱戴。

【⼆】“平均年收⼊10万”,对你来说是什么概念?作为揭露数据造假的经典⼯具书,这本《统计数字会撒谎》在50年代⼀出版,就成为有些⼈的“⼼头⼤患”,他们在全世界对其进⾏围追堵截,就是因为害怕读者看到书中的真相。

它诞⽣之后,不仅被奉为“世界统计学普及读物第⼀畅销书”、“25本投资经典之⼀”、“经典社会学读本”,⽽且被誉为“数据造假曝光宝典”,在世界畅销50年⽽不衰。

达莱尔⽤风趣的插图和通俗的语⾔把⾼深的统计写得像“故事书”⼀样精彩,这种独具⼀格的⾏⽂和编排使得此书更具魅⼒。

此外,书中还揭露了⼤量⾄今仍被销售员、专家、记者或者⼴告撰稿⼈频频使⽤的“⾏骗⼯具”,如:有偏的样本,精⼼挑选的平均数,遗漏某些重要的数据,混淆因果关系,滥⽤⼀维图形等。

更为重要的是,达莱尔在书中破解了如何识破虚假统计数据。

统计数字会撒谎

统计数字会撒谎

统计数字会撒谎引言统计数字是我们日常生活中经常接触到的信息之一。

无论是报道中的数据、学术研究中的统计结果,还是市场调研中的数据分析,统计数字都扮演着重要的角色。

然而,人们常常忽略了一个事实:统计数字会撒谎。

统计数字的局限性统计数字在表达事实时,常常受到多种因素的影响,从而导致结果不完全真实或失真。

以下是一些常见的导致统计数字撒谎的因素:1. 样本选择偏差在进行统计分析时,选择合适的样本至关重要。

如果样本的选择存在偏差,那么统计结果就可能失真。

例如,在一项调查中,如果只选择了一小部分人作为样本代表整个人群,那么结果很可能不具有普遍性。

2. 统计方法的局限性统计分析需要根据具体情况选择合适的方法。

不同的统计方法有着不同的局限性,如果选择不当,就会导致结果的失真。

例如,在某项研究中,如果使用了不适合的回归模型,那么预测结果就可能不准确。

3. 数据处理错误数据处理是统计分析的重要环节之一。

如果在数据处理过程中存在错误,就会对统计结果产生影响。

例如,在对某项数据进行计算时,如果存在公式错误或数据录入错误,就会导致统计结果的偏差。

统计数字的误导性除了上述局限性外,统计数字还具有误导性。

以下是一些常见的导致统计数字误导的因素:1. 不完整的媒体报道媒体报道常常只选择某些统计数字进行呈现,而忽略了其他重要的信息。

这种选择性报道容易产生误导,让人们对事实产生不正确的理解。

因此,在阅读媒体报道时,应当保持较高的警惕性,拒绝一刀切地相信统计数字所呈现的信息。

2. 数据操纵为了达到某种目的,一些人可能会有意地操纵统计数据。

他们可能选择合适的样本、改变统计方法或者进行数据处理上的偏差,以获得符合自己利益的结果。

这种操纵统计数据的行为是不道德的,也是对统计学的侮辱,但是在现实生活中并不罕见。

3. 误导性的图表图表是常用的数据可视化形式,然而,图表的设计也可能存在误导性。

通过使用不当的比例尺、缩放图表等手段,图表可以被设计成呈现错觉。

读书笔记《统计陷阱》《统计数字会撒谎》

读书笔记《统计陷阱》《统计数字会撒谎》

读书笔记《统计陷阱》《统计数字会撒谎》两本⼀样的书,不同的出版社⽽已,晕...本来是个怀疑主义者,看过了就更怀疑了,呵呵~~P16从总体中抽出的样本(第⼀次抽样)远不能称为随机抽样,因此可能对所有的总体都不具有显著的代表性。

同样,我们需要了解到:任何⼀个调查问卷都只不过是所有相关问题的样本(第⼆次抽样)。

⽽绅⼠或⼥⼠们所给的答案也只不过是他(或她)关于每个问题的态度或经历的样本(第三次抽样)。

脑筋急转弯,以下说法的问题在哪⾥?1、随处可见某种榨汁机的⼴告:“经过实验室的证明”该榨汁机的“榨汁功能增强了26%”,并且“得到了好管家研究院的推荐”。

2、“⼤多数——约78%的职员反对⼯会。

”3、在美国与西班⽛交战期间,美国海军的死亡率是千分之9,⽽同时期纽约市居民的死亡率是千分之16。

后来海军征兵⼈员就⽤这些数据来证明参军更安全。

4、在1942年杜威当选州长时,⼀些地区教师的最低年收⼊只有900美元;⽽今天,纽约州的教师享有全世界最⾼的收⼊⽔平。

在杜威政府的建议下,在由杜威指定的委员会的表决下,⽴法机构于1947年从州财政盈余中拨出3200万美元直接⽤于提⾼教师收⼊⽔平,这使得纽约市教师最低收⼊⽔平提⾼到2500-5323美元之间。

5、康奈尔⼤学对1500名普通的、年龄中等的毕业⽣进⾏了调查。

他们中的男孩,93%已婚(同年龄层的该⽐例为83%)。

但是⼥孩中只有65%已婚。

未婚笔记是同年龄层⼥孩的3倍。

结论:如果你是个⼥孩,上⼤学会提⾼你成为未婚⼥⼦的⼏率。

但如果你是⼀个男⼦,结果相反——它将减少你单⾝的机会。

6、英国新赫布⾥群岛⼟著居民的信条:⾝上的跳蚤会带来健康。

因为通过⼏个世纪的观察,⼟著居民发现健康⼈的⾝上总有⼀些跳蚤,⽽⾝体羸弱的⼈⾝上通常没有跳蚤。

于是他们得出结论:跳蚤使⼈⾝体健康,每个⼈⾝上都应该有跳蚤。

P131谁说的?⾸先要寻找的是偏差....他们提供的数据都有可能产⽣偏差。

使⽤不正确的测量⽅法也是产⽣偏差的原因之⼀,⽐如在进⾏⽐较时,⼀次采⽤某年为⽐较年份,⽽另⼀次却采⽤更有⼒的年份。

不要掉入统计数字的陷阱

不要掉入统计数字的陷阱

现代经济信息不要掉入统计数字的陷阱王心仪 广州市第四十七中学摘要:我们生活在信息时代,信息的主题就是统计数据,统计数据覆盖经济和社会的各个领域,但是并非所有的统计数据都是客观真实的,本文通过实例来分析有偏的样本、精选的平均数、隐藏的部分数据、误解的相关关系、不完全匹配的资料等几种统计数字说谎的方式及其破解的方法。

关键词:统计数字;陷阱;破解方法中图分类号:F713.8;F712.3 文献识别码:A 文章编号:1001-828X(2017)001-000154-02在这个信息爆炸的时代,各种各样的数据充斥在我们周围,比如“广东本科生平均月薪7000元,你拖后腿了吗?”、“北京人初婚平均年龄为27岁,结婚越晚越稳定”……可是,数字摆在那儿,我们就能正确认识世界了吗?我们要如何才能够看清这些漫天飞舞、貌似客观真实的统计数据背后的谎言?下面我们就来看看几种统计数字说谎的例子及其破解的方法。

一、有偏的样本我们来看一则媒体报道:“6月15日,人工智能公司在北京发布了《2015年中国大学薪酬排行榜》,清华大学高居榜首,复旦大学和上海财经大学分列二三位。

这份薪酬排行榜是根据来自招聘和猎头公司的4000万大学毕业生真实毕业去向数据分析所得,由各大学毕业五年薪酬指数计算所得。

”(来自新浪教育频道,2015年6月17日)2015年本科毕业生薪酬最高的100所大学名次学校名称毕业五年薪酬数值(元/月)北上广深就业比例(%)学校类型所在城市1清华大学128072复旦大学116613上海财大11235……事实上,这个数据中就使用了一个有偏的样本,从以下几个方面,我们可以看出破绽:首先,对于一群已经离开学校的人,了解他们的平均收入,且精确到以元为单位,几乎不太可能;其次,对于年收入10万元以上的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水;再次,这些毕业生不一定坚持说真话,有些人可能出于虚荣或天生乐观而夸大数据,还有一些人也有可能故意缩小数字;最后,没有人能够掌握那些不通过招聘和猎头公司的学生就业情况,比如自我创业者。

1 统计数字会说谎

1 统计数字会说谎

统计数字会说谎摘要: 在我们的工作、生活中,经常能接触到各种各样的数据、调查结果,这些数据和结果都是正确的吗?哪些数据有误导性?哪些数据有限定条件?哪些数据不可以比较?本次分享告诉大家如何解读数据,如何看透数据的真相!在我们的工作、生活中,经常能接触到各种各样的数据、调查结果,这些数据和结果都是正确的吗?哪些数据有误导性?哪些数据有限定条件?哪些数据不可以比较?本次分享告诉大家如何解读数据,如何看透数据的真相!【案例一】样本的代表性1936年《青年文摘》对美国总统大选的结果进行预测,结果失败,问题出在调查方法上(调查对象是其读者,调查方法为电话调查)。

1936年有能力购买电话和订阅杂志的人并不能代表所有的选民,至少在经济上,他们是一个极其特殊的群体,是有偏的,事实后来证实他们有许多人是共和党的选民。

但是如果调查选择的样本是代表性的,能代表全部选民那么调查就能得到准确的预测结果。

盖洛普为什么预测美国大选的结果很准确?他们采用抽样调查方法,在全国各州按比例选择调查对象对总体有很强的代表性。

【案例二】样本量是否足够?我们来调查“喜欢大番茄的人多还是小番茄的人多”,究竟调查10个人、20个人还是100个人得出的结论是准确的呢?我们选择多少个人作为调查对象,即需要多少个样本量的决定因素有很多,总体的大小,总体内部的变异程度等等。

总体的大小很容易理解,调查全市市民和调查一个班级哪个需要的样本量大呢?显然是前者。

至于总体内部的变异程度,举个例子,如果总体只有100个人且这100个人差异不大,或许十几个样本就已经足够了,但是如果这100个人每个人差异性都很大呢?是不是要选取更多的样本才能更真实反映100个人的情况呢?举一个用研的例子:对于整个淘宝网买家的调研,基本上我们要保障1500的样本量,而对于某一类目卖家的调研可能几百就足够了(比如机票等类目卖家较少)。

PS:抽样经验:1500以上的样本量基本就能很好地代表总体,无论总体有多大。

统计数据撒谎

统计数据撒谎
中国每10罐凉茶, 7罐加多宝
•问题三:遗漏了什么?
通常,你并不会被告知包含了多少观测值,这个数据的缺失,特别当 信息来源于信息存在利害关系一方时,已足以使你对整件事情提出质
大家好才是真 的好
疑。比如,当均值与中位数相差甚远时,需要注意那些没有标明类型
的平均数。很多数据因为没有比较而变得缺乏意义。
如何反驳统计资料——真相只有一个
3
图形图表变身 —— 看我72变
黄金联盟的黄金奖励 持续6000C,第3个月奖励1g黄金 第6个月奖励2g黄金, 第9个月奖励3g黄金
第12个月奖励4g黄金
2g
1g
3g
4g
宣导时,图形上长、宽、高按比例放大,文字上的“2”倍,给人
的感觉却是8倍,刺激感更强。
统计数字撒谎的
4种方式
精选的平均数
未披露的数据 图形图表变身
平均睡眠时间为 7.8小时
4
混乱的神逻辑 ——见证统计操纵
•百分数也给误解提供了肥沃的土壤,和小数一样,它也能为不确切的 事物蒙上精确的面纱。
A:本月绩优 率环比提升 20个点
B:本月绩优 率环比提升 25%
如何反驳统计资料——真相只有一个
•怎样凭双眼就能识破虚假的统计资料,并揭开它的老底,同样重要的是,如何在一大 片充满欺骗性的数据海洋中找出可靠有用的资料。
•问题一:谁说的?
首先寻找的是偏差——出于名誉或收入的考虑, 而需要证明某些结论,他们提供的数据都有可能 产生偏差.
•——
提出5个问题
如何反驳统计资料——真相只有一个
•问题二:他是如何知道的?
数值是否足够大,从而能解释问题?观察值是否足够多,从而保证结 论的可靠性?——对于许多报告中的内容,通过观察,你会发现由于 缺乏足够多的观测值,报告的内容不足以说服任何人。

读《统计数字会撒谎》有感

读《统计数字会撒谎》有感

读《统计数字会撒谎》有感最近刚读完《统计数字会撒谎》这本书,读完这本书后对统计学的重要性有了进一步的认识,对统计数字真实性的重要性有了很深的感触。

这本书是美国统计专家达莱尔·哈夫的传世之作,该书引发的“编造虚假信息”话题受到美国社会持续普遍的关注和美国权威媒体的激烈争论。

书里面大胆地揭露了至今仍然被销售员、广告撰稿人、记者甚至专家频频使用的大量的统计操纵技巧,同时还配有别具一格的风趣插图以及众多幽默的案例。

神秘的统计学在这里被哈夫像讲故事一样一一道来,莞尔一笑中让你知晓深奥的统计学基本原理,掌握揭露“虚假数据”的最有力武器。

自50年代出版以来,此书不断再版,并被翻译成多种文字,在世界的影响力持久不衰,被誉为美国商业人士、研修人员的重要入门必修书之一。

数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。

就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。

尤其是对于政府做出的统计数据,我们几乎是当笑话在看了,比如平均工资的统计,我们经常会觉得自己的工资连平均都没达到,那么是不是这些统计错了呢?不是,它们没有错,显然是因为有部分群体工资偏高,从而导致了总体平均数偏高,这里的平均数是指均值,平均数有均值、中位数、众数三种,均值一般是三者中能够得到的最大平均数,在没有点明是哪种平均数的情况下,通常就是均值,但人们正是可以利用这点来做出各种不同的平均数来达到自己的目的。

类似这种统计数据,它本身并没有错,错的是我们赋予了它与原统计数据含义不同的其他意义,以致被误读了,当然,很多时候并不是我们在赋予,而是调查者本人有意为之。

上面说的是本身正确的研究成果被媒体报道后却成了荒诞的结果的情况,这些数据还会被人穿凿附会用来谋利或证明自己的观点。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

读《How to lie with statistics》后感
Jocelyn 统计数字会撒谎
---案例与改进的方法
案例一内在有偏样本
1936年美国选举时,所有民调都显示共和党的兰登会获胜,结果却是兰登败给了民主党人杜鲁门,这是美国历史上至今最大的“选举惊奇”。

各种民调包括1000万个电话以及当时某著名杂志的订户。

这样调查对象数量庞大的民调怎么会出错呢?
原因是当时有能力购买电话和订阅杂志的人不能代表所有的选民,至少在经济上是有偏的,后来证实他们中许多事共和党的选民。

该样本选择了兰登,而全国选民却心系罗斯福。

随机抽样----每个个体被选进样本的几率相同。

纯随机样本的成本过于昂贵,可以选择分层随机抽样(一定比例的黑人/收入阶层/年龄阶层/地域分布等)。

改进方法
案例二精心挑选的平均数
首先明确是哪一种平均数;然后在这个均值上加上一个显著性程度(概率和误差范围)。

如,某年美国家庭的平均收入是6940美元,并以19/20的概率保证真实的数值会落在估计值的±71美元范围内。

改进方法
案例三Simpson's paradox 辛普森悖论
某大学历史系和地理系招生,共有13男13女报名。

录取率Men Women
History1/5 <2/8
Geography6/8 <4/5
University7/13 >6/13
分母很重要。

小结
案例四阿吉利斯悖论(Achilles Paradox)-----神一样的乌龟假设阿吉利斯的速度是乌龟的10倍,乌龟速度为1米/分钟,乌龟先跑100米,当阿吉利斯跑到乌龟的位置时,乌龟向前跑了10米,阿吉利斯跑完这10米时,乌龟向前跑1米,阿吉利斯跑完1米时,乌龟向前跑0.1米,阿吉利斯跑完0.1米时,乌龟向前跑0.01米,照此趋势,阿吉利斯永远都追不上他前面那只乌龟。

乌龟跑1米是一分钟,0.1米是0.1分钟,0.01米是0.01分钟..... 这样你把时间加一下1+0.1+0.01+0.001+0.0001 ....这样一直加下去是一个无限的数列,但这个数列的值是能求出来的,就等于10/9,显然是一秒多一点的时间,还不到两秒,而你却把他当成了“永远”。

在这里无限个时间加起来并不等于无限大的时间。

这就是我们被误导的地方。

在这里无限个时间加起来并不等于无限大
小结
的时间。

这就是我们被误导的地方。

案例五令人惊奇的图形
图形总是比文字更加有效,因为图形中不存在任何形容词和副词来破坏它所具有的客观幻觉,而且谁也无法指责你。

100
101
100.5102
101.5103
102.5101.5103
105
10203040506070809010011012345678910
100
101
100.5
102
101.5
103
102.5
101.5
103
105
100
10110210310410512
34
5
6
7
8
9
10
100
101
102
103
104
105
123456789
小结
案例六不完全匹配的资料
挂羊头卖狗肉的不完全匹配资料是一种保证你处在有利位置上的武器,而且屡试不爽。

小结
“据统计,早上7点发生车祸的生还率是晚上7点的4倍。

所以早上比较安全。

”-----晚上7点车本来就多。

“美国与西班牙战争期间,美国海军的死亡率是9‰,而同期纽约市居民的死亡率是16‰,所以参军更加安全。


-----城市居民包括了婴儿、老人、病人。

“24%的交通事故是由于酒后驾车造成的!”
------76%的交通事故是由没有饮酒的驾驶者造成的,所以酒后驾车也没有关系。

“据统计,有27%的著名医师抽“喉宝”牌香烟,那你呢?”-----So what.
案例七相关关系的误解
经过大容量的样本,认真仔细的计算,科学家们证实了抽烟者的大学成绩比不吸烟者的成绩差,所以吸烟使人变笨。

这是大家想要的结论。

会不会是相反的作用关系呢?也许不理想的分数促使学生不喝酒而变得爱抽烟?这种说法与前一种说法一样不靠谱,而且都能得到证据的充分支撑。

面对我们这个时代的任何一对数据时:如大学生的人数、患某种病的人数、香烟的消费量、X光的使用次数、假牙的产量、某大学老师的薪水等都很容易显示出正相关关系。

这些相关都是事物变迁或时代趋势的产物。

数据是真实的,而不妥的是依据这
小结
些数据和事实推断出了一个未经证实的
结论。

案例八如何进行统计操纵
统计是一门艺术,学者许多控制和扭曲都是在合理范围内进行的。

每个学者都带有自己的偏见。

在各种媒体中看到统计数据是需要认真思考后再接受,进一步了解真相,不能因噎废食。

小结
假设去年1升牛奶=10¥
1条面包=10¥
今年1升牛奶=5¥
1条面包=20¥
1)物价上涨:以去年的价格为100%,牛奶价格降了50%,面包价格涨了200%,将50%与200%平均的125%,所以物价涨了25%。

2)物价下降:以今年的价格为100%,去年牛奶价格为今年的200%,而面包价格是今年的50%,平均数是125%,所以去年的价格比今年高25%,物价下降了25%。

3)物价没变:将去年的每种商品价格看成100%,将两个100%相乘在开平方根,得到100%,是去年价格的几何平均数。

今年牛奶是去年的50%,面包是去年的200%,50%乘以200%的10000%,再开平方根得100%。

所以物价没变。

总结如何炼就火眼金睛
1)谁说的?
“08年奥运会期间”几大门户网站都说自己的报道水平第一,到底谁第一呢?当然找对自己有利的数据说。

2)他是如何知道的?
各家选用的调研公司和样本指标都略有偏差,都是样本惹的祸,还好不是临时工。

3)是否有遗漏?
看单一指标难免一叶障目,有时候,比比更健康。

4)是否偷换了概念?
田忌赛马中那拿自己的长处和别人的短处比是不地道的。

5)这个数据对我有意义吗?
让人印象深刻的精确数据也会与实际情况向左。

(人们平均每晚睡7.8个小时)
Thank you ~
11
2013/4/25。

相关文档
最新文档