生活中统计学的陷阱

合集下载

统计陷阱

统计陷阱

统计陷阱一、统计陷阱的发现20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。

相反,还往往对读者形成误导。

达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。

二、统计陷阱的揭示数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。

要认清这些骗子伎俩,唯有对统计学本身有一定的了解。

毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。

通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。

于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。

这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。

比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。

错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。

就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案案例一:辛普森悖论情境描述:在一个实验中,对比两组各1000只白鼠的药物治疗效果。

甲组分为两组,一组500只白鼠只接受A药物治疗,另一组500只白鼠只接受B药物治疗;乙组1000只白鼠均只接受A药物治疗。

实验结果显示,接受A药物治疗的甲组白鼠死亡率(4%)低于乙组白鼠(8%),因此A药物在甲组中表现更好。

陷阱点:仔细观察数据,会发现接受B药物治疗的甲组白鼠死亡率(2%)低于接受A药物治疗的甲组白鼠(4%),然而在乙组中,接受A药物治疗的白鼠死亡率却高达8%。

这显示了一个奇怪的现象:在某些情况下,两组数据的总体结果与各自组内的结果存在矛盾。

解决方案:在解释统计数据时,应综合考虑整体与各部分的关系,避免根据局部结果做出片面结论。

同时,对于数据变化可能产生的原因应进行深入分析。

案例二:相关性陷阱情境描述:某研究机构发现,某地区的冰淇淋销量与溺水事故数量呈正相关。

他们得出结论,冰淇淋销量增加导致溺水事故增多。

陷阱点:这里的问题在于研究者错误地将两个相关事件归因为因果关系,忽略了可能存在的其他影响因素。

例如,气温的升高可能导致人们更多地购买冰淇淋,同时也可能导致更多的人选择游泳,从而增加溺水事故的风险。

解决方案:在分析两个变量之间的关系时,应考虑可能存在的其他影响因素,并进行相应的控制实验或调整数据,以确定真正的关系。

案例三:样本选择偏差情境描述:某市场调查机构对1000名在线用户进行了调查,以评估某产品的市场接受度。

结果显示,60%的用户对该产品表示满意。

然而,当该机构对线下用户进行类似调查时,满意率仅为30%。

于是他们得出结论,线下用户对产品的满意度明显低于线上用户。

陷阱点:这里的问题在于样本选择偏差。

在线调查可能吸引了那些更愿意表达意见、对产品更有热情的用户,而线下调查可能涵盖了更广泛的用户群体。

因此,两个样本的满意度存在显著差异并不意味着线下用户对产品的满意度真的低于线上用户。

浅议平均数的应用及陷阱

浅议平均数的应用及陷阱

浅议平均数的应用及陷阱平均数是常见的统计数据之一,用于描述一组数据的集中趋势,是最常被人们接受和使用的一种统计指标之一。

然而,平均数也存在一些应用和陷阱,需要我们在实际应用中加以注意。

首先,平均数在很多情况下是非常有用的。

例如,在调查中,我们经常用到平均数来描述一组数据的集中趋势。

比如,我们可以用平均年龄来描述一个国家或地区的人口结构,平均工资来描述一个地区的收入水平等。

在经济学中,我们也会用平均数来计算一个国家或地区的国内生产总值(GDP),来描述其经济发展水平。

此外,平均数还可以用于计算投资组合的平均收益率,来评估投资组合的投资效果。

在这些应用中,平均数可以提供一个简单且易于理解的数据指标,方便人们对数据进行比较和分析。

然而,平均数也存在一些陷阱,需要我们在使用时要注意。

首先,平均数对极端值非常敏感。

如果数据集中存在离群值(outliers),即极端值或异常值,那么平均数可能会被这些离群值拉动,导致整体数据的集中趋势被扭曲。

例如,有一组数据集中在1到10之间,但是存在一个极端值100,那么平均数将会受到这个极端值的影响,大幅度增加。

在这种情况下,使用中位数(将数据从小到大排列,找到中间的那个数)可能更为合适,因为中位数对极端值不敏感。

其次,平均数不能很好地描述数据的分布形态。

平均数只是描述了数据的集中趋势,而未能提供关于数据的分散程度或分布形态的信息。

例如,如果某地区的平均工资为5000元,那么不能说明这个地区的工资水平普遍较高还是较低,因为平均数无法反映工资的分布情况。

对于这种情况,我们可以使用方差或标准差来描述数据的分散程度,使用柱状图、箱线图等来描述数据的分布形态。

另外,平均数还存在一种称为“Simpson's Paradox”(辛普森悖论)的现象,即在不同条件下计算的平均数可能会出现相反的结果。

这是由于条件的不同导致数据的结构和规模发生变化,从而影响平均数的计算。

例如,在一项调查中,男性和女性的通过率分别为60%和40%,然而,当把这些数据按学院划分时,有些学院的通过率男性和女性均高于平均水平。

这个著名的统计学悖论,第一次听说的人很可能怀疑人生

这个著名的统计学悖论,第一次听说的人很可能怀疑人生

这个著名的统计学悖论,第一次听说的人很可能怀疑人生原创把科学带回家把科学带回家 2018-11-21作者七君我们平时在做重大决策的时候,比如择校啊,选专业啊,总是会参考这些比较对象的硬指标,比如它们的录取率啊,就业率啊等等。

像是,哪个学校的就业率高,我们就会去报考这个学校。

统计数字可以帮助我们了解这些比较对象的优劣,让我们做出明智的决策。

不光是个人,公司和国家也是这样做决策的。

那么这样做对吗?其...实...不...对今天我们就来介绍一个让人非常头疼,但非常有用的悖论,它会告诉你,很多时候统计数字相当不可靠,特别容易误导人。

先来看一个假设的例子。

小明生了慢粒白血病,她的失散多年的哥哥找到有2家比较好的医院,医院A和医院B供小明选择就医。

小明的哥哥多方打听,搜集了这两家医院的统计数据,它们是这样的:医院A最近接收的1000个病人里,有900个活着,100个死了。

医院B最近接收的1000个病人里,有800个活着,200个死了。

作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是医院A对吧,病人存活率很高有90%啊!总不可能选医院B吧,存活率只有80%啊。

呵呵,如果小明的选择是医院A,那么她就中计了。

就这么说吧,如果医院A最近接收的1000个病人里,有100个病人病情很严重,900个病人病情并不严重。

在这100个病情严重的病人里,有30个活下来了,其他70人死了。

所以病重的病人在医院A的存活率是30%。

而在病情不严重的900个病人里,870个活着,30个人死了。

所以病情不严重的病人在医院A的存活率是96.7%。

在医院B最近接收的1000个病人里,有400个病情很严重,其中210个人存活,因此病重的病人在医院B的存活率是52.5%。

有600个病人病情不严重,590个人存活,所以病情不严重的病人在医院B的存活率是98.3%。

画成表格,就是这样的——医院A:病情死亡存活总数存活率严重70 30 100 30%不严重30 870 900 96.7%合计100 900 1000 90%医院B:病情死亡存活总数存活率严重190 210 400 52.5%不严重10 590 600 98.3%合计200 800 1000 80%你可以看到,在区分了病情严重和不严重的病人后,不管怎么看,最好的选择都是医院B。

统计学中的几个问题

统计学中的几个问题

记者
一八 一二 一0 九 四 二
第一选择 A B四 C二九 D E E
第二选择 D
E
B CBC
第三选择 E
D
E
EDD
第四选择 C
C
D BCB
第五选择 B
A
A AAA
逐论选举
采用这种方式的有
奥斯卡奖评选 爱尔兰议会选举, 澳大利亚上院选举
博尔达记分法
规则:对每种选择赋予一定分值,然后累加出总分 值,以最高分者获胜。一八世纪法国数家博尔达首 先提出,故命名之。
药物 安慰剂
试验次数 三00 五四0
成功次数 二四六 四五四
平均 八二% 八四%
辛普森悖论
以上三个悖论的实质是相同的。这类问题在二0实际 初就有人讨论。
一九五一年E.H.辛普森在他发表的论文中,对此现象 进行了正式描述。于是,就把这类悖论统称为“辛 普森悖论”
这类悖论表明这样一个事实:在某些情况下,在分 组比较中都占优势的一方,会在合并后的总评中成 为失势的一方。
数值。如果数值有奇数个,则中位数就简单取中间 项的值。如果有偶数项,中位数往往取中间两项的 算术平均 众数:数项中出现次数最多的值
平均数的陷阱
算术平均容易受少数极端数值的影响,事实上,很 多和钱有关的分布,如收入房价财富等,都有很强 的右偏现象,用算术平均往往会给人以歪曲的印象。
从统计角度看,用中位数和众数表达,最大的好处 是不受两头的影响。对一些有偏的分布,用中位数 和众数往往能更好地反映情况。一般而言,有关收 入的统计若用中位数和众数来表述,较为公平。
魔术家的数魔术
魔术家大卫.科波菲尔提出一个数魔术:只要走动一 个人,就可以使整整两个国家增加他们的平均国民 收入

生活中的统计学陷阱

生活中的统计学陷阱

生活中的统计学陷阱
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件发生的因果关系做出判定,因为事情并不那么简单。

让我们来看几个不可轻率做出结论的例子。

①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上。

这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。

统计关系往往不能表明因果关系。

由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。

②有一个调查研究说脚大孩子的拼音比脚小的孩子好。

这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。

这个研究对象是一群年龄不等的孩子。

它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。

③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往接是在离家不远的地方开车,而很少在远处的公路上开车。

④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。

这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。

由于癌
症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。

上述例子表明,统计学论述在涉及因果关系时很容易造成误读。

现代的广告,尤其是很多电视的商业广告正是以这种统计误读为根基的。

统计学误用案例

统计学误用案例

统计学误用案例案例一:平均数的陷阱。

咱就说有个小公司,老板想显示员工工资待遇还不错。

公司有10个员工,1个经理月薪10万,然后9个普通员工月薪3000。

老板一算,平均工资=(100000 + 9×3000)÷10 = 12700元。

然后对外宣称公司平均月薪12700元,好多人一听,哇,这工资挺高啊。

但实际上呢,除了那个经理,大部分普通员工的工资少得可怜,这个平均数就完全误导了大家对这个公司工资水平的真实印象。

这就像是拿姚明的身高和一群小学生的身高求平均,然后说这个平均身高就代表大家的身高水平,那可太扯了。

案例二:样本偏差。

有个保健品公司想做个产品调查,证明他们的保健品特别有效。

他们就在自己的专卖店门口找那些来买保健品的人做调查,问“您觉得我们的保健品效果好不好呀?”结果大部分人都说好。

为啥呢?因为来专卖店买的人本来就是相信这个产品才来买的呀,这就是一个有偏差的样本。

就好比你想知道大家喜不喜欢吃榴莲,你专门跑到榴莲专卖店门口去问,那肯定大部分人都说喜欢,这根本就不能代表全体人群的真实想法。

这保健品公司就拿着这个不靠谱的调查结果到处宣传,这就是对统计学的误用。

案例三:相关性误为因果性。

你看,有人发现,在某个城市,冰淇淋的销量和溺水死亡人数在夏天都上升了。

然后就有个“天才”说,冰淇淋会导致溺水。

这可就太荒谬了。

其实呢,这两者只是有相关性,因为夏天到了,天气热,吃冰淇淋的人多了,同时去游泳的人也多了,所以溺水死亡人数也增加了。

这就像每次公鸡打鸣之后太阳就升起来了,但我们不能说公鸡打鸣是太阳升起的原因一样,这种把相关性硬说成因果性的事儿,在统计学里可是个大错特错的事儿。

生活中的统计骗术

生活中的统计骗术

数据·2011/0254在用事实说话的社会里,统计越来越受到重视。

但如同任何事物具有两重性一样,统计有时也被利用为恶意夸大或简化事实、迷惑他人的工具,往往堂而皇之出现,而不易让人察觉。

不懂统计的人很容易被误导、被欺骗,从而做出错误的判断或决策。

为了避免更多的人被误导,在此介绍几招生活中常见的统计骗术。

其实,只要我们掌握了相关的统计知识,那些别有用心的人就再没用武之地了。

“蒙人”的绝对数绝对数是统计绝对数的简称。

它是反映现象总体在一定时间和空间条件下所达到的总规模、总水平或工作总量的综合指标。

有以货币单位(元、美元、日元等)计量的价值指标,如2010年我国GDP(初步测算数)为397983亿元,也有以实物单位(包括自然单位、度量衡单位、标准实物单位等)计量的实物指标,如2010年我国的粮食产量为54641万吨。

数值的大小受总体范围的制约,总体范围增大,数值也随之增大;相反总体范围缩小,数值也随之减小。

因此,对于规模不等的总体,其绝对数值不能直接对比并以此判断事物的优劣。

但在日常生活中,常常有人有意无意忽视总体规模的大小,用不匹配的绝对数数据达到蒙人的目的。

最为常见的是有关交通意外事故的数据,如果不懂得它们是极其不匹配的数据的话,无论哪种交通手段的事故记录,都可能让人们得出错误的结论。

公安部发布的2005年中国道路交通事故统计分析数据指出:2005年,全国公路上发生交通事故272840起,造成76689人死亡,其中高速公路上交通事故造成6407人死亡,二三级公路上交通死亡事故最多,共造成47448人死亡,给人的感觉好似二三级公路比高速公路更容易出事故。

其实不然,虽然中国的高速公路近年发展很快,到2005年底,高速公路总里程达到4.1万公里,位居世界第二位,但二级公路有24.6万公里、三级公路有34.5万公里,合计达59.1万公里。

在营运里程14倍余高速公路的二三级公路上出现的交通事故较多是很自然的事,因为二三级公路的营运里程长,行驶的车辆和行人更多,出现事故的可能性更大。

统计中的骗局

统计中的骗局

统计中的骗局致谢语:在多方的帮助下,经过广泛的收集,我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。

在我通过美国统计学会发出呼吁后,许多专业统计学家--请相信我,他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。

这些人,我猜想,将乐意成为无名英雄。

同样,我在许多书籍中发现了有价值的案例,仅列出其中主要的书籍:Martin A. Brumbaugh 和Lester S. Kellogg所著的《商业统计学》;Hadley Cantril的《公共观点的测定》;Willard Cope Brinton的《图表表示法》;Frederick E. Croxton 和Dudley J. Cowden的《实用商业统计学》;George Simpson 和Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。

Darrell HuffⅠ序言:我的岳父从爱荷华州到加利福尼亚州不久便对我说:"你们这儿治安不好。

"在他所阅读的关于加州的报道的确如此。

但是,这些报道通常来自一份爱荷华州的报纸。

这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。

我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。

类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。

几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。

所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。

这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。

人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。

警惕统计数据误读!

警惕统计数据误读!

警惕统计数据误读!随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。

言之凿凿的那些从数据中得出的看似“合理”“科学”甚至“高大上”的结论,也许并没有看起来那么值得相信。

在第二次世界大战中一个关于统计学的小故事流传甚广。

讲的是美国陆军航空队为了减少轰炸机部队在执行任务过程中被攻击造成的损失,请统计学家帮忙。

只要有执行任务的轰炸机部队返航,统计学家就第一时间详细地记录下每一架飞机受损伤的情况,随后在模型上用墨汁将所有被击中的部位涂黑。

结果,不到两个月时间,轰炸机模型上除了几个很小的区域还是机身原来的颜色以外,其他部位全被涂黑了。

并且很多地方显然是被反复涂过,墨汁都已经像油漆一样凝结成厚厚的一层。

统计学家建议厂商将轰炸机上这些没有被涂成黑色的部位,尽快增加装甲。

厂商提出疑问:难道不应该是在被涂得最黑的地方增加装甲吗?统计学家给出的理由是,给那些没涂黑的地方加装甲,并不是因为返航的飞机中那里不会被击中,而是因为所有被击中这些部位的飞机,最终都没有返回基地。

这个故事被看作是说明统计学应用的经典案例。

看似只是简单逻辑转换的背后,其实涉及诸多复杂的统计学专业知识,中央财经大学统计与数学学院教授、博士生导师专家提醒说,这个简单故事背后的专业论文,长度有百页之巨。

说到日常生活中经常遇到的统计学先陷阱,专家表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。

比如冰激凌的销售量与溺水人数有相关性,溺水人数越多,冰激凌销量越好。

“这很容易知道不是因果关系,而是因为有共同的原因——天气热。

天气热,冰激凌的销量自然高;去游泳的人数自然多,那么溺水的人自然也多。

”专家解释说,有些时候事件之间会呈现相关性,但即使有相关性,也不意味着它们之间有因果关系。

“两件事情相关可能有很多原因:A和B相关,有可能A确实是B的原因,也有可能B是A的原因,或者还可能A和B有其他共同的原因C。

又A和C共同作用导致了B,也有可能B和C共同作用导致了A。

《统计陷阱》读书笔记

《统计陷阱》读书笔记

《统计陷阱》读书笔记谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。

抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。

这一发现令我兴趣大增。

而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。

其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。

原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。

也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。

书中提到的事例是关于某一住宅区居民的年均收入。

当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。

他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。

均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。

相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。

实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。

所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。

统计陷阱——正确解读统计数据

统计陷阱——正确解读统计数据

统计陷阱——正确解读统计数据“统计局发布的平均工资水平,在咱们单位要副主任医师才有可能达到。

医生在那个地址属于收入中等偏上的职业,咱们都达不到,低收入家庭就更别提了。

”看到国家统计局发布的上半年全国城镇单位在岗职工平均工资10990元,比去年同期增加18.5%。

上半年城镇居民人都可支配收入,实际增加14.2%的统计数据,云南一所医院的陈医生感觉有些疑惑。

“此刻的全世界首富前5位中,有3位是在大学半途退学的学生。

请问咱们此刻是不是应该抓住国家鼓舞大学生自主创业的机遇,退学去创业呢?”在11月28号晚上举行的学习17大、探讨宏观形势与大学生微观生活的论坛活动中,一名同窗如此提问。

“80后是垮掉的一代,你看那么多沉迷网络游戏的,生活作风糜烂的,没有独立生活自理能力的,……,处处都是如此报导的。

”……咱们所见所闻的许多东西也和上面的事例一样。

平均数、作用关系、趋势图表与看上去的并非老是一致。

统计是一种神秘的语言,在一个用事实说话的社会里是如此的吸引人,因此在咱们社会生活的各个领域,统计方式或统计术语是如此不可或缺。

但如果是作者不能正确明白得并适当利用这些统计语言,而读者又并非能真正知道这些术语的含义,那么,统计结果就只能是一堆废话。

咱们不能要求每一个人都成为统计专家,那一般百姓如何正确解读统计数据,从中识别有效信息以避免掉入统计陷阱呢?让咱们一路来看看咱们看到的数字陷阱。

一、内在有偏的样本。

我曾做过如此一个调查:年初,我给好些毕业后联系不太多同窗打,直言我想做个薪情的调查,一部份同窗收入不错,很爽快的配合我,跟我在中交谈得超级愉快;另一部份同窗那么诲莫如深。

二个月后,我再次给这些同窗打,宣称我想借点钱买房,这次那部份收入不错的同窗开始说自己收入不多,匆匆挂了;而那部份收入较低的同窗跟我深切沟通,尽管说没钱借给我,却真实的跟我提及他们的收入。

调查进程中类似如此的样本有偏的情形相当普遍,尤其是在进行商业、民意调查等时,结果不必然被人为操纵,但有偏样本却致使结果的扭曲。

【统计陷阱】分析数据时常见的 7 类统计陷阱

【统计陷阱】分析数据时常见的 7 类统计陷阱

【统计陷阱】分析数据时常见的7 类统计陷阱我们会发生各种极有可能出现的混淆,数据抽取之后「迷恋」于数字,脑子里没有分析的目标,自己的局限影响指标选择......当分析数据的时候我们都很容易犯错。

不过,用户体验团队需要用户行为的准确画像,你就要记下分析数据(用户体验分析)时最常见的几个错误,或者说读数据时几个最大的失误。

这些都与对用户行为进行错误的假设有关,然后你就会发现:o较小的数字通常表示负面信号o如果数据结果表明有一个相关性,那么肯定存在一个因果关系·····等等。

现在,允许我向你揭示当做统计说明时7 个最常见的错误。

1. 访问和浏览:混淆它们并且过度依赖它们不管是不是新手数据分析师,都会陷入交替使用这两个概念的陷阱:不同的数据分析工具对同一概念使用不同的术语,(甚至)在同一工具中都会使用令人感到模糊的术语,难怪你会将浏览当作访问,反之亦然。

不过要确保你完全理解术语,否则你就有以下风险:o使用错误的数据做报告o将一些极不准确的报告整合在一起毫不意外,这是进行数据解释时最常见的错误。

现在,让我们定义浏览和访问,并一次性地将它们的区别列出:o浏览(页面浏览)是指浏览网站上的一个页面,可被追踪分析代码所追踪。

o访问(session)是指用户在特定时间内,在你网站上进行的所有动作。

现在说到浏览和访问还有一个在分析解释数据时颇为常见的错误,那就是:过于依赖浏览和访问!作为UX 设计师,你也许想要将提升访问量和浏览量的任务交给做市场的人。

然后集中处理与用户体验有关的数据。

2. 要有全局观而不是深挖数据简要地浏览一下可以获取的数据:o快速评估手头的数据o迅速浏览「头行」数字这样只能得到一些网站当前的运行状态,不会给你任何提升用户体验的线索。

怎样提高数据分析效率呢?换句话说:访问量仅仅是一个指标用来告诉你有多少人在给定时间段内到达你的网站,不会告诉你怎样鼓励这些人浏览网页。

统计数据会说谎读书笔记

统计数据会说谎读书笔记

统计数据会说谎读书笔记
【原创版】
目录
1.统计数据为什么会说谎
2.如何识别和避免被统计数据欺骗
3.从统计数据中获取真实信息的方法
正文
统计数据是现代社会中不可或缺的一部分,它被广泛应用于各个领域,如科学研究、商业决策、政策制定等。

然而,统计数据有时也会说谎。

那么,为什么会出现这种情况呢?
首先,统计数据的产生过程中可能存在偏差。

比如,样本选取偏差、测量误差等,这些都可能导致统计数据与实际情况存在差异。

其次,统计数据的解读和表达可能受到主观因素的影响。

人们往往会根据自己的观点和立场去解读数据,从而让数据为自己的观点服务。

那么,我们应该如何识别和避免被统计数据欺骗呢?一个有效的方法是保持怀疑和批判性思维。

在面对统计数据时,我们应该问自己:这个数据的来源是什么?它是如何被收集和处理的?数据的解读者是否有偏见?只有当我们对数据有足够的了解,才能避免被数据欺骗。

同时,我们也需要学会从统计数据中获取真实信息。

这需要我们具备一定的数据分析能力,能够从数据中发现规律、趋势和关联。

此外,我们也需要了解数据的局限性,知道在什么情况下,数据可能无法反映实际情况。

第1页共1页。

不靠谱的统计数字如何欺骗了你?

不靠谱的统计数字如何欺骗了你?

不靠谱的统计数字如何欺骗了你?【⼀】在这个信息爆炸的时代,我们的周围总是充斥着各种各样的新闻和数据,⽐如“⼴东本科⽣平均⽉薪7000,你拖后腿了吗?”、“北京⼈初婚平均年龄为27岁,结婚越晚越稳定”、“从除⼣开始放假会让很多员⼯觉得浪费⼀天假期”……⾯对这些数字时,你是否会在被戳中痛点后默默回⼀句“我⼜⼀次被代表了”或者“哥⼜拖后退了”?当然,还有⼀些所谓的研究结果甚⾄通过⽹络被快速传播,成为了⼈⼈都知道的“科学”事实:“近视眼戴眼镜会眼球变突”、“家⽤电⼦设备辐射⼤,所以⼿机不要放床头、电脑⼀定要⽤防辐射的机箱,接电话时不要离⽿朵太近”、“碱性体质的孕妇更容易⽣⼉⼦”……这些所谓的“科学”通过“⽤数字说话”的⽅式吸引了你的注意⼒。

可是,客观真实的数字摆在那,我们就能正确认识世界了吗?今天,精读君就为⼤家推荐⼀部美国统计专家达莱尔·哈夫的著作《统计数字会撒谎》,看看我们周围的数据中都暗含了哪些骗局。

作者达莱尔是⼀名⾃由记者,因其1954年出版的这本精彩、⼤为畅销的《统计数字会撒谎》⽽深受数代极客的爱戴。

【⼆】“平均年收⼊10万”,对你来说是什么概念?作为揭露数据造假的经典⼯具书,这本《统计数字会撒谎》在50年代⼀出版,就成为有些⼈的“⼼头⼤患”,他们在全世界对其进⾏围追堵截,就是因为害怕读者看到书中的真相。

它诞⽣之后,不仅被奉为“世界统计学普及读物第⼀畅销书”、“25本投资经典之⼀”、“经典社会学读本”,⽽且被誉为“数据造假曝光宝典”,在世界畅销50年⽽不衰。

达莱尔⽤风趣的插图和通俗的语⾔把⾼深的统计写得像“故事书”⼀样精彩,这种独具⼀格的⾏⽂和编排使得此书更具魅⼒。

此外,书中还揭露了⼤量⾄今仍被销售员、专家、记者或者⼴告撰稿⼈频频使⽤的“⾏骗⼯具”,如:有偏的样本,精⼼挑选的平均数,遗漏某些重要的数据,混淆因果关系,滥⽤⼀维图形等。

更为重要的是,达莱尔在书中破解了如何识破虚假统计数据。

《统计应用的陷阱》课件

《统计应用的陷阱》课件
《统计应用的陷阱》ppt课件
目录 CONTENTS
• 引言 • 常见的统计陷阱类型 • 如何避免统计陷阱 • 案例分析 • 总结与建议
01
引言
什么是统计陷阱
统计陷阱是指在使用统计方法处理和 分析数据时,由于对统计原理和方法 理解不足或误用,导致得出的结论偏 离实际情况或无意义的情况。
统计陷阱通常表现为数据解读错误、 误导性结论和决策失误等方面。
确保数据来源可靠、准确,避免使用 不可靠的数据导致误导性结论。
对比不同分析方法
对于同一数据,尝试使用不同的统计 方法进行分析,对比结果的一致性和 合理性。
寻求专业意见
在遇到复杂的统计问题时,寻求统计 学专家的意见,避免陷入统计陷阱。
02
常见的统计陷阱类型
平均数陷阱
平均数陷阱是指在使用平均数进行描述时,忽略了个体差异和分布情况,导致对数 据的误解。
掌握现代统计软件
学习使用现代统计软件,如SPSS、R等,提高数据处理和分析的效 率。
谨慎对待统计数据
01
02
03
核实数据来源
确认统计数据的来源和可 靠性,避免使用不准确或 过时的数据。
理解数据偏差
了解数据偏差的来源和影 响,如样本偏差、测量误 差等,对数据进行适当的 调整。
避免数据操纵
不人为篡改、伪造或篡改 数据,确保数据的真实性 和客观性。
05
总结与建议
总结
统计学的应用广泛, 但陷阱也无处不在。
正确理解和应用统计 学是避免陷阱的关键 。
常见的统计陷阱包括 数据解读错误、样本 偏差、因果关系混淆 等。
建议
增强统计素养,提高数据分析和解读 能力。
保持批判性思维,不盲目相信数据和 统计结果。

《统计陷阱》读书笔记

《统计陷阱》读书笔记

谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。

抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。

这一发现令我兴趣大增。

而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。

其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。

原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。

也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。

书中提到的事例是关于某一住宅区居民的年均收入。

当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。

他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。

均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。

相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。

实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。

所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。

统计陷阱案例

统计陷阱案例

统计陷阱案例
1.相关性不代表因果关系。

当两个变量有高度相关性时,不能简单地认为其中一个变量是另一个变量的原因。

例如,日销量与天气之间可能存在相关性,但并不能因此得出结论,说天气是销量增加的直接原因。

2. 偏差样本可能导致误导性结论。

如果样本数据不具有代表性,即其中一些群体或类型被过度或不充分地表示,那么分析结果可能会产生偏差。

例如,如果一项研究只涉及高收入者而没有低收入者,结论可能不适用于整个人群。

3. 懒惰统计可能导致错误结论。

懒惰统计是指使用简化方法来处理数据,而不是采用更复杂的方法来获得更准确的结果。

例如,使用平均数来代表整个数据集合时,可能会忽略掉一些极端值,从而影响结论。

4. 小样本量可能产生误导性结果。

当样本量太小时,结果可能不足以代表大多数情况。

例如,一个小样本的调查可能会导致错误的结论,因为样本不足以代表整个人群。

5. 非随机抽样可能导致偏见。

当抽样方法不是随机的时,可能会有一些群体被过度或不充分地代表,从而导致分析结果产生偏差。

例如,如果一个政治调查只针对某一个党派的人群,那么结果可能不具有代表性。

这些统计陷阱案例强调了在数据分析中需要谨慎对待数据,同时需要使用适当的统计方法来获得准确的结论。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在当今社会中生活,会遇到各种各样的数据。

当你打开电视,你会看到电视歌曲大奖赛正在举行,歌手们正焦急地等待着自己的最后得分;翻开报纸,社会调查机构在向你介绍10~14岁的孩子们,最喜欢什么,最不喜欢什么……
正由于统计学做的就是收集、整理和分析数量信息的工作,因此它在今天的社会中变得越来越重要了。

这里,我们打算举出一些典型的统计学悖论,让迷信数据的人们有所警觉——数据中也有陷阱。

骗人的“平均数”
刘木头开了一家小工厂,生产一种儿童玩具。

工厂里的管理人员由刘木头、他的弟弟及其他六个亲戚组成。

工作人员由5个领工和1 0个工人组成。

工厂经营得很顺利,现在需要一个新工人。

现在,刘木头来到了人才市场,正与一个叫小齐的年青人谈工作问题。

刘木头说:“我们这里报酬不错。

平均薪金是每周300元。

你在学徒期间每周得75元,不过很快就可以加工资。


小齐上了几天班以后,要求和厂长刘木头谈谈。

小齐说:“你骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。

平均工资怎么可能是一周300元呢?”
刘木头皮笑肉不笑地回答:“小齐,不要激动嘛。

平均工资确实是300元,不信你可以自己算一算。


刘木头拿出了一张表,说道:“这是我每周付出的酬金。

我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。

总共是每周6900元,付给23个人,对吧?”
“对,对,对!你是对的,平均工资是每周300元。

可你还是骗了我。

”小齐生气地说。

刘木头说:“这我可不同意!你自己算的结果也表明我没骗你呀。


接着,刘木头得意洋洋地拍着小齐的肩膀说:“小兄弟,你的问题是出在你根本不懂平均数的含义。

怪不得别人呦。


小齐气得说不出话来,最后,他一跺脚,说:“好,现在我可懂了,我不干了!”
在这个故事里,狡猾的刘木头利用小齐对统计数字的误解,骗了他。

小齐产生误解的根源在于,他不了解平均数的确切含义。

“平均”这个词往往是“算术平均值”的简称。

这是一个很有用的统计学的度量指
类似的会引起误解的例子有很多。

譬如,报纸上报道有个人在一条河中淹死了,这条河的平均深度只有2尺。

这不使人吃惊吗?不!你要知道,这个人是在一个10多尺深的陷坑处沉下去的。

2.平均人数的家庭
在南方的某个城市里,诞生了一个5胞胎姐妹。

这种事情并不容易发生,所以,地方报纸刊登了这个家庭的照片,有父亲、母亲,还有那5个可爱的孩子。

报纸主编对这张照片很满意。

他对摄影记者小李说:“干得好,小李。

我有了一个新构思,你给我弄一张这个城里平均大小的家庭的照片来。

可是小李根本无法完成这个任务,为什么?因为统计的结果表明这个城里家庭的平均小孩数是1.5个。

而我们知道,满足这种平均数的家庭是不可能找到的。

这是关于“平均”的又一个错误概念。

人们总是以为平均的实际例子必然存在,其实未必!
3.轻率的结论
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件友生的因果关系作出判定,
因为事情并不那么简单。

让我们来看几个不可轻率作出结论的例子。

①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上的。

这是否就意味着高速行驶比较安全?
正确答案:绝不是这样。

统计关系往往不能表明因果关系。

由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。

②有一个调查研究说脚大的孩子拼音比脚小的孩子好。

这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。

这个研究对象是一群年龄不等的孩子。

它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。

③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往往是在离家不远的地方开车,而很少在远处的公路上开车。

④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。

这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。

由于癌症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。

上述例子表明,统计学论述在涉及到因果关系时很容易造成误解。

现代的广告,尤其是很多电视的商业广告正是以这种统计误解为其根基的。

相关文档
最新文档