数学故事之--生活中的统计学陷阱

合集下载

统计陷阱

统计陷阱

统计陷阱一、统计陷阱的发现20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。

相反,还往往对读者形成误导。

达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。

二、统计陷阱的揭示数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。

要认清这些骗子伎俩,唯有对统计学本身有一定的了解。

毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。

通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。

于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。

这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。

比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。

错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。

就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案案例一:辛普森悖论情境描述:在一个实验中,对比两组各1000只白鼠的药物治疗效果。

甲组分为两组,一组500只白鼠只接受A药物治疗,另一组500只白鼠只接受B药物治疗;乙组1000只白鼠均只接受A药物治疗。

实验结果显示,接受A药物治疗的甲组白鼠死亡率(4%)低于乙组白鼠(8%),因此A药物在甲组中表现更好。

陷阱点:仔细观察数据,会发现接受B药物治疗的甲组白鼠死亡率(2%)低于接受A药物治疗的甲组白鼠(4%),然而在乙组中,接受A药物治疗的白鼠死亡率却高达8%。

这显示了一个奇怪的现象:在某些情况下,两组数据的总体结果与各自组内的结果存在矛盾。

解决方案:在解释统计数据时,应综合考虑整体与各部分的关系,避免根据局部结果做出片面结论。

同时,对于数据变化可能产生的原因应进行深入分析。

案例二:相关性陷阱情境描述:某研究机构发现,某地区的冰淇淋销量与溺水事故数量呈正相关。

他们得出结论,冰淇淋销量增加导致溺水事故增多。

陷阱点:这里的问题在于研究者错误地将两个相关事件归因为因果关系,忽略了可能存在的其他影响因素。

例如,气温的升高可能导致人们更多地购买冰淇淋,同时也可能导致更多的人选择游泳,从而增加溺水事故的风险。

解决方案:在分析两个变量之间的关系时,应考虑可能存在的其他影响因素,并进行相应的控制实验或调整数据,以确定真正的关系。

案例三:样本选择偏差情境描述:某市场调查机构对1000名在线用户进行了调查,以评估某产品的市场接受度。

结果显示,60%的用户对该产品表示满意。

然而,当该机构对线下用户进行类似调查时,满意率仅为30%。

于是他们得出结论,线下用户对产品的满意度明显低于线上用户。

陷阱点:这里的问题在于样本选择偏差。

在线调查可能吸引了那些更愿意表达意见、对产品更有热情的用户,而线下调查可能涵盖了更广泛的用户群体。

因此,两个样本的满意度存在显著差异并不意味着线下用户对产品的满意度真的低于线上用户。

科学研究的统计学陷阱

科学研究的统计学陷阱

• 许多论文要进行数十乃至数百次对比。在这类论 文中,研究人员如果不肯调整一下标准的p值阈值 (即0.05),那么几乎肯定会出现本来毫无意义 的统计,恰巧被当成是具有统计显著性的情况。 今年2月,《美国临床营养学杂志》发表的一项研 究对数十种物质进行了测试,并得出结论说,蓝 莓中含有的某些物质可以降低高血压风险,p值为 0.03。不过,这些研究人员检验的物质如此之多, 所作的对比也是相当可观(50次以上),因此几 乎可以肯定,该论文中有些p值之所以小于0.05纯 粹是因为巧合。
• 无独有偶,一批心理学家对某条鲑鱼所作的研究 也是如此。在这项广为人知的研究中,当心理学 家让鲑鱼看到人们表达情绪的一组图片时,鲑鱼 大脑中的某些部位便活跃起来。此结果是有统计 显著性的,p值低于0.001。不过,诚如这些心理 学家所言,既然可能存在的模式多如牛毛,以至 于几乎肯定会得到一个具有统计显著性的结果, 因而这种结果毫无意义。p值高也好低也好,反正 那条鱼本来就不可能对人的情绪有所反应:心理 学家放进磁共振成像仪中的鲑鱼恰好是条死鱼。
高度显著性”的签。
• 假定你已经开展了一项科学实验,对比一种治疗心脏病的 新药和一种安慰剂的效果。实验结束时,你比较了两组受 试者。瞧,服药组患者的心脏病发作次数少于服用安慰剂 的患者。成功啦!这种药真的有效! • 且慢,说不定并非如此。即使此药根本无效,它在服药组 患者中的效果,也有50%的可能好于安慰剂组(不管怎么 说,总有一组的效果要优于另一组,而服药组和安慰剂组 占上风的可能性各占一半)。 • p值其实就是把随机性用一个数值表示出来。严格来讲, 它是指观察到某一实验结果(即使你的假说有错)的概率。 在众多科研领域中,长期通行的一个惯例就是,凡p值在 0.05以下的结果均被认为具有统计显著性。这是个随意约 定的惯例,它常常会出错。每当你把某种无效药物和兴奋 剂作对比时,便有1/20的机会得到统计显著性结果。因此 平均说来,倘若你在一篇论文中进行了20次这样的对比, 就会得到一个统计显著性结果(也就是p值小于0.05), 即使该药完全无效。

生活中的统计骗术

生活中的统计骗术

数据·2011/0254在用事实说话的社会里,统计越来越受到重视。

但如同任何事物具有两重性一样,统计有时也被利用为恶意夸大或简化事实、迷惑他人的工具,往往堂而皇之出现,而不易让人察觉。

不懂统计的人很容易被误导、被欺骗,从而做出错误的判断或决策。

为了避免更多的人被误导,在此介绍几招生活中常见的统计骗术。

其实,只要我们掌握了相关的统计知识,那些别有用心的人就再没用武之地了。

“蒙人”的绝对数绝对数是统计绝对数的简称。

它是反映现象总体在一定时间和空间条件下所达到的总规模、总水平或工作总量的综合指标。

有以货币单位(元、美元、日元等)计量的价值指标,如2010年我国GDP(初步测算数)为397983亿元,也有以实物单位(包括自然单位、度量衡单位、标准实物单位等)计量的实物指标,如2010年我国的粮食产量为54641万吨。

数值的大小受总体范围的制约,总体范围增大,数值也随之增大;相反总体范围缩小,数值也随之减小。

因此,对于规模不等的总体,其绝对数值不能直接对比并以此判断事物的优劣。

但在日常生活中,常常有人有意无意忽视总体规模的大小,用不匹配的绝对数数据达到蒙人的目的。

最为常见的是有关交通意外事故的数据,如果不懂得它们是极其不匹配的数据的话,无论哪种交通手段的事故记录,都可能让人们得出错误的结论。

公安部发布的2005年中国道路交通事故统计分析数据指出:2005年,全国公路上发生交通事故272840起,造成76689人死亡,其中高速公路上交通事故造成6407人死亡,二三级公路上交通死亡事故最多,共造成47448人死亡,给人的感觉好似二三级公路比高速公路更容易出事故。

其实不然,虽然中国的高速公路近年发展很快,到2005年底,高速公路总里程达到4.1万公里,位居世界第二位,但二级公路有24.6万公里、三级公路有34.5万公里,合计达59.1万公里。

在营运里程14倍余高速公路的二三级公路上出现的交通事故较多是很自然的事,因为二三级公路的营运里程长,行驶的车辆和行人更多,出现事故的可能性更大。

统计中的骗局

统计中的骗局

统计中的骗局致谢语:在多方的帮助下,经过广泛的收集,我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。

在我通过美国统计学会发出呼吁后,许多专业统计学家--请相信我,他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。

这些人,我猜想,将乐意成为无名英雄。

同样,我在许多书籍中发现了有价值的案例,仅列出其中主要的书籍:Martin A. Brumbaugh 和Lester S. Kellogg所著的《商业统计学》;Hadley Cantril的《公共观点的测定》;Willard Cope Brinton的《图表表示法》;Frederick E. Croxton 和Dudley J. Cowden的《实用商业统计学》;George Simpson 和Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。

Darrell HuffⅠ序言:我的岳父从爱荷华州到加利福尼亚州不久便对我说:"你们这儿治安不好。

"在他所阅读的关于加州的报道的确如此。

但是,这些报道通常来自一份爱荷华州的报纸。

这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。

我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。

类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。

几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。

所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。

这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。

人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。

警惕统计数据误读!

警惕统计数据误读!

警惕统计数据误读!随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。

言之凿凿的那些从数据中得出的看似“合理”“科学”甚至“高大上”的结论,也许并没有看起来那么值得相信。

在第二次世界大战中一个关于统计学的小故事流传甚广。

讲的是美国陆军航空队为了减少轰炸机部队在执行任务过程中被攻击造成的损失,请统计学家帮忙。

只要有执行任务的轰炸机部队返航,统计学家就第一时间详细地记录下每一架飞机受损伤的情况,随后在模型上用墨汁将所有被击中的部位涂黑。

结果,不到两个月时间,轰炸机模型上除了几个很小的区域还是机身原来的颜色以外,其他部位全被涂黑了。

并且很多地方显然是被反复涂过,墨汁都已经像油漆一样凝结成厚厚的一层。

统计学家建议厂商将轰炸机上这些没有被涂成黑色的部位,尽快增加装甲。

厂商提出疑问:难道不应该是在被涂得最黑的地方增加装甲吗?统计学家给出的理由是,给那些没涂黑的地方加装甲,并不是因为返航的飞机中那里不会被击中,而是因为所有被击中这些部位的飞机,最终都没有返回基地。

这个故事被看作是说明统计学应用的经典案例。

看似只是简单逻辑转换的背后,其实涉及诸多复杂的统计学专业知识,中央财经大学统计与数学学院教授、博士生导师专家提醒说,这个简单故事背后的专业论文,长度有百页之巨。

说到日常生活中经常遇到的统计学先陷阱,专家表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。

比如冰激凌的销售量与溺水人数有相关性,溺水人数越多,冰激凌销量越好。

“这很容易知道不是因果关系,而是因为有共同的原因——天气热。

天气热,冰激凌的销量自然高;去游泳的人数自然多,那么溺水的人自然也多。

”专家解释说,有些时候事件之间会呈现相关性,但即使有相关性,也不意味着它们之间有因果关系。

“两件事情相关可能有很多原因:A和B相关,有可能A确实是B的原因,也有可能B是A的原因,或者还可能A和B有其他共同的原因C。

又A和C共同作用导致了B,也有可能B和C共同作用导致了A。

《统计陷阱》读书笔记

《统计陷阱》读书笔记

《统计陷阱》读书笔记谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。

抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。

这一发现令我兴趣大增。

而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。

其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。

原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。

也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。

书中提到的事例是关于某一住宅区居民的年均收入。

当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。

他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。

均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。

相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。

实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。

所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。

数学中的故事:生活中的统计学陷阱

数学中的故事:生活中的统计学陷阱

生活中的统计学陷阱
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件发生的因果关系做出判定,因为事情并不那么简单。

让我们来看几个不可轻率做出结论的例子。

①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上。

这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。

统计关系往往不能表明因果关系。

由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。

②有一个调查研究说脚大孩子的拼音比脚小的孩子好。

这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。

这个研究对象是一群年龄不等的孩子。

它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。

③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往接是在离家不远的地方开车,而很少在远处的公路上开车。

④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。

这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。

由于癌
症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。

上述例子表明,统计学论述在涉及因果关系时很容易造成误读。

现代的广告,尤其是很多电视的商业广告正是以这种统计误读为根基的。

统计陷阱读书笔记

统计陷阱读书笔记

统计陷阱读书笔记(摘抄为黑色字体,个人感悟为蓝色字体)译者的话20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言”—一说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。

相反,还往往对读者形成误导。

从1950年开始,越来越多的人开始注重数据的作用,但是,由于数据被一些机构和商家滥用,甚至是被不正确的利用,很有可能使人们形成错误观念,而达成这些机构和商家的目的。

协助行骗的工具有很多,包括:有偏的样本、刻意挑选的平均数、遗漏某些重要的数据、样本的误差、统计图、平面图、不匹配的资料、混淆相关关系与因果关系以及不正确地使用资料。

每一种工具从某种角度上都可以提高人们对某一数据的信服度,但也可以诱导人们信服错误的虚假的数据。

对“统计资料”应该“提出的五个问题”:“谁说的?”“如何知道的?”“是否遗漏了什么?’’“是否偷换了概念?’’"资料是否有意义?”通过寻找这5个问题的答案,读者能初步判断资料是否真实可信在遇到数据时,应该对数据保持一种怀疑的态度,可能看起来那么真实的数据也有可能是被故意歪曲真相所创造的。

所以对于数据可以提出五个问题来验证数据的可信度,同时在自己运用数据时也要求做到更加真实客观。

培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意艳着怀疑的态度开始,那么他必将获得肯定的结论。

”我想对数据资料的判断和接收也是如此。

对一个事情一个说法留有怀疑的态度,并为之去检验验证,那么最终得到的结论会有检验的结果作为依据去支撑它的正确性,但如果从一开始就肯定各种事物,那么最后也只能得到一个看似是肯定,实际上可能错误的结论。

有3种谎言:谎言,楷糕透顶的谎言和统计资料。

---Disraeli这句话体现统计资料被滥用后缺乏真实性,常常会引导大众产生错误观念。

绪言平均数、作用关系、趋势和图表与看上去的并不总是一致。

统计陷阱读后感

统计陷阱读后感

统计陷阱读后感第一篇:统计陷阱读后感由于知识,信息和地位的不对称,普通人在面对行业精英专门设计的陷阱总是无法防备.就像普通美国民众无法理解华尔街“金融天才”搞的次级抵押贷款的潜在风险一样...恩,不光是普通人,就连中石油这样的顶级上市公司,在顶级ceo的带领下也会中套,油价顶点超高价大笔收购国外油田例如TYK之类的...信息欺骗有很多种,而利用统计数字来进行欺骗可能是比较普遍的了,就像马克吐温说的,There are three kinds of lies: lies, damned lies and statistics.这本书就是揭露说明专家们的欺骗行为的.比如报社为了吸引眼球,如何发布关于名牌大学毕业生高收入的报道,政府部门如何利用同样的原始数据,算出不同的统计结果,房地产为了卖房子,如何统计出小区业主的超高收入,一般人如何误读智商测验的一般统计结论,大公司的销售和市场部门如何用图形上的视觉欺骗来提高统计数字给人的感官效果,广告商如何用不匹配数据对大众进行误导....接着,在罗列了种种利用统计欺骗的手段后,书里描述了一系列方法和手段,告诉我们在面对统计数字的时候,如何去理解和评估那些数据,如何揭穿有意或无意的统计骗局.这本书的特色就是案例非常多,用案例的好处是比较容易能理解,缺点就是有的时候比较罗嗦,有时候一眼就能看出问题所在,书里还要花个几千字去描述他...好比那个经典的二维图形欺骗案例...书里我最喜欢的一段是介绍平均工资偏高的案例,不过有些地方用词太学术了:“当数据的分布呈现正偏态时,均值往往偏离一般水平。

收入分布是典型的正偏态分布,这样一来,平均工资偏高就十分正常了。

"囧。

这有优点像概率统计课程了。

这个还不如我的解释通俗易懂:假如有10个穷人工资是1块,1个富人工资是12块”,算术平均数的算法,就是22块除以11人,平均工资是2块。

这个结果明显高于普通人“平均”工资.所以统计局平时说的大家平均工资有2k了,其实一般人是没有2k的,大家感觉偏高了,可是统计局可以言之确凿的说,这确实是某种统计方法算出来的还有一种常用的统计方法我记得是平方平均数,计算方法是平方数相加后取平均,再开根号,用上面的例子就是(10+12*12)/11=14,14开根号就是 3.7块.还有一种统计数值,调和平均数(將数值个数除以数值倒数的总和)算出来是1 我发现最夸张的是几何平均数算出来是11。

生活中的数学 骗局与悖论

生活中的数学 骗局与悖论

二等奖:浮动,单注奖金不超过500万. 0.0000846%
三等奖:3000元. 四等奖:200元. 五等奖:10元. 六等奖:5元. 不中奖:0角.
0.0009142% 数学期望大约为:
0.0434228% ﹣0.79元
0.7757707%
也就是说,每花2元 钱,就会有0.79元奉
5.8892547% 献给了 社会,买得越
在这幅图像中,一个大个子正在追赶一个 小个子,对吗?
其实,这两 个人完全是 一模一样的! (不信?用 尺子量量 看!)
你看到了螺旋,还是同心圆? 乍一看,图中是一个螺旋,实际上 它是同心圆。 此图属于“Fraser螺旋错觉”。
统计悖论之选举悖论
假定有三个人—阿贝尔、伯恩斯和克拉克竞选总统。民意测验表明, 选举人中有2/3愿意选A不愿选B,有2/3愿选B不愿选C。是否愿选A不 愿选C的最多?
注意:【本景区门票50元优惠券】不能与其他优惠同时使用!景区门票120元.
黑5红5【佛像一块】
务必交10元领走此好运,方可继续抽奖!
由于景区著名,游客非常多, 此抽奖处也是进行的火热!
可是,半年过去了,发现iPhone6plus 及三星note4无一人抽中!游客抽到的 最大奖为100元话费,且为极少数!景 区收入却变相增加100余万元!您知道 其中的骗局吗?
回答:设定一个固定的边界。如果我们说10,000 颗沙粒是一堆沙,那么少于10,000颗沙粒组成 的就不能称之为一堆沙。显然这样区分9999颗沙 和10001颗沙就有点不合理。那么就有一个解决 方案了——设定一个可变的边界,但是这个边界 是多少,并不需要知道。
逻辑悖论之理发师悖论
一个男理发师的招牌上写着:
奖品很丰厚哦!

统计陷阱读后感

统计陷阱读后感

《统计陷阱》读后感放寒假前,经学长的介绍,特地在图书馆里借了一本《统计陷阱》在假期里读,看完之后的感触到真不少,而且总想着什么时候写一点读后心得之类的东西,无奈,因为惰性,总是找各种各样的理由来推迟。

这次还得感谢学校这个次机会,让我终于可以完成早该结束的任务了。

先来谈谈写这本书的背景:在20世纪50年代,美国出现了一种尊崇统计风,太多的人都乐意,也轻易的相信了那些统计数据,原因很简单,大多数的统计数据都可以让不同的人产生不同的效果.例如,一个企业可以让员工看出今年的效益,同样的数据,换一种统计方法,也可以反映出企业的不景气,这就是为什么太多的公司,企业,甚至政府部门都习惯用统计的方法来传达自己的意思.介于这个背景之下,美国作家达莱尔·哈夫以一个经验老道,且退休的窃贼的身份,用回忆录的形式,在本书的前八章讲述了常用的一些行骗手段,在第九章总结了前面所列出的所有方法,而在最后一章中,教人们如何识破统计数据中的陷阱,告诫人们以一个正确的态度去看待一个数据,从而不做一个被数据玩弄于手的玩偶.本书中列举出的,常用统计手段大致可分为:利用内在有偏样本,选出不同的平均数,隐藏总要的数据,忽略必要的误差,滥用统计图形,采用不完整匹配的资料以及误解相关关系等。

当读完这本书时,回过头在,如果你用书中的衡量标准来看任何一组数据,都会发现其中的不可行性,所有的数据都是可以质疑的,那么不禁会有两种念头:其一,为什么统计着要这样做,公布这样的数据是为什么?答案很简单,无非是利益所趋,商家,政府乃至所有人都想隐藏掉那些自己认为很重要的数据,公诸于世的无非是想博得同情或者获得荣耀.其二,这个世上不就没有可以相信的数据,因为没哟绝对的正确,那么我们是否就因此而否定自己看到的,听到的一切呢?显然不是,这本书最重要的是,教会我们如何正确的看待数据,正确的从数据中拿去自己需要的,不可全信,但不意味着一点也都不可信。

在这里,我重点来谈谈:内在有偏样本,选取不同平均数,采用不完整匹配的资料以及误解相关关系这几种“行骗手段”.首先说说内在有偏样本,我用原文中的一个例子来解释这种方法的意思:“1924级的耶鲁毕业生平均年收入有25111美元。

《统计应用的陷阱》课件

《统计应用的陷阱》课件
《统计应用的陷阱》ppt课件
目录 CONTENTS
• 引言 • 常见的统计陷阱类型 • 如何避免统计陷阱 • 案例分析 • 总结与建议
01
引言
什么是统计陷阱
统计陷阱是指在使用统计方法处理和 分析数据时,由于对统计原理和方法 理解不足或误用,导致得出的结论偏 离实际情况或无意义的情况。
统计陷阱通常表现为数据解读错误、 误导性结论和决策失误等方面。
确保数据来源可靠、准确,避免使用 不可靠的数据导致误导性结论。
对比不同分析方法
对于同一数据,尝试使用不同的统计 方法进行分析,对比结果的一致性和 合理性。
寻求专业意见
在遇到复杂的统计问题时,寻求统计 学专家的意见,避免陷入统计陷阱。
02
常见的统计陷阱类型
平均数陷阱
平均数陷阱是指在使用平均数进行描述时,忽略了个体差异和分布情况,导致对数 据的误解。
掌握现代统计软件
学习使用现代统计软件,如SPSS、R等,提高数据处理和分析的效 率。
谨慎对待统计数据
01
02
03
核实数据来源
确认统计数据的来源和可 靠性,避免使用不准确或 过时的数据。
理解数据偏差
了解数据偏差的来源和影 响,如样本偏差、测量误 差等,对数据进行适当的 调整。
避免数据操纵
不人为篡改、伪造或篡改 数据,确保数据的真实性 和客观性。
05
总结与建议
总结
统计学的应用广泛, 但陷阱也无处不在。
正确理解和应用统计 学是避免陷阱的关键 。
常见的统计陷阱包括 数据解读错误、样本 偏差、因果关系混淆 等。
建议
增强统计素养,提高数据分析和解读 能力。
保持批判性思维,不盲目相信数据和 统计结果。

不要掉入统计数字的陷阱

不要掉入统计数字的陷阱

现代经济信息不要掉入统计数字的陷阱王心仪 广州市第四十七中学摘要:我们生活在信息时代,信息的主题就是统计数据,统计数据覆盖经济和社会的各个领域,但是并非所有的统计数据都是客观真实的,本文通过实例来分析有偏的样本、精选的平均数、隐藏的部分数据、误解的相关关系、不完全匹配的资料等几种统计数字说谎的方式及其破解的方法。

关键词:统计数字;陷阱;破解方法中图分类号:F713.8;F712.3 文献识别码:A 文章编号:1001-828X(2017)001-000154-02在这个信息爆炸的时代,各种各样的数据充斥在我们周围,比如“广东本科生平均月薪7000元,你拖后腿了吗?”、“北京人初婚平均年龄为27岁,结婚越晚越稳定”……可是,数字摆在那儿,我们就能正确认识世界了吗?我们要如何才能够看清这些漫天飞舞、貌似客观真实的统计数据背后的谎言?下面我们就来看看几种统计数字说谎的例子及其破解的方法。

一、有偏的样本我们来看一则媒体报道:“6月15日,人工智能公司在北京发布了《2015年中国大学薪酬排行榜》,清华大学高居榜首,复旦大学和上海财经大学分列二三位。

这份薪酬排行榜是根据来自招聘和猎头公司的4000万大学毕业生真实毕业去向数据分析所得,由各大学毕业五年薪酬指数计算所得。

”(来自新浪教育频道,2015年6月17日)2015年本科毕业生薪酬最高的100所大学名次学校名称毕业五年薪酬数值(元/月)北上广深就业比例(%)学校类型所在城市1清华大学128072复旦大学116613上海财大11235……事实上,这个数据中就使用了一个有偏的样本,从以下几个方面,我们可以看出破绽:首先,对于一群已经离开学校的人,了解他们的平均收入,且精确到以元为单位,几乎不太可能;其次,对于年收入10万元以上的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水;再次,这些毕业生不一定坚持说真话,有些人可能出于虚荣或天生乐观而夸大数据,还有一些人也有可能故意缩小数字;最后,没有人能够掌握那些不通过招聘和猎头公司的学生就业情况,比如自我创业者。

小心,别掉入陷阱!

小心,别掉入陷阱!

小心,别掉入陷阱!作者:刘金龙来源:《数学大王·趣味逻辑》2019年第09期在生活中,你做过调查统计吗?其实啊,统计中有很多“陷阱”,一不小心就可能会“掉”进去。

不信?那就看看乐乐做过的那些统计吧!乐乐妈妈在几个小区的中心位置开了一家水果店。

夏天到了,水果不好保存。

为了避免水果滞销或者坏掉,在进货前,妈妈想做一个调查,了解周围这几个小区的居民对各种水果的喜爱程度。

乐乐自告奋勇担起了大任——帮妈妈做调查,并进行了统计。

不过,当乐乐兴高采烈地将他制作的统计图拿来时,妈妈却傻眼了。

乐乐画的统计图如右图:乐乐说:“妈妈,你看,人们最喜爱吃香蕉,苹果第二,葡萄第三。

”妈妈疑惑地问:“可是,这个‘其他’是什么呀?”“那是指其他水果。

水果太多了,我就都放在一起了。

”乐乐说道。

妈妈拉着乐乐坐下,给乐乐讲解道:“乐乐,你看,这个‘其他’的比例占据了39%呢,比你现在统计出的香蕉、苹果和葡萄都要多。

虽然这是人们喜爱的多种水果占据比例的总和,但人们对这些水果的喜爱还是有多有少的啊。

也许,人们对‘其他’里的某一种水果的喜爱程度要大于葡萄和苹果,甚至香蕉呢!”乐乐若有所思地点点头,说:“妈妈的意思是再将‘其他’里的水果种类分别进行详细的统计?可是,有太多种水果了,我是写不完的。

”妈妈笑着说:“你不用将所有的水果都写完,但也不能太少了。

你只要将人们喜爱的水果占比从多到少再往下统计,直到‘其他’所占百分比不足10%,最好能到5%,这样你就可以帮助妈妈粗略预计出各种水果的进货量了。

”乐乐重新将小区里居民喜爱的水果进行了调查统计,发现大家对梨的喜爱比例竟然高于葡萄。

乐乐吐吐舌头,没想到自己的一个偷懒,差点导致妈妈进货时出现了偏差。

幸好乐乐对统计结果及时进行了修正,不然可能出现有的水果供过于求,有的供不应求了。

所以说,统计时一定要做到详细,尤其在用到“其他”这个综合项目时,如果“其他”包含的项目较多,那么很容易导致所得结果不符合事实。

统计学揭开生活骗局

统计学揭开生活骗局

统计学揭开生活骗局作者:刘仔来源:《课堂内外(高中版)》2019年第09期你以为乘坐“飞机很危险,统计学却证明飞机远比汽车安全;你以为有钱人都是大腹便便的秃头老哥,统计学却告诉你富人偏瘦。

假如生活欺骗了你,统计学帮你揭开骗局。

银色是我的保护色据新西兰奥克兰大学的休·弗内斯教授及其科研小组,对奥克兰公路上所有轿车事故的调查分析结果表明:银色轿车看似小众,实际上占据了整个调查车辆的11%,位列白色、蓝色、红色之后,是大众第四喜欢的颜色。

(好奇怪,居然没有黑色!)此外,统计结果还显示:银色轿车比其他颜色的轿车发生恶性事故的可能性更小(从调查资料上看,银色轿车危险性低的原因与轿车的质量及价格无关),即便发生交通事故,银色轿车驾驶员受伤的概率也比其他颜色的轿车低50%,而黑色、棕色或绿色轿车发生恶性事故的概率则是其他色系轿车的200%以上,这……难道就是传说中的保护色?清华大学汽车碰撞试验室的调查分析数据同样表明:黑色系的轿车事故发生率最高,达到50%,其次是绿色、棕色、红色,达到15%,而事故率最低的是白色和银灰色轿车,只有2%左右。

看到这里,还不赶紧回家告诉爸妈,想要安全出行,一定要买银色车!人类的嘴,骗人的鬼你以为炫耀是人类的天性,但一项数据表明:大多数人,特别是女性,在购物后往往会将花费的金额降低20%汇报给家人。

“宝贝,今天妈妈给你买了一件新衣服,打8折,才100块。

”也许这件衣服的实际价格是125块,而且并没有打折。

“儿子,爸爸这部手机4000多,不贵!”也许这部手机的真正价格超过了5000块,只是这位父亲因为花钱太多,回家不敢说。

如果你留意生活中的细节,就会发现,在钱这件事上,我们总是很容易说谎。

在公交车上丢了100块,你很可能会告诉父母只丢了80;朋友向你借了50块钱结果不想还,你很可能说你就借了30块……都说“男人的嘴,骗人的鬼”,其实无论是男性还是女性,无论是大人还是儿童,都是会说谎的啦!被误解的女司机说起交通事故,女司机们往往被冠以“马路杀手”的恶名,网上甚至还一度出现过“珍爱生命,远离女司机”的戏谑警示語。

五年级叙事作文:统计图中也有陷阱_450字

五年级叙事作文:统计图中也有陷阱_450字

统计图中也有陷阱_450字
星期天,我对家里的体温计发生了兴趣。

于是,我在不同的时刻量了自己的体温。

早上
8时,我的体温大约是36。

7度;上午10时,
我的体温大约是36。

9度;中午12时,我的体
温为37。

1度;下午2时,我的体温大约是37。

2;下午4时,我的体温大约是37。

3度。


将统计的这些数据,制成了折线统计图:我看着上面统计图,害怕起来,问妈妈:“我是不是生病了?”
妈妈疑惑地问:“有什么不舒服的地方吗?”
“没有。

”我答道。

“那怎么了?”妈妈询问道。

“你瞧,我的体温在不断的上升呀,我是
不是要发烧了?”
妈妈看看我制作的体温统计表,笑着说:“孩子,你没有生病。

人的体温只要在36。

5~37。

5之间,都是正常的。

你这几次测量的
体温都在正常范围之内。


“可是,我的体温一直在上升呀!如果按
照这样的变化趋势,我的体温不是很快就会超
过正常人的体温范围了。

”我仍然心存顾虑。

“其实一个人的体温在一天中的不同的时
刻是有变化的(如下图就是一个正常人的体温
昼夜变化情况)。

而你正好统计了人一天中渐渐
上升的一段时间的体温,而下午四时左右,是
人在一天中体温最高的时候,当过了这段时间,人的体温又会下降。

所以你就不用担心了。

”妈
妈解释道。

听了妈妈的解释,我长长的舒了一口气,说:“原来是这么回事。

看来,折线统计图中
也有陷阱呀!”。

统计陷阱之辛普森悖论

统计陷阱之辛普森悖论

情况。
表3. 2008年某省城乡女性原发性骨质疏松患病率比较
年龄组
城市
(1)
调查人数 患病人数 患病率
调查人数
(2)
(3)
(4)
(5)
50~
354
241
60~
251
315
70~
130
175
80及以上
41
58
合计
776
322
41.5
789
农村 患病人数
(6)
335
患病率 (7)
42.5
No.1 Shizi Street, Suzhou, PR China, 225009 |
10
① 选择另外一个区域某年的50岁以上老年妇女原发性骨质疏松的 年龄组患病率Pi作为标准患病率
② 分别计算城乡两地被调查者中的预期患病人数
表4. 城乡老年妇女骨质疏松的发生情况(1/10万)
年龄 (岁) 标准患病率 pi
城市
人口数 预期患病人数
ni
nipi
农村
人口数 预期患病人数
ni
nipi
(1)
标准化患病率 = 标准患病率 × 预期患病人数之和 城市标准化患病率 = 42.1% × 330252=44.6% 农村标准化患病率 = 42.1% × 333553=40.0%
可见,经过间接标准化后,城市老年女性骨质疏松标准化患病率高于农村
12
应用标准化的注意事项
① 标准化的目的是消除混杂因素分布不均衡的影响。 ② 标准化后的标准化率,已经不再反映当时当地的实际水平,它只是表示
7
例1 资料已有两个医院的分层乳腺癌生存率,选择直接法计算标准化 率标,准把 化甲 率、 。乙两个医院的治疗病例数合并,作为标准病例数Ni,计算
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生活中的统计学陷阱
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件发生的因果关系做出判定,因为事情并不那么简单。

让我们来看几个不可轻率做出结论的例子。

①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上。

这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。

统计关系往往不能表明因果关系。

由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。

②有一个调查研究说脚大孩子的拼音比脚小的孩子好。

这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。

这个研究对象是一群年龄不等的孩子。

它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。

③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往接是在离家不远的地方开车,而很少在远处的公路上开车。

④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。

这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。

由于癌
症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。

上述例子表明,统计学论述在涉及因果关系时很容易造成误读。

现代的广告,尤其是很多电视的商业广告正是以这种统计误读为根基的。

很多人以为自己是数学天才,直到遇见了极限
反比例函数是大家接触最早和最熟悉的函数之一,它的函数解析式是y=k/x (k为常数,k≠0)。

我们利用反比例函数的解析式,就可以画出它的图像,如下图所示:
根据函数的图像可知,在k>0情况下的第一象限内,反比例函数中x的值无限变大,大到无穷的时候,曲线就不断向x轴靠近,换句话说y的值逐渐向“0”靠近;或者是y的值无限变大,曲线就不断向y轴靠近,x的值逐渐向“0”靠近。

此时,有些人就会产生一些疑问,当这个x的值取到非常大、非常大、非常大的时候,y的的值和“0”之间存在什么样的关系呢?会相等吗?
对于类似这样的疑惑,我们从现代数学“极限”的角度出发,就很好回答,但在几百年前,像这样的问题在当时却属于一个世界性的难题。

我们知道,对于某一个函数,假设其中的某一个变量x,它在无限变大(或者变小)的这一变化过程中,导致另一个变量y逐渐向某一个确定的数值m不断地靠近,不过最终的结局只能是不断的接近“m”,却永远都无法跟“m”重合。

简而言之,某一变量x处于无限变大或无限变小这一变化过程,那么另一个变量y的值永远都不会等于m,但只要变量x一直处于无限变大或无限变小中,那么y的值可以取等于m,这就是极限的思想。

因此,如果一个人要想理解“极限”这一抽象数学概念,那么就需要学会接受和明确知道极限是一种“变化状态”的描述,变量y有不断地努力靠近m点的趋势。

此时,变量y永远趋近的值m就叫做“极限值”。

极限作为微积分、数学分析等重要内容的基础,可以说是初等数学迈入高等数学一个关键门槛。

正如所有的数学知识概念出现的背景一样,极限也是属于社会经济发展和科学技术之间产生的“矛盾”产物。

在早期16世纪的欧洲,一些国家开始进入资本主义萌芽阶段,整个社会处于快速变革状态,生产力得到极大的发展,出现一些最基本的工业化。

人们在发展过程中,发现很多生产技术都出现问题,跟不上社会发展的速度,当时的数学知识已经无法顺利解决一些“变化的量”,如运动变化、天文学、机械化、航海、采矿、大坝建造等,都需要新的数学知识才能解决。

初等数学很多时候只能解决一些相对“稳定”的量,但在现实工作生活中,充满了大量“变化的量”,这就要求数学必须突破现有的知识壁垒,能够找到一种可以描述和研究运动、变化过程的新数学知识,最终解决这些“变量”问题。

基于当时这样的社会发展背景,数学家都努力尝试突破传统的思维模式,直接促进“极限”思维的形成和发展,从而建立微积分等重要数学分支。

最早的时候,牛顿和莱布尼茨在各自的领域创立了微积分,让“极限”的发展拥有了正是展开拳脚的舞台。

在当时,微积分一经创立诞生,就帮助很多人顺利解决了以往在运动变化、力学、天文学等中认为束手无策的难题,数学也迎来了新的发展。

不过,牛顿和莱布尼茨所创立的微积分并不是十分完善,特别是在一些关键疑难点没有讲清楚,如“无穷小量”的解释,逻辑上存在着很多混乱,尽管当时的“初始微积分”已经能轻而易举解决一些实际工作中的难题。

就像牛顿的瞬和流数或是莱布尼茨的dx和dy,都需要解决和讲清楚“无穷小量”这一特殊概念,但这两位伟人都没有给出明确、严谨的定义。

为什么“无穷小量”会这么重要呢?
我们都知道,在微积分的推导或运算过程中,常常需要先用“无穷小量”作为分母进行除法,然后又把“无穷小量”当作零来处理,以消除那些包含有它的项。

那么问题就来了,“无穷小量”究竟是零还是非零呢?
因为如果它是零,怎么能用它去作除数呢?如果它不是零,又怎么能把包含它的那些项消除掉呢?这种逻辑上的矛盾,直接或间接影响微积分的发展,更让所有数学家不仅意识到“极限”这一概念的重要性,更明白极限思想的进一步发展是与微积分的建立紧密相联系的。

当时的人们束缚于狭小的观念里,还是以传统的数学思维方式去看待“极限”,试图用“零误差”去进行变量计算,这样的思维方式只能导致悖论的发生,这就是数学史上所说的“无穷小量”悖论产生的原因。

牛顿和莱布尼茨在晚期都不同程度地接受了极限思想,也都努力去尝试解决这一“神秘”概念,试图以极限概念作为微积分的基础。

很多可惜,牛顿和莱布尼茨为都无法完整得出极限的严格表述。

虽然当时的人们没有弄清楚“极限”这一概念,但微积分的出现,确实促进社会的发展。

随着微积分应用的更加广泛和深入,大家都意识到需要解决“极限”这一问题,要有严谨、逻辑的数学语言对其进行完整描述。

加上人类文明不断向前进步,遇到的问题越来越复杂,这就要求数学必须推出明确的概念、合乎逻辑的推理和运算法则。

进入19世纪之后,法国著名数学家柯西比较完整地阐述了“极限”的概念,以及相关的理论。

柯西在《分析教程》中指出:当一个变量逐次所取的值无限趋于一个定值,最终使变量的值和该定值之差要多小就多小,这个定值就叫做所有其他值的极限值,特别地,当一个变量的数值(绝对值)无限地减小使之收敛到极限0,就说这个变量成为“无穷小量”。

柯西把“无穷小量”视为“以0为极限的变量”,这就准确地确立了“无穷小量”概念,“无穷小量”就是极限为“0”的变量,在变化过程中,它可以是“非零”,但它的变化趋向是“0“,无限地接近于“0”,可以人为用等于0方式去处理。

直白地讲,在变量的变化过程中,它的值实际上不等于“0”,但它变化的趋向是向“0”,可以无限地接近于“0”,那么人们就可以用“等于0”的方式来处理,就不会产生错误的结果。

极限论正是从变化趋向上说明了“无穷小量“与“0“的内在联系,从而澄清了逻辑上的混乱,完善了微积分的发展。

柯西在《分析教程》中,不仅对极限概念进行基本明确的叙述,并以极限概念为基础,对“无穷小量“、无穷级数的“和”等概念给出了比较明确的定义。

“极限”这一重要理论之后又经过波尔察诺、魏尔斯特拉斯、戴德金、康托等人的努力工作,进一步把极限论建立在严格的实数理论基础上,并且形成了描述极限过程的ε-δ语言。

要想学好高等数学,就要弄清楚“极限”这一重要概念,认识到它是一个动态无限变化的过程,这样变化的趋势可以等于某一个常量。

这一极限思想是建立微积分理论的重要思想基础,对数学等众多学科的发展有着的重大意义,。

相关文档
最新文档