科学研究的统计学陷阱

合集下载

统计陷阱

统计陷阱

统计陷阱一、统计陷阱的发现20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。

相反,还往往对读者形成误导。

达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。

二、统计陷阱的揭示数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。

要认清这些骗子伎俩,唯有对统计学本身有一定的了解。

毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。

通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。

于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。

这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。

比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。

错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。

就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案案例一:辛普森悖论情境描述:在一个实验中,对比两组各1000只白鼠的药物治疗效果。

甲组分为两组,一组500只白鼠只接受A药物治疗,另一组500只白鼠只接受B药物治疗;乙组1000只白鼠均只接受A药物治疗。

实验结果显示,接受A药物治疗的甲组白鼠死亡率(4%)低于乙组白鼠(8%),因此A药物在甲组中表现更好。

陷阱点:仔细观察数据,会发现接受B药物治疗的甲组白鼠死亡率(2%)低于接受A药物治疗的甲组白鼠(4%),然而在乙组中,接受A药物治疗的白鼠死亡率却高达8%。

这显示了一个奇怪的现象:在某些情况下,两组数据的总体结果与各自组内的结果存在矛盾。

解决方案:在解释统计数据时,应综合考虑整体与各部分的关系,避免根据局部结果做出片面结论。

同时,对于数据变化可能产生的原因应进行深入分析。

案例二:相关性陷阱情境描述:某研究机构发现,某地区的冰淇淋销量与溺水事故数量呈正相关。

他们得出结论,冰淇淋销量增加导致溺水事故增多。

陷阱点:这里的问题在于研究者错误地将两个相关事件归因为因果关系,忽略了可能存在的其他影响因素。

例如,气温的升高可能导致人们更多地购买冰淇淋,同时也可能导致更多的人选择游泳,从而增加溺水事故的风险。

解决方案:在分析两个变量之间的关系时,应考虑可能存在的其他影响因素,并进行相应的控制实验或调整数据,以确定真正的关系。

案例三:样本选择偏差情境描述:某市场调查机构对1000名在线用户进行了调查,以评估某产品的市场接受度。

结果显示,60%的用户对该产品表示满意。

然而,当该机构对线下用户进行类似调查时,满意率仅为30%。

于是他们得出结论,线下用户对产品的满意度明显低于线上用户。

陷阱点:这里的问题在于样本选择偏差。

在线调查可能吸引了那些更愿意表达意见、对产品更有热情的用户,而线下调查可能涵盖了更广泛的用户群体。

因此,两个样本的满意度存在显著差异并不意味着线下用户对产品的满意度真的低于线上用户。

生活中统计学的陷阱

生活中统计学的陷阱

在当今社会中生活,会遇到各种各样的数据。

当你打开电视,你会看到电视歌曲大奖赛正在举行,歌手们正焦急地等待着自己的最后得分;翻开报纸,社会调查机构在向你介绍10~14岁的孩子们,最喜欢什么,最不喜欢什么……正由于统计学做的就是收集、整理和分析数量信息的工作,因此它在今天的社会中变得越来越重要了。

这里,我们打算举出一些典型的统计学悖论,让迷信数据的人们有所警觉——数据中也有陷阱。

骗人的“平均数”刘木头开了一家小工厂,生产一种儿童玩具。

工厂里的管理人员由刘木头、他的弟弟及其他六个亲戚组成。

工作人员由5个领工和1 0个工人组成。

工厂经营得很顺利,现在需要一个新工人。

现在,刘木头来到了人才市场,正与一个叫小齐的年青人谈工作问题。

刘木头说:“我们这里报酬不错。

平均薪金是每周300元。

你在学徒期间每周得75元,不过很快就可以加工资。

”小齐上了几天班以后,要求和厂长刘木头谈谈。

小齐说:“你骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。

平均工资怎么可能是一周300元呢?”刘木头皮笑肉不笑地回答:“小齐,不要激动嘛。

平均工资确实是300元,不信你可以自己算一算。

”刘木头拿出了一张表,说道:“这是我每周付出的酬金。

我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。

总共是每周6900元,付给23个人,对吧?”“对,对,对!你是对的,平均工资是每周300元。

可你还是骗了我。

”小齐生气地说。

刘木头说:“这我可不同意!你自己算的结果也表明我没骗你呀。

”接着,刘木头得意洋洋地拍着小齐的肩膀说:“小兄弟,你的问题是出在你根本不懂平均数的含义。

怪不得别人呦。

”小齐气得说不出话来,最后,他一跺脚,说:“好,现在我可懂了,我不干了!”在这个故事里,狡猾的刘木头利用小齐对统计数字的误解,骗了他。

小齐产生误解的根源在于,他不了解平均数的确切含义。

“平均”这个词往往是“算术平均值”的简称。

4.统计陷阱

4.统计陷阱

拿垃圾当宝贝
•但通常调查报告对这些没有意义 的比例照登不误,不给出样本量、 置信度、置信区间。
27
例:一个全国性的调查…
• • • • 其领导小组有6名、学术顾问3名 项目办公室8人、学术委员会26人 课题组12人、调查报告主要撰稿人2人 在这57个人中没有一个是学统计的(仅仅在合作成 员中有3个统计教师和8个学生) • 其二百多页的调查报告(A4纸)展示了5800多个比例 (百分比) • 这些比例没有任何一个有样本量、置信区间和置信 度
22
可用的 分子分母交为空集 不能用正态近似
23
置信度
• 在可用的4236996个比例的误差±3%的置信度中 只有79652个(1.88%)大于或等于95%。 • 这和近一千五百万的总数比起来简直微不足道。 • 绝 大 部 分 ( 有 59.49% 的 比 例 ) 的 置 信 度 小 于 50%。这4236996个误差±3%的置信度由下面的 直方图显示。
30
需要变换还是不需要变换? 我们究竟是在什么空间中呢
31
了解数据背景。
• 在对数据进行统计分析时,必须对各种数据的 背景有所了解。 • 比如笔者曾经在一个人口数据上发现了某种可 疑的“周期性”, • 后来发现这是由于统计方式的不同而产生的人 造周期;如果把这些人为错误放入模型,就贻 笑大方了。
13
统计教科书把现实世界大大简化了
• 经过这样的统计教育,人们(特别是缺乏实际经验的学生) 有可能把一个人造的、但又并不完全虚幻的世界当成真 实世界。 • 为了人们容易理解,教科书把本来复杂的世界进行简化, 是完全必要的。 • 但如果已经掌握了某领域一定的知识,就有必要认识到 书本和现实之间的差距。 • 教科书倾向于把世界过于理想化并不是大问题,但如果 我们这些写书的教师或“权威”自己也这么认为, 问题就 没这么简单了.

统计中的骗局

统计中的骗局

统计中的骗局致谢语:在多方的帮助下,经过广泛的收集,我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。

在我通过美国统计学会发出呼吁后,许多专业统计学家--请相信我,他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。

这些人,我猜想,将乐意成为无名英雄。

同样,我在许多书籍中发现了有价值的案例,仅列出其中主要的书籍:Martin A. Brumbaugh 和Lester S. Kellogg所著的《商业统计学》;Hadley Cantril的《公共观点的测定》;Willard Cope Brinton的《图表表示法》;Frederick E. Croxton 和Dudley J. Cowden的《实用商业统计学》;George Simpson 和Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。

Darrell HuffⅠ序言:我的岳父从爱荷华州到加利福尼亚州不久便对我说:"你们这儿治安不好。

"在他所阅读的关于加州的报道的确如此。

但是,这些报道通常来自一份爱荷华州的报纸。

这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。

我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。

类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。

几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。

所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。

这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。

人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。

警惕统计数据误读!

警惕统计数据误读!

警惕统计数据误读!随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。

言之凿凿的那些从数据中得出的看似“合理”“科学”甚至“高大上”的结论,也许并没有看起来那么值得相信。

在第二次世界大战中一个关于统计学的小故事流传甚广。

讲的是美国陆军航空队为了减少轰炸机部队在执行任务过程中被攻击造成的损失,请统计学家帮忙。

只要有执行任务的轰炸机部队返航,统计学家就第一时间详细地记录下每一架飞机受损伤的情况,随后在模型上用墨汁将所有被击中的部位涂黑。

结果,不到两个月时间,轰炸机模型上除了几个很小的区域还是机身原来的颜色以外,其他部位全被涂黑了。

并且很多地方显然是被反复涂过,墨汁都已经像油漆一样凝结成厚厚的一层。

统计学家建议厂商将轰炸机上这些没有被涂成黑色的部位,尽快增加装甲。

厂商提出疑问:难道不应该是在被涂得最黑的地方增加装甲吗?统计学家给出的理由是,给那些没涂黑的地方加装甲,并不是因为返航的飞机中那里不会被击中,而是因为所有被击中这些部位的飞机,最终都没有返回基地。

这个故事被看作是说明统计学应用的经典案例。

看似只是简单逻辑转换的背后,其实涉及诸多复杂的统计学专业知识,中央财经大学统计与数学学院教授、博士生导师专家提醒说,这个简单故事背后的专业论文,长度有百页之巨。

说到日常生活中经常遇到的统计学先陷阱,专家表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。

比如冰激凌的销售量与溺水人数有相关性,溺水人数越多,冰激凌销量越好。

“这很容易知道不是因果关系,而是因为有共同的原因——天气热。

天气热,冰激凌的销量自然高;去游泳的人数自然多,那么溺水的人自然也多。

”专家解释说,有些时候事件之间会呈现相关性,但即使有相关性,也不意味着它们之间有因果关系。

“两件事情相关可能有很多原因:A和B相关,有可能A确实是B的原因,也有可能B是A的原因,或者还可能A和B有其他共同的原因C。

又A和C共同作用导致了B,也有可能B和C共同作用导致了A。

漫谈统计陷阱New-InstituteofStatisticalScienceAcademiaSinica

漫谈统计陷阱New-InstituteofStatisticalScienceAcademiaSinica

留意隱藏變數 Beware the Lurking Variable
5
表面的資料未必可信 比較兩航空公司的班機延誤率:
On time Delayed Rate of Late Flights
Alaska 3274 501 Airlines
501/3775 =13.3%
America 6438 787 West
112 200
Total 286
274 560
percents
Accepted
Not accepted
Men 55% 45%
Women 44% 56%
男性被接受的比例較高: 歧視?
歧視? (Simpson’s Paradox)
分開成申請商學院和藝術學院之人數
商學院
counts
Accepted
Not accepted
Technology Review, October 1994,
Department of Transportation.
Simpson’s paradox
辛普森悖論(Simpson’s Paradox)
當研究兩個變數之間的關聯性,有可能存在一個 隱藏變數(lurking variable) ,而當隱藏變數被 考慮時,兩個變數之間的關聯性方向剛好與隱藏 變數沒有被考慮時相反
由13個 臨床試驗資料顯示,乳房攝影可以使 50~64歲女性死於乳癌的風險降低26%
風險降低率之95%信賴區間(confidence interval) 為17%~34%
H. C. Cox, “Editorial: benefit and harm associated
with screening for breast cancer,” New England Journal of Medicine, 338, No. 16 (1998)

《统计陷阱》读书笔记

《统计陷阱》读书笔记

《统计陷阱》读书笔记谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。

抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。

这一发现令我兴趣大增。

而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。

其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。

原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。

也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。

书中提到的事例是关于某一住宅区居民的年均收入。

当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。

他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。

均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。

相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。

实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。

所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。

以假乱真的统计陷阱

以假乱真的统计陷阱

算_翻__釋m b兹別奉献编者的话:高考是一种竞技,考验的是平时的努力。

要想在高考中取得优异成绩,贵在 平时的训练,平日从严,高考坦然。

练习就是高考,高考就是练习!面对即将到来的高考,在明确命题规律的基础上,平时的训练要有针对性,要学会总结。

以微此真的说針陷巧从20世纪初开始,统计学进入了快速发 展期,尤其是近几十年间,计算机技术不断 发展,使统计数据的搜集、处理、分析、存贮、传递、印制等过程日益现代化,提高了统计工作的效能。

随着大数据分析的不断深 入发展,相信统计在社会实践中的应用越来 越广泛。

但统计学中的有一些典型的陷阱,也应引起大家的注意。

1."抽样调查"陷阱调查问卷你肯定知道,多半也曾做过。

在统计上,问卷调查属于抽样调查,再大规模的抽样调查,也都可能存在着意想不到的陷阱。

比如,1936年美国总统大选前,当时美国有一本著名的杂志《文学文摘》,杂志社 在读者中做了一次问卷调查后,断言共和党 的兰登将以57%对43%的绝对优势大胜民主 党的罗斯福。

这个调查结果是根据240万份调查问卷得到的。

这么大规模的调查,如同宣告了兰登的胜利,可是,最后的结果却是 罗斯福以62%的支持率成功连任美国总统。

其实,《文学文摘》的调查问卷虽然数量庞大,但是样本构成却大有问题。

其•,这个调查的对象一般都是这个杂 志的读者,从而导致最终参加调查的人是一 个有偏差的样本,结论可能会代表了这些人 群,却不能推广到全体。

其二,调查问卷的回收率只有24%,忽略那些没有被回收的问卷就等于忽略了剩余的 182万人的意见。

2."统计平均"陷阱滥用平均数容易造成统计中的偏差。

比如有则广告说:我们工厂有3000人,月平均工资为5000元。

看起来这个工厂的待遇比较 不错,实际上可能是一个月薪100万元的老 总加上每个月拿着可怜薪水的上千名工人简单平均起来的结果。

又如,某大学数学系有教授15人、副教授40人、讲师和助教25人,这三类人的平均年薪 分别是15万元、10万元、8万元,该单位|只工平均年薪为11万元。

【统计陷阱】分析数据时常见的 7 类统计陷阱

【统计陷阱】分析数据时常见的 7 类统计陷阱

【统计陷阱】分析数据时常见的7 类统计陷阱我们会发生各种极有可能出现的混淆,数据抽取之后「迷恋」于数字,脑子里没有分析的目标,自己的局限影响指标选择......当分析数据的时候我们都很容易犯错。

不过,用户体验团队需要用户行为的准确画像,你就要记下分析数据(用户体验分析)时最常见的几个错误,或者说读数据时几个最大的失误。

这些都与对用户行为进行错误的假设有关,然后你就会发现:o较小的数字通常表示负面信号o如果数据结果表明有一个相关性,那么肯定存在一个因果关系·····等等。

现在,允许我向你揭示当做统计说明时7 个最常见的错误。

1. 访问和浏览:混淆它们并且过度依赖它们不管是不是新手数据分析师,都会陷入交替使用这两个概念的陷阱:不同的数据分析工具对同一概念使用不同的术语,(甚至)在同一工具中都会使用令人感到模糊的术语,难怪你会将浏览当作访问,反之亦然。

不过要确保你完全理解术语,否则你就有以下风险:o使用错误的数据做报告o将一些极不准确的报告整合在一起毫不意外,这是进行数据解释时最常见的错误。

现在,让我们定义浏览和访问,并一次性地将它们的区别列出:o浏览(页面浏览)是指浏览网站上的一个页面,可被追踪分析代码所追踪。

o访问(session)是指用户在特定时间内,在你网站上进行的所有动作。

现在说到浏览和访问还有一个在分析解释数据时颇为常见的错误,那就是:过于依赖浏览和访问!作为UX 设计师,你也许想要将提升访问量和浏览量的任务交给做市场的人。

然后集中处理与用户体验有关的数据。

2. 要有全局观而不是深挖数据简要地浏览一下可以获取的数据:o快速评估手头的数据o迅速浏览「头行」数字这样只能得到一些网站当前的运行状态,不会给你任何提升用户体验的线索。

怎样提高数据分析效率呢?换句话说:访问量仅仅是一个指标用来告诉你有多少人在给定时间段内到达你的网站,不会告诉你怎样鼓励这些人浏览网页。

《统计应用的陷阱》课件

《统计应用的陷阱》课件
《统计应用的陷阱》ppt课件
目录 CONTENTS
• 引言 • 常见的统计陷阱类型 • 如何避免统计陷阱 • 案例分析 • 总结与建议
01
引言
什么是统计陷阱
统计陷阱是指在使用统计方法处理和 分析数据时,由于对统计原理和方法 理解不足或误用,导致得出的结论偏 离实际情况或无意义的情况。
统计陷阱通常表现为数据解读错误、 误导性结论和决策失误等方面。
确保数据来源可靠、准确,避免使用 不可靠的数据导致误导性结论。
对比不同分析方法
对于同一数据,尝试使用不同的统计 方法进行分析,对比结果的一致性和 合理性。
寻求专业意见
在遇到复杂的统计问题时,寻求统计 学专家的意见,避免陷入统计陷阱。
02
常见的统计陷阱类型
平均数陷阱
平均数陷阱是指在使用平均数进行描述时,忽略了个体差异和分布情况,导致对数 据的误解。
掌握现代统计软件
学习使用现代统计软件,如SPSS、R等,提高数据处理和分析的效 率。
谨慎对待统计数据
01
02
03
核实数据来源
确认统计数据的来源和可 靠性,避免使用不准确或 过时的数据。
理解数据偏差
了解数据偏差的来源和影 响,如样本偏差、测量误 差等,对数据进行适当的 调整。
避免数据操纵
不人为篡改、伪造或篡改 数据,确保数据的真实性 和客观性。
05
总结与建议
总结
统计学的应用广泛, 但陷阱也无处不在。
正确理解和应用统计 学是避免陷阱的关键 。
常见的统计陷阱包括 数据解读错误、样本 偏差、因果关系混淆 等。
建议
增强统计素养,提高数据分析和解读 能力。
保持批判性思维,不盲目相信数据和 统计结果。

统计陷阱分析报告

统计陷阱分析报告

统计陷阱分析报告1. 引言统计陷阱是指在数据分析和统计研究中常见的一些误区和陷阱。

这些陷阱可能导致对数据的错误解读、错误的结论以及无效的决策。

本文将分析并总结一些常见的统计陷阱,以帮助读者更好地理解和应对这些问题。

2. 样本偏差样本偏差是指从总体中选择的样本并不代表整个总体特征的情况。

这可能导致在分析和建模过程中出现偏差和错误的结论。

为了避免样本偏差,研究者应该采用随机抽样的方法来选择样本,并注意样本的代表性和样本量的合理性。

3. 选择性报告选择性报告是指在数据分析中只报告符合某种预期结论的结果,而忽略了其他可能的结果。

这种做法可能导致对数据的错误解读和不准确的结论。

为了避免选择性报告,研究者应该全面收集和报告数据,避免主观选择性。

4. 多重比较问题多重比较问题是指在进行多次假设检验或对比实验时,由于进行多次统计检验而增加了发现假阳性(即错误拒绝原假设)的可能性。

为了解决多重比较问题,可以采用一些统计方法,如Bonferroni校正、False Discovery Rate等。

5. 相关与因果关系的混淆在统计分析中,经常会出现相关性与因果关系的混淆。

相关性仅仅表示两个变量之间存在某种关联,而不能确定其中的因果关系。

为了避免相关与因果的混淆,研究者需要进行更多的实验证明,并结合领域知识进行推断。

6. 数据窥探与多重假设检验数据窥探是指在观察到某种模式或趋势后,进一步进行假设检验以验证这一模式或趋势的假设。

然而,由于进行多次假设检验,可能会出现假阳性的问题。

为了避免数据窥探带来的多重假设检验问题,研究者应该提前规定好假设,并进行合理的样本容量估计。

7. 数据缺失与处理数据缺失是指数据集中某些观测值或变量的缺失情况。

在处理数据缺失时,需要考虑缺失的原因和机制,并采用合适的方法进行处理,如删除缺失值、插补缺失值等。

同时,研究者需要注意在数据处理过程中可能引入的偏差和不确定性。

8. 结论统计陷阱是数据分析和统计研究中常见的一些误区和陷阱,可能导致对数据的错误解读和错误的结论。

大数据时代社科实证研究的几个陷阱

大数据时代社科实证研究的几个陷阱
非权威来源
数据可能来自于非权威、非官方的渠道,其真实 性和可信度存疑。
样本偏差
数据来源的样本可能存在偏差,不能代表总体, 导致研究结果失真。
主观性数据
部分数据可能带有主观性,如问卷调查等,其客 观性和准确性受到影响。
数据处理错误
数据清洗不彻底
数据清洗过程中可能遗漏了部分错误或异常数据,影响后 续分析。
忽视数据分布
在分析数据时,如果不考虑数据 的分布情况,可能会导致对结果 的误解。
05
陷阱五:研究伦理失范
隐私泄露风险
个人隐私泄露
在大数据时代,个人信息的采集、存 储和使用变得更加容易,但这也增加 了隐私泄露的风险,如未经授权的数 据共享、黑客攻击等。
群体隐私泄露
除了个人隐私外,群体隐私也可能受 到威胁,如通过数据分析揭示出某些 群体的敏感信息或行为模式。
打破学科壁垒
鼓励不同团队建设
组建具有多学科背景的 团队,发挥各自优势, 提高研究效率和质量。
推动成果共享
通过学术会议、期刊发 表等方式分享研究成果 和经验,促进学术交流 与进步。
感谢您的观看
THANKS
数据转换错误
在数据转换过程中,可能出现格式错误、单位不统一等问 题,导致数据失真。
数据分析方法不当
数据分析方法选择不当,可能导致结果出现偏差或误导。
数据缺失与异常值
数据缺失
部分数据可能因为各种原因缺失 ,如采集不全、丢失等,导致数 据不完整。
异常值处理不当
对于异常值,如果没有进行合适 的处理,可能会对整体数据分析 产生干扰。
培养批判性思维
对数据保持审慎和批判态度,避免盲目相信和依赖数据。
强化研究设计与方法严谨性

统计学陷阱——辛普森悖论

统计学陷阱——辛普森悖论

统计学陷阱——辛普森悖论如果你在数据科学领域还只是个新手,那么建议你先看看《五本书带你入门数据科学》,入门之后,再看《R语言案例实战》系列。

辛普森悖论当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。

然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。

该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。

后来就以他的名字命名此悖论,即辛普森悖论。

辛普森悖论案例一所美国高校的两个学院,分别是法学院和商学院。

新学期招生,人们怀疑这两个学院有性别歧视。

现作如下统计:法学院:商学院:根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。

现在将两学院的数据汇总:在总评中,女生的录取比率反而比男生低。

辛普森悖论原因分析辛普森悖论出现的原因,可以使用下面这幅图来进行解答。

在上面这个图形中,X 轴代表申请的总人数,Y 轴代表录取的人数,那么 Y/X,也就是直线的斜率,和录取率正相关。

(a1, a2) 代表法学院的男生,(A1, A2) 代表法学院的女生。

可以看到,法学院女生的斜率比法学院男生的斜率要高,代表法学院女生的录取率比法学院的男生的录取率要大。

同理,(b1, b2) 代表商学院的男生,(B1, B2) 代表商学院的女生。

可以看到,商学院女生的斜率比商学院男生的斜率要高,代表商学院女生的录取率比商学院的男生的录取率要大。

尽管如此,来看总体直线的斜率,总体男生的斜率(A1+B1, A2+B2) 的斜率,比总体女生的斜率 (a1+b1, a2+b2) 的斜率,还要大。

这个就是辛普森悖论的图形化解释,非常直观清晰。

如何避免辛普森悖论为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。

同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。

统计陷阱分析报告

统计陷阱分析报告

统计陷阱分析报告1. 引言本报告对统计陷阱进行了分析和解释。

统计陷阱是指在统计分析中常见的误导性或偏误的情况。

这些陷阱可能会导致错误的结论或误导决策。

本报告旨在提醒读者在进行统计分析时要意识到这些陷阱的存在,以便采取适当的措施来避免它们。

2. 假设偏误陷阱假设偏误是指在统计分析过程中使用了错误的假设或背景假设,从而导致了错误的结论。

以下是一些常见的假设偏误陷阱:2.1. 假设数据正态分布假设数据正态分布是使用许多统计方法的前提。

然而,在现实生活中,许多数据并不服从正态分布。

如果在分析过程中假设了数据服从正态分布,而实际数据不服从该分布,则可能导致错误的结论。

因此,在进行统计分析之前,应对数据进行正态性检验,并在数据不服从正态分布时,寻找其他适当的统计方法。

2.2. 假设样本独立同分布在许多统计方法中,通常假设样本是独立同分布的。

这意味着每个样本观测值是独立的,并且来自相同的总体分布。

然而,在某些情况下,样本之间可能存在依赖性,或者来自不同的总体分布。

如果不满足样本独立同分布的假设,则可能导致错误的统计推断。

因此,在进行统计分析之前,应检查样本之间的依赖性,并根据情况选择合适的统计方法。

2.3. 假设样本足够大在某些统计方法中,假设样本足够大以满足中心极限定理。

然而,当样本较小时,中心极限定理可能不适用。

在这种情况下,使用这些统计方法可能会导致错误的结论。

因此,在进行统计分析之前,应考虑样本的大小,并根据样本大小选择适当的统计方法。

3. 数据选择偏误陷阱数据选择偏误是指在统计分析过程中选择了不代表总体的样本或数据集,从而导致了误导性的结果。

以下是一些常见的数据选择偏误陷阱:3.1. 抽样偏误抽样偏误是指在抽样过程中,因为抽样方法或样本选择过程的偏误,导致样本不能代表总体的特征。

例如,在调查中使用方便抽样而不是随机抽样,可能导致样本不具有代表性。

因此,在进行统计分析之前,应选择恰当的抽样方法,并确保样本能够代表总体。

统计陷阱案例

统计陷阱案例

统计陷阱案例
1.相关性不代表因果关系。

当两个变量有高度相关性时,不能简单地认为其中一个变量是另一个变量的原因。

例如,日销量与天气之间可能存在相关性,但并不能因此得出结论,说天气是销量增加的直接原因。

2. 偏差样本可能导致误导性结论。

如果样本数据不具有代表性,即其中一些群体或类型被过度或不充分地表示,那么分析结果可能会产生偏差。

例如,如果一项研究只涉及高收入者而没有低收入者,结论可能不适用于整个人群。

3. 懒惰统计可能导致错误结论。

懒惰统计是指使用简化方法来处理数据,而不是采用更复杂的方法来获得更准确的结果。

例如,使用平均数来代表整个数据集合时,可能会忽略掉一些极端值,从而影响结论。

4. 小样本量可能产生误导性结果。

当样本量太小时,结果可能不足以代表大多数情况。

例如,一个小样本的调查可能会导致错误的结论,因为样本不足以代表整个人群。

5. 非随机抽样可能导致偏见。

当抽样方法不是随机的时,可能会有一些群体被过度或不充分地代表,从而导致分析结果产生偏差。

例如,如果一个政治调查只针对某一个党派的人群,那么结果可能不具有代表性。

这些统计陷阱案例强调了在数据分析中需要谨慎对待数据,同时需要使用适当的统计方法来获得准确的结论。

大数据时代的“统计陷阱”及其规避探析

大数据时代的“统计陷阱”及其规避探析

2020年第5期大数据时代的“统计陷阱”及其规避探析*闫坤如 李 宏[摘 要] 大数据在社会发展中发挥越来越重要的作用,它改变着人类的生产方式、生活方式及思维方式。

由于人们容易产生主观认知偏差、缺乏客观数据有效性以及错把数据相关当成因果相关等,导致统计陷阱的出现。

我们应该在避免主观认知偏差、保证客观数据有效性以及准确把握数据相关的实质基础上探求因果关系,规避数据陷阱与数据风险,防止决策失误,发挥大数据的积极作用。

[关键词] 大数据时代统计陷阱认知偏差相关关系因果关系〔中图分类号〕N031;G250.74 〔文献标识码〕A 〔文章编号〕 1000-7326(2020)05-0023-06大数据(Big Data)以大容量、多样性、多变性以及高效率为特征。

以物联网、社交网络、电子商务、云计算等新一代电子信息技术为基础的社会发展新格局,昭示着大数据时代已经来临。

大数据改变着人类的生产方式、生活方式及思维方式,大数据不仅从成本、效率、体验等方面提升了生产力,而且深刻地改变着生产关系。

大数据对经济发展、电子政务、公共安全、医疗健康等领域影响重大,“大数据之父”维克托·迈尔-舍恩伯格说:“大数据开启了一次重大的时代转型。

”a一、大数据时代的基本特征大数据成为这个时代的重要组成部分,它在人类生产、生活中得到广泛应用。

大数据时代有着以往时代没有的显著特征,数据化程度高而且数据被量化,数据成为重要资本,数据风险日渐凸显。

这些特征勾勒出这个时代的轮廓,反映着人类所处的生活世界。

(一)万物皆可数据化万物可数是大数据时代的重要特征。

数据化(Datafication)是一种现代技术的发展趋势,它能将生活世界转变为数据,并将其转化为一种新的价值呈现。

b在生产领域,数据化将生产现象转化为可直观分析的量化过程,数据化贯穿于生产链条的各个环节,包括产品研发、科学生产、优化供应、品质管理等。

在生活领域,人的衣食住行被数据化,甚至人的社会交往也被数据化,如Facebook、微博、微信等*本文系国家社会科学基金重大项目“人工智能前沿问题的马克思主义哲学研究”(19ZDA018)、国家社会科学基金一般项目“现代技术风险的认识论问题研究”(18ZXB047)的阶段性成果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 许多论文要进行数十乃至数百次对比。在这类论 文中,研究人员如果不肯调整一下标准的p值阈值 (即0.05),那么几乎肯定会出现本来毫无意义 的统计,恰巧被当成是具有统计显著性的情况。 今年2月,《美国临床营养学杂志》发表的一项研 究对数十种物质进行了测试,并得出结论说,蓝 莓中含有的某些物质可以降低高血压风险,p值为 0.03。不过,这些研究人员检验的物质如此之多, 所作的对比也是相当可观(50次以上),因此几 乎可以肯定,该论文中有些p值之所以小于0.05纯 粹是因为巧合。
• 无独有偶,一批心理学家对某条鲑鱼所作的研究 也是如此。在这项广为人知的研究中,当心理学 家让鲑鱼看到人们表达情绪的一组图片时,鲑鱼 大脑中的某些部位便活跃起来。此结果是有统计 显著性的,p值低于0.001。不过,诚如这些心理 学家所言,既然可能存在的模式多如牛毛,以至 于几乎肯定会得到一个具有统计显著性的结果, 因而这种结果毫无意义。p值高也好低也好,反正 那条鱼本来就不可能对人的情绪有所反应:心理 学家放进磁共振成像仪中的鲑鱼恰好是条死鱼。
高度显著性”的签。
• 假定你已经开展了一项科学实验,对比一种治疗心脏病的 新药和一种安慰剂的效果。实验结束时,你比较了两组受 试者。瞧,服药组患者的心脏病发作次数少于服用安慰剂 的患者。成功啦!这种药真的有效! • 且慢,说不定并非如此。即使此药根本无效,它在服药组 患者中的效果,也有50%的可能好于安慰剂组(不管怎么 说,总有一组的效果要优于另一组,而服药组和安慰剂组 占上风的可能性各占一半)。 • p值其实就是把随机性用一个数值表示出来。严格来讲, 它是指观察到某一实验结果(即使你的假说有错)的概率。 在众多科研领域中,长期通行的一个惯例就是,凡p值在 0.05以下的结果均被认为具有统计显著性。这是个随意约 定的惯例,它常常会出错。每当你把某种无效药物和兴奋 剂作对比时,便有1/20的机会得到统计显著性结果。因此 平均说来,倘若你在一篇论文中进行了20次这样的对比, 就会得到一个统计显著性结果(也就是p值小于0.05), 即使该药完全无效。
科学研究的统计学陷阱 统计分析常常遭遇“巧合”,让科学家上当受骗 环球科学· 数学篇 如果你想让全世界的人都相信鱼能感觉到你的情 绪,那么说实在的,只用一种统计指标即p值就 够了。p值是一种万金油式的指标,科学家常用 它来确定一项实验结果是否具有“统计显著性”。 遗憾的是,p值检验并非总像人们所吹嘘的那样 给力。结果,即使一项观测结果有时只是一种毫 无意义的巧合,研究人员也会给它贴上“有
相关文档
最新文档