统计陷阱读书笔记
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计陷阱读书笔记
(摘抄为黑色字体,个人感悟为蓝色字体)
译者的话
20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言”—一说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。
相反,还往往对读者形成误导。
从1950年开始,越来越多的人开始注重数据的作用,但是,由于数据被一些机构和商家滥用,甚至是被不正确的利用,很有可能使人们形成错误观念,而达成这些机构和商家的目的。
协助行骗的工具有很多,包括:有偏的样本、刻意挑选的平均数、遗漏某些重要的数据、样本的误差、统计图、平面图、不匹配的资料、混淆相关关系与因果关系以及不正确地使用资料。
每一种工具从某种角度上都可以提高人们对某一数据的信服度,但也可以诱导人们信服错误的虚假的数据。
对“统计资料”应该“提出的五个问题”:“谁说的?”“如何知道的?”“是否遗漏了什么?’’“是否偷换了概念?’’"资料是否有意义?”通过寻找这5个问题的答案,读者能初步判断资料是否真实可信
在遇到数据时,应该对数据保持一种怀疑的态度,可能看起来那么真实的数据也有可能是被故意歪曲真相所创造的。
所以对于数据可以提出五个问题来验证数据的可信度,同时在自己运用数据时也要求做到更加真实客观。
培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意艳着怀疑的态度开始,那么他必将获得肯定的结论。
”我想对数据资料的判断和接收也是如此。
对一个事情一个说法留有怀疑的态度,并为之去检验验证,那么最终得到的结论会有检验的结果作为依据去支撑它的正确性,但如果从一开始就肯定各种事物,那么最后也只能得到一个看似是肯定,实际上可能错误的结论。
有3种谎言:谎言,楷糕透顶的谎言和统计资料。
---Disraeli
这句话体现统计资料被滥用后缺乏真实性,常常会引导大众产生错误观念。
绪言
平均数、作用关系、趋势和图表与看上去的并不总是一致。
虽然经验告诉我们“眼见为实”,但眼睛告诉我们的也许隐瞒了或者夸大了一部分事实。
很多数据看似是那样,但实际上只是提供数据的人用种容易误导大众的方式所展现的错误数据,要对数据包括相关图像保持怀疑的态度,才能减少被误导。
骗子早就掌握了行骗的技巧,而诚实的人出于自卫也应该学会它。
“骗子”早就学会了虚假运用数据的技巧,但是为了大众能够分辨这些数据,不被这些虚假数据欺骗,大众也应该学会这些运用数据的技巧。
第一章,内在有偏的样本
数据的两点可疑之处:它惊人地精确;它大得令人难以置信。
很多数据乍看之下让人觉得相信,但是,任何数据都十分可疑,到底是怎样的统计能让这个数据精准到小数点后多少多少位?这个数据如果远超过常识,它又是如何得到的?
在你所遇到各种各样的课题中,大部分统计问题的核心便是抽样。
抽样的原理本身很简单,但实践中对其进行的加工导致了许多副产品,有些是不正确的……只要样本足够大,并且具有代表性,在多数情况下,样本的信息可以很好地代表总体。
但如果条件不满足,抽样的结果比一个臆想的结果好不到哪儿去—除了会形成一种十分科学精确的虚假印象以外,这种方法根本不值得推荐。
然而,令人悲伤的事实是,在我们看到的或自以为知道的事物中,充斥着许多从类似样本,即有偏的或过小的或两者都满足的样本得出的结论。
有些样本自身就及其小,很难做到普遍适用的原则,可能百分之几十也不过是几个人;有些样本看似足够大,但是其所代表的可能只是需要抽样的几个阶层的一个,不具有普遍性,不能正确代表所有阶层。
一般的问卷,5%一10%的回收率已经是相当可观了。
也许这个调查的回收率会高些,但不可能达到100%。
看似实用的问卷调查的方式,因其回收率过低,也很有可能会造成统计结果的不正确。
我们知道,一条河永远不可能高于它的源头。
但如果在河的某处藏有水电站,却可以做到。
同理,对样本研究后得到的结论不会好于样本本身。
当数据经过层层统计处理,最后简化成一个小数形式的平均数时,结论似乎被确定的光环所笼罩,但只要再仔细留心整个抽样过程,这个光环就会破灭。
在进行数据获取和统计处理的过程中,每一步都有可能出现错误,最终得到的数据看似十分真实,却很有可能在自己没注意到的某个处理过程出了错。
记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信度。
也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。
任何数据的统计都存在误差,只是这些误差可能是自己无法发现或者解决的,只要有误差存在的可能,这个数据的真实性和代表性就具有被怀疑的空间。
最基本的样本是随机样本,它是指完全遵循随机的原则从总体中选出样本。
总体即形成样本的母体。
……随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本?
随机抽样确实是一种完全随机的抽样方式,能够有效减少样本的误差问题。
但是,这必须是保证了每一个个体都有相同的几率被抽到的前提才能被认为的,如果几率不相同,从前提就出现问题,那也就无法做到真正的随机抽样。
纯随机抽样是惟一一种能有足够把握利用统计理论进行检验的抽样方法。
但它同样存在着缺陷。
在许多情况下,获得这种样本难度很大,并且十分昂贵,以至于单纯的经济考虑就会剔除这种方法。
一个更经济的替代品是分层抽样,它在市场研究和民意调查等领域中得到了广泛的应用。
随机抽样因为其样本总数过于庞大,需要耗费更多的资金完成数据的统计,所以除必要外,很少使用随意抽样作为所用的抽样方法。
而相比之下,分层抽样不需要更多的资金,同时也能顾及到各个群体,所以在同时适用两种抽样方法的情况下,大多采用分层抽样。
这是由莫名因素造成的误差,它至少告诉我们,人们在接受调查时有迎合对方说好话的明显倾向。
……但实际上,正如我们前面所看到的,民意调查并不一定被操纵了。
也就是说,并不一定要为了制造假相而恶意扭曲结果。
样本有偏的趋势可以自动地操纵结果,使其变得扭曲。
在民意调查中,很有可能并没有被人为操纵结果,但是在调查时,因为人类自己的原因,便有可能导致结果扭曲不真,最终反馈给大众的也是错误的结果。
第二章,精心挑选的平均数
当被告知某个数是平均数时,除非你能很明确地说出它具体的种类—均值、中位数还是众数,否则对它你仍知之甚少。
平均数包括三种:均值,众数,中位数,在同一个调查中,每一种类型的数据可能都是不一样的,其代表的含义也都不同。
如果只是单纯的列出平均数,因其种类的不确定,这个平均数的意义也无法进行准确判断。
当你在处理诸如人类特征的数据时,不同的平均数将大体相等,因为这些数据的分布十分接近正态分布。
如果用曲线来描绘正态分布,你将获得一条类似于一口钟的曲线,它的均值、中位数以及众数都落在同一点上。
有一种数据结果符合正态分布曲线,此时三种类型的数据都是相同的。
请相信我,如果没有确切指出它的种类时,多半是均值。
因此,当你看到一个平均收人时,首先问问:是什么的平均?
均值往往相对于众数和中位数较高,很容易达到统计人想达到的目的,尤其是在招聘信息上显示平均收入的时候,很容易诱惑年轻人去招聘。
第三章,没有披露的数据
使用小样本的重要性在于:在大样本的使用中,任何由于机遇产生的差异都是微不足道的,不足以作为广告标题。
例如,蛀牙仅减少2%将不会对销量有多大的提升作用。
小样本很容易就能达到想达到的目的,可能一个人的意见就代表百分之几十,很容易让人觉得十分可怕。
但实际上只是一个人的意见而已。
仅仅在进行了大量的实验后,平均数定律才是一种有用的描述并可用来预测。
平均数定律要有大样本大数据作为支持才能使用,如果样本过小,平均数定律也就没有任何作用。
那么,如何避免被不科学的结论愚弄呢?是否每个人都必须成为统计专家并亲自检验原始数据?情况并非那么糟。
这里有一个易于理解的显著性检验方法。
简单说,它是一种反映测验数据以多大的可能性代表实际结论而不代表那些由于机遇产生的其他结论的方法。
数据虽然被滥用,但是大家也有方法去检验数据的真假。
涉及这样一个高度敏感的话题却不迅速表明你支持或反对的态度看来是十分危险的。
一个高度敏感的话题,如果不尽快表明自己的立场,很有可能会被认为是支持另一方的人,结果导致被双方的人反对,甚至成为被围攻的第三方。
当一个平均数、一张图表或者某种趋势遗漏了这些重要的数据,请对它们保留一些怀疑。
一个数据遗漏掉的信息,很有可能是和表现出来的完全相反的方面,也有可能是说明数据造假的方面,所以对此类数据要保持怀疑。
第四章,毫无意义的工作
你的样本以多大的精度代表总体是可以用数据来衡量的,那就是:可能误差和标准误差。
(相比较而言,大多数的统计工作者更倾向于使用标准误差。
2/3的单位将落在加、减一个标准误差的范围内,而不是1/2的单位。
而且,标准误差的计算方法相对简单。
但这里,我们还是坚持使用可能误差,并将其运用到斯坦福一比奈测试中。
)
标准误差比可能误差更具有代表性,2/3比1/2更具有说服力和整体代表性,所以更多的采用标准误差。
第五章,惊人的统计图形
图像的横竖轴的选取有问题
第六章,平面图形
在使用某些平面图形时,数据的比较本来可能是1:2,但最终通过平面图像显示出来的却是1:4,而如果使用的是立体图像,则偏差更大,达到了1:8,图形的使用常常让人感到变化巨大,但实际上只是图形的作用而已。
第七章,不相匹配的资料
如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事。
在统计资料与人类思维冲撞所引起的耀眼光芒中,几乎没有人会发现它们的区别。
不相匹配的数据是保证你处在有利位置上的武器,而且通常如此。
通过使用别的对自己有利的数据,并假装这就是原来需要的数据,很有可能不被人发现其中的差异,这是一种常见的不相匹配的资料的使用。
搜集这样的资料,却把它说成是另一回事,这种挂羊头卖狗肉的行为在生活中还有许多其他的形式。
最普遍的做法是将看上去极像,而完全不同的两件事混淆在一起。
假设你是某公司的入事部经理,而公司与工会发生了摩擦,于是你着手进行一项“调查”,以统计多少职员对工会不满。
除非工会是由人入心中向善的天使组成的团体,否则,在你绝对真实的询问和记录下,结果往往是大部分职员对工会有怨言。
通过看似一样的调查调查的结果可能会得到想要的目的,得到后使用这个结果,看似没有错误,但是也仅仅是“看似”,从最初的调查就出现了错误,看似一样的调查,实际上并不一样。
第八章,相关关系与因果关系
一个古老的谬误,然而它仍频繁地出现在统计资料中,并被大量让人印象深刻的数据所伪装。
这个谬误是:如果B紧跟着A出现,那么A一定导致B。
有些事情常常因为其出现的时间前后而被认为是相关的,但实际上只是一种假象,并不能说A出现了B之后出现,就有A能推出B,这是不合乎实际和常理的。
例如:一个人感冒喝了一种药一个周之后病好了,他就说这个药治感冒很有效。
但实际上,普通的感冒不喝药,一个周左右也能痊愈。
最具有戏剧性的相关是所有变量相互间没有任何影响,却存在着显著的相关。
许多卑劣的工作都可以归为这一类。
抽烟者与不好的成绩是这种例子,许多被反复引用的医学资料也是这种例子,它们只是证明了变量之间存在着相关关系,但是否存在因果关系仍旧是个未知数。
抽烟者与成绩不好之前可能存在某种联系,可能成绩不好的人去抽烟,但是并不代表二者存在因果关系,被认为是因为抽烟才导致学习不好的这个结果,也没有任何真实数据和大样本所支持。
另一个需要留意的是,超过了推断相关关系的数据范围而得出的结论。
从常理来说,雨下得越多,谷物则长得越高,收成越多。
正相关到了一定的程度后便急剧地转化为负相关……负相关可以简单地描述为当一个变量增大时另一个变量有减小的趋势,物理学中,这被称为成反比关系。
即使某种相关关系是真实的,并有真实的因果关系,仍旧不能凭此做出行为决策。
有些数据看似能够表现因果关系,但也可能只是一定程度内是这样,超过这个程度也可能就不再是这种趋势,不在是这种因果关系,甚至是相反的因果关系。
此类关系也只是可能存在因果,但实际是否存在并不能确认。
第九章,如何进行统计操纵
利用统计资料传递错误的信息而误导他人可称得上是一种操纵行为。
用一个词来概括(虽然不一定很准确),那就是统计操纵。
这里提出了一个新名词,叫做:统计操纵。
通过统计操纵,可以做到向他人传递错误信息,使他人误解某些事情的因果关系。
百分数也给误解提供了肥沃的土壤。
和小数一样,它也能为不确切的事物蒙上精确的面纱。
……任何建立在小样本容量上的百分数都可能产生误导,直接给出具体数值的大小将更有价值。
如果再将百分数表示成小数点后儿位的小数形式,你可能正将天平从愚蠢的一端移向欺诈。
百分数只能表示一种占比,但实际上并不能有什么其他意义,除非统计者点明到底样本有多大,没有点明样本大小的百分数很有可能传递错误的信息。
同时,小数也有相同的作用。
直接给出真实的数值则会减少错误信息的传递。
变换基数还能产生增加折扣的幻觉。
大样本和小样本带给人的感受不一样,100个人中有两个人持有此意见和10个人中有两个持有此意见的意义明显不同,基数的大小很大程度决定了最终展现的数据的真实程度。
将一些看似能直接相加却不能这样操作的事情加在一起会产生大量的欺骗和隐瞒。
百分位数也同样具有欺骗性。
很多数据看似可以直接简单相加,但实际上需要进行复杂的变换后才能进行加减的运算,而单纯的加减则会造成数据的错误,使人接受错误的信息。
如果你想证明价格没有发生变化,试试使用几何平均数,这时你可以随意选择基期。
几何平均数不同于算术平均数,或均值;但它也是合法的计算方法,而且在某些情况下它是一种最有效的方法。
计算3个数的几何平均数,只需将3个数相乘,开3次方根;4个数的几何平均数,开4次方根;两个数的则开平方根,以此类推。
这里介绍了一种新的平均数类型:几何平均数。
此类平均数有不同的计算方法,其相比算数平均数,能够更客观真实。
事实是,如果不去考虑它的数学基础。
统计不仅是一门科学,而且还是一门艺术。
许多控制甚至扭曲都是在合理范围之内进行的。
统计工作者经常要在许多方法中主观地选择一种方法以描述事实。
统计是一门艺术,数据在统计工作者手下有不同的表现形式,其制造的影响也会因为表现形式的不同而产生不同。
第十章,对统计资料提出的五个问题
第十章就判断数据的真实性介绍了五个问题,这五个问题是日常对数据的使用中十分重要的五个问题。
谁说的?
“权威人士”掩盖了真实的资料来源。
当某个权威人士被引用时,请弄清楚到底资料的内容是权威的,还是仅仅与权威人士沾边。
他如何知道的?遗漏了什么?(包含了多少案例)
日常生活中常常会引用一些名人说的话,但是,这些名人权威说的话就一定是真实的吗?它是否是这个专业的权威?还只是一个普通的别的专业的权威随口一说?他说这句话的根据是什么?是他真的进行过验证,还只是随口说了一个数据?那他又是怎么知道这个数据的真实性的?这些问题是我们在运用权威人士说的话时应该注意的。
有时文章中遗漏了引起变化的原因,这容易让读者认为其他的因素才应对变化负责。
有些数据只展示对自己有利的方面,而对自己不利方面的因素往往会故意遗漏,导致大众接受扭曲的信息。
是否有人偷换了概念?
分析统计资料时,请留心从搜集原始资料到形成结论的整个过程中,是否存在着概念的偷换。
在现实生活中,将甲说成乙的案例实在是太多了。
如果数据是建立在人们日头的回答(即使有一些听上去十分客观)基础之上,将发生许多怪事。
有时候一个多义词的使用很容易让人偷换概念而不使其他人发现,尤其是在日常生活中口头上的回答,更容易因为其不正式而让人忽略概念的变化。
这个资料有意义吗?
当所接触到的资料是建立在未经证实的假设基础之上时,你可以发问,“这个资料有意义吗?”
这个问题通常能将一个伪装得很好的统计资料打回原形。
你也许十分熟悉鲁道夫。
弗列斯基(Iudolf Flesch)的可读性公式。
它仅仅依据单词和句子长度这类简单客观的指标就能测量出一篇文章的可读程度。
和所有那些将无法估计的事物转化成一个数据或可替代的平均数,从而进行判断的方法一样,它还挺吸引人。
一些看似十分有意义的数据实际上却没有任何意义,即使它看起来如此吸引人,但又有什么用呢?可能一个问题看起来很引人关注,但当问问“有没有意义”这个问题时,就会发现,答案是“没有”。
人们又面临着一个致命的诱惑:总认为“40. 13美元”比“大约40美元”更精确。
看似更精确的数据,可能其实都是人为的,可能“40美元”这个数据的得到过程要比另一个更加真实可靠。
外推法是十分有用的,特别当预测趋势时。
但是,当看到利用外推法计算出来的数据和图表时,请记住这点:到目前为止的趋势都是事实,而未来的趋势只不过是受教育者的猜测。
该方法暗含“其他所有条件都相同”,以及“现有趋势将继续下去”的前提。
但实际上,条件总是在变化的,否则生活真是无聊透顶了。
没有一成不变的生活,也没有一成不变的数据,根据现有的数据,我们只能对未来进行一个看似合理的预测,但因数据的变化,这些预测最终能有多少和未来相同的却是不可测的。
当然,我们可以对未来的趋势进行预测,但也要记住,这只是一个预测,不代表事实一定会照此发展。