辛普森悖论及其应用思考

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

辛普森悖论及其应用思考

【摘要】探讨现实中的辛普森现象,利用辛普森悖论来解释现实生活中的例子,探讨例子发生矛盾的原因,加深对辛普森现象的理解,进而对现实分析的情况进行深入思考并提供作出正确判断的理论依据。【关键词】辛普森悖论分层抽样统计混杂因素

一、辛普森悖论

统计分析中,变量间是否有相关关系,常常会左右我们对观察的现象作出正确的决策。例如,某公司开发一种新药A,想要研究这种新药跟传统的药物B对疾病的处理效果有什么不同。选择800个人来参与做实验,分成两组,每组400人,两组的结果如表1所示。

从表1的结果看,新研发的药物的有效率是50%,低于传统药物的60%,对于治疗某种疾病来说,显得新研发的药物的价值低于传统药物。那么对这种新研发的药物的有效率经过统计分析后是否如表1所示?把表1得到的数据再进行分层抽样处理,在细分成男性跟女性对药物的有效率后得到的信息如表2、表3所示。

从表2和表3来看,得到的结论和表1得到的结论刚好相反,也就是说不管是男性患者还是女性患者,新药的有效率都高于传统的药物,这就跟前面的分析出现了矛盾,这就是辛普森现象或称为辛普森悖论。

辛普森悖论是在一定的前提条件下,研究两种变量的相关关系时,利用分组或分层技术对原来总体再进行分析得到的与未分组或分层抽样之前相反的一种结论。即分组评价都占优的一方在总体评价中却不占优势。

辛普森现象并不是一种稀罕的现象,在现实生活中非常普遍,特别是在社会科学和医学中。医学上新开发的药物对疾病是否有效,新入学的学生是否受到性别的歧视,中国经济的腾飞与生活水平的降低,吸烟是否有害健康,等等,现实中的方方面面都会出现辛普森现象。用辛普森悖论来解释这些现象能真正了解现象的本质,从而使人们作出正确的决策。本文的目的是总结前人的分析结果,去探讨周围的辛普森现象,为大家进一步认清现象提供一些合理的解释及思考。

二、辛普森悖论的数学表示及相应问题

一起来看一个向量图。详见图1。

图1是根据上文第一部分辛普森悖论中的数据得到的向量图。从图1可以看出,当把数据用向量在图中表示时,向量的斜率就表示药物治疗的有效率,倾斜的角度越大有效率就越高。在分性别讨论时,上面两条就表示女性的传统药物与新药治疗的有效率,下面两条就表示男性的传统药物与新药治疗的有效率,根据相应的斜率可以知道新药治疗的有效率都比传统治疗的有效率要高。但不讨论性别时,表示传统

治疗的有效率的斜率反而比表示新药治疗有效率的斜率大,也就是传统治疗的效果更好。这也是我们之前讨论分析的结果。那么,从数学上看,辛普森悖论也就是两个相对斜率较小的向量相加后反而比两个相对斜率较大的向量相加要大。什么时候才会出现这种情况呢?

更一般的,记(1)P(A|B)>P(A|B');(2)P(A|B)<P(A|B'C')且P(A|BC')<P(A|B'C')。

其中“P(A|B)”表示B发生时A发生的条件概率,“B'”表示B不发生,“C”表示混杂因素。忽略了性别这个因素,得到的结论却不再一样。像与性别有一样影响的因素也就称为混杂因素。如果在使用数据的过程中把这类因素忽略掉将会混杂真正的因果关系,从而得到错误结论。式子(1)说明B发生时A发生的条件概率比B不发生时A 发生的条件概率大,式子(2)说明B发生且C发生时A发生的条件概率比B不发生且C发生时A发生的条件概率小,同时还有,B发生且C不发生时A发生的条件概率比B不发生且C不发生时A发生的条件概率小。在加入C这一条件后,我们看到无论是在C发生还是不发生的背景下,B发生时A发生的条件概率都比B不发生时A 发生的条件概率小。这就与前面式子(1)矛盾了。这里我们可以看出“C”导致这种矛盾出现的因素。若(2)成立则有(1)成立,这种现象就称为辛普森悖论。针对前述表1至表3的例子,若用符号表示如下:

记“A”表示药物有效,“A'”表示药物无效,“B”表示所用的药为新药,

“B'”表示所用的药为传统药物,“C”表示选择男性作试验,“C'”表示选择女性作试验。则表1、表2、表3可抽象为以下三个表格,即表4、表5、表6。

这与前面斜率的分析其实是同一个意思,尽管这个问题看似简单,但讨论起来可能比较困难。因此,此处我们不作过多的讨论。我们仅考虑在实际问题中,这种现象是否普遍存在。

前述我们所考虑的混杂因素C为二值变量的情况,辛普森悖论还可以考虑混杂因素C为多值变量的情况。假设考虑C取值为C1,C2,C3…Ckk种情况,此时前述的(2)式可表示为(2)':

P(A|BCi)<P(A|B'Ci),i=1,2…k。

三、生活中的辛普森悖论

下面给出现实生活中产生辛普森现象的例子,用辛普森悖论来解释这些现象,找出其中引起矛盾的混杂因素,加深人们对辛普森悖论的理解和应用。

(一)“吸烟有害健康”问题。表7为关于吸烟与肺癌的实验数据。观察吸烟人群患肺癌的比率(25%)与不吸烟人群患肺癌的比率(40%)

的差可以得到,似乎吸烟与人类患肺癌没有相关关系。然而,当对研究的总体从性别这个因素将数据进行分组后,得到表8的数据,发现此时吸烟与男性、女性患肺癌都有相关关系。这种矛盾的现象就是辛普森悖论。因此,在使用统计调查数据进行分析时,应该考虑清楚哪些因素是要观察的,哪些因素是可以省略的。

表7是由一些原始数据整合所得到的,前面的“A”表示患肺癌,“A'”表示未患肺癌,“B”表示选择吸烟的人作试验,“B'”表示选择不吸烟的人作试验,“C”表示选择男性作试验,“C'”表示选择女性作试验。(二)“性别歧视”问题。这里是一所高校的两个学院,分别为法学院和商学院新的一个学期招生的情况。人们怀疑这两个学院的招生存在性别歧视,所以作了如下统计。详见表9、表10。

观察表9、表10的数据可知,女生在两个学院都是被优先录取的,即女生的录取率比男生的高。将两个学院的数据汇总后,得到表11。

观察表11的数据中却发现,男生的录取率反而比女生高。

借助一幅向量图可以更好地了解情况,详见图2。

相关文档
最新文档