浅谈AB测试里常见的辛普森悖论
什么是辛普森悖论?辛普森悖论的重要性

什么是辛普森悖论?辛普森悖论的重要性对于数据科学家而言,了解统计现象和问“为什么”是非常重要的。
想象这样一个场景:一天,你和朋友约好了一起吃晚饭,你们俩都想找一家完美的餐厅。
由于选项太多,两人今天的口味也不一定一样,为了避免长达数小时的争论,你们保守地采用了现代人常用的一种方法:查看美食评论。
在用同一个APP看了所有餐厅后,最终你们锁定了其中的两家:Carlos餐厅和Sophia餐厅。
你更喜欢Carlos,因为从两性数据上看来,无论是男性用餐者还是女性用餐者,他们给出的好评率都更高(例:男性好评率=男性好评数/男性评论总数);而你的朋友更倾向于Sophia,因为他发现从整体上来看,Sophia的好评率更高,口味应该更大众。
那么这到底是怎么回事?是APP统计错误了吗?事实上,这两个统计结论都是正确的,只是你们在不知不觉中已经走进了辛普森悖论。
在这里,我们能用完全相同的一组数据证明两个全然相反的论点。
什么是辛普森悖论?辛普森悖论得名于英国统计学家E.H.辛普森(E.H.Simpson),这是他于1951年阐述的一种现象:当我们以分组和聚合两种方式统计同一数据集时,最后得出的两个趋势可能是完全逆转的。
在上面这个“吃饭”案例中,Carlos餐厅的两性推荐率更高,但它的总体推荐率却低了。
如果不想被绕晕,我们可以用一些直观的数据来说明:上表清楚地表明,当数据分组时,Carlos是首选,但是当数据合并时,Sophia是首选!导致这一悖论的原因是样本大小。
当我们分组统计数据时,Carlos餐厅的女性推荐率高达90%,但它的样本只有40个,只占总评论人数的10%;而Sophia餐厅的女性推荐率虽然只有80%,但女性评论者有250个,这显然会大幅拉高餐厅的总体好评率。
所以在挑选餐厅时,我们事先要确定数据的统计方法,是合并更合理,还是分组更合理——这取决于数据生成的过程,即数据的因果模型。
相关性的逆转。
辛普森悖论简单解释

辛普森悖论简单解释在我们探讨数据和统计分析的领域中,有一个颇为有趣且令人深思的现象,那就是辛普森悖论。
首先,咱们来想象一个场景。
假设在一家医院,有两个医生 A 和 B。
咱们来比较他们治疗某种疾病的成功率。
从整体的数据来看,医生 A治疗的成功率好像低于医生 B。
但要是我们把病人按照病情的轻重程度分开来看,就会发现对于病情较轻的病人,医生 A 的治愈率高于医生 B;对于病情较重的病人,医生 A 的治愈率还是高于医生 B。
这是不是很奇怪?这就是辛普森悖论的一个简单例子。
那到底什么是辛普森悖论呢?简单来说,就是在分组比较中都占优势的一方,在总体比较中却可能处于劣势。
为什么会出现这样看似矛盾的情况呢?这通常是因为不同分组中的样本数量或者比例存在差异。
比如说,还是上面医院的例子,如果医生 B 治疗的大多是病情较轻的病人,而医生 A 治疗的更多是病情较重的病人,那么即使 A 在每个病情分组中的治愈率都更高,但由于 B 所治疗的病人整体病情较轻,容易治愈,所以从总体数据上看,就可能出现 B 的成功率高于 A 的情况。
辛普森悖论在很多领域都有出现。
比如在教育领域,我们比较两个学校学生的考试成绩。
可能学校甲在每个学科上的平均分都高于学校乙,但由于学校乙的学生中,成绩好的学生比例较大,而成绩差的学生比例较小,最终总体平均分却高于学校甲。
在市场营销中也有类似的情况。
假设我们比较两种营销策略对销售的促进效果。
在不同的地区或者不同的客户群体中,策略 A 可能表现更优,但由于策略 B 所覆盖的市场规模更大,或者所针对的是消费能力更强的群体,综合来看,策略 B 带来的总销售额反而更高。
那么,如何避免辛普森悖论带来的误导呢?首先,我们要对数据进行更细致的分析和分组。
不能仅仅看总体的数据,而是要深入挖掘不同维度和层次的数据。
比如在前面医院的例子中,除了病情轻重,还可以考虑病人的年龄、性别、基础健康状况等因素。
其次,我们要综合考虑多个相关的指标和因素。
辛普森悖论的日常例子

辛普森悖论的日常例子
辛普森悖论是一种逻辑悖论,指的是当对一个整体进行分类时,与整体有关的特征可能与对其组成部分进行分类时的特征相反。
这个悖论常常在统计学和数据分析领域中出现,但也可以在日常生活中找到一些例子来说明。
一个经典的辛普森悖论的例子是关于医院手术成功率的比较。
假设有两家医院,医院A和医院B,它们都进行了大量的手术。
医院A的整体手术成功率为80%,而医院B的整体手术成功率为70%。
看起来,医院A的手术比医院B的手术成功率更高。
然而,当我们细分考虑不同类型的手术时,情况可能会有所不同。
假设医院A主要进行低风险手术,而医院B主要进行高风险手术。
在低风险手术中,医院A的成功率为90%,远高于医院B的成功率70%。
而在高风险手术中,医院A的成功率为60%,低于医院B的成功率80%。
这个例子展示了辛普森悖论的典型情况。
当仅考虑整体数据时,医院A的整体手术成功率更高。
但当将数据细分为不同类型的手术时,我们发现在每个子类别中,医院B的手术成功率都高于医院A。
辛普森悖论的这个例子告诉我们,在进行数据分析时,不能只看整体数据,还要考虑到数据的细分。
对于复杂的问题,细分数据可能会给
我们提供更准确的结论。
在日常生活中,我们也可以应用这个原则。
比如,当对一所学校的教学质量进行评估时,仅仅看整体的考试成绩可能并不全面,我们还应该考虑不同班级或不同年级的成绩情况。
综上所述,辛普森悖论的日常例子可以帮助我们意识到在进行数据分析和评估时,细分数据是非常重要的,只看整体数据可能会掩盖真实的情况。
统计学辛普森悖论的内容

统计学辛普森悖论的内容统计学辛普森悖论(Simpson's Paradox),又称辛普森效应,是指在统计数据分析中,一个总体的不同子集中出现的关系与整体数据的关系恰好相反。
简单来说,当我们将数据分组并进行分析时,得出的结论可能会与整体数据相矛盾。
辛普森悖论最早由英国统计学家E.H.辛普森于1951年提出,他在研究统计学考试成绩的数据时发现了这个现象。
为了更好地说明辛普森悖论,我们将针对一个具体的例子进行讨论。
假设某家医院正在研究针对某种疾病的两种不同疗法的疗效。
研究人员将患者分为两个子集:男性(子集A)和女性(子集B),然后比较两种疗法在不同子集中的成功率。
在子集A中,疗法A有80%的成功率,而疗法B只有40%的成功率;在子集B中,疗法A的成功率为60%,而疗法B的成功率为70%。
这个结果可能导致人们错误地认为疗法A比疗法B更有效。
然而,当我们将整体数据考虑进来时,情况就完全不同了。
整体上,疗法A的成功率为65%,而疗法B的成功率为67.5%。
这个结果与我们之前的结论相反,疗法B在整体上比疗法A更有效。
辛普森悖论的发生是由于子集A和子集B在整体数据中所占比例的差异导致的。
在这个例子中,虽然在子集A和子集B中,疗法A的成功率都不如疗法B,但是子集A在整体数据中所占比例远大于子集B。
所以,整体上疗法A的平均成功率反而比疗法B低。
为了更好地理解辛普森悖论,我们可以通过一个可视化的例子来说明。
假设我们有一个学校的招生数据,该学校有两个专业:科学(子集A)和文科(子集B)。
我们将招生成功率与考试成绩进行比较。
具体数据如下:子集A:科学专业-学生甲:考试成绩80分,成功录取-学生乙:考试成绩70分,未录取子集B:文科专业-学生丙:考试成绩80分,未录取-学生丁:考试成绩70分,成功录取看上去,科学专业的成功录取率为50%,而文科专业的成功录取率为50%。
这暗示我们两个专业的录取机会是相同的。
然而,当我们将整体数据考虑进来时,结果却完全不同。
统计力学里好几个著名的悖论

统计力学里好几个著名的悖论
统计力学中存在多个著名的悖论,这些悖论挑战了我们对物理世界的基本理解。
以下是其中几个著名的悖论:
1. 辛普森悖论(Simpson's Paradox):这个悖论是指当两个独立实验的结果在总体上呈现出相反的趋势时,但在分组合计时却显示出一个完全不同的结果。
这种现象似乎违反了概率论中的独立性原则,因为在分组合计时,两个独立实验的相互影响导致了结果的反转。
2. 赌徒谬误(Gambler's Fallacy):这个谬误是指一种错误地认为某事因为连续没有发生,所以下一次的结果更有可能是相反的信念。
例如,一个赌徒可能会认为,因为连续几次掷骰子都是六点,所以下一次掷骰子更可能是三点。
然而,这种观点忽略了概率的独立性原则,每次掷骰子都是独立的,不会受到前一次的结果影响。
3. 观察者效应(Observer Effect):这个效应是指在观察过程中观察者的行为和状态会对被观察对象产生影响,从而改变被观察对象的状态或结果。
这个效应挑战了我们对客观世界的认知,因为我们无法排除观察者对被观察对象的影响。
4. 测量问题(Measurement Problem):这个问题是关于量子力学的测量问题,它涉及到观察者对被观察对象的测量结果的影响。
根据量子力学的哥本哈根解释,当我们对一个量子系统进行测量时,我们只能得到一个确定的结果,而这个结果并不是量子系统本身的状态,而是观察者与量子系统之间的相互作用的结果。
这个解释似乎将观察者的意识引入了物理世界中,引发了许多哲学和科学上的争议。
这些悖论是统计力学中的重要问题,它们挑战了我们对物理世界的理解,并引发了许多深入的研究和讨论。
辛普森悖论简单解释

辛普森悖论简单解释
嘿,你知道辛普森悖论不?这玩意儿可有意思啦!就好比说有两个
球队,A 队和B 队。
在和一些弱队比赛时,A 队老是大胜,表现超棒;而 B 队呢,可能赢得磕磕绊绊。
可要是碰到强队,情况就反过来了,B 队反而能表现得更好,能和强队打得有来有回,A 队却总是输得很惨。
你说怪不怪?
这就是辛普森悖论啦!它说的就是在某个条件下,分别来看两组数
据都显示出一种趋势,但合起来看的时候却完全相反了。
举个例子吧,比如说有一款药,对男人好像效果不错,对女人好像效果也还行,可
要是把男人和女人的数据放在一起看,嘿,居然发现这药整体效果不
咋地!是不是很神奇?
再想想看,就像你选工作。
有一份工作,工资高但工作时间长;另
一份工作呢,工资没那么高但工作时间短。
单独看好像各有各的好,
可真要你综合起来选,就难了吧,这也有点像辛普森悖论呀!
还有啊,在学校里,有的同学数学成绩特别好,语文成绩也不赖,
可综合成绩一排名,却不一定是最前面的,这是不是也有点那个意思?
辛普森悖论其实在很多地方都能看到呢,它就像个调皮的小精灵,
时不时就蹦出来给你制造点困惑。
它提醒我们不能只看局部,得全面
地去分析问题呀!总之,辛普森悖论就是这么个让人又爱又恨的东西,你得好好琢磨琢磨才能搞明白它呢!。
数据分析的几种常见误区

数据分析的几种常见误区“用数据说话”,已经成为一种流行语。
在很多人的心里,数据就代表着科学,科学就意味着真相。
“数据不会骗人”,也成了说服别人时常用的口头禅,事实果真如此吗?让我们来谈谈那些常见的误区。
一、控制变量谬误在做A/B测试时没有控制好变量,导致测试结果不能反映实验结果。
或者在进行数据对比时,两个指标没有可比性。
举个例子,为测试不同营销时间点对下的转化的影响,但A实验使用短信营销、B实验使用电话营销,未控制变量(营销方式),导致实验无法得出结论。
二、样本谬误1.样本量不够统计学的基础理论基石之一就是大数定律,只有当数据量达到一定程度后,才能反映出特定的规律。
如果出现样本量极少的情况,建议把时间线拉长,获得足量的样本。
或者将不重要的限定条件去掉,增加样本数。
2.存在选择性偏见或者幸存者偏见统计学的另一大理论基石是中心极限定理。
简单描述就是,总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。
举个例子,在应用升级期间,衡量登录用户数、交易用户数等指标,来判断用户对新版本的喜欢是否优于老版本。
听上去非常合理,但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户,往往这批用户的指标较好,但不代表新版本更好。
3.混入脏数据这种数据的破坏性比较大,可能得出错误的结论。
通常我们会采用数据校验的手段,屏蔽掉校验失败的数据。
同时,在分析具体业务时,也要针对特定业务,对所使用的数据进行合理性限定,过滤掉异常离群值,来确保拥有比较好的数据质量。
三、因果相关谬误会误把相关当因果,忽略中介变量。
比如,有人发现雪糕的销量和河溪溺死的儿童数量呈明显相关,就下令削减雪糕销量。
其实可能只是因为这两者都是发生在天气炎热的夏天。
天气炎热,购买雪糕的人就越多,而去河里游泳的人也显著增多。
四、辛普森悖论简单来说,就是在两个相差较多的分组数据相加时,在分组比较中都占优势的一方,会在总评中反而是失势的一方。
辛普森悖论与金融有关的例子

辛普森悖论与金融有关的例子一、什么是辛普森悖论辛普森悖论可神奇啦。
简单说呢,就是在分组比较中都占优势的一方,在总体评价中却可能是劣势的情况。
比如说在金融里吧,就有这样的怪事。
二、辛普森悖论与金融的例子1. 投资回报率假设有两个投资经理,经理A和经理B。
他们分别在大公司股票和小公司股票这两个领域进行投资。
在大公司股票投资方面呢,经理A的投资回报率在过去5年里,每年都比经理B要高一点,比如经理A每年是10%,经理B每年是8%。
在小公司股票投资方面呢,经理A的投资回报率也是每年都比经理B高一点,像经理A每年是15%,经理B每年是13%。
但要是把大公司股票和小公司股票的投资总体加起来算,可能就会发现经理B的总体投资回报率反而比经理A高了。
这就是辛普森悖论在投资回报率上的体现,是不是很有趣呢?2. 贷款违约率有两家银行,银行X和银行Y。
银行X在城市地区和农村地区都发放贷款。
在城市地区,银行X的贷款违约率低于银行Y,比如说银行X是5%,银行Y是8%。
在农村地区呢,银行X的贷款违约率同样低于银行Y,比如银行X是3%,银行Y是6%。
但是把城市和农村地区的贷款综合起来看,可能会发现银行Y的总体贷款违约率反而低于银行X了。
这就是辛普森悖论在贷款违约率方面的例子啦。
3. 基金收益假设有两个基金,基金M和基金N。
它们投资于不同类型的金融产品,比如股票基金和债券基金。
在股票基金投资中,基金M在过去几个季度的收益都比基金N高,像每个季度基金M是12%,基金N是10%。
在债券基金投资中,基金M的收益也比基金N高,例如基金M每个季度是8%,基金N是6%。
但要是把股票基金和债券基金的投资收益综合起来看,可能基金N的总体收益反而比基金M高了呢。
这也是辛普森悖论在基金收益方面的体现哦。
辛普森悖论

什么是辛普森悖论辛普森悖论(Simpson's Paradox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
辛普森悖论实例例一:一所美国高校的两个学院,分别是法学院和商学院,新学期招生。
人们怀疑这两个学院有性别歧视。
现作如下统计:法学院性别录取拒收总数录取比例男生8 45 53 15.1%女生51 101 152 33.6%合计59 146 205商学院性别录取拒收总数录取比例男生201 50 251 80.1%女生92 9 101 91.1%合计293 59 352根据上面两个表格来看,女生在两个学院都被优先录取。
即女生的录取比率较高。
现在将两学院的数据汇总:性别录取拒收总数录取比例男生209 95 304 68.8%女生143 110 253 56.5%合计352 205 557在总评中,女生的录取比率反而比男生低。
借助一幅向量图可以更好的了解情况(右图)女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。
但最后男生总体向量斜率却大于女生这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。
就上述例子说,导致辛普森悖论有两个前提。
1、两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。
而同时两种性别的申请者分布比重相反。
女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。
结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更高的拒收率,但被拒收的数量却相对不算多。
而录取率很高的商学2、有潜在因素影响着录取情况。
就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。
至于在学院中出现的比率差,可能是随机事件。
又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人牵强误认为这是由性别差异而造成的。
辛普森悖论

辛普森悖论辛普森悖论是一种非常有趣同时也非常具有挑战性的统计现象,它所涉及到的问题与统计学有着紧密的联系。
在20世纪60年代,美国著名的统计学家Edward Simpson首次发现并提出了这一悖论,因而得名为辛普森悖论。
该悖论存在于统计分析的比较结果中,简单地说,就是有时候我们可能会得到两个互相矛盾的结果。
这是因为在统计学分析中,样本容量的大小、组别之间的差别以及变量之间的相关性等问题会对结果产生很大的影响。
辛普森悖论的一个经典案例是关于两所大学录取率的比较。
假设大学A和大学B都进行了招生工作,我们将其招生结果进行比较,发现大学A较大学B 录取率更高。
但当我们将两所大学的数据再次分类,将男女学生分别计算,结果发现男女学生的录取率得到完全相反的结果。
也就是说,大学A对男生录取的比率比大学B低,而对女生的录取率相同。
很多人都会认为这是一种错误的分析结果,因为总体数据表明大学A总的录取率高于大学B,但实际上这是一个典型的辛普森悖论。
在这个案例中,当我们将数据再次分类后,发现男性和女性学生在两所大学的比例比较不同。
因此,我们不能简单的使用总体数据来比较两所大学的录取率。
辛普森悖论最易产生的问题是当我们把数据按不同的分类方式分割后,有时会得到与总体数据完全相反的结果。
例如,在某次参赛的比赛中,A队总体表现最为出色,其他队伍的成绩都比不上A队。
但如果我们把数据按照时间分开来看,我们却发现,A队在比赛的前半段表现得很差,但在整个比赛中,以优异的表现夺得了冠军。
辛普森悖论实际上在日常生活中也很常见,例如一个公司招聘新员工时,我们可能会发现男性的录取率比女性高,并可能会将这一情况归咎于性别歧视。
但实际上,如果我们查看公司提供的岗位与男女申请人的比例,我们也许就能发现是因为男性申请了更多技术型岗位,而女性则更多地申请了管理层的岗位。
由此,导致男性录取的比例更高。
总之,辛普森悖论的存在告诉了我们,在统计分析过程中,一定要注意样本的分类方式,不能简单粗暴的使用总体数据来比较不同组别的结果。
辛普森悖论名词解释

辛普森悖论的实际应用与解释
辛普森悖论是一个看似矛盾的现象,即在某些条件下,两个数据集的平均值不同于这两个数据集的和。
例如,如果我们有两个数据集
A 和 B,其中 A 包含 5 个数据点,
B 包含 3 个数据点,那么 A 和
B 的平均值都是 3,但它们的和却是 8,而不是 18。
这个现象非常有趣,但我们无法解释它。
辛普森悖论在实际应用中非常广泛。
例如,在金融领域,辛普森悖论可以解释为什么投资组合的收益率往往不如将它们单独投资。
在物理领域,辛普森悖论可以解释为什么两个物体之间的相互作用力不能简单地相加。
在统计领域,辛普森悖论可以解释为什么一些统计数据会偏离平均值。
如何解释辛普森悖论呢?一种可能的解释是,辛普森悖论是由于数据集中的随机误差引起的。
这些随机误差可能导致两个数据集的平均值与它们的和不同。
当我们将两个数据集相加时,我们可能忽略了一些随机误差,而这些误差可能导致平均值高于或低于实际值。
另一方面,当我们计算两个数据集的平均值时,我们可能没有考虑到一些随机误差,这些误差可能导致平均值低于或高于实际值。
辛普森悖论的实际应用表明,它在许多领域都非常重要。
此外,辛普森悖论的解决方法也为我们提供了一种检查数据集中随机误差
的方法。
如果我们注意到辛普森悖论的存在,我们可以采取措施来减少数据集中的随机误差,从而提高我们的研究结果的准确性。
5分钟讲清楚ABtset,详解数据分析必备模型——辛普森悖论

5分钟讲清楚ABtset,详解数据分析必备模型——辛普森悖论假设你是某个 APP 的负责人,你的团队成员正在争论不休,因为一个页面的设计改版,现在面临一个选择难题:到底是选择A 方案好?还是 B 方案好呢?今天介绍的分析思维模型:A / B 测试模型,能帮你做出更加科学的选择。
1、模型介绍A /B 测试,是指在同一时间段,给同类用户分别展示优化前和优化后的方案,并通过数据分析,判断是否符合预期的一种试验方法。
广告界有一句经典的名言:我知道在广告上的投资有一半是无用的,但问题是我不知道是哪一半。
这句话在传统的广告行业一直有效。
但是,随着互联网的发展,人们能够快速获取大量的用户行为数据,从而能够准确地衡量广告的效果,减少无效广告的投放,这背后的关键技术就是 A / B 测试模型。
互联网时代,细节决定成败。
谷歌、脸书、字节跳动等知名互联网公司,都在大量应用 A / B 测试,无论是颜色的调整,还是位置的摆放,或者是文案的设计,很多细节都会通过 A / B 测试来进行验证,从而实现产品的持续优化。
2. 应用举例A /B 测试在互联网、医疗、金融等领域都有着广泛的应用,以APP 设计方案的选择为例:首先,要明确判断好坏的指标是什么,例如转化率高代表好。
其次,要合理地分割流量,保证 A 组和 B 组的用户特征基本一致,并且都具有代表性,能够代表总体用户特征。
如果总体流量比较大,为了减少测试可能造成的损失,在刚开始测试的时候,建议先小范围尝试,例如拿2% 的流量,其中1% 的用户作为 A 组,另外 1% 的用户作为 B 组。
当流量足够大时,还可以根据用户的特征(如年龄、性别等)切分出更细致的用户群体分别进行A/B测试,尽量排除其他因素的互相干扰。
然后,通过数据分析,对比测试结果,并做显著性检验。
你可以利用网上的AB测试结果分析工具,输入访问数和转化数,就能自动计算出转化率和统计显著性数值。
假如检验结果不显著,那么有可能是因为样本量不足,建议加大测试的比例,以期得到更加明确的测试结果,这样才能指导下一步的决策行动。
耶鲁辛普森悖论

耶鲁辛普森悖论是一个涉及到条件概率的悖论。
它的表述如下:
有两个人,A和B。
A被要求选择从两个盒子中选择一个,其中一个盒子里有一枚白球,另一个盒子里有两枚白球。
B被要求选择两个盒子中的一个,然后打开它。
如果盒子里有一个白球,那么A将获得1美元,否则A将获得0美元。
问题是,如果B打开第一个盒子并看到两个白球,那么A是否应该选择第一个盒子呢?
根据直觉,A应该选择第一个盒子,因为这样B打开第一个盒子并看到两个白球的概率更大,从而使A获得1美元的概率更大。
但是,这个结论是错误的。
事实上,无论A选择哪个盒子,B打开第一个盒子并看到两个白球的概率都是1/2。
因此,A选择哪个盒子对于他最终能否获得1美元没有任何影响。
这就是耶鲁辛普森悖论。
这个悖论的关键在于,人们通常认为,如果一个事件的概率很大,那么它发生的可能性就很大。
但是,在这个悖论中,即使一个事件的概率很大,它发生的可能性也可能是相同的。
7种常见的统计学悖论

7种常见的统计学悖论
1. 辛普森悖论(Simpson's paradox):当将数据分组或进行比较时,两个或多个独立数据集的关系可能与整体数据集的关系相反。
这可能导致误导性的结论。
2. 聚集悖论(The aggregation paradox):当将数据以不同的方式进行聚合时,可能会得出不同的结论。
这可能导致对整体趋势的错误理解。
3. 伯克森悖论(Berkeley's paradox):当使用频率统计推断个体特征时,可能会得出与实际情况相悖的结论。
这是由于忽略了基本样本大小的影响。
4. 数据欺骗悖论(Data dredging paradox):当进行多次假设检验时,可能会出现偶然的显著结果,而不是真正的关联。
这可能导致错误的结论。
5. 吉布斯悖论(Gibbs paradox):在概率论中,当将无序事件转化为有序事件时,可能会导致悖论。
这涉及到对事件的定义和顺序的解释。
6. 奥姆斯特恩悖论(Omphaloskeptic paradox):当进行统计推断时,可能会陷入无尽的怀疑和自我怀疑的循环中,导致无法得出可靠的结论。
7. 美索不达米亚悖论(Mesopotamian paradox):当进行历史数据分析时,可能会面临缺乏准确和完整数据的挑战,导致无法得出确凿的结论。
辛普森悖论

辛普森悖论辛普森悖论计科1002班AAA悖论:逻辑上可以推出相互矛盾,但表面上又能自圆其说的理论体系成因:对某些概念的认识不够深刻经典悖论:罗素悖论、说谎者悖论、康托悖论辛普森悖论Question辛普森悖论美国某一著名大学的商学院和法学院被怀疑在某次招生时有性别歧视,故对该次招生时的不同性别的报考人数及录取人数进行了统计分析:法学院商学院辛普森悖论性别录取拒收总数录取比例男生8455315.1%女生5110115233.6%合计59146205性别录取拒收总数录取比例男生2015025180.1%女生92910191.1%合计29359352总计辛普森悖论性别录取拒收总数录取比例男生2099530468.8%女生14311025356.5%合计352205557总计男生>女生法学院男生<女生商学院男生<女生辛普森悖论Simpson''sParadox辛普森悖论辛普森悖论是指当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究,在这种研究中,在某些前提下有时会产生在分组比较中都占优势的一方,在总评中反而是失势的一方。
法学院商学院辛普森悖论性别录取拒收总数录取比例男生8455315.1%女生5110115233.6%合计59146205性别录取拒收总数录取比例男生2015025180.1%女生92910191.1%合计29359352法学院录取比例男生:15.1%女生:33.6%商学院录取比例男生:80.1%女生:91.1%法学院报考人数男生:女生53:152商学院报考人数男生:女生251:101辛普森悖论辛普森悖论的统计解释辛普森悖论定义:随机事件“招生”的观测结果为C:录取、C’:不录取随机事件“申请”的观测结果为A:法学院、A’:商学院随机事件“性别”的观测结果为B:男生、B’:女生辛普森悖论:P(C|AB)①P(C|A’B)②P(C|B)>P(C|B’)③辛普森悖论的统计解释辛普森悖论不妨引入P(A|B)=P(A|B’)④首先,根据全概率公式可得:P(C|B)=P(A|B)P(C|AB)+P(A’|B)P(C|A’B)⑤P(C|B’)=P(A|B’)P(C|AB’)+P(A’B’)P(C|A’B’)⑥①×④得:P(A|B)P(C|AB)AB’)⑦辛普森悖论的统计解释辛普森悖论因为:P(A’|B)=1–P(A|B)⑧将④代入⑧可得:P(A’|B)=P(A’|B’)⑨②×⑨得:P(A’|B)P(C|A’B))P(C|A’B’)⑩⑦+⑩得:P(C|B)。
数据分析必须警惕的坑:辛普森悖论

数据分析必须警惕的坑:辛普森悖论辛普森悖论为英国统计学家E.H.辛普森于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
近些年来,随着大数据行业的蓬勃发展,“Data-Driven(数据驱动)”受到越来越多企业的追捧。
越来越多场景的数据采集、越来越成熟的分析模型、越来越强大的分析效率,这些无疑都是精细用户行为分析、优化决策体系的智举。
然而在数据背后,隐藏着一些似是而非的谬误,比如“辛普森悖论”,作为数据分析人员必须警惕。
悖论出处:辛普森悖论为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
一所美国高校的两个学院,分别是:法学院和商学院,新学期招生。
人们怀疑这两个学院有性别歧视,现作如下统计:从上图显示的数据我们可以看到,法学院男生的录取比例为8/53=15.1%,女生录取的比例为51/152=33.6%。
同理,商学院男生的录取比例为80.1%,女生的录取比例为91.1%。
无论在法学院还是在商学院,女生的录取比例都高于男生,由此可以推断学校在招生时更倾向于招女生吗?当计算全校录取情况时,男生录取的比例为209/304=68.8%,女生录取的比例为143/253=56.5%。
男生的录取率要高于女生,这下,恐怕要轮到女生感到不公了。
那么问题来了:该大学的招生政策,到底有没有性别歧视?到底是歧视男生还是女生?先不说结论,我们再来看一个实际工作中会遇到的案例。
工作中的典型案例:某产品的用户中有10000人使用Android设备、5000人使用IOS设备,整体的付费转化率应该是5%。
细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。
“聪明”的数据分析师得出结论:IOS平台的用户付费转化率低下,建议放弃IOS平台的研发。
辛普森悖论简单解释

辛普森悖论简单解释在统计学和数据分析的领域中,有一个颇为有趣且常常令人困惑的现象,那就是辛普森悖论。
要理解辛普森悖论,咱们先从一个简单的例子说起。
假设咱们有两家医院,A 医院和 B 医院。
A 医院治疗了 100 个轻症患者,其中 90 人康复了;同时治疗了 100 个重症患者,其中 30 人康复了。
B 医院呢,治疗了 200 个轻症患者,其中 160 人康复了;治疗了 50 个重症患者,其中 10 人康复了。
从整体的康复率来看,A 医院的康复率是(90 + 30)÷(100 +100)= 60% ,B 医院的康复率是(160 + 10)÷(200 + 50)=72% ,好像 B 医院的治疗效果更好。
但是,如果咱们分开轻症和重症患者来看呢?对于轻症患者,A 医院的康复率是 90÷100 = 90% ,B 医院是 160÷200 = 80% ,这时候 A 医院表现更好;对于重症患者,A 医院的康复率是 30÷100 = 30% ,B 医院是 10÷50 = 20% ,还是 A 医院表现更好。
这就出现了一个奇怪的情况:分开看,A 医院在轻症和重症患者的治疗上都比 B 医院好,但综合起来看,B 医院的整体康复率却更高。
这就是辛普森悖论。
那么,为什么会出现这种看似矛盾的现象呢?这主要是因为数据的分组和权重问题。
在上述例子中,B 医院治疗的轻症患者比例远高于重症患者,而轻症患者的康复率通常相对较高。
这就导致了虽然 B 医院在轻症和重症患者的治疗效果单独比较时都不如 A 医院,但由于其治疗的轻症患者数量众多,从而拉高了整体的康复率。
再举一个生活中的例子,比如说我们比较两个班级的数学考试成绩。
甲班有 30 个男生,平均成绩是 80 分;有 20 个女生,平均成绩是 90 分。
乙班有 40 个男生,平均成绩是 75 分;有 10 个女生,平均成绩是85 分。
浅谈软件质量评估中的辛普森悖论现象

浅谈软件质量评估中的辛普森悖论现象作者:王艳军张海军于慧媛来源:《科技视界》2014年第32期【摘要】在软件测试和质量评估过程中,对测试结果数据整合时,有时会遇到一些莫名其妙的现象,这些因素直接影响到对软件质量评估的结果。
本文将介绍辛普森悖论(Simpson’s Paradox)产生的原因、现象和对软件测试和软件质量评估结果的产生影响,最后尝试通过引入基数系数的方法对测试结果进行重新整合来消除辛普森悖论。
【关键词】辛普森悖论;软件测试;悖论消除0 前言辛普森悖论是统计学上的一个典型问题。
当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究。
辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。
即在分组比较中都占优势的一方,会在总评中反而是劣势的一方。
该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。
后来就以他的名字命名该悖论。
辛普森悖论的一个简单、非正式的描述是:两个及以上的数据集单独评估时会产生一个结果,而联合起来评估时会产生一个相反的结果。
1 悖论在软件质量评估中的现象辛普森悖论经常发生,在软件测试和质量评估过程中也会出现。
辛普森悖论体现在软件质量评估中时阐述的是这样一种情况:软件系统B与软件系统A相比,各方面都要差,然而最终结果显示软件系统B可能是一个更好的系统。
例:我们有两个不同的软件系统A和系统B。
我们想知道从测试用例的运行情况来看,哪个系统更好。
对于安全性,系统A运行了200个测试用例,通过了50个,而系统B运行了100个测试用例,通过了15个(见表1)。
表1 系统A和系统B数据比较-安全性测试从这个数据来看,系统A的安全性显然要比系统B要好,因为系统A获得了25%的用例通过率,而系统B用例通过率只有15%。
现在,对于易用性,系统A运行100个测试用例,共有85个用例测试通过,而系统B运行400个测试用例,共有300个用例测试通过(见表2)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总计来说男生录取率只有21%,只有女生录取率42%的一半。
为什么两个学院都是男生录取率高于女生录取率,但是加起来男生录取率却不如女生录取率呢?主要是因为这两个学院男女比例很不一样,具体的统计学原理我们后面会详细分析。
这个诡异(Counter intuitive)的现象在现实生活中经常被忽略,毕竟只是一个统计学现象,一般情况下都不会影响我们的行动。
但是对于使用科学的 AB 测试进行试验的企业决策者来说,如果不了解辛普森悖论,就可能会错误的设计试验,盲目的解读试验结论,对决策产生不利影响。
我们用一个真实的医学 AB 测试案例来说明这个问题。
这是一个肾结石手术疗法的 AB 测试结果:
看上去无论是对于大型结石还是小型结石,A 疗法都比 B 疗法的疗效好。
但是总计而言,似乎 B 疗法比 A 疗法要好。
这个 AB 测试的结论是有巨大问题的,无论是从细分结果看,还是从总计结果看,都无法真正判断哪个疗法好。
那么,问题出在哪里呢?这个 AB 测试的两个实验组的病历选取有问题,都不具有足够的代表性。
参与试验的医生人为的制造了两个试验组本身不相似,因为医生似乎觉得病情较重的患者更适合 A 疗法,病情较轻的患者更适合 B 疗法,所以下意识的在随机分配患者的时候,让 A 组里面大结石病历要多,而 B 组里面小结石病历要多。
更重要的问题是,很有可能影响患者康复率的最重要因素并不是疗法的选择,而是病情的轻重!换句话说,A 疗法之所以看上去不如 B 疗法,主要是因为 A 组病人里重病患者多,并不是因为 A 组病人采用 A 疗法。
所以,这一组不成功的 AB 测试,问题出在试验流量分割的不科学,主要是因为流量分割忽略了一个重要的“隐藏因素”,也就是病情轻重。
正确的试验实施方案里,两组试验患者里,重病患者的比例应该保持一致。
因为很多人容易忽略辛普森悖论,以至于有人可以专门利用这个方法来投机取巧。
举个例子,比赛100场球赛以总胜率评价好坏。
取巧的人专找高手挑战20场而胜1场,另外80场找平手挑战而
胜40场,结果胜率41%;认真的人则专挑高手挑战80场而胜8场,而剩下20场平手打个全胜,结果
胜率为28%,比41%小很多。
但仔细观察挑战对象,后者明显更有实力。
从这几个辛普森悖论的例子出发,联想到我们互联网产品运营的实践里,一个非常常见的误判例子是这样的:拿1%用户跑了一个试验,发现试验版本购买率比对照版本高,就说试验版本更好,我们要发布试验版本。
其实,可能只是我们的试验组里圈中了一些爱购买的用户而已。
最后发布试验版本,反而可能降低用户体验,甚至可能造成用户留存和营收数额的下降。
那么,如何才能在 AB 测试的设计,实施,以及分析的时候,规避辛普森悖论造成的各种大坑呢?
最重要的一点是,要得到科学可信的 AB 测试试验结果,就必须合理的进行正确的流量分割,保证试验组和对照组里的用户特征是一致的,并且都具有代表性,可以代表总体用户特征。
这个问题一直是 AppAdhoc A/B Testing 云服务的云端系统着力研究和解决的问题。
在这里,特别要提出一下这个问题的一个特殊属性:在流量试验越大时,辛普森悖论发生的条件越有可能触发。
这是一个和大数定理以及中心极限定理等“常规”实践经验完全不同的统计学现象。
换句话说,大流量试验比小流量试验可以消除很多噪音和不确定性,但是反而可能受到辛普森悖论的影响。
举个例子说明:如果只是拿100人做试验,50人一组随机分配,很可能是28男22女对22男28女,每个性别只是相差6个人而已。
如果是拿10000人做试验,5000人一组随机分配,很可能是2590
男2410女对2410男2590女,每个性别就差了180人,而这180人造成的误差影响就可能很大。
除了流量分配的科学性,我们还要注意 AB 测试的试验设计与实施。
在试验设计上,如果我们觉得某两个变量对试验结果都有影响,那我们就应该把这两个变量放在同一层进行互斥试验,不要让一个变量的试验动态影响另一个变量的检验。
如果我们觉得一个试验可能会对新老客户产生完全不同的影响,那么就应该对新客户和老客户分别展开定向试验,观察结论。
在试验实施上,对试验结果我们要积极的进行多维度的细分分析,除了总体对比,也看一看对细分受众群体的试验结果,不要以偏盖全,也不要以全盖偏。
一个试验版本提升了总体活跃度,但是可能降低了年轻用户的活跃度,那么这个试验版本是不是更好呢?一个试验版本提升总营收0.1%,似乎不起眼,但是可能上海地区的年轻女性 iPhone 用户的购买率提升了20%,这个试验经验就很有价值了。
分层试验,交叉试验,定向试验是我们规避辛普森悖论的有力工具。
规避辛普森悖论,还要注意流量动态调整变化的时候新旧试验参与者的数据问题,试验组和对照组用户数量的差异问题,以及其他各种问题。
而优秀的增长黑客,不会去投机取巧“制造数据”,而是认真思考和试验,用科学可信的数据来指导自己和企业的决策,通过无数次失败的和成功的AB测
试试验,总结经验教训,变身能力超强的超级英雄。
作者:王晔,吆喝科技创始人兼 CEO
人人都是产品经理()中国最大最活跃的产品经理学习、交流、分享平台。