05 统计学中的悖论精粹
数学中的十大悖论
2. 芝诺悖论——阿基里斯与乌龟:公元前5世纪,芝诺 用他的无穷、连续以及部分和的知识,引发出以下著名的 悖论:他提出让阿基里斯与乌龟之间举行一场赛跑,并让 乌龟在阿基里斯前头1000米开始。假定阿基里斯能够跑得 比乌龟快10倍。比赛开始,当阿基里斯跑了1000米时, 乌龟仍前于他100米;当阿基里斯跑了下一个100米时, 乌龟依然前于他10米……所以,阿基里斯永远追不上乌龟。
预料不到的考试的悖论:一位老师宣布说,在下一星期 的五天内(星期一到星期五)的某一天将进行一场考试, 但他又告诉班上的同学:‚你们无法知道是哪一天,只有 到了考试那天的早上八点钟才通知你们下午一点钟考。‛ 你能说出为什么这场考试无法进行吗?
电梯悖论:在一幢摩天大楼里,有一架电梯是由电脑控 制运行的,它每层楼都停,且停留的时间都相同。然而, 办公室靠近顶层的王先生说:‚每当我要下楼的时候,都 要等很久。停下的电梯总是要上楼,很少有下楼的。真奇 怪!‛李小姐对电梯也很不满意,她在接近底层的办公室 上班,每天中午都要到顶楼的餐厅吃饭。她说:‚不论我 什么时候要上楼,停下来的电梯总是要下楼,很少有上楼 的。真让人烦死了!‛ 这究竟是怎么回事?电梯明明在每层停留的时间都相同, 可为什么会让接近顶楼和底层的人等得不耐烦?
数学中的十大悖论
--人文1102班
张燕燕
学号:3110102114
N· 布尔巴基说过:
‚……古往今来,为数众多的 悖论为逻辑思想的发展提供了 食粮。‛
什么是悖论?笼统地说,是指这样的推理过程:它 看上去是合理的,但结果却得出了矛盾。悖论在很 多情况下表现为能得出不符合排中律的矛盾命题: 由它的真,可以推出它为假;由它的假,则可以推 出它为真。由于严格性被公认为是数学的一个主要 特点,因此如果数学中出现悖论会造成对数学可靠 性的怀疑。如果这一悖论涉及面十分广泛的话,这 种冲击波会更为强烈,由此导致的怀疑还会引发人 们认识上的普遍危机感。在这种情况下,悖论往往 会直接导致“数学危机”的产生。按照西方习惯的 说法,在数学发展史上迄今为止出现了三次这样的 数学危机。
统计学中的几个问题
记者
一八 一二 一0 九 四 二
第一选择 A B四 C二九 D E E
第二选择 D
E
B CBC
第三选择 E
D
E
EDD
第四选择 C
C
D BCB
第五选择 B
A
A AAA
逐论选举
采用这种方式的有
奥斯卡奖评选 爱尔兰议会选举, 澳大利亚上院选举
博尔达记分法
规则:对每种选择赋予一定分值,然后累加出总分 值,以最高分者获胜。一八世纪法国数家博尔达首 先提出,故命名之。
药物 安慰剂
试验次数 三00 五四0
成功次数 二四六 四五四
平均 八二% 八四%
辛普森悖论
以上三个悖论的实质是相同的。这类问题在二0实际 初就有人讨论。
一九五一年E.H.辛普森在他发表的论文中,对此现象 进行了正式描述。于是,就把这类悖论统称为“辛 普森悖论”
这类悖论表明这样一个事实:在某些情况下,在分 组比较中都占优势的一方,会在合并后的总评中成 为失势的一方。
数值。如果数值有奇数个,则中位数就简单取中间 项的值。如果有偶数项,中位数往往取中间两项的 算术平均 众数:数项中出现次数最多的值
平均数的陷阱
算术平均容易受少数极端数值的影响,事实上,很 多和钱有关的分布,如收入房价财富等,都有很强 的右偏现象,用算术平均往往会给人以歪曲的印象。
从统计角度看,用中位数和众数表达,最大的好处 是不受两头的影响。对一些有偏的分布,用中位数 和众数往往能更好地反映情况。一般而言,有关收 入的统计若用中位数和众数来表述,较为公平。
魔术家的数魔术
魔术家大卫.科波菲尔提出一个数魔术:只要走动一 个人,就可以使整整两个国家增加他们的平均国民 收入
统计学辛普森悖论
统计学辛普森悖论引言:统计学是一门研究数据收集、分析和解释的学科,它在科学研究、商业决策、政策制定等领域都发挥着重要作用。
然而,我们常常会遇到一个现象,即当我们将数据进行细分分析后,得出的结论与整体数据的结论相反。
这就是统计学中著名的辛普森悖论。
一、什么是辛普森悖论?辛普森悖论,又称为辛普森效应,是指当我们对数据进行细分分析时,得出的结论与整体数据的结论相反的现象。
这种现象常常出现在数据集中存在不同的类别或组群时。
二、辛普森悖论的经典案例为了更好地理解辛普森悖论,我们可以通过一个经典案例来说明。
假设某个学校在招生过程中有两个不同的专业:专业A和专业B。
我们对该学校的录取情况进行统计分析,得出以下数据:专业A:200名男生中有120人被录取,300名女生中有100人被录取;专业B:300名男生中有150人被录取,200名女生中有120人被录取。
整体数据显示,男生的录取率高于女生。
然而,当我们对不同的专业进行分别分析时,却发现女生的录取率在每个专业中都高于男生。
这就是典型的辛普森悖论。
三、辛普森悖论的成因辛普森悖论产生的原因主要有两个方面:样本大小和类别之间的关系。
1. 样本大小:在上述案例中,男生和女生的样本大小存在差异,男生的样本数量要大于女生。
当我们只看整体数据时,男生的录取率较高,但当我们对不同的专业进行分别分析时,女生的录取率却在每个专业中都高于男生。
这是因为男生的样本量大,整体数据中占比较大,从而影响了整体数据的结论。
2. 类别之间的关系:在上述案例中,男生和女生在不同专业的录取情况存在差异。
男生在专业A中录取率高于专业B,而女生在专业A 中录取率低于专业B。
这种差异导致了整体数据和分组数据的结论相反。
四、如何避免辛普森悖论的影响辛普森悖论的出现给我们的数据分析带来了挑战,但我们可以采取一些方法来避免其影响。
1. 充分了解数据:在进行数据分析之前,我们应该充分了解数据的来源、样本数量以及类别之间的关系。
揭示招聘企业“工资陷阱”的谜团——浅谈统计学中的悖论
方法在 所 有训 练样 本 集中 搜索 支 持向 量 ,从 而避免 了二 次 规划 最优 求 解 。启
发 规 则主 要 包括 :①距 离 最近 的 2个不 同 类别 的样 本 点 有可 能是 支 持向 量 ;
② 错 误 分类 最严 重 的样 本点 有 可能 是 支持 向量 。根据 这两 条 启发 式 规则 搜
而且 在 混沌 系统参 数 时变 的 情 况下 也 能实现 精 确 预测 。 3 3 图像处理 .
G o u G. 用 S M 进行 人脸 识别研 究 ,J n s n K . S D. V o s o 用 VM 进行人脸 认 证的研究 ,T f s A 用 S ea VM 提高 人脸 识别 的性能 。KI K. . KI M I & M
程 的应 用 。Ku k r i l a n A,考虑 了先 验知识 ,将 S VM 应用于 T E过程 的故 障 诊 断问 题。S y e s J A. ,V n e l J ,Mo r B. D利用 L - u k n . K. a d wal . e o S S M 进行 优化控 制 。J n —Hs n h n 分析 了 S V ue i C a g e VM 与模 糊 系统的关 系 , 并 利用 S VM 建立 模糊 模型 ,成功实现 了对 滑动小 球 的控 制 。S e g F y a hn — au n 将S VM 应 用于泵 的转 子的故 障诊断 问题 ,并采用 o e v ru - et n - e s s r s 策略 进行 多 类故 障 的分 类 识剐 。 3 5 其他 方面
“
. . . . . .
古往 今来 ,为数 众 多的悖 论 为逻辑 思 想的 发展 提供 了食 粮 。 一 ”
词 的意 义 比 较丰 富 ,它 包括 一 切与 人 的直 觉 和 日常 经验 相 矛 盾 的数学 结 论 ,
统计学辛普森悖论的内容
统计学辛普森悖论的内容统计学辛普森悖论(Simpson's Paradox),又称辛普森效应,是指在统计数据分析中,一个总体的不同子集中出现的关系与整体数据的关系恰好相反。
简单来说,当我们将数据分组并进行分析时,得出的结论可能会与整体数据相矛盾。
辛普森悖论最早由英国统计学家E.H.辛普森于1951年提出,他在研究统计学考试成绩的数据时发现了这个现象。
为了更好地说明辛普森悖论,我们将针对一个具体的例子进行讨论。
假设某家医院正在研究针对某种疾病的两种不同疗法的疗效。
研究人员将患者分为两个子集:男性(子集A)和女性(子集B),然后比较两种疗法在不同子集中的成功率。
在子集A中,疗法A有80%的成功率,而疗法B只有40%的成功率;在子集B中,疗法A的成功率为60%,而疗法B的成功率为70%。
这个结果可能导致人们错误地认为疗法A比疗法B更有效。
然而,当我们将整体数据考虑进来时,情况就完全不同了。
整体上,疗法A的成功率为65%,而疗法B的成功率为67.5%。
这个结果与我们之前的结论相反,疗法B在整体上比疗法A更有效。
辛普森悖论的发生是由于子集A和子集B在整体数据中所占比例的差异导致的。
在这个例子中,虽然在子集A和子集B中,疗法A的成功率都不如疗法B,但是子集A在整体数据中所占比例远大于子集B。
所以,整体上疗法A的平均成功率反而比疗法B低。
为了更好地理解辛普森悖论,我们可以通过一个可视化的例子来说明。
假设我们有一个学校的招生数据,该学校有两个专业:科学(子集A)和文科(子集B)。
我们将招生成功率与考试成绩进行比较。
具体数据如下:子集A:科学专业-学生甲:考试成绩80分,成功录取-学生乙:考试成绩70分,未录取子集B:文科专业-学生丙:考试成绩80分,未录取-学生丁:考试成绩70分,成功录取看上去,科学专业的成功录取率为50%,而文科专业的成功录取率为50%。
这暗示我们两个专业的录取机会是相同的。
然而,当我们将整体数据考虑进来时,结果却完全不同。
统计力学里好几个著名的悖论
统计力学里好几个著名的悖论
统计力学中存在多个著名的悖论,这些悖论挑战了我们对物理世界的基本理解。
以下是其中几个著名的悖论:
1. 辛普森悖论(Simpson's Paradox):这个悖论是指当两个独立实验的结果在总体上呈现出相反的趋势时,但在分组合计时却显示出一个完全不同的结果。
这种现象似乎违反了概率论中的独立性原则,因为在分组合计时,两个独立实验的相互影响导致了结果的反转。
2. 赌徒谬误(Gambler's Fallacy):这个谬误是指一种错误地认为某事因为连续没有发生,所以下一次的结果更有可能是相反的信念。
例如,一个赌徒可能会认为,因为连续几次掷骰子都是六点,所以下一次掷骰子更可能是三点。
然而,这种观点忽略了概率的独立性原则,每次掷骰子都是独立的,不会受到前一次的结果影响。
3. 观察者效应(Observer Effect):这个效应是指在观察过程中观察者的行为和状态会对被观察对象产生影响,从而改变被观察对象的状态或结果。
这个效应挑战了我们对客观世界的认知,因为我们无法排除观察者对被观察对象的影响。
4. 测量问题(Measurement Problem):这个问题是关于量子力学的测量问题,它涉及到观察者对被观察对象的测量结果的影响。
根据量子力学的哥本哈根解释,当我们对一个量子系统进行测量时,我们只能得到一个确定的结果,而这个结果并不是量子系统本身的状态,而是观察者与量子系统之间的相互作用的结果。
这个解释似乎将观察者的意识引入了物理世界中,引发了许多哲学和科学上的争议。
这些悖论是统计力学中的重要问题,它们挑战了我们对物理世界的理解,并引发了许多深入的研究和讨论。
数据科学家应了解的五个悖论
数据科学家应了解的五个悖论统计悖论在机器学习模型中无处不在。
这是一些最臭名昭著的例子。
要通过人工智能(AI)重建人类认知,就必须应对许多数据无法轻易解释的现象。
长期以来,人们一直将悖论视为违反逻辑和数据规则的异常情况。
通过悖论进行推理对机器学习模型提出了难以置信的挑战,因此,数据科学家在训练新模型时应该意识到这些情况。
悖论是人类认知的奇迹之一,难以使用数学和统计学。
从概念上讲,悖论是根据问题的原始前提得出明显的自相矛盾结论的陈述。
即使是最著名的和有据可查的悖论,也经常使领域的专家蒙蔽,因为它们从根本上与常识相矛盾。
人工智能(AI)希望重现人类的认知,因此机器学习模型在训练数据中遇到自相矛盾的模式并乍一看似乎得出矛盾的结论是非常普遍的。
今天,我想探讨一些机器学习模型中常见的著名悖论。
悖论通常是在数学和哲学的交叉点上提出的。
一个臭名昭著的哲学悖论被称为These修斯之船,它质疑一个已经将其所有组成部分都替换掉的物体是否根本上仍然是同一物体。
首先,假设英雄These修斯(Thusus)在一场激烈的战斗中航行的那艘著名船已被保留在港口中作为博物馆作品。
随着时间的流逝,一些木制零件开始腐烂,并被新的木制零件取代。
一个世纪左右后,所有零件都被更换了。
'恢复'的船是否仍与原始船相同?或者,假设每个拆下的零件都存储在仓库中,并且在本世纪之后,技术不断发展,可以治愈它们的腐烂,并使它们重新组合在一起制成一艘船。
这艘'改建'的船是原船吗?如果是这样,港口中恢复的船舶还是原始船舶吗?数学和统计领域,如果充满着著名的悖论。
举几个著名的例子,传说中的数学家和哲学家贝特朗·罗素提出了一个悖论,突显了集合论中一些最强大的思想中的矛盾,而这是有史以来最伟大的数学家之一:格雷格·坎托。
本质上,罗素悖论质疑'一个不包含自身的所有列表的列表'。
悖论是在自然集合论中通过考虑并非其自身成员的所有集合的集合而产生的。
《统计学悖论》PPT课件
最新-社会统计悖论与转变问题 精品
社会统计悖论与转变问题0引言社会统计分析的数据绝大数是分类意义上的。
它们要么是定性的定类、定序数据,要么是定量的离散数据[1],并不具备严格意义上的+、-、×、÷等数学运算特性[2]。
社会研究对象的这一分类特征,使得列联表成为社会统计分析中应用最为广泛的首选统计工具之一。
因为列联表是非参数的或仅要求很弱的参数分布假定。
但在列联表分析中,如何解释隐现其中的辛普森悖论一直是一个重要问题。
此外,由于分类数据的非线性特征,回归函数不可能是线性的,需要寻找一个链接函数,将分类变量的期望值变换成自变量的一个线性函数。
然而,在实际应用中,变换与变换的内在差异与背后假定问题常为人们所忽视,进而影响了参数解释。
1辛普森悖论问题辛普森悖论最早于1899年由卡尔•皮尔森-提出,但一直到1951年辛普森才正式描述并解释这一现象,后来就以他的名字命名该悖论。
关于辛普森悖论,国内学者关注不多,只有李思一1984、王轶豪1986、倪加勋1992、吴素萍2000、耿直2000、史希来2006、王健2008等人作过介绍性研究。
辛普森悖论是指,在分组比较中都占优势的一方,在总体评价中却并不占优势。
我们先来看一个源自真实生活的案例。
1979年初,《美国历史画报》杂志对读者类型和获得期刊的方式进行了统计[3]。
见表1。
从表1可以看出,五种订阅方式中,老订户1月份的续订率要高于2月份,但合计后总的续订率却要低于2月份。
除了上述案例外,还有其他很多真实的数据表现出了辛普森悖论现象,如等1975,1982,1995。
总之,辛普森悖论不是虚幻的,而是客观存在的。
问题是如何解释辛普森悖论的产生原因。
由于统计的基础在于概率,于是人们就从概率论加以解释。
辛普森悖论可定义为以下三种情况同时发生1|,>|,;2|,>|;3|虽然从概率角度可以诠释辛普森悖论问题,但在笔者看来,这种诠释具有柏拉图理念论的色彩。
因为这里遵从的是概率的频率定义列联表中表征的是频率,即=→∞=→∞事实上,由于试验或观测次数为∞是做不到的,因此,列联表中的相对频率只能说是对概率的一种柏拉图意义上的理念摹本,近似到何种程度仍然是有疑问的。
常见的统计学谬误之一——伯克森悖论
——在此前提下,在对住院病人进行研究时,
相当于控制了“住院”这个因子.正如我们所知的,
撞因子为条件这一操作制造了“疾病1”和“疾病
间的伪相关.因为辩解效应的存在,这种伪相关多呈负
相关,但在这个例子中,这种伪相关是正向的,
者住院的前提就是同时患有两种疾病(而不是只患有
一种疾病).
然而,长期以来,流行病学家拒绝相信这一悖论
的存在.直到1979年,麦克马斯特大学的一位研究统
文化时空
张奠宙王善平
这个错误对我们来说特别有启发性,因为它精确
地说明了我们大脑思考机制的缺陷.我们在实际生活
中似乎就是遵循着共因原则行事的,无论何时,
观察到某种模式,我们就会去寻找一个因果解释。
7种常见的统计学悖论
7种常见的统计学悖论
1. 辛普森悖论(Simpson's paradox):当将数据分组或进行比较时,两个或多个独立数据集的关系可能与整体数据集的关系相反。
这可能导致误导性的结论。
2. 聚集悖论(The aggregation paradox):当将数据以不同的方式进行聚合时,可能会得出不同的结论。
这可能导致对整体趋势的错误理解。
3. 伯克森悖论(Berkeley's paradox):当使用频率统计推断个体特征时,可能会得出与实际情况相悖的结论。
这是由于忽略了基本样本大小的影响。
4. 数据欺骗悖论(Data dredging paradox):当进行多次假设检验时,可能会出现偶然的显著结果,而不是真正的关联。
这可能导致错误的结论。
5. 吉布斯悖论(Gibbs paradox):在概率论中,当将无序事件转化为有序事件时,可能会导致悖论。
这涉及到对事件的定义和顺序的解释。
6. 奥姆斯特恩悖论(Omphaloskeptic paradox):当进行统计推断时,可能会陷入无尽的怀疑和自我怀疑的循环中,导致无法得出可靠的结论。
7. 美索不达米亚悖论(Mesopotamian paradox):当进行历史数据分析时,可能会面临缺乏准确和完整数据的挑战,导致无法得出确凿的结论。
贝叶斯悖论
贝叶斯悖论
贝叶斯悖论是贝叶斯统计学中的一个悖论,它涉及到在特定条件下的概率计算。
悖论的主要内容是指,如果我们已经观察到某个事件发生,那么我们应该更新我们对该事件概率的信念。
然而,根据贝叶斯统计学的贝叶斯定理,这个观察到的事件可能会对我们的先验概率产生意想不到的影响。
贝叶斯定理是一个从条件概率中导出的定理,它用来计算在已知某些先验条件的情况下,某个事件发生的概率。
根据贝叶斯定理,我们可以通过观察到的事件来更新我们对该事件的概率的估计。
然而,贝叶斯悖论指出,根据贝叶斯定理,一个看似有力的证据可能会导致与我们的直觉相悖的结果。
悖论的一个例子是著名的“三门问题”,在这个问题中,一个人被告知在三个门中,有一扇门后面有一辆汽车,而另外两扇门后面有山羊。
然后,当一个门打开,门后的山羊被展示出来。
然后,人被问到,在另外两扇门中,他是否应该改变他之前的选择,以便获得汽车的机会增加。
直觉上,初始选择并不重要,因此改变选择与不改变选择的概率是相同的。
然而,根据贝叶斯定理,如果我们利用门后面有山羊的信息来更新我们对每个门的概率的估计,我们发现改变选择的概率更高。
这与直觉相悖,因为我们可能认为通过改变选择,我们的概率应该保持不变。
贝叶斯悖论提醒我们,在使用贝叶斯定理进行概率计算时,我
们必须注意到直觉可能不总是与数学计算一致,而我们的直觉可能会被误导。
统计中著名的佯谬与悖论(ppt 25)
趋中回归派生悖论:逆回归悖论
贡 献
薪水
博士的薪水均值和贡献均值都比硕士都高一个标准差。 用薪水预测贡献,同样薪水、博士贡献比硕士大,博士要投诉; 如果用贡献预测薪水,同样贡献、博士薪水比硕士高,硕士要投诉。
趋中回归无所不在
•即使信度为1,只要非退化情形,就有趋中回归
–即使身高的测量没有误差,高个子人群的儿子平均身 高仍然会偏低向均值
2006/10/05 晚 李晓煦 香港中文大学教育学院 lixiaoxu@
Paradox--佯谬 vs 悖论
• 佯谬:从常识上看是错的,实际上是对的;有时一个 命题的对立面是佯谬,也被称为佯谬。 –例:整体可以与部分一一对应,比如自然数集合与 质数集合 {2,3,5,…} ={第k个质数| k=1,2,3,…} {k;k=1,2,3,…}
同分布
D男
=
培训的影响
D女 D男
仍然 同分布
=
D女
结论之二:
培训前同样体重的男女学员,培训后体重不同
•W2,男 =α男 + β * W1,男 + e男 W2,女 =α女 + β * W1,女 + e女
•统计工作者B发现
α男 >α女
α男
α女
因果论断的隐含前提
•假如没有培训,前测时同体重的男女学 员,在后测时的体重预期相同(α男 =α女) 因为培训后α男 >α女,所以培训对男女 体重变化造成有差异 培训的影响
只要男女学员均值不同,两种前提不可能同时成立
同分布
D男
=
==>
D女
两中心连线 斜率为1
α男 >α女
不 同 分 布
E(D男)
==>
统计学悖论——辛普森悖论
统计学悖论——⾟普森悖论今天给⼤家介绍⼀个统计学悖论——⾟普森悖论,对以后看数据或许有帮助。
作者:七君来源:把科学带回家我们平时在做重⼤决策的时候,⽐如择校啊,选专业啊,总是会参考这些⽐较对象的硬指标,⽐如它们的录取率啊,就业率啊等等。
像是,哪个学校的就业率⾼,我们就会去报考这个学校。
统计数字可以帮助我们了解这些⽐较对象的优劣,让我们做出明智的决策。
不光是个⼈,公司和国家也是这样做决策的。
那么这样做对吗?其...实...不...对今天我们就来介绍⼀个让⼈⾮常头疼,但⾮常有⽤的悖论,它会告诉你,很多时候统计数字相当不可靠,特别容易误导⼈。
先来看⼀个假设的例⼦。
⼩明⽣了慢粒⽩⾎病,她的失散多年的哥哥找到有2家⽐较好的医院,医院A和医院B供⼩明选择就医。
⼩明的哥哥多⽅打听,搜集了这两家医院的统计数据,它们是这样的:医院A最近接收的1000个病⼈⾥,有900个活着,100个死了。
医院B最近接收的1000个病⼈⾥,有800个活着,200个死了。
作为对统计学懵懵懂懂的普通⼈来说,看起来最明智的选择应该是医院A对吧,病⼈存活率很⾼有90%啊!总不可能选医院B吧,存活率只有80%啊。
呵呵,如果⼩明的选择是医院A,那么她就中计了。
就这么说吧,如果医院A最近接收的1000个病⼈⾥,有100个病⼈病情很严重,900个病⼈病情并不严重。
在这100个病情严重的病⼈⾥,有30个活下来了,其他70⼈死了。
所以病重的病⼈在医院A的存活率是30%。
⽽在病情不严重的900个病⼈⾥,870个活着,30个⼈死了。
所以病情不严重的病⼈在医院A的存活率是96.7%。
在医院B最近接收的1000个病⼈⾥,有400个病情很严重,其中210个⼈存活,因此病重的病⼈在医院B的存活率是52.5%。
有600个病⼈病情不严重,590个⼈存活,所以病情不严重的病⼈在医院B的存活率是98.3%。
画成表格,就是这样的——医院A:医院B:你可以看到,在区分了病情严重和不严重的病⼈后,不管怎么看,最好的选择都是医院B。
统计案例经典悖论
统计案例经典悖论统计案例经典悖论是指在统计学中出现的一些经典的悖论或矛盾现象。
这些悖论揭示了统计学中的一些困境和问题,对我们进行数据分析和决策时提出了重要的警示和启示。
下面列举了一些经典的统计案例悖论:1. 辛普森悖论(Simpson's paradox):当我们根据不同的子群体进行分析时,得出的结论与整体数据的结论相矛盾。
这是因为不同的子群体的结构不同,导致整体数据的结论被子群体的影响所扭曲。
2. 霍尔悖论(Hall's paradox):在进行多元回归分析时,当我们增加一个变量进入模型后,原来的显著变量可能变得不显著,甚至改变方向。
这是因为增加的变量与原来的变量之间存在相关性,导致模型的解释能力发生了变化。
3. 蒙蒂霍尔问题(Monty Hall problem):在一个游戏中,参赛者面对三扇门,其中一扇门后有奖品,参赛者选择一扇门后,主持人会打开另外一扇没有奖品的门。
然后,参赛者可以选择是否更换选择。
悖论在于,更换选择的获奖概率比不更换选择的获奖概率更高。
4. 伯克逊悖论(Berkeley's admissions paradox):在加州大学伯克利分校的录取数据中,尽管每个系别都倾向于录取男性,但整体上却更倾向于录取女性。
这是因为女性更倾向于申请相对热门的专业,而男性更倾向于申请相对冷门的专业,导致整体录取率出现了悖论。
5. 赌徒谬误(gambler's fallacy):赌徒们常常认为在连续多次失败之后,下一次获胜的概率会增加。
实际上,每一次独立事件的概率是相同的,之前的失败并不会影响下一次的结果。
6. 雷吉斯悖论(Reversal paradox):在比较两个不同的治疗方法时,研究结果可能会出现悖论。
比如,治疗方法A在总体上是有效的,但在某个子群体中却没有效果,而治疗方法B在总体上是无效的,但在该子群体中却是有效的。
7. 轮盘赌悖论(roulette paradox):轮盘赌悖论指的是在进行多次赌博时,连续多次赢得的结果反而增加了下一次输的概率。
统计学辛普森悖论
统计学辛普森悖论统计学辛普森悖论是统计学中的一个重要现象,经常会出现在实际问题中,这个悖论揭示了一个非常有趣的现象。
本文将介绍辛普森悖论的背景、定义和原理,并提供一些实际的例子来帮助读者更好地理解这个悖论。
辛普森悖论最早由英国统计学家辛普森(Yule S.Simpson)在20世纪中期提出,其背景是他对加利福尼亚大学伯克利分校的录取率进行统计分析时发现的一个现象。
当时,辛普森发现,在整体上,男性的录取率高于女性的录取率。
然而,当将数据按照性别和不同专业进行划分后,却发现在每个专业中,女性的录取率普遍高于男性的录取率。
这个现象引起了他的兴趣,从而提出了辛普森悖论。
辛普森悖论的定义是指当我们将数据按照一定的分组方式进行分类时,不同的分组结果可能会导致与整体逻辑相反的结论。
简单来说,辛普森悖论是一个由于分组方式的不同而导致结论相反的现象。
这个悖论的原理可以通过以下的例子来说明。
假设某个医学研究人员对一种药物的疗效进行了实验,结果显示,在总体上,该药物的治愈率明显高于安慰剂。
然而,如果将研究对象按照不同的年龄分组,会发现在每个年龄组中,安慰剂的治愈率都高于药物的治愈率。
这种情况下,如果只考虑总体数据,我们可能会错误地认为该药物是有效的,但实际上在每个年龄组内的数据中,药物的治愈率又相对较低。
这个例子清楚地展示了辛普森悖论的原理,即在整体数据统计的基础上,如果不考虑具体的细分情况,很容易得出错误的结论。
辛普森悖论的出现是由于不同分组下的样本数量和特征的不同所导致的。
在统计分析中,如果样本数量不均衡,或者不同分组的特征差异较大,都有可能出现辛普森悖论。
因此,在进行统计推断时,我们必须考虑到不同分组的分布情况,并对数据进行充分的分析和解读。
为了更好地理解辛普森悖论,我们再举一个实际例子。
假设某公司在两个不同城市进行了销售活动,结果显示在每个城市中,男性销售员的销售额都高于女性销售员。
然而,当将数据按照不同年龄段进行划分后,发现在每个年龄段中,女性销售员的销售额都高于男性销售员。
第六章__统计学悖论
美国心理学家斯坦利·米尔格拉姆用一种方法 逼近小世界的问题,我们很容易试一试它。他任意 地选择了一组“发信人”,给每一个人一份文件, 让他发给一个“收信者”,这个收信者是他不认识 的,而且住在美国另外一个很远的地方。做法是通 过他把信寄给他的一个朋友,这个朋友再接着发信 给自己朋友,如此下去,直到将文件寄到认识收信 者的某人为止。米尔格拉姆发现,在文件达到收信 者手中之前,中间联系人的数目从2到10不等,其 中位数是5。当你问别人这到底需要多少中间联系 人时,他们多数猜想大约要100人。
吉斯莫:我不同意你的说法!你实在是不明白 道理。我已经把工资列了个表,并告诉了你,工 资的中位数是200元,可这不是平均工资,而是中 等工资。
萨姆:每周100元又是怎么回事呢? 吉斯莫:那被称为众数,是大多数人挣的工资。 吉斯莫:老弟,你的问题是出在你不懂平均数、 中位数和众数之间的区别。 萨姆:好,现在我可懂了。我……我辞职!
有一个调查研究说脚大的孩子拼音比脚小的孩 子好。这是否是说一个人脚的大小是他拼音能力 的度量?
(1)常常听说,汽车事故多数发生在离家不远 的地方,这是否就意味着在离家很远的公路上行 车要比在城里安全些呢?不是,统计只不过反映 了人们往往是在离家不远的地方开车,而很少在 远处的公路上开车。
(2)有一项研究表明某一个国家的人民,喝牛 奶和死于癌症的比例都很高。这是否说明是牛奶 引起癌症呢?不!这个国家老年人的比例也很高。 由于癌症通常是年龄大的人易患的病,正是这个 因素提高了这个国家癌症死亡者的比例。
全世界的数学史学家都认为这个等式是全部数 学中最深奥也是最美的数学公式之一,它把加号、 等号、最基本的0和1、两个超越数π和e、虚数单 位i结合到一个等式之中,所有这些东西都聚在如 此简单又令人神迷的表达式中。
统计学悖论
统计学悖论1. 什么是统计学悖论?统计学悖论是指在统计学中,可能出现的违背直觉的现象。
这些现象通常违反着我们的常识和直觉,但在统计学中却是有可能出现的。
2. 统计学悖论的例子一个著名的例子是著名的蒙提霍尔问题。
问题是这样的:有三扇门,其中一扇门后面有一辆汽车,另外两扇门后面是山羊。
你选择一扇门,主持人会打开另外一扇门,露出一只山羊。
然后,主持人问你是否要更换选择。
直觉上,更换选择并不会影响胜率。
然而,实际上更换选择可以使你的胜率提高到2/3。
另一个例子是著名的赫尔曼-玛斯洛夫斯基悖论。
这个悖论是关于一个人在一个大城市中的出租车司机。
这个司机有两个儿子,一个是医生,一个是出租车司机。
问题是:哪个儿子更有可能是司机的大儿子?直觉上,两个儿子的概率应该是相等的。
然而,实际上司机的大儿子更有可能是医生,因为题目已经给出了他是出租车司机。
3. 统计学悖论的原因统计学悖论的原因在于我们的直觉和常识往往是基于我们的经验和日常生活中的观察。
然而,统计学中的问题往往涉及到大量的数据和概率,这使得我们的直觉和常识很容易被误导。
此外,统计学悖论的出现也与统计学中的假设和模型有关。
当我们使用不恰当的假设和模型时,就有可能出现悖论。
4. 如何避免统计学悖论?为了避免统计学悖论,我们应该注意以下几点:- 理解概率和统计学的基本原理,包括贝叶斯定理等。
- 使用恰当的假设和模型,以及合适的统计方法。
- 尽可能地获取更多的数据,并进行充分的分析和解释。
这可以帮助我们更好地理解数据和模型,从而避免悖论的出现。
5. 结论统计学悖论是一个令人困惑和令人惊讶的现象,但它也提醒我们在进行数据分析和统计建模时要谨慎,要保持警觉。
只有通过正确的理论和实践,才能最大限度地利用数据和统计学的力量。
统计学陷阱——辛普森悖论
统计学陷阱——辛普森悖论如果你在数据科学领域还只是个新手,那么建议你先看看《五本书带你入门数据科学》,入门之后,再看《R语言案例实战》系列。
辛普森悖论当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。
然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。
后来就以他的名字命名此悖论,即辛普森悖论。
辛普森悖论案例一所美国高校的两个学院,分别是法学院和商学院。
新学期招生,人们怀疑这两个学院有性别歧视。
现作如下统计:法学院:商学院:根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。
现在将两学院的数据汇总:在总评中,女生的录取比率反而比男生低。
辛普森悖论原因分析辛普森悖论出现的原因,可以使用下面这幅图来进行解答。
在上面这个图形中,X 轴代表申请的总人数,Y 轴代表录取的人数,那么 Y/X,也就是直线的斜率,和录取率正相关。
(a1, a2) 代表法学院的男生,(A1, A2) 代表法学院的女生。
可以看到,法学院女生的斜率比法学院男生的斜率要高,代表法学院女生的录取率比法学院的男生的录取率要大。
同理,(b1, b2) 代表商学院的男生,(B1, B2) 代表商学院的女生。
可以看到,商学院女生的斜率比商学院男生的斜率要高,代表商学院女生的录取率比商学院的男生的录取率要大。
尽管如此,来看总体直线的斜率,总体男生的斜率(A1+B1, A2+B2) 的斜率,比总体女生的斜率 (a1+b1, a2+b2) 的斜率,还要大。
这个就是辛普森悖论的图形化解释,非常直观清晰。
如何避免辛普森悖论为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。
同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学中的悖论精粹(一)M:吉斯莫先生有一个小工厂,生产超级小玩意儿.M:管理人员由吉斯莫先生、他的弟弟、六个亲戚组成.工作人员由5个领工和10个工人组成.工厂经营得很顺利,现在需要一个新工人.M:现在吉斯莫先生正在接见萨姆,谈工作问题.吉斯莫:我们这里报酬不错.平均薪金是每周300元.你在学徒期间每周得75元,不过很快就可以加工资.M:萨姆工作了几天之后,要求见厂长.萨姆:你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元.平均工资怎么可能是一周300元呢?吉斯莫:啊,萨姆,不要激动.平均工资是300元.我要向你证明这一点.吉斯莫:这是我每周付出的酬金.我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元.总共是每周6900元,付给23个人,对吧?萨姆:对,对,对!你是对的,平均工资是每周300元.可你还是蒙骗了我.吉斯莫;我不同意!你实在是不明白.我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资.萨姆:每周100元又是怎么回事呢?吉斯莫:那称为众数,是大多数人挣的工资.吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别.萨姆:好,现在我可懂了.我……我辞职!统计学的解说可能是极富悖论性的,常常被完全误解.关于吉斯莫工厂的故事揭示出,误解产生的一个共同根源是不了解平均数、中位数(中值)和众数之间的差别.“平均”这个词往往是“算术平均值”的简称.这是一个很有用的统计学的度量指标.然而,如果有少数几个很大的数,如吉斯莫的工厂中少数高薪者,“平均”工资就会给人错误的印象.读者还可考虑一些类似的引起误解的例子.譬如,报纸上报道有个人在一条河中淹死了,这条河的平均深度仅只2尺.这不使人吃惊吗?不!你要知道,这个人是在一个10多尺深的陷坑处沉下去的.一个公司可能报告说它的策略是由股东们民主制订的,因为它的50个股东共有600张选票,平均每人12票.可是,如果其中45个股东每人只有4票,而另外5人每人有84张选票,平均数确实是每人12票,可是只有那5个人才完全控制了这个公司.还有一个例子:为了吸引零售商到一个城里来,商会吹嘘道:这个城市每个国民的平均收入非常高.大多数人看到这个就以为这个城的大多数市民都属于高收入阶层.可是,如果有一个亿万富翁恰好住在该城,其他人就可能都是低收入的,而平均个人收入却仍然很高.统计学的报告有时甚至更加使人糊涂,这因为有时“平均”这个词不是指算术平均值,而是指中值或众数.中值(中位数)是按大小顺序排列的数值表中中心位置对应的数值.如果表中数值有奇数项,则中值就简单地是中间项的值.如果有偶数项,中值往往取中间两项的算术平均值.中值对萨姆来说比算术平均值重要,但就是中值也使人对这个工厂的工资情况得出歪曲了的印象.萨姆反正要知道的是“众数”——表中段常出现的数.在这里,众数是发给工厂中数目最多的人的工资数.有时候这叫做典型情况,因为它比其他任何情况出现次数都多.在上面最后一个例子中,那个城里一个典型家庭代表收入为众数的家庭,它也许很穷,但由于有少数亿万富翁,这个城的平均收入也还非常高.(二)M:近来很多人相信巧合是由星星或别的神秘力量引起的.M:譬如说,有两个互不相识的的人坐同一架飞机.二人对话:甲:这么说,你是从波士顿来的啰!我的老朋友露茜·琼斯是那儿的律师.乙:这个世界是多么小啊!她是我妻子最好的朋友!M:这是不大可能的巧合吗?统计学家已经证明并非如此.很多人在碰到一位陌生人,尤其是在远离家乡的地方碰到一个生人,而发现他与自己有一个共同的朋友时,他们都会成到非常惊讶.在麻省理工学院,由伊西尔领导的一组社会科学家对这个“小世界悖论”作了研究.他们发现,如果在美国随便任选两个人,平均每个人认识大约1000个人.这时,这两个人彼此认识的概率大约是1100000,而他们有一个共同的朋友的概率却急剧升高到1 100.而他们可由一连串熟人居间联系(如上面例举的二人)的概率实际上高于百分之九十九.换言之,如果布朗和史密斯是在美国任意选出的两个人,上面的结论就表示:一个认识布朗的人,几乎肯定认识一个史密斯熟识的人.最近心理学家斯坦利·米尔格拉姆用一种方法逼近小世界的问题,学生们很容易试一试它.他任意地选择了一组“发信人”,给每一个人一份文件,让他发给一个“收信者”,这个收信者是他不认识的,而且住在这个国家另外一个很远的地方.做法是他把信寄给他的一个朋友(是一个他没有深交的朋友),也许他很可能认识那个收信者,这个朋友再接着发信给另一朋友,如此下去,直到将文件寄到认识收信者的某人为止,米尔格拉姆发现,在文件达到收信者手中之前,中间联系人的数目从2到10不等,其中位数是5.当你问别人这到底需要多少中间联系人时,他们多数猜想大约要100人.米尔格拉姆的研究说明了人与人之间由一个彼此为朋友的网络联结得多么紧密.由于这一结果的启示,两个陌生人在离家很远的地方相遇而有着共同的熟人就不足为怪了.这种关系网络还可解释很多其他不寻常的统计学现象,例如流言蜚语和耸人听闻的消息不胫而走,新的低级趣味的笑话很快四处蔓延,同样地,一条可靠的情报也在料想不到的短时间里就为很多人知道了.(三)M:这四个人第一次见面.如果他们四个至少有两个人属于黄道十二宫中的同一宫,这岂不是非常巧的偶合吗?你也许以为,这是非常凑巧的事,而实际上这种巧合在十次中就会大约发生四次.假定每个人都以相同的概率出生在十二宫之一,那么四个人中至少有两个人属于同一宫的概率是多少?让我们用一副牌来模拟这种情况.先抽掉四张K .这副牌现在就是四种花色,每种12张.我们用一种花色代表一个人,每个点数代表一个宫.如果我们从每一种花色中任抽一张牌,四张牌里至少两张点数一样的概率是多少?很明显,这就和四个陌生人中至少两人有同样的黄道宫的概率一样.解决这个问题最简单的方法是先算出没有两张牌的点数相同的概率,再把它从1中减去,就得到我们所要的概率.如果我们考虑两个花色,譬如说黑桃和红心,由于一张红心和十二张黑桃中的一张配对,只有一对是同点数的,故点数不同的概率是1112.而一张梅花与黑桃、红心这两张牌的点数都不同的概率就是1012,一张方块又不同于这其余三张牌的概率是912.这三个因子的乘积就是四张牌的点数彼此都不相同的概率,结果是5596.用1减去这个数得到4196,大约是410,它也既是四个人中至少有两个是属于同一宫的概率.这差不多是12,因此这种巧合毫不足怪.这肯定是著名的生日悖论的翻版.如果有23个人无意中碰到一起,至少有两个人的生日是同一天的概率稍小于12.其计算过程类似于上面的黄道宫的算法,不过这里相乘的有22个因子:乘积是0.5073+,或者说稍大于12(所求概率则稍小于12).用小型计算器计算这个数是一个再好不过的练习了.如果人数多于23个,则生日相同的概率会迅速升高.如果你们班的同学有40人,那么至少有两人生日一样的概率是710.如果有100个学生,则至少有两人生日相同的概率比之谁的生日不一样的概率是3000000比1.(四)M:π的数字排列是无规则的,可是让我们看看从第710154个数以下的数字是怎样排列的:一连串排有7个3.π的数字从它是随机产生的这一点来讲,它不是没有规律的,可是从它的数字排列规律是“无章可循”这一点来讲,又是没有规律的.数学家对π的小数位不断增加作了很多试验,看是有什么“规律性”,可是毫无结果.π的小数位数字就像一个旋转圆盘可以旋到0至9任何一个数字那样毫无规律.实际上,像这样一串7个3的数字在π中出现机会是很多的.但由于从某—位开始,出现一串7个3的概率是10-7,因此当π中从第710161位以后出现7个3时,乍一看是很觉惊奇的.可是,如果我们的注意力放在由7个数字组成的不寻常排列的话,就会发现这种特定排列的概率变得相当高.比如说,我们可以见到象4444444或8888888,或1212121,或1234567,或7654321,或其他引人吃惊的这类数字排列.由于我们预先并不知道下一次会出现什么样的7个数字组,所以猜一猜下一组数是什么是很有趣的.就像亚里斯多德曾经说过的,最不可能的事也是极可能的事.(五)M:就是在洗牌时也会出现巧合.比如,几乎总是有6—7张牌是同一颜色的.M:恒星成群聚集称为星座,豌豆撒在桌面汇成小群.有一个古老的俗话说:“祸不单行”.随机事件以各种不同形式“成群”出现是熟识的现象,已经有很多关于统计学上称为“成群理论”的书.π中连续7个3就是随机成群的例子.如果你不断抛掷一枚硬币,或者老是旋转轮盘赌的圆盘,记下结果,你就会发现有时竟会一连串出现很长的同样结果.密执安大学的一位工程师穆尔发现,有一个证明事件成群的惊人实验,你不妨试一试.穆尔因该实验使用了大量糖果,就称之为“糖果花纹”.这种糖果是一种制成球形的上了色冰糖、或球形彩色水果糖.取相当数量的红色球糖,相当数量的绿色球糖,将两种同样数量的糖放入玻璃瓶中.不断摇这个瓶子,直至两种色糖完全混合均匀为止.注视瓶子的一边.你大概估计会看到两种色糖已均匀打散了,可是你看到的图案都是不规则的,大片红糖图案中点缀着许多小群的绿糖,且二者总面积相等.图案是如此出人意料,甚至数学家在乍看到时也会相信,大概有某种静电效应使得一种颜色的球糖粘住另一颜色球糖.实际上起作用的是偶然性.花纹是随机成群的正常结果.如果你们不愿相信这一点,你们可以用一张制图纸产生出同样的花纹.画一个20×20的方格图.用红绿二色来填每一小格,方法是用抛掷硬币来选颜色.在400个小格都用颜色填满时,你将会看到类似上述糖果瓶边所出现的那类图案.成群过程中往往有一些非数字的因素.如果小汽车在高速公路上随机地分布着,我们从直升飞机上往下看,就会觉得这些汽车是成群结队的,但是实际上成群的原因远不能用偶然性来解释,因为司机一般不愿意老按同样的速度开车,当前面有很长距离没有汽车时,他们加大马力快开起来.地图上城镇的位置,下雨天接连不断,草地上三叶草、海蓬子等成块,除此以外还有很多其他成群事例都超过用偶然性可说明的程度.你可以试一试找出其他成群例证来说明有些是纯属偶然的原因,有些则是非偶然的因素造成的集群.(六)M:假定有三个人——阿贝尔、伯恩斯和克拉克竞选总统.M:民意测验表明,选举人中有23愿意选A不愿选B,有23愿选B不愿选C.是否愿选A不愿选C的最多?M:不一定!如果选举人像图中那样排候选人,就会引起一个惊人的悖论.我们让候选人来说明这一点.甲(男):我是阿贝尔.选举人中有23喜欢我,不喜欢伯恩斯.乙(女):我是伯恩斯小姐.23的选举人喜欢我,超过克拉克.丙(男):我是克拉克.23的选举人欢迎我超过阿贝尔!这个悖论可追溯到18世纪,它是一个非传递关系的典型,这种关系是在人们作两两对比选择时可能产生的.学生们也许已经很熟悉传递关系的概念.它适用于诸如“高于”“大于”“小于”“等于”“先于”“重于”等关系.一般讲,如果有一个关系R 使得xRy (即x 对y 是R 关系)、yRz 成立时,则xRz 成立,这时R 就是可传递关系.选举悖论使人迷惑,是因为我们以为“好恶”关系总是可传递的,如果某人认为A 比B 好,B 比C 好,我们自然就以为他觉得A 比C 好.这条悖论说明事实并不总是如此.多数选举人选A 优于B ,多数选举人选B 优于C ,还是多数选举人选C 优于A .这种情况是不可传递的!这条悖论有时称为阿洛悖论,肯尼思·阿洛曾根据这条悖论和其他逻辑理由证明了,一个十全十美的民主选举系统在原则上是不可能实现的,他因此而分享了1972年诺贝尔经济学奖金.假定有三个对象,而且具有三种可以比较的指数,当我们将它们两两比较按各指标排列,再从中选择一个时,就可能出现上述矛盾.假定A 、B 、C 是向一位姑娘求婚的三个人.上面图中那种排列情况可解释为这个姑娘就三个方面比较这三个人优劣的次序,例如第—列是智慧,第二列是容貌,第三列是收入.如果两两相此,这个可怜的姑娘就发现,她觉得A 比B 好,B 比C 好,C 又比A 好! 数学家保罗·哈尔莫斯提出用A 、B 、C 代表苹果酱馅饼(一种类似馅饼的果饼)、浆果酱馅饼和樱桃酱馅饼.一个饭店每次只供给两种.上面图中A 、B 、C 的三种排列表示一个顾客从饼的味道、新鲜程度和大小对三种饼的排列次序.对这位顾客而言,认为苹果比浆果好、浆果比樱桃好、樱桃比苹果好,这就是最完美的理解.这个悖论还可以在产品检验中出现,一个统计学家也许发现,有23的美国家庭妇女喜好润肤霜A 超过B ,23的喜好B 超过C .化学公司得知这一结果后也许就将润肤霜C 作为最不受欢迎的一种而降低产量,岂不知第三个统计可能会表明还有23的人喜欢C 超过A 呢.(七)M :有一个关于黑乌鸦的著名悖论,它说明罗尼哈特小姐遇到的问题并不是罕见的.甚至有些专家也还在力求搞清它.M:如果看到有3—4只乌鸦是黑色的,那么说“所有乌鸦都是黑色的”,这条科学定律的证据是不充分的.如果看到上百万只乌鸦都是黑的,这条定律的证据就比较充分.甲:嘎!嘎!我不是一只黑乌鸦.只要他们发现了我,他们就会知道他们的定律是错的.M:一条黄色的毛毛虫起什么作用?它可不可以当作这条定律的一个例证呢?M:要回答这个问题,让我们首先把这条定律改成在逻辑上仍然等价的另一个形式吧:“凡是不黑的东西都不是乌鸦.”乙:嘿!我已经找到一个不黑的东西了,它肯定不是只乌鸦,所以它证实了这条定律:“凡是不黑的东西都不是乌鸦.”所以它必然也证实了等价的定律:“凡是乌鸦都是黑的”.M:很容易找到成千上万不黑的又不是乌鸦的东西.它们是否也证实了定律:“凡是乌鸦都是黑的”?M:卡尔·亨普尔教授设计了这条著名的悖论,他确信一条酱紫色的奶牛实际上使“所有乌鸦都是黑色的”概率稍为增大了一点.其他哲学家不同意这一点.你的看法如何?这是近来发现的在证实理论方面的很多悖论中最惹人头痛的一个.尼尔森·古德曼(见下—条悖论的介绍)说道:“坐在屋里不用出去受风吹雨淋就可以研究飞禽学这一前景是这样吸引人,使得我们知道其中必然有值得探讨的地方.”问题是要把关键找出来.卡尔·亨普尔相信,一个不是乌鸦的客体不是黑的这件事实际上是证实了“所有乌鸦都是黑的”这个论断,不过只是在极微小的程度上得到证实.试想我们来做一个客体数量很小的假设检验,比如有10张扑克牌向下扑放在桌子上.我们假设所有黑牌都是黑桃.我们开始一张一张翻牌.显然,每当我们翻开一张黑桃时,我们就得到一个证实假设的例证.现在,我们把这个假设用不同形式改述为:“所有不是黑桃的牌都是红的.”两次我们翻出的牌不是黑桃时,它是红的,这肯定也像前面一样证实了我们的假设.确实,如果第一张牌是黑桃,其余9张都是红色的非黑桃牌,我们就知道我们的假设成立.亨普尔说,当我们把上述过程用到乌鸦上,从不是乌鸦的客体不是黑的来证实我们的假设时,使人觉得别扭,其原因就在于地球上不是乌鸦的客体比起乌鸦来实在太多了,因而我们用上述说法来证实假设是不足取的.再则,如果我们环顾室内来找寻乌鸦,我们本已知道室内根本没有乌鸦,那么在这里找不到任何不黑的乌鸦是毫不足怪的.要是我们还没有上述这种补充知识,那么当我们发现了一个不黑的不是乌鸦的东西时,从理论意义上讲,它就算作证明“所有乌鸦都是黑的”的一个例证了.亨普尔的反对者常要指出,按他这个理由,发现一条黄色的毛毛虫或一条酱紫色的奶牛肯定也是“所有乌鸦都是白的”这条“规律”的例证.那末,一个同样的事实怎么会同时证实“所有乌鸦那是黑的”和“所有乌鸦都是白的”的例证呢?关于亨普尔悖论的文章多不胜数;这个悖论在关于知识的证实方面的辩论中起着中心作用,而这正是后面的参考资料:韦斯利·萨尔蒙的论文所讨论的课题.(八)M:关于证实理论的另一条著名的悖论所依据的事实是,很多客体在某一个时候会改变颜色.绿色的苹果成熟变红,头发在年老时变白,银子变得黯然无光.M:尼尔森·古德曼把一个满足两个条件的客体称为“蓝绿”.第一,它直到本世纪末都是绿色的;第二,在那以后就是蓝色的了.M:现在试想两种说法:“所有的绿宝石都是绿的”和“所有绿宝石都是蓝绿的.”哪一种说法最有依据?M:奇怪的是,两种说法都被证实了,上面的两个条件都是上面说法中的任何一种的例证,谁也不会看到有相反的例证!要想解释清楚只一种说法可以接受,另一种说法不能接受是很困难的.M:亨普尔悖论和古德曼悖论向我们表明,我们对于将统计学纳入科学方法的准确途径了解得是多么少.我们确实知道,如果没有统计学这一不可估价的手段,科学将不能持续不断地探索那些支配我们这个神秘宇宙的规律.尼尔森·古德曼的著名的“蓝绿”悖论也是很多哲学杂志文章讨论的课题.它就像亨普尔悖论一样,表明要以统计资料为依据来判定一个科学理论是多么“好”这是一件多么困难的事情.古德曼悖论证明,只有我们弄清楚了两个理论各有多少已观察到的证据之后,我们才可以比较二者的优劣.在古德曼悖论中,“所有绿宝石都是绿的”和“所有绿宝石都是蓝绿的”得到同等数量例证的支持.我们比较喜欢头一种说法,因为在某种意义上讲,它比第二种要“简单些”.可是,我们现在就得解释“简单些”是什么意思.迄今为止,当哲学家或科学家面临两个理论均有同等数量的例证时,还没有谁能在寻找一种好办法来测度某种简单性方面取得进展,以便使我们定出一条定律,从这两个理论中选取—个.这种关于证实理论的悖论看上去微不足道.但是正如逻辑悖论在发展现代演绎逻辑中起了重要作用一样,证实性悖论在力图为科学总结出“归纳”逻辑中也起了重要作用.在将来,这样一种逻辑兴许会成为科学家对支配我们宇宙的规律作永无止境的探索中的—个有价值的工具.。