不要相信直觉那些概率统计的奇妙结论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

不要相信直觉!那些概率统计的奇妙结论

对于概率和统计的不确定性,我们始终有足够的直觉。虽然如此,这依旧远远不够,多数人对概率的理解其实并不充分。要知道这是一个数学家稍有闪失就会错的一塌胡涂的领域,原因很多时候正是我们的直觉,而正确结论却与之相悖。我们不妨来看看几个概率统计中的奇妙结论,这也正是概率统计这门学科的魅力所在。

贝特朗奇论

在单位圆内随机地取一条弦,其长超过该圆内接等边三角形的边长√3的概率等于多少?

这个问题看似简单,结果却让人大跌眼镜。我们可以用三个完全正确的方法,得到三个完全不同的答案!

1.将弦的一段固定在等边三角形的某一个顶点上,然后另一端绕着圆周旋转。可以在图一中发现,只有当另一端点位于上方的圆弧时,这条弦的长度才会超过三角形的边长,由此可得所求概率为1/3。

2.根据几何学原理,圆内弦的长度与弦到圆心的距离有关。从图二可以看出,当弦心距小于1/2时,这条弦的长度大于三角形边长,所以这样求出的概率为1/2。

3.再来考虑一条弦的中点,根据图三可以得出:只有当弦的中点位于半径为1/2的小圆内部时这条弦的长度才满足要求,同时因为这个小圆的面积是大圆的

1/4,所以所求概率也是1/4。

你能说出到底哪种方法是错的吗?如果它们都是对的,那么这样的一道客观题又怎么会有三个不同的答案呢?

其实这三种说法都是正确的。但是它们的结果之所以不同,只是因为它们各自对问题的理解不同,采用了不同的等可能性假定。在第一种方法中,我们默认的假设是“圆内弦的端点在圆周上是均匀分布的”;在第二种方法中,我们默认的是“圆内弦到圆心的距离是均匀分布的”;第三种方法默认的假设则是“圆内弦的中点在整个圆的内部是均匀分布的”。这三种假设对应着三种不同的求解方法。

需要说的是,随意指责哪个假设是不合理的有所不妥,因为它们都是有依据的。不妥的地方在问题本身,这个问题问的并不严谨,没有对问题中的“基本空间”进行定义,导致在解题人求解时只能够依靠自己的理解补充解题所需条件。如此一来,一问三解就不足为怪了。

上述问题被称为“贝特朗奇论”,是数学家贝特朗在上世纪初提出来的,用于批判当时尚不严谨的概率论。也正是在贝特朗工作的推动下,此后概率论的研究开始向公理化方向发展。

本福特法则

据说,1881年天文学家西蒙•纽康伯发现对数表以1起首的数所在的那几页较其他页破烂,由此他怀疑以1开头的数字就是比其他数多,大量统计之后发现果真如此。这个故事的真实性已无从考究,不过它可能是本福特法则第一次被注意到。

所谓本福特法则,是指在一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,是人们通常期望值1/9的3倍,它的确切值等于lg2,而越大的数字,以它为首位的数出现的机率就越低。更一般地,我们能够说明在r进制中,以n开头的数字出现的概率是log r (n+1)- log r (n)。根据这个公式,可以制作出十进制下数字1~9开头的概率表:

这个神奇的法则几乎完全违背了人们的直觉:哪个数字开头的概率不应该是一样的嘛!

维基百科上对此有个简单的解释:就数数而言,从1开始,历经1,2,3,...,9,到这点终结的话,以哪个数起首的几率是相同的,但9之后是10至19,到这里以1起首的数出现的几率又大大高于了其他的数。而在下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。如果这种数法一旦有个终结点,以1起首的数的出现率一般都会比9大。

也就是说,我们平时认为的“以1开头和以9开头的数字一样多”这种情况,实际只有在[1,999]此类区间里才会出现。任意给一个区间,由于样本的不完整性,基本不可能出现这种情况。从这里也可以看出,要想使得本福特法则生效,便不能对数字的区间范围进行明确的规定。

说到这里,大家自然会进而关心本福特法则在实际生活中的应用。我们可以在这个页面下方列出的表格中看到,不论是各国人口数量还是门牌号码都基本服从本福特法则,而且这些统计得到的结果和理论预测值的误差也很小。从而这些生活中的实例也说明了以1开头的数字确实是最多的,死理性派对此曾有过详细的介绍。

这个法则最经典和广泛的应用是验证统计数据真伪。如果一个包含了几千个数字的样本居然完全不服从本福特法则,那么你可要小心了,这个样本很有可能是伪造的。而除此之外,本福特法则在会计、股票甚至是选举领域也有着重要的应用。

友谊悖论

你是广交朋友的闪亮交际明星还是人际贫瘠的宅男?也许这个问题刺痛了许多不善交际的技术男的心:总能看到某个朋友每天应酬繁多、应接不暇,而自己的手机却常年不响一声。

实际上几乎每个人都会觉得朋友的朋友总是比自己的多。换句话说就是自己的朋友数,几乎总是小于自己所有朋友的朋友数的平均值。

这个结论看上去很违背直觉:如果我是某个人的朋友,那个人必然也会是我的朋友,友谊是双向的,所以我们会经验的认为整个数据是平均分布的,任何人的朋友数和他的朋友比起来应当差不多。怎么可能他们的平均朋友数会比我们自己的多呢?然而这却是事实,或者唯一的安慰是一切与你无关,这不过是一个不寻常的统计学案例。

我们不妨看看下面的这个例子。

上图是八个女孩之间的朋友关系图,其中标注了每个人的名字、朋友数和她的朋友的平均朋友数(括号内的数字)。可以发现,只有Sue和Alice两个人的朋友数比她们朋友的平均朋友数要多。如果对所有括号里的数求均数,得到的结果约为2.98;但是这八个人的平均朋友数是2.5(10条关系线×2,除以人数8)。群体中所有人朋友的朋友平均数大于群体所有人的朋友平均数,这是为什么呢?

其实这个看起来有些不可思议的结论可以这样解释:有一百个人,他们都能有一个拥有一百个朋友的朋友,但是只有一个人,能有一个只有一个朋友的朋友。这句话算不上严谨,而且很绕口,但是实际上它传达了这样的意思:在计算“朋友的朋友”这个过程中,一个人拥有越多朋友则越容易被重复计算进来。比如在上图中,Sue有四个朋友,那么“Sue拥有四个朋友”这个条件在Sue的四个朋友分别计算自己的“朋友的朋友数”时,就被重复使用了四次。

让我们来做一个简单的数学推理:设群体总人数为n,第i个人的朋友数为Fi,那么群体所有人的朋友均数就是( ∑ Fi )/n。至于所有人“朋友的朋友”则一共有∑ Fi 个样本(把每个人的朋友列举一遍),又因为第i个人的朋友数会被重复计算Fi次,所以群体中所有人“朋友的朋友”的总数为∑ Fi 2。于是其朋友的平均朋友数就是(∑ Fi 2)/( ∑ Fi )。根据均值不等式的变形可知,( ∑ Fi 2)/( ∑

Fi )≥( ∑ Fi )/n。如此一来我们就证明了在朋友圈里,朋友的平均朋友数不小于每个人的朋友均数。更精确地描述就是:

朋友的朋友均数=朋友均数+朋友数方差/朋友均数

当然,大家即便知道了这个事实也请不要灰心,你的朋友看起来总是拥有比你更多的朋友,其实只是某几个人际交往明星从中作梗,让你产生了这种错觉而已。

相关文档
最新文档