概率论文正态分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布在生活中的应用
X班XX XX XXX
【部分名词解释】
正态分布:正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
若随机变量X服从一个数学期望为μ、标准方差为σ^2的高斯分布,记为:则其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
因其曲线呈钟形,因此人们又经常称之为钟形曲线。
我们通常所说的标准正态分布是μ= 0,σ= 1的正态分布。
【引入】
正态分布是一个具有神秘色彩的分布。
我们知道,对于某一件事或者某个要达到的目标,很多很多的个体发挥出来的水平大致上服从正态分布。
也就是说,对于大量个体的发挥统计,常常能看到正态分布“冥冥之中”束缚着整体的状态。
对于某个单独的单位,一般来说,对于“发挥出来的水平”这件事,也往往有波动的效果,不管是机器、工具还是我们人本身:有的时候,超水平发挥了;有的时候正常发挥;有的时候又会发挥失常。
这种东西应该也可以抽象为围绕期望水平的正态分布。
还有一个角度,如果有若干数据,包括发挥水平、排位情况,但是没有整体数据的时候,如果能推测是正态分布的情形,就可以近似计算出分布函数来,然后去估计其他的分布情况。
这是反向推导的过程。
【大量个体的分布】
大量个体做同一件事,或者为同一目标去发挥,水平(成绩)分布近似为正态分布。
既然正态分布在大量个体角度是许多单位为同一个目标去发挥的结果统计,我们就要对正常的“表现情况”进行统计,而忽略“各怀各的想法”的发挥统计。
首先要去进行统计来验证这个假设的正确性,也就是说,找一些许多人参与的事,看看水平分布情况。
这里是我们对104位06级男同学的跳远成绩的统计结果。
根据上文所述的条件,“大量个体”在这里有104人;“同一目标”都是尽量向远处跳,应该是没有故意不好好干的情况。
所以理论上应该符合正态分布。
2.2 2.43 2.3 2.28 2.15 2.15 2.46 2 2.54 2.39 2.46 2.54 2.27 2.24 2.15 2.29 2.3 2.55 2.28 2.48
2.19 2.35 2.5 2.16 2.38 2.45 2.65 2.38 2.2 2.1 2.5 2.28 2.55 2.24 2.38 2.26 2.4 2.42 2.17 2.24 2.16 2.3 2.17 2.47 2.35 2.38 2.43 2.37 2.43 2.28 2.17 2.42 2.37 2.25 2.53 2.23 2.14 2.27 2.18 2.7 2.3 2.37 2.37 2.23 2.7 2.36 2.19 2.57 2.27 2.26 2.37 2.55 2.46 2.35 2.26 2.32 2.45 2 2.6 2.29 2.47 2.57 2.3 2.17 2.58 2.27 2.33 2.55 2.24 2.45 2.17 2.28 2.22 2.35 2.12 2.33 2.17 2.23 2.45 2.02 2.24 2.32 2.42 2.3 (单位:米)。
将这些数据进行分段汇总,得到如下的统计表:
从这个表格来看,形状似乎相当符合正态分布。
详细计算是:
平均数μ:2.333
标准差σ:0.147892
理论上——
第一段6人,第二段14人,第三段23人,第四段28人,第五段20人,第六段9人,第七段4人,和上表形状相符。
所以说,大量个体成绩符合正态分布是正确的。
【单独个体多次实验的分布】
对于单独个体的多次实验,其结果理论上也应该符合正态分布。
比如说,电脑上的360开机助手显示开机时间,在配置恒定不变、开机运行软件没有修改的前提下连续不断的开机,并且记录下开机速度水平,应该是满足单体的正态分布条件的。
下面是某一台电脑多次开机测试的结果:
54 ;55;58;59;59;59;59;60;60;60;60;60;60;60;60;60;60;60;60;63;64;67;68(单位:秒)。
对应的统计图为:
这已经近似为正态分布,如果再进行更加多次的记录应该会有更加好的图形出现,但是目前的状况应该已经足以反映实际问题了。
从图中看,单体的多次表现在相同状况下符合正态分布,是正确的结论。
以上为没有情感的事物的调查结果。
如果和生活中要有所结合,应该单独考虑人的成绩。
比较好的实例是“没有感情因素干扰评分”的项目,这样就只有个体本身的发挥因素,变量比较单一,易于发现问题。
射击就是很好的例子。
以下为邱健在奥运步枪男子五十米三姿中的决赛成绩:
10.2 ;8.8 ;10.5 ;10.6;9.3 ;9.4 ;10.0;10.3;10.4 ;10.0 。
平均环数为99.5环,但是很明显绝大部分环数在这个数字之上,成绩中只有第二枪8.8环是严重偏低的,将整体水平明显拉下来了。
这个应该属于“特殊情况”。
我认为,作为人,在多次发挥中出现“特殊情况”几率是不同于普通事物的。
我们观察邱健的各次成绩可以发现,在第一枪10.2环但是第二枪打出8.8环的坏成绩之后,又连续出现10.5环、10.6环的超高分;在超高分之后,又出现了9.3环、9.4 环的偏低成绩,之后才趋于稳定。
如果我们将上述数据进行“去除特殊值”的处理,也就是先去掉一个最高分,10.6环,再去掉一个最低分,8.8环,剩下的是:
10.2 ;10.5 ;9.3 ;9.4 ;10.0;10.3;10.4 ;10.0。
平均成绩10.01,并没有改变多少,但是很明显波动小了,也就是说后边的发挥逐渐稳定下来。
反过来看,就是前边的发挥还不是特别稳定了。
其实很多比赛都有类似效果,最开始的成绩会比较大的波动,后边“振幅”(姑且这么称呼)变小,有点像阻尼振动。
这个也好理解,非常有“人类特征”:出现坏成绩之后特别紧张,优秀运动员会谨慎的发挥,成绩猛的变好;变好之后稍微放松,又会使成绩略有下滑;很多局之后,大局逐渐明朗,心理稳定下来,成绩也基本稳定了。
当然,好的心理水平是优秀运动员的一大法宝,如果说心理水准也正态分布,应该也符合实际情况,就是说也存在好多的“心理不很稳定”的人,发挥失常之后就会连续失败,再也无力正常发挥。
这种人的发挥水平随机性太大,就只能够进行不同时候的多次记录来统计了,单次连续实验意义不大,因为是“同一特殊心态下”的实验,而心态也是人类发挥的影响因素之一,同一心态下的实验多少次都不能说反映了正确结论。
这个要素相当值得注意。
【应用:胜负预测】
由上文的统计结果和逻辑分析我们可以得到这样的初步结论:能力预测不是很简单的事情,每次发挥出来的水平是在标准水平附近的一个近似的正态分布。
所以说,胜负的比较,如果能够通过“发挥出来的水平”的“得分”计算的话,就可以使用正态分布进行处理了。
这里稍微解释一下什么叫通过“发挥出来的水平”的“得分”计算。
我们看上文的统计对象,开机时间、射击成绩、跳远距离等等,都可以算是“各干各的”,最后“比较结果”(当然射击什么的会知道对手发挥的状况。
这个归入心理因素就差不多是可以近似处理的了)。
并没有像足球比赛、篮球比赛这样的对抗评比。
所以,本文讨论之后的应用也应该以这样的项目为研究对象。
对于“各干各的”最后“比较结果”的比赛,我们先假设有两个不属于人类的事物,想赛马呀什么的都可以,标记为A 、B 。
假如说A 的平均成绩比B 高,显然A 会有更大的胜算。
但是真正要想比较胜负,那就是“在某一次比赛中,A 的成绩和B 的成绩比较”了。
A 获胜,等价于A 发挥出某个成绩的同时,B 发挥出比这个低的水平。
B 获胜就是反过来的状况。
当B 发挥到极限好的时候如果成绩仍然不如A 发挥到极限坏,那么B 的胜率显然为0。
这时我们假设出现了一个C ,C 的发挥特别的波动大,大到有些时候发挥出比A 的最坏成绩高,这样AC 竞争,C 就有大于零的胜算。
但是平均水平比B 差,那么我们拿B 、C 较量的话,B 更有可能打败C 。
到这个时候,我们会发现这种现象:
B 比
C 强,A 比B 、C 都强,但是最弱小的C 却比强于他的B 更有可能打败A 。
在生活中,我们很少会承认这种事情的发生,但是,这是事实。
所以说这种比赛不是简单的数据比较现象。
此类胜负的竞争,应该是“胜者不一定强”的结果。
而且,胜率的相对大小不足以说明各自的绝对水平。
抽象至此,下边提供两个对象的胜负比较时使用的数值计算方法。
还是假设有A 、B 两个对象。
A 的平均水平是μa ,发挥成绩的分布近似为正态分布Fa(x);
B 的平均水平是μb ,发挥成绩的分布近似为正态分布Fb(x)。
这样,我们说:
B 相对A 的胜算计算方式: P{B 战胜A}
=P{B 发挥出比A 高的水平}
=Σp{B 发挥出比A 高的水平|A 发挥出ai 水平}*p{A 发挥出ai 水平} 考虑到A 、B 的理论上相互独立性,又有 上边
=Σp{B 发挥出比ai 高的水平}*p{A 发挥出ai 水平} 如果用积分表示,对于连续函数,有: B 的胜率
=P{B 战胜A}
=
⎰⎰最高水平同水平与最高水平
最低水平
)()(B B A A ai dxadxb xb fb xa fa
这是个二重积分。
其中,外层积分小于零时取零。
其中用到的各个因数可以通过很多很
多次发挥水平的统计求得,最高最低水平用“3σ法则”确定。
然后讨论对于人的应用。
人因为其特殊性,受到心态的干扰,而心态不一定受到正态分布的限制,还有,心理水平的不断变化,有人越磨难越坚强,有人越磨难越崩溃,所以这些情况无法推断。
能用在人身上的是更大的近似,也差不多用上述方法处理,只不过函数的影响因素多一个“比赛次数”,因为波动性也是次数的函数。
这个计算就太复杂了。
如果强行近似,就和上文写的“非人类胜算计算”方法相似即可,不过,不确定度会比较大。
【应用:见微知著】
我们对于能够大致判断符合正态分布的一些数据,可以采用见微知著的方法,用少量个体推断其整体状态。
虽然不太保证准确,但是也是很多时候相当需要的处理方法,值得加以研究。
很常见的数据就是平时开电脑的时候看到的360开机排位了。
本次开机时间为多少多少秒,超过了百分之几的计算机,这里就提供了值X(开机时间)和超过的电脑比例(即Φ)。
通过(X-μ)/σ~N(0,1)的规律,我们近似的反向推导其分布函数。
在这之前的准备工作是,先看看近似成正态分布对不对。
这是根据一些数据绘制的图像:
其中横轴是开机时长,纵轴是对应的“超过电脑百分比”,这个图形差不多是符合正态分布的。
所以,我们可以进一步进行处理。
根据上边的时间-比率对应关系,我们找到近似的分布函数参数。
反推分布函数的方法其实是近似方法,尤其是这里只是知道整数精度的排位,所以要多次计算并且求取近似水平。
我们看50%附近的数值:
54s,超过51%;
55s,超过48%。
然后在课本的382页标准正态分布表查看各个百分比的x值区段,记录最大最小值。
现在要求使尽可能多的数落到这个理论上的范围内。
结合其他的近似计算,可以发现在μ取54.2的时候,精度是比较令人满意的。
此时σ近似取15.5。
使用这两个数值进行计算,在excel中将时间作为x,从1写到100,第二列是(x-54.2)/15.5,得到一系列数字。
将这一列数字和课本的标准正态分布表对比,如下面示例:(注:下面的是部分数据,因为有些秒数没有统计到,当然这才符合有预见性的特色)
时间(秒)超过的比例
(%)
使用近似参数结果
根据第三列通过课本给出数据
求得的标准结果(理论比例)
3 100 3.3032258065 99.95%
13 99 2.6580645161 99.61%
29 98 1.6258064516 94.84%
35 91 1.2387096774 89.25%
36 90 1.1741935484 87.90%
37 89 1.1096774194 86.65%
38 88 1.0451612903 85.31%
39 86 0.98064516129 83.65%
45 72 0.5935483871 72.24%
46 70 0.52903225806 70.19%
47 67 0.46451612903 67.72%
50 60 0.27096774194 60.64%
53 53 0.0774******** 53.19%
54 51 0.012903225806 50.40%
55 48 -0.0516******** 48.01%
从表中我们可以看到这种估计计算是比较合理的,尤其是从45秒处开始,近似度相当令人满意。
这种十分粗略的处理方式能达到这种精确度已经证明了总方向的正确性,也就是说我们的猜测和方法基本正确。
到了这个时候,我们就大概可以“见微知著”的预测一些概率了。
同样道理,对于其他的很多数据,如果能较精确的反推分布函数的参数,就可以很快估计出整体状况,进行胜率等等的计算都很有用。
【应用实例:胜率】
下面讨论胜率计算公式的实际应用。
为了省事儿,我们还拿开机时间进行比较。
下面的是电脑Z的开机时间:
次数时间
1 78
2 81
3 58
4 54
5 64
6 58
7 58
8 64
9 56
10 56
11 62
12 50
13 58
14 64
15 64
16 64
17 55
18 54
19 54
20 60
平均时间60.6秒,标准差7.492663078。
简单起见,我们假设有一个开机时间恒为58秒的电脑和Z比赛开机速度。
求Z的胜率。
先从理论上进行计算:
通过公式,找(58-60.6)/7.49266=-0.347对应结果为36.32%
实际效果我们看上边数据小于58的即可。
7组,结果是35%
这个结果是吻合得很好的。
下面看复杂的胜率情况。
当对手也有正态分布的发挥时,胜率又会是怎样的?
我们看新的电脑S:
次数时间
1 68
2 54
3 60
4 60
5 60
6 67
7 60
8 59
9 60
10 60
11 60
12 60
13 59
14 60
15 59
16 60
17 58
18 60
19 59
20 60
平均时间是60.15秒,比电脑Z快一点。
下面计算电脑Z的胜率。
首先计算Z的平均值、标准差,上文已经有了,是
平均时间60.6秒,标准差7.492663078。
电脑S的是:
平均时间60.15秒,标准差2.797766967。
通过二重积分计算得到: Z 胜率为
dydx
y f x f x
⎰⎰54.6876
.5138
)(2)(1
其中f1和f2是代入上边各自系数的正态分布函数。
结果约为40%。
实际比较可以发现20局一一对应的话,有11局获胜,胜率55%。
平均比较慢的居然胜过平均比较快的,从前边看,电脑Z 的开机时间就是开始的几次慢,后边都不很慢,就是说那几个是特殊数据。
但是,如果长时间大量实验,结果应该会更接近理论值。
我们如果去掉前两组,重新计算: Z :58.5, 4.246 S :60.06, 1.779 理论胜率:约60% 实际上:61%
这样就符合的好多了。
看来,去除特殊情况也是在样本不很多的时候必须采用的方法。
再看去除特殊值后的第一种计算,固定开机时间定为58.99秒, 理论胜率:55% 实际61%
在仅有18次的实验中,有这样的近似很可以了。
【总结】
概率和正态分布在生活中是紧密相连的,另外,统计是不可忽视的重要工具。
很多结论不通过仔细思考就不容易得到,比如本文指出的很异乎寻常的规律: “B 比C 强,A 比B 、C 都强,但是最弱小的C 却比强于他的B 更有可能打败A 。
” 就是要通过思考才能得到的。
本文反推函数系数的处理方法也是一种重要方法。
最核心的计算公式:胜率计算,是很贴近生活的公式,应该会有广泛应用。