简单随机变量之和与正态分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简单随机变量之和与正态分布
本文将笼统,随意的讲解,为什么多随机变量之和可以认为服从正态分布。
首先我们建立一个简单的随机变量之和的模型。假设我们手里有一枚硬币,我们认定硬币的正面为1,反面为0,那么抛一次硬币的情况就是0或1且他们的概率都是50%。如果我不写概率也是写概率的比例,那么这个比例可以写为1:1。现在我们抛两次硬币,那么这个结果有四种,00,01,10,11。相信你知道我在说什么。那么正同我们提到的,我们要的是随机变量之和,所以我们有0,1,2。且他们的比例可以很容易的得到,是1:2:1。那么如果抛三次硬币呢?可能的结果就是0,1,2,3,而他们的比例是1:3:3:1。也许你已经发现这个规律了,也许你没有,但我会告诉你的。假如你抛2N次硬币,并且求和,那么其结果就是0,1,2……2N,共2N+1种可能。这2N+1种可能的比例服从组合数C2N i。你可以代入刚才抛三次的情况,C30:C31:C32:C33就是我们得到的1:3:3:1。至于为什么这个比例符合组合数,抛两次硬币那里举了个例子,就不重复了。这里简单的定义以下,每个随机变量称作X i他们的和称作Y,也就是:
2N
Y=∑X i
1
(为什么突然变成了抛2N次而不是抛N次,因为我想保证我抛的是偶数次,这样Y的均值就是N了,你会发现抛两次的时候,Y的均值就是1,但是如果你抛三次,Y的均值就会是1.5,我想避免这个小数。)
所以接下来我们就要说明,组合数的分布规律为什么就成了正态分布。那么首先,你相信这个结论吗?让我们从抛多次到抛少次,来看一下正态分布和这个组合数分布到底有多像。
从Y的取值范围你也能猜出,这里分别是N取5,10,15,20的情况,实际上除了N 取5,也就是抛10次的时候,你还能看得清楚红线和蓝线,当N取10也就是抛20次以后,两线其实非常吻合了。你还可以看一下他们之间的误差,其峰值也是逐渐减小的。
有了直观图形,我们就得意识到,Y 从某种角度上确实也服从正态分布,尽管它其实是我们通过组合数构造出来的。我们来看一下正态分布有个什么特点。我们都知道正态分布是:
f (x )=1(x −μ)2
2σ2) 我认为,这个函数的本质其实就是:exp(−x 2)。你可以对它取以下对数,那么他就成了二次函数−x 2,如果你愿意再对他求导,那么它就会变成−2x ,也就是线性函数。即使你考虑了我所忽略的那几个东西,也不会改变这个函数的本质,那就是它取对数后,应该是二次项系数为负的二次函数,且既然是二次函数,求导,就是一次的了。既然Y 的分布规律和它很相似,那么组合数也应该有类似的结论。所以我们对组合数先取个对数,得到: ln (C 2N x )=∑ln(i)2N
2N−x+1−∑ln(i)x 1
(这里作为自变量习惯性的用字母x 表示,但是它的涵义是2N 个随机变量之和Y )
然后我们需要对这个东西关于x 求导,但是它是离散的,没有导数,只能求差分。(你对二次函数求差分其结果也还是一次的,所以这里用差分对比之前二次函数求微分,是没有关系的。)
ln (C 2N x )−ln (C 2N x−1)=∑ln (i )2N
2N−x+1−∑ln (i )x 1−∑ln (i )2N 2N−x+2+∑ln (i )x−11
=ln (2N −x +1)−ln (x )
这个函数在x=N 附近的线性度非常的好。我取N 为15,也就是抛30次硬币的情况下。
为什么呢,你可以对上式再求个导:
1x −2N −1−1x =2N +1x(x −2N −1)
因为我们说多个简单实验,所以N 应该比较大,不妨忽略了这个2N+1中的1,然后我们把这个函数左移N 个单位。现在我们得到的就是:
2N x(x −2N)x=x+N → 2N (x +N)(x −N)=2N N 2−x 2
终于,一切豁然开朗了起来,这个函数的分母N 2−x 2在N 足够大,而x 又相对较小的时候,x 2就成了可以忽略的无穷小项,这样上式就成了一个常数,因为我们平移过,所以实际上这个函数近似的在N 的附近是一个常数。这里继续取N 为15,看一下这个函数。
那么远离中心N的数,他们不能近似为常数怎么办呢?我的理解是,无论是正态分布,还是前面组合数这样的分布,远离中心的那些结果,都是概率极低事件,可以不去关心他。
所以最后的结论就是,由于组合数的这种分布方式,其在中心的附近的分布律可以和和正态分布一样,取对数后变化成二次函数,所以组合数的这种分布律可以很好的服从正态分布的。
有点不足的是,这里考虑抛硬币作为最基本模型,它的概率分布非常简单。如果基本事件的分布律不是二元的而是多元的甚至是连续的,或基本事件的分布律不是这样对称的,那
么他们求和又是为什么能服从正态分布呢?那就再说吧= =