理论分布和抽样分布.

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第四章理论分布和抽样分布

本章的二项式分布和正态分布在数学上已讲过，在本书中不作为重点内容。

自学内容：

1、事件：

事件的概念、事件间的关系、事件的运算

2、概率：

概率的概念、计算概率的法则

3、二项式分布：

二项总体及二项式分布、二项式分布的概率计算方法、二项式分布的形状和参数。

4、正态分布：

正态分布的意义、正态分布曲线的特征、标准化正态分布、正态分布的概率计算。

第一节概率

一、事件及其类型

事物发生某种情况或实验中获得的某种结果称为某一事件

必然事件(U)——在一定条件下必然会出现的

不可能事件(V)——在一定条件下必然不会出现的

随机事件(A)——在一定条件下必然可能出现也可能不出现

事件关系：

a．事件和：至少发生一个事件。

b．事件积：同时发生事件。

c．事件差：A发生而B不发生。

d．互不相容事件：不能同时发生的事件关系，如一胎生1只和生2只猪。

e．对立事件：严格的不相容事件，是一种非此即彼的事件关系。如男和女，生和死，A和非A。

f．独立事件：互不影响发生的事件关系，如张三生男孩和李四生女孩。

二、频率与概率

A——正面向上

a——A出现的次数

n——总次数

a/n———A出现的频率

P(A)——A的概率，若实验或观察的次数n无限大，则A发生的频率a/n必稳定以某一定值p 为中心上下做微小的摆动，那么这个p就称为随机事件A的概率

三、“小概率事件实际不可能”原理

小概率事件——如果一个事件的概率小于一个很小的数值，如5%或者1%，则称其为小概率事件。

小概率事件不可能原理——小概率事件在一次试验中，实际上可以认为不可能发生。

四、概率的计算法则

（一）加法定理P(A+B)=P(A)+P(B)，A与B是互斥事件。

（二）乘法定理P(AB)=P(A)P(B)，A与B是相互独立的。

五、随机变量

随机变量：是指从随机变数中所取得的某一实数值。

随机变量：可分为离散型随机变量和连续型随机变量

离散型随机变量：试验只有几个确定的结果，并可一一列出，变量y的取值可用实数表示，且y 取某一值时，其概率是确定的，这种类型的变量称为离散型随机变量。将这种变量所有可能取值及其对应概率一一列出所形成的分布称离散型随机变量的概率分布，也可用函数f(y)表示，称为概率函数。

连续型随机变量：变量y的取值仅是一个范围，且y在该范围内取值时，其概率是确定的。这时取y为一固定值是无意义的，因为在连续尺度上一点的概率几乎为0。这种类型的变量称为连续型随机变量。

第二节二项式分布

一、二项总体及二项式分布

1、二项总体（binary population）：由非此即彼的对立事件构成的总体。

例如：小麦种子发芽和不发芽，硬币的正面与反面，调查棉田盲椿象为害分为受害株和不受害株等等。这类变数均属间断性随机变数。

为便于研究，通常将二项总体中的“此”事件以变量“1”表示，具概率p；

将“彼”事件以变量“0”表示，具概率q 。因而二项总体又称为0、1总体，其概率则显然有：

p+q=1或q=1-p

2、二项分布：从二项总体抽取n 个个体，将有n+1种取值，这n+1种取值各有其

概率，这些概率构成的分布就是二项分布。

例如观察施用某种农药后供试5只蚜虫的死亡数目，记“死”为0，记“活”为1，观察结果将出现6种事件，它们是5只全死、4死1活、3死2活、2死2活、1死4活、5只全活、这6种事件构成了一个完全事件系，但6个事件的概率不同，将完全事件系的总概率1分布到6个事件中去，就是所谓的概率分布。如果将活的虫数y 来代表相应的事件，便得到了关于变量y 的概率分布。下面将给出二项分布的概率计算方法。

二、二项式分布的概率计算方法

数学上的组合公式为：

()!

!!y n y n C n y -=

n 相当于抽样单位数，y 相当于某种事件发生的次数。因此y 的概率函数为：

()y n y y

q p C y p -=

p (y)变量y 发生的概率，p 为此事件发生的概率，q 为彼事件发生概率

[例4.1]棉田盲椿象为害的统计概率乃从调查2000株后获得近似值p=0.35。现受害株事件为A ，其概率为p=0.35，未受害株事件为对立事件，其概率q=(1-0.35)=0.65。这一试验是可以重复的。假定做了n 次试验，即抽出n 株为一个抽样单位，那么，试问出现有y 株是受害的，其概率应有多少？

假定n=1，即抽出一株为一个抽样单位，那么，总体2000个单位中有多少株受害？多少株未受害？这里已知P （A ）=0.35和P （A ）=0.65,总体的理论次数分布则以n 乘上述概率分布，即np 和n(1-p)，所以有2000×0.35=700株受害和2000×0.65=1300株未受害。

如调查5株为一个抽样单位，即n=5，则受害株数y=0，1，2，3，4和5的概率可以计算出来，如表4.2。棉株受害数乃一随机变数(y) ,可以计算变量y 相应的概率函数P(y=i)=C i

n p i q n-i

和累计函数()()∑===y

i i y p y F 0

如果每次抽5个单株，抽n=400次，则理论上我们能够得到y=2的次数应为：理论次数=400×P （2）=400×0.3364=134.56(次) 对于任意y ，其理论次数为：理论次数=Np(y)