第六章 抽样与总体参数的估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 抽样与总体参数的估计
统计推断是统计学研究的重要内容。抽样是进行统计 统计推断的基础工作。参数估计是统计推断的重要内 容之一。 6.1 抽样与抽样分布 6.2 参数的估计方法 6.3 总体均值和总体比例的区间估计 6.4 两个总体均值及两个总体比例之差的估计 6.5 正态总体方差及两个正态总体方差比的区间估计 6.6 相关系数的区间估计
解: µ=54,σ=6,
62 2 σ X = = 0.72, σ X = 0.72 = 0.85, 50 (1) X ~ N (54, 0.852 ), X − 54 52 − 54 52 − 54 (2) P ( X ≤ 52) = P ( Z ≤ = ) = P( Z ≤ ) 0.85 0.85 0.85 = P( Z ≤ −2.35) = P( Z ≥ 2.35) = 0.5 − P (0 < Z < 2.35) = 0.5 − 0.4906 = 0.0094
两个结论 :
2 (1)设有两个总体X和Y, X ~ N( µ1 , σ 12 ), Y ~ N( µ 2 , σ 2 ), 且X和Y相互
独立。X 1 , X 2 ,..., X n1 是来自总体X的样本容量为n 1 , Y1 , Y2 ,..., Yn 2 是 来自总体Y样本容量为n 2的随机样本,
6.1.3 样本均值的分布与中心极限定理
1、样本均值X分布的含义 采用随机抽样的方法,从总体中抽取大小为n的一个样本,计 算出它的平均值X1,然后将这些个体放回总体去,再抽取n个个 体,又可以计算出平均值X2,… 再将n个个体放回去,再抽取n个 个体,如此可以计算出无限个X,这些样本均值X所有可能值的 概率分布叫均值X的抽样分布. 设X1,X2,…,Xn为某总体中抽取的随机样本, X1,X2,…,Xn为相 互独立,且与总体有相同分布的随机变量. (1)当总体为正态分布N(µ, σ2)时,X的抽样分布仍为正态分 E(X ) = µ X = µ, 布, 当n越来越大时,X的 2 σ 2 D(X ) = σ X = , 离散程度越来越小, n 即用X估计µ越准确。 σ 2
∑
n2
i =1
Yi
F(n1-1,n2-1)为第一自由度(分子自由度)为n1-1,为第二自由度 (分母自由度)为n2-1的F分布。
F分布的定义 分布的定义
设有两个总体X, Y,已知X ~ χ 2 (n 1 ), Y ~ χ 2 (n 2 ), 并且X与Y相互独立,则称随机变量 F= X/n 1 服从第一自由度为n 1 , 第二自由度为n 2的F分布,记为F~F(n 1 , n 2 ) Y/n 2
(1)简单随机抽样(Simple random sampling) 完全随机地选取样本,要求有一个完美的抽样框或有总体中每一个个 体的详尽名单。可以采取抽签或随机数字表的办法实现。 (2)分层抽样(Reduced sampling) 先将总体分成不同的“ 层”, 然后,在每一“ 层”内进行简单随机 抽样。可防止简单随机抽样造成的样本构成与总体构成不成比例的 现象。 (3)整群抽样(Cluster Sampling) 在整群抽样中,总体首先被分成称作群的独立的元素组,总体中的每一 元素属于且仅属于某一群。抽取一个以群为元素的简单随机样本, 样本中的所有元素组成样本。在理想状态下,每一群是整个总体小 范围内的代表。 (4)系统抽样(Systematic sampling) 又称等距抽样。从前k个元素中随机选一个,然后在样本框中每隔一 定距离抽取一个。
(2)
(3)
例6.2 某厂声称生产的电池µ=54个月,σ=6个月的寿命 分布。某消费团体为检验该厂的说法是否准确,购买 了50个该厂生产的电池进行试验。 (1)若厂商声称是正确的,描述50个电池寿命的抽 样分布; (2)若厂商声称是正确的,则50个样品组成的样本 的平均寿命不超过52个月的概率是多少?
S S Y2 =
2 X
σ σ
n1 i =1 n2
σ
S S
2 1 2 2
σ
2 2
S Y2
~ F ( n 1 − 1 , n 2 − 1 ), 1 − X ) , X = n1
2 2 n1
2 X
1 = n1 − 1 1 = n2 − 1
∑ ∑
(X
i
∑
X
i =1
i
2 Y
i=1
1 (Y i − Y ) , Y = n2
6.1.2 抽样方法 抽样设计与全面调查相比有如下特点: (1)节省人力及费用; (2) 节省时间,提高调查研究的时效性; (3)保证研究结果的准确性。 抽样方法分为两类:概率抽样和非概率抽样 1、概率抽样 •根据已知的概率选取被调查者; •最理想、最科学的抽样方法; •能保证样本数据对总体的代表性; •能有效控制抽样误差,将其限制在一定范围内; •缺点是:相对非概率抽样,花费较大。 概率抽样的几种形式:
态变量的个数.
卡方分布的特点: 1)卡方分布是一个正偏态分布。随自由度n的不同,其分布曲 线的形状不同, n小,分布偏斜; n很大,接近于正态分布。 当自由度df=n +∞时,卡方分布即为正态分布。
具有可加性。
χ 2 值都是正值; χ 2 分布的和也是 χ 2 分布,即 ∑ χ 2 = χ12 +χ 22 + ... + χ k2 3)k个 2 χ 2 分布 是服从自由度df=df1+df2+…+dfk的 χ 分布。表明
2、非概率抽样 不是完全按随机原则选取样本。 (1)方便抽样(Convenience sampling) 由调查人员自由、方便地选择被调查者的非 随机选样。 (2)判断抽样(Judgement sampling) 通过某些条件过滤选择某些被调查者参与调 查的判断抽样法。
建议使用概率抽样方法:简单随机抽样、分层抽样、整群抽样或系统 抽样。从所估总体特征与样本结果的接近程度上讲,公式可用于估计 抽样结果的“ 优良性”。而用方便抽样和判断抽样方法不能对该“ 优 良性”进行估计。因而,当解释由非概率抽样方法得到的结果时,要 特别小心。
2)
4) E ( χ 2 ( n )) = n ,
D ( χ 2 ( n )) = 2 n
卡方分布表给出了卡方变 量在不同自由度下的临界 值. 2 2
P ( χ > χα (n)) = α
0
2 χα ( n)
当n很大时,
2 χ 2 ( n)
近似服从 N ( 2n − 1,1)
2 p
1 实用上,n>45时, χ (n) ≈ (u p + 2n − 1) 2 2
Up为正态分布的p分位数。
6.1.5 两个方差比的分布
设 X 1 , X 2 ,..., X n1
N ( µ1 , σ 12 )的一个样本; 来自正态总体
2 来自正态总体 N ( µ 2 , σ 2 ) 的一个样本
Y1 , Y2 ,..., Yn2
S
2 X 2 1
且Xi(i=1,2,…,n1)与Yi(i=1,2,…,n2) 相互独立,则
例6.1 从一个均值µ=8,σ=0.6的总体中随机选取容 量为n=25的样本。假定该总体不是很偏的, 求:(1) 样本均值 X 小于7.9的近似概率; (2) X 超过7.9的近似概率; (3) X 在总体均值µ=8附近0.1范围内的概率.
解: 根据中心极限定理,在总体不很偏的情况下,
µ X = 8, σX = σ
( )
2 σ X = D(X ) =
σ
n
中心极限定理(Central Limit theorem): 中心极限定理 设从均值为µ,方差为σ2(有限)的任意一个总体中抽 取大小为n的样本,当n充分大时(n≥30),样本均值X 的抽样分布近似服从均值为µ,方差为σ2/n的正态分 布。
x
X
什么叫n充分大呢? 总体偏离正态越远,则要求n就越 大。在实际应用中常要求n≥30。 30
X ~ N µ, n
(2)当总体的分布不是正态分布时,只要样本容量n足 够大时,样本均值的分布总是近似正态分布,此时要 求总体方差σ2有限。 假定总体均值为µ,方差为σ2
n ∑ Xi = 1 E ( X + X + ... + X ) E X = E i =1 1 2 n n n 1 1 = [E ( X 1 ) + E ( X 2 ) + ... + E ( X n ) ] = ( µ + µ + ... + µ ) n n nµ = =µ n n ∑ Xi n 1 i =1 = 1 D( X i ) = 2 [D ( X 1 ) + D ( X 2 ) + ... + D ( X n ) ] D(X ) = D ∑ n n2 n i =1 nσ 2 σ 2 1 2 2 2 = 2 (σ + σ + ... + σ ) = = n n2 n
6.1 抽样与抽样分布 6.1.1 总体、个体和样本
总体(Population)--要研究的事物或现象的总体。 个体(Item unit)--组成总体的每个元素(成员)。 总体容量(Population size)--一个总体中所含个体的数量。 (Sample)-样本(Sample)--从总体中抽取的部分个体。 样本容量(Sample size)--样本中所含个体的数量。 抽样(Sampling)--为推断总体的某些重要特征,需要从总体 中按一定抽样技术抽取若干个体的过程。 统计量(Statistic)--由样本构造,用来估计总体参数的函数。统 计量是样本的函数,只依赖于样本;统计量不含任何参数。 样本均值、样本方差等都是统计量。
S
2
=
∑ ∑
k
n
i =1
( xi − x )2 n −1 ,
(未分组数据)
S
2
=
i =1
( xi − x )2 ⋅ fi
∑
k
i =1
fi − 1
(组距分组数据)
(2)卡方分布 设X1,X2,…,Xn为来自正态分布N(0,1)的一个样本,
∑百度文库
n
X
i =1
2 i
~ χ
2
(n )
χ 2 (n) 为自由度为n的卡方分布, 自由度n是相互独立的正
小概率事件
如果真观察到50个电池平均寿命低于52个月, 则有理由怀疑厂方说法的正确性。
例6.3 某电梯承受的最大拉力为1000千克,可乘坐13人。 已知人群的平均体重为60千克,标准差为14千克,且 服从正态分布。问电梯发生事故的概率是多少?
解: µ=60,σ=14,n=13 则
14 2 X ~ N ( 60 , ) = N ( 60 ,3 .882 2 ), 13 X − 60 ZX = , 3 .882 1000 X max = = 76 .923 , 13 76 .923 − 60 Z X max = = 4 .359 , 3 .882 P ( X ≥ X max ) = P ( Z X ≥ Z X max ) = P ( Z X ≥ 4 .359 ) = 0 .5 − P ( 0 < Z X < 4 .359 ) = 0 .5 − 0 .499993 = 0 .000007
n = 0.6 = 0.12, 25
2 X ~ N ( µ X , σ X ) = N (8, 0.122 ),
(1)
X − 8 7.9 − 8 = ) = P( Z < −0.83) 0.12 0.12 = P( Z > 0.83) = 0.5 − P(0 < Z < 0.83) = 0.5 − 0.2967 = 0.2033 P( X < 7.9) = P ( Z < P( X > 7.9) = 1 − P ( X ≤ 7.9) = 1 − P ( X < 7.9) = 1 − 0.2033 = 0.7967 7.9 − 8 X − 8 8.1 − 8 <Z = < ) = P (−0.83 < Z < 0.83) 0.12 0.12 0.12 = 2 P(0 < Z < 0.83) = 2 × 0.2967 = 0.5934 P(7.9 < X < 8.1) = P(
该电梯发生事故的概率为0.000007
6.1.4 样本方差的分布 样本方差的分布较复杂,它与总体分布有关。在这里 只研究当总体为正态分布时,样本方差的分布。 (1)样本方差的分布 设X1,X2,…,Xn为来自正态分布N(µ,σ2)的样本,则 从数学上可以推导出正态总体下样本方差S2的分布 ( n − 1) S 2 为: ~ χ 2 ( n − 1 ), σ 2
统计推断是统计学研究的重要内容。抽样是进行统计 统计推断的基础工作。参数估计是统计推断的重要内 容之一。 6.1 抽样与抽样分布 6.2 参数的估计方法 6.3 总体均值和总体比例的区间估计 6.4 两个总体均值及两个总体比例之差的估计 6.5 正态总体方差及两个正态总体方差比的区间估计 6.6 相关系数的区间估计
解: µ=54,σ=6,
62 2 σ X = = 0.72, σ X = 0.72 = 0.85, 50 (1) X ~ N (54, 0.852 ), X − 54 52 − 54 52 − 54 (2) P ( X ≤ 52) = P ( Z ≤ = ) = P( Z ≤ ) 0.85 0.85 0.85 = P( Z ≤ −2.35) = P( Z ≥ 2.35) = 0.5 − P (0 < Z < 2.35) = 0.5 − 0.4906 = 0.0094
两个结论 :
2 (1)设有两个总体X和Y, X ~ N( µ1 , σ 12 ), Y ~ N( µ 2 , σ 2 ), 且X和Y相互
独立。X 1 , X 2 ,..., X n1 是来自总体X的样本容量为n 1 , Y1 , Y2 ,..., Yn 2 是 来自总体Y样本容量为n 2的随机样本,
6.1.3 样本均值的分布与中心极限定理
1、样本均值X分布的含义 采用随机抽样的方法,从总体中抽取大小为n的一个样本,计 算出它的平均值X1,然后将这些个体放回总体去,再抽取n个个 体,又可以计算出平均值X2,… 再将n个个体放回去,再抽取n个 个体,如此可以计算出无限个X,这些样本均值X所有可能值的 概率分布叫均值X的抽样分布. 设X1,X2,…,Xn为某总体中抽取的随机样本, X1,X2,…,Xn为相 互独立,且与总体有相同分布的随机变量. (1)当总体为正态分布N(µ, σ2)时,X的抽样分布仍为正态分 E(X ) = µ X = µ, 布, 当n越来越大时,X的 2 σ 2 D(X ) = σ X = , 离散程度越来越小, n 即用X估计µ越准确。 σ 2
∑
n2
i =1
Yi
F(n1-1,n2-1)为第一自由度(分子自由度)为n1-1,为第二自由度 (分母自由度)为n2-1的F分布。
F分布的定义 分布的定义
设有两个总体X, Y,已知X ~ χ 2 (n 1 ), Y ~ χ 2 (n 2 ), 并且X与Y相互独立,则称随机变量 F= X/n 1 服从第一自由度为n 1 , 第二自由度为n 2的F分布,记为F~F(n 1 , n 2 ) Y/n 2
(1)简单随机抽样(Simple random sampling) 完全随机地选取样本,要求有一个完美的抽样框或有总体中每一个个 体的详尽名单。可以采取抽签或随机数字表的办法实现。 (2)分层抽样(Reduced sampling) 先将总体分成不同的“ 层”, 然后,在每一“ 层”内进行简单随机 抽样。可防止简单随机抽样造成的样本构成与总体构成不成比例的 现象。 (3)整群抽样(Cluster Sampling) 在整群抽样中,总体首先被分成称作群的独立的元素组,总体中的每一 元素属于且仅属于某一群。抽取一个以群为元素的简单随机样本, 样本中的所有元素组成样本。在理想状态下,每一群是整个总体小 范围内的代表。 (4)系统抽样(Systematic sampling) 又称等距抽样。从前k个元素中随机选一个,然后在样本框中每隔一 定距离抽取一个。
(2)
(3)
例6.2 某厂声称生产的电池µ=54个月,σ=6个月的寿命 分布。某消费团体为检验该厂的说法是否准确,购买 了50个该厂生产的电池进行试验。 (1)若厂商声称是正确的,描述50个电池寿命的抽 样分布; (2)若厂商声称是正确的,则50个样品组成的样本 的平均寿命不超过52个月的概率是多少?
S S Y2 =
2 X
σ σ
n1 i =1 n2
σ
S S
2 1 2 2
σ
2 2
S Y2
~ F ( n 1 − 1 , n 2 − 1 ), 1 − X ) , X = n1
2 2 n1
2 X
1 = n1 − 1 1 = n2 − 1
∑ ∑
(X
i
∑
X
i =1
i
2 Y
i=1
1 (Y i − Y ) , Y = n2
6.1.2 抽样方法 抽样设计与全面调查相比有如下特点: (1)节省人力及费用; (2) 节省时间,提高调查研究的时效性; (3)保证研究结果的准确性。 抽样方法分为两类:概率抽样和非概率抽样 1、概率抽样 •根据已知的概率选取被调查者; •最理想、最科学的抽样方法; •能保证样本数据对总体的代表性; •能有效控制抽样误差,将其限制在一定范围内; •缺点是:相对非概率抽样,花费较大。 概率抽样的几种形式:
态变量的个数.
卡方分布的特点: 1)卡方分布是一个正偏态分布。随自由度n的不同,其分布曲 线的形状不同, n小,分布偏斜; n很大,接近于正态分布。 当自由度df=n +∞时,卡方分布即为正态分布。
具有可加性。
χ 2 值都是正值; χ 2 分布的和也是 χ 2 分布,即 ∑ χ 2 = χ12 +χ 22 + ... + χ k2 3)k个 2 χ 2 分布 是服从自由度df=df1+df2+…+dfk的 χ 分布。表明
2、非概率抽样 不是完全按随机原则选取样本。 (1)方便抽样(Convenience sampling) 由调查人员自由、方便地选择被调查者的非 随机选样。 (2)判断抽样(Judgement sampling) 通过某些条件过滤选择某些被调查者参与调 查的判断抽样法。
建议使用概率抽样方法:简单随机抽样、分层抽样、整群抽样或系统 抽样。从所估总体特征与样本结果的接近程度上讲,公式可用于估计 抽样结果的“ 优良性”。而用方便抽样和判断抽样方法不能对该“ 优 良性”进行估计。因而,当解释由非概率抽样方法得到的结果时,要 特别小心。
2)
4) E ( χ 2 ( n )) = n ,
D ( χ 2 ( n )) = 2 n
卡方分布表给出了卡方变 量在不同自由度下的临界 值. 2 2
P ( χ > χα (n)) = α
0
2 χα ( n)
当n很大时,
2 χ 2 ( n)
近似服从 N ( 2n − 1,1)
2 p
1 实用上,n>45时, χ (n) ≈ (u p + 2n − 1) 2 2
Up为正态分布的p分位数。
6.1.5 两个方差比的分布
设 X 1 , X 2 ,..., X n1
N ( µ1 , σ 12 )的一个样本; 来自正态总体
2 来自正态总体 N ( µ 2 , σ 2 ) 的一个样本
Y1 , Y2 ,..., Yn2
S
2 X 2 1
且Xi(i=1,2,…,n1)与Yi(i=1,2,…,n2) 相互独立,则
例6.1 从一个均值µ=8,σ=0.6的总体中随机选取容 量为n=25的样本。假定该总体不是很偏的, 求:(1) 样本均值 X 小于7.9的近似概率; (2) X 超过7.9的近似概率; (3) X 在总体均值µ=8附近0.1范围内的概率.
解: 根据中心极限定理,在总体不很偏的情况下,
µ X = 8, σX = σ
( )
2 σ X = D(X ) =
σ
n
中心极限定理(Central Limit theorem): 中心极限定理 设从均值为µ,方差为σ2(有限)的任意一个总体中抽 取大小为n的样本,当n充分大时(n≥30),样本均值X 的抽样分布近似服从均值为µ,方差为σ2/n的正态分 布。
x
X
什么叫n充分大呢? 总体偏离正态越远,则要求n就越 大。在实际应用中常要求n≥30。 30
X ~ N µ, n
(2)当总体的分布不是正态分布时,只要样本容量n足 够大时,样本均值的分布总是近似正态分布,此时要 求总体方差σ2有限。 假定总体均值为µ,方差为σ2
n ∑ Xi = 1 E ( X + X + ... + X ) E X = E i =1 1 2 n n n 1 1 = [E ( X 1 ) + E ( X 2 ) + ... + E ( X n ) ] = ( µ + µ + ... + µ ) n n nµ = =µ n n ∑ Xi n 1 i =1 = 1 D( X i ) = 2 [D ( X 1 ) + D ( X 2 ) + ... + D ( X n ) ] D(X ) = D ∑ n n2 n i =1 nσ 2 σ 2 1 2 2 2 = 2 (σ + σ + ... + σ ) = = n n2 n
6.1 抽样与抽样分布 6.1.1 总体、个体和样本
总体(Population)--要研究的事物或现象的总体。 个体(Item unit)--组成总体的每个元素(成员)。 总体容量(Population size)--一个总体中所含个体的数量。 (Sample)-样本(Sample)--从总体中抽取的部分个体。 样本容量(Sample size)--样本中所含个体的数量。 抽样(Sampling)--为推断总体的某些重要特征,需要从总体 中按一定抽样技术抽取若干个体的过程。 统计量(Statistic)--由样本构造,用来估计总体参数的函数。统 计量是样本的函数,只依赖于样本;统计量不含任何参数。 样本均值、样本方差等都是统计量。
S
2
=
∑ ∑
k
n
i =1
( xi − x )2 n −1 ,
(未分组数据)
S
2
=
i =1
( xi − x )2 ⋅ fi
∑
k
i =1
fi − 1
(组距分组数据)
(2)卡方分布 设X1,X2,…,Xn为来自正态分布N(0,1)的一个样本,
∑百度文库
n
X
i =1
2 i
~ χ
2
(n )
χ 2 (n) 为自由度为n的卡方分布, 自由度n是相互独立的正
小概率事件
如果真观察到50个电池平均寿命低于52个月, 则有理由怀疑厂方说法的正确性。
例6.3 某电梯承受的最大拉力为1000千克,可乘坐13人。 已知人群的平均体重为60千克,标准差为14千克,且 服从正态分布。问电梯发生事故的概率是多少?
解: µ=60,σ=14,n=13 则
14 2 X ~ N ( 60 , ) = N ( 60 ,3 .882 2 ), 13 X − 60 ZX = , 3 .882 1000 X max = = 76 .923 , 13 76 .923 − 60 Z X max = = 4 .359 , 3 .882 P ( X ≥ X max ) = P ( Z X ≥ Z X max ) = P ( Z X ≥ 4 .359 ) = 0 .5 − P ( 0 < Z X < 4 .359 ) = 0 .5 − 0 .499993 = 0 .000007
n = 0.6 = 0.12, 25
2 X ~ N ( µ X , σ X ) = N (8, 0.122 ),
(1)
X − 8 7.9 − 8 = ) = P( Z < −0.83) 0.12 0.12 = P( Z > 0.83) = 0.5 − P(0 < Z < 0.83) = 0.5 − 0.2967 = 0.2033 P( X < 7.9) = P ( Z < P( X > 7.9) = 1 − P ( X ≤ 7.9) = 1 − P ( X < 7.9) = 1 − 0.2033 = 0.7967 7.9 − 8 X − 8 8.1 − 8 <Z = < ) = P (−0.83 < Z < 0.83) 0.12 0.12 0.12 = 2 P(0 < Z < 0.83) = 2 × 0.2967 = 0.5934 P(7.9 < X < 8.1) = P(
该电梯发生事故的概率为0.000007
6.1.4 样本方差的分布 样本方差的分布较复杂,它与总体分布有关。在这里 只研究当总体为正态分布时,样本方差的分布。 (1)样本方差的分布 设X1,X2,…,Xn为来自正态分布N(µ,σ2)的样本,则 从数学上可以推导出正态总体下样本方差S2的分布 ( n − 1) S 2 为: ~ χ 2 ( n − 1 ), σ 2