《统计学》抽样与抽样估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第5节 样本容量的确定
在重复抽样下,
x
z/ 2
n
所以,必要抽样单位数
p z/2
P(1P) n
n
z
2
/
2
2
2
x
n z2/ 2P(1 P) 2p
在不重复抽样下,必要抽样单位数
n
Nz2/ 2 2
N2 x
z2/ 22
n
Nz2/2P(1P) N2p z2/2P(1P)
例:某市进行职工家庭生活费抽样调查,已知职工家庭平均每 人每月生活费收入的标准差为110元,允许误差范围10元,概率 把握程度95%,试确定应抽选的户数。 解:
随机性误差
代表性误差是指用样本指标推断 总体指标时,由于样本结构与总 体结构不一致、样本不能完全代 表总体而产生的误差。
随机性误差又称 偶然性误差,是 指遵循随机原则 抽样,由于随机 因素(偶然性因 素)引起的误差。 抽样估计中的所 谓抽样误差,就 是指的这种随机 误差。
抽样误差
登记性误差:存在于一切调查中 代表性误差:仅产生于抽样调查,不可避免。
P(1P) n
总体比例的置信区间为
P (1P )
P (1P )
(pz/2
n ,pz/2
) n
小样本条件下,不作介绍。
例:总体比例的区间估计
【例】某城市想 要估计下岗职工 中女性所占的比 例,随机抽取了 100 个 下 岗 职 工 , 其 中 65 人 为 女 性职工。试以 95% 的 置 信 水 平 估计该城市下岗 职工中女性比例 的置信区间
描述总体分布特征的数值 样本统计量(Sample statistic)
抽样方法
重置抽样(重复抽样)(Sampling with replacement) 要从总体N个单位中随机抽取一个容量为n的样本,
每次从总体中抽取一个单位,把顺序号登记下来之后, 重新放回参加下一次抽选,连续反复抽取n次组成所 要求容量的样本。 不重置抽样(不重复抽样)(Sampling without replacement)
体的分布
样 本
x x1 x2 x N n
x x1 x2 x N
p n1 n
s 2
(xi x )2
n 1
二、抽样分布 (Sampling distribution)
1、抽样分布的意义
对统计量的所有可能取值及其对应概率的描述, 就是统计量的抽样分布,即抽样分布。
抽样分布反映样本统计量的分布特征,根据抽 样分布的规律,可揭示样本统计量与总体参数 之间的关系,计算抽样误差,并说明抽样推断 的可靠程度。
2
nn
不重复抽样:
x
2Nn
nN1 n
Nn N1
抽样平均误差 (1)比例 重复抽样:
p
p(1 p) n
不重复抽样:
p
p(1p)Nn n N1
影响抽样误差大小的因素是:

总体被研究标志的变异程抽度样。误差的大小与样本单位
小,则抽样误在差其也他愈条小件;不总变体的标数误情志的差况的平要下变方减,异根少总程成二体度反分标愈比之志大:一的,如,变则果则异抽抽样程样样本度误愈
解:重复抽样条件下,
V ( x ) 2 10 2 2
n 50
x
n
2 1.41
不重复抽样条件下,
2
V(x)
Nn1021005001.9
n N1 5010010
x 1.91.38
在样本量相同的情况下,不重复抽样的平均误差要小于重复抽 样的平均误差。
第3节 总体平均数和总体比例的估计
抽样估计必须包括三要素:
解:已知 n=100,p=65% , 1-= 95%
,z/2=1.96
p z 2
p (1 p ) n
65 % 1 .96 65 %( 1 65 %) 100
65 % 9 .35 %
55 .65 %, 74 .35 %
该城市下岗职工中女性比例的置信 区间为55.65%~74.35%
差也愈大。
单位数必须增大到4倍。
➢ 抽样单位数的多少。
在其他条件不变的情况下,抽样单位数愈多,抽样 误差愈小;抽样单位数愈少,抽样误差愈大。
➢ 抽样的方法。
在其他条件不变的情况下,重复抽样的抽样误差大 于不重复抽样。
➢ 抽样的组织形式。
例、从某校1000名学生中简单随机抽取50名学生,称得平均体重为50千克, 若已知总体标准差为10千克,计算重复抽样及不重复抽样下抽样平均误 差。
总体分布
.3
.2
Fra Baidu bibliotek.1 0
1
234
均值和方差
N
Xi
X i1 2.5 N
N
(Xi X)2
2 i1
1.25
N
现从总体中抽取n=2的简单随机样本,在重复抽样
条件下,共有4*4=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个)
第一个
第二个观察值
观察值
1
2
3
4
1
1,1
1,2
1,3
例:某厂对一批产品进行质量检验,随机重复抽取样品100只, 样本合格品率为95%,试计算把握程度为90%的合格品率置信 区间。
解:已知n=100,p=95%,1-α=90%,查表得zα/2=1.96
p
P(1P) n
0.95 0.05 100
=0.0218
Δp=zα/2 p =1.96×0.0218=0.0359或3.59% 95%-3.59%=91.41%,95%+3.59%=98.59% 故该批产品合格率的置信区间为(91.41%,98.59%)
所以该保险公司投保人的平均年龄的置信区间为(34.7,46.7)岁。
总体比例的区间估计
在大样本条件下,若np>5,n(1-p)> 5,则样本比例趋 近于正态分布。
对于给定置信度,有
P { p z /2
P ( 1 n P ) P p z /2
P ( 1 P )} 1 n
xz/2 pz/2
例:从某大学学生中随机抽取100名调查体重情况。经称量和计 算,得到平均体重为58千克。根据过去的资料知道大学生体重 的标准差是10千克。在95%的置信水平下,求该大学学生平均体
重的置信区间。
解:已知 x =58,σ=10,zα/2=1.96,n=100
x
n
=10/10=1(千克)
x
z/2
s n x t/2
s} 1 n
s
置信下限 x t/2(n1) n
x t/2置(n信上1)限sn
在大样本下,总体均值的置信区间为
(xt/2(n 1 )
sn,xt/2(n 1 )
s) n
例:某保险公司投保人年龄设某保险公司投保人年龄呈正态分布, 现从中抽取10人,其年龄分别为:32,50,40,24,33,44,45, 48,44,47岁。试以95%的置信水平估计该保险公司投保人的平均
第九章 抽样与抽样估计
第1节 抽样与抽样分布
一、有关抽样的基本概念
总体(Population) 研究对象的全体称为总体
样本(子样)(Sample) 从总体中抽取一部分个体进行试验或观察,这种从总体
中抽取个体的行为称为抽样。而从总体中抽样所得的一部分 个体叫样本 总体参数(Population parameter)
1)估计值 2)估计值的误差范围 3)概率保证程度(置信度)
一、点估计(Point estimate)
点估计也称定值估计,常用点估计方法有矩估计,极大似然 估计。
样本均值是总体均值的点估计量,样本方差s2是总体方差σ2 的点估计量,样本比例p是总体比例P的点估计量。
优良估计量的标准: 无偏性
代表性误差
系统性误差:不随样本量增减而变化 随机误差(抽样误差):随样本量增大而减小
抽样误差在实际一次调查中是调查不出来的,但其平均值是 可以推算的
抽样平均误差和抽样极限误差
抽样平均误差:所有可能的样本指标与总体指标间的平均 差异程度。
x (xm X)2, p (p m P )2
抽样极限误差
样本指标与总体指标之间允许的误差范围叫抽样极限误 差。也称抽样允许误差。
(2)样本平均数的平均数等于总体平均数
(3)样本平均数的方差等于总体方差除以样本
容量n
2 x
2
n
(4)n越大,样本平均数越趋近于正态分布
例:样本均值的抽样分布
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为X1=1、X2=2、X3=3 、X4=4 。 总体的均值、方差及分布如下
要从总体N个单位中随机抽取一个容量为n的样本, 每 次从总体中抽取一个单位,被抽中的单位不再放 回参加下一次抽选,连续进行次便组成样本。 不重复抽样所得样本对总体的代表性较大,抽样误 差较小,所以实践中通常采用不重复抽样。
抽样的组织方式
简单随机抽样:从总体中抽取样本最常用的方法。 从容量为N的总体中进行抽样,如果容量为n 的每个 可能样本被抽到的可能性相等,则称容量为n的样本 为简单随机样本。
总体分布 (population distribution)
X X1 X 2 X N N
X X1 X 2 X N
P N1 N
2
(X i X )2
N
样本分布 (sample distribution)
1. 一个样本中各观察值的分布 2. 也称经验分布
3. 当样本容量n逐渐增大时,样本分布逐渐接近总
X 2.5
X2
1.250.625 2
大数定律及中心极限定理
不重复抽样:
(1)总体是正态分布,样本必然是正态分布
(2)样本平均数的平均数等于总体平均数
(3)样本平均数的方差等于总体方差除以样本
容量n
x2
2
n
Nn N1
(4)n越大,样本平均数越趋近于正态分布
抽样平均误差 (1)均值 重复抽样:
x
抽样误差:
登记性误差
登记性误差是指在调查和汇总过程中由 于观察、测量、登记、计算等方法的差 错或被调查者提供虚假资料而造成的误 差。任何一种统计调查都可能产生登记 性误差。

系统性误差是指由于非随机因素引起的样 本代表性不足而产生的误差,表现为样本 估计量的值系统偏低或偏高。。

系统性误差
代表性误差
分层抽样:也称分类抽样或类型抽样,它是按某个 主要标志对总体各单位进行分类,然后从各层中按 随机原则分别抽取一定数目的单位构成样本。
整群抽样:也称丛聚抽样或集团抽样。它是将总体 分为若干部分(每一部分称为一个群),然后按随机 原则从中一群一群地抽选,对抽中群内的所有单位 进行全面调查。
系统抽样也称机械抽样。它是先将总体单位按一定 顺序排队,计算出抽样间隔(或抽样距离),然后 按固定的顺序和间隔抽取样本单位。
它是样本指标可允许变动的上限或下限与总体指标 之差的绝对值。
即:
X
x
pP p
落在总体均值某一区间内的样本
X
x- 3 x- 2 x-
x X+ X+2 X+ 3
68.27%的样本
95.45% 的样本 99.73% 的样本
大数定律及中心极限定理
重复抽样:
(1)总体是正态分布,样本必然是正态分布
.3 P (X ) .2 .1 0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
样本均值的抽样分布
样本均值的分布与总体分布的比较
总体分布
.3
.2
.1 0
1
234
= 2.5
σ2 =1.25
.3 P ( X ) 抽样分布
.2
.1
0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
1,4
2
2,1
2,2
2,3
2,4
3
3,1
3,2
3,3
3,4
4
4,1
4,2
4,3
4,4
计算出各样本的均值,如下表。并给出样本均值的抽
样分布
16个样本的均值
第一个 观察值
第二个观察值 1 2 3 4
1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0
年龄。 解:
xx40/71040.( 7 岁) n
s (xx)2 63.14/98.39( 39岁 7 ) n1
s 8.392 3 82.65(4 岁 ) 4
x
n
10
当置信度为95%时, x
t/2x
=2.2622
2.6544=6.00(岁)
因为40.7-6.00=34.7 40.7+6.00=46.7
x
=1.96×1=1.96(千克)
置信下限为58-1.96=57.04,
置信上限为58+1.96=59.96
故所求置信区间为(57.04,59.96)千克。
(2) 总体方差σ2未知时
由于 T x 1-α,有 s / n
~t(n-1),对于给定的置信度
P{t/2sx/ nt/2}1
P { x t/2
有效性
一致性
区间估计就是根据样本求出总体未知参数的估计区间,并使其可 靠程度达到预定要求。
(1) 总体方差σ2已知时
由于 有
z x : N(0,1) / n
,所以对于给定的置信度1-α,
P {z 2
x/nz2}1

Px z/2
1
n
可见,极限误差的计算公式为
x
z/2
nz/2x
则总体均值的置信区间为 (xx,xx)
相关文档
最新文档