统计学原理第七章 抽样调查
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章
抽样调查
1
第一节 抽样调查的基本概念 及理论依据
一、估计量和估计值
二、全及总体和抽样总体
三、全及指标和样本指标
四、抽样方式和样本可能数目 五、抽样理论依据
2
一、估计量和估计值
► 1.
估计量:是指用于估计相关的总体参数的
统计量。样本均值、样本比例(样本成数) 和样本方差都是估计量,估计量是随机的。
二、全及指标的区间估计
31
一、全及指标的点估计
► (一)点估计的概念 ► 点估计又称定值估计,它是直接以样本
指标作为相应总体指标的估计量。
► 例如,以样本平均数直接估计总体平均
数,即:x=X。例如,某地区根据样本
资料计算的粮食亩产量为600公斤,就
以600公斤作为全地区粮食亩产水平的
估计值。
32
(二)点估计的优缺点
优点:点估计能够提供总体指标的具 体数值,可以作为行动决策的数量依据。 例如,企业的市场部门对产品销量的预 测直接决定着生产部门和采购部门的作 业计划。 ► 2. 缺点:任何点估计的结果不是对就是 错,并不能提供误差情况和误差程度等 相关的信息。
► 1.
33
(三)点估计量的评价标准
► 估计一个总体指标可以用多种样本统计
14
第二节 抽样平均误差
一、抽样平均误差的概念
二、影响抽样平均误差的因素
三、抽样平均误差的意义
四、抽样平均误差的计算※
15
一、抽样平均误差的概念
► (一)抽样误差
► 是指样本指标和总体指标之间在数量上的差
别,是随机性的代表性误差。是抽样推断的 依据,不包括登记误差和可能产生的偏差。 ► ※(二)抽样平均误差 ► 是指所有可能出现的样本指标的标准差,即 所有可能出现的样本指标和总体指标的平均 离差。抽样实际误差无法知道,而平均误差 是可能计算的。
► 1.
总体平均数:根据变量总体的标志值 计算的。 X
X N
5
2. 总体成数(总体比例):常用“P”表示 ► 是指总体中具有某种标志的单位数在总体中 所占的比重。变量总体也可以计算成数。
总体 成数
N1 P N
具有某种属性的单位数 总体单位总数
不具有某种属性的单位数 不具有某种属 性的单位数所 占的比重
p(1 p) n (1 ) n N
抽样比例
25
※解决未知的总体指标的4点办法:P263
► 1.
用过去调查所得到的资料。如果有几个
不同的总体方差,应该用数值较大的。
► 谨慎性要求。σ2越大,说明总体的离散程
度越高,要抽取更多的样本单位(n)才
具有代表性。
► 2.
► 3. ► 4.
用样本方差代替总体方差σ2(※)
18
► 2.
► 3.
※ 四、抽样平均误差的计算
► (一)抽样平均数的抽样平均误差μx ► 是变量总体一系列抽样平均数对总体平均数
的标准差。其理论计算公式:
平均数 抽样平 均误差
x
( X x)
K
2
样本平均 数(随机 变量)
总体平均数(惟 一确定的,但通 常是未知的)
样本可能数目
19
1. 重复抽样抽样平均数的抽样平均误差μx ► 根据数理统计理论,在重复抽样方式下,抽 样平均误差与全及总体的标准差成正比关系, 而与抽样总体单位数的平方根成反比关系, 重要 可推导出如下公式:
n0 q 1 p n
P Q 1 p q 1
23
交替标志的平均数和标准差计算表P265
xf x f
p
1 p 0 q p p pq 1
样本 成数
( x x) 2 f
f
(1 p) 2 p (0 p) 2 q pq
q 2 p p 2q p pq
σ N n σ n μx ( ) μx (1 ) n N 1 n N
2 2
总体单位总数
样本单位总数
抽样比例
21
(一)抽样成数的抽样平均误差μp ► 属性总体的标志值是用文字表示的,且标志 只有两个取值,非此即彼,故将属性总体的 标志称为“交替标志”或“是非标志”。 ► 交替标志也可以计算平均数(即成数)和标 准差。为了计算交替标志的平均数和标准差 必须将交替变异的标志过渡到数量标志。 ► 交替标志仍以x表示,设:x =1表示单位具有 某一标志, x = 0表示单位不具有某一标志。 具有某一标志的单位数用N1表示;
29
合
计
x A 2 x A ( d ) f ( d )f d σ f f
2
256 72 σ 50 11504 50 53.63 200 200
2
30
第三节 全及指标的推断
一、全及指标的点估计
► 2.
估计值:是指估计量的具体数值。根据具
体样本数据,按照估计量的计算公式,计算 出的样本均值、样本比例和样本方差的具体 数值就是估计值。是抽样推断的基础。
3
二、全及总体和抽样总体
► 1.
全及总体(总体):是指所要认识对象的
全体,是同一性质的许多个体的集合体。有 变量总体与属性总体之分,全及总体是惟一 的、确定的但却是未知的,常用“N”表示。
16
二、影响抽样平均误差的因素
► (一)总体标志的变动程度(σx ) ► 总体标志的变动程度与抽样平均误差μ成同
向变动关系。 ► (二)抽样单位数(n)的多少 ► 在其他条件不变的情况下,抽样单位数与抽 样平均误差μ成反向变动关系。 ► (三)抽样组织方式 ► 重复抽样方式的μ高于不重复抽样,分类抽 样的μ低于机械抽样或整群抽样。
N0 N N1 Q 1 P N N
6
3. 总体标准差σ和总体方差σ2 ► 都是测量总体标志值分散程度的指标。
(X X )
N
2
2
(X X )
N
2
► (二)抽样指标 ► 是指根据抽样总体各个标志值或标志特征计
算的综合指标。与全及指标相对应也有抽样 平均数、抽样成数、样本标准差和样本方差 等估计量。抽样指标是随机的。
13
► 2.
(二)中心极限定律 ► 1. 独立同分布中心极限定理:证明不论变量 总体服从何种分布,只要它的数学期望和方 差存在,从中抽取容量为n 的样本,则这个 样本的总和或平均数是个随机变量,当n 充 分大时,样本的总和或平均数趋于正态分布.
► 2.
德莫佛-拉普拉斯中心极限定理:证明属性 总体的样本成数和样本方差,在n足够大时, 同样趋于正态分布。
10
2. 考虑顺序的重复抽样可能数目 ► 即可重复排列的可能样本数目。公式: ► BNn=Nn =105 =100000个可能样本数目 ► 3. 不考虑顺序的不重复抽样可能数目 ► 即不重复组合。计算公式:
N ( N 1)( N 2) ( N n 1) C n!
n N
10 9 8 7 6 30240 C 252 5 4 3 2 1 120
五、抽样理论依据
► 抽样调查的理论依据是概率论的大数定律。 ► (一)大数定律 ► 1.
独立同分布大数定律:证明当n足够大时, 平均数具有稳定性,为用样本平均数估计总 体平均数提供了理论依据。 贝努力大数定律:证明当n足够大时,频 率具有稳定性,为用频率代替概率提供了理 论依据。大数的重要意义P253
平均数 抽样平 均误差
σ σ μx n n
2
全及总体 的标准差 抽样单位数
1 抽样平均误差仅为全及总体标准差的 n 注意理解P259例题
20
2. 不重复抽样抽样平均数的抽样平均误差μx ► 不重复抽样与重复抽样相比,样本可能数目 减少,且样本变量之间不是互相独立的。因 此,在重复抽样的基础上考虑一个修正系数 重要 重要 即可。证明过程见P261-262 总体标准差
22
不具有某一标志的单位数用N0表示。 ► 总体成数和标准差与样本成数和标准差的计 算方法相同。只是总体指标用大写字母表示, 样本指标用小写字母表示。例如: ► 具有某一标志的单位数占总体的比重:
N1 P N
总体成数
n1 p n
样本成数
不具有某一标志的单位数占总体的比重:
N0 Q 1 P N
用小规模调查资料计算的方差代替σ2 用估计材料计算的方差代替σ2
26
(三)抽样平均误差计算实例P266
使用时间 (小时) 900以下 900~950 950~1000 1000~1050 1050~1100 1100~1150 1150~1200 1200以上 合 计 抽取灯泡个 组中值(x) 数(个) 2 4 11 71 84 18 7 3 200 875 925 975 1025 1075 1125 1175 1225 —— x· f 1750 3700 10725 72775 90300 20250 8225 3675 211400
抽取灯泡 组中值 个数(个) (x)
2 4 11 71 84 18 7 3 200
875 925 975 1025 1075 1125 1175 1225 ——
-8(-4) -12(-3) -22(-2) -71(-1) 0(0) 18(1) 14(2) 9(3) -72
32 36 44 71 0 18 28 27 256
27
xf x f
样本平均数
211400 1057 200
200 17 183 灯泡合格率P 91.5% 200 200
样本成数
28
使用时间 (小时) 900以下 900~950 950~1000 1000~1050 1050~1100 1100~1150 1150~1200 1200以上
17
三、抽样平均误差的意义
► 抽样平均误差是一种标准差的概念,是所有
可能样本指标与总体指标之间离差平方的平 均数的平方根。它概括了一系列抽样可能结 果所产生的所有抽样误差。它有三点意义:
► 1.
μ是衡量抽样指标对于总体指标代表性程 度的一个尺度; μ是计算极限误差的依据;
μ是确定抽样单位数多少的计算依据之一
n N
11
4. 不考虑顺序的重复抽样可能数目 ► 即可重复组合。计算公式: DNn=CnN+n-1
► 对于同一总体,采用四种不同的抽样组织形
式,其样本可能数目也是不同的。按样本可 能数目的多少排序依次是:考虑顺序的重复 抽样>考虑顺序的不重复抽样>不考虑顺序 的重复抽样>不考虑顺序的不重复抽样
12
► 2.
抽样总体(样本):是从全及总体中随机
抽取出来一部分单位的集合体。有大样本和 小样本之分,以30个样本单位为划分依据。
► 样本总体是随机的、已知的,常用“n”表示。
4
三、全及指标和样本指标
► (一)
全及指标
► 根据全体总体各个单位的标志值或标志
特征计算的、反映总体某种属性的综合 指标。全及指标也是惟一确定的,但也 是未知的。
pq(q p) 1
pq
p(1 p)
属性总体抽样平均误差的计算也有重复 抽样和不重复抽样之分:
24
1. 重复抽样抽样成数的抽样平均误差
p
p(1 p) n
样本成数
样本单位数
2. 不重复抽样抽样成数的抽样平均误差
p
p(1 p) N n ( ) n N 1
总体单位总数
► 1.
9
(二)样本可能数目 ► 是指从既定的总体中可以抽取多少个样本, 即样本总体的数量有多少。
► 1.
考虑顺序的不重复抽样可能数目
► 即不重复排列的可能样本数目。计算公式:
N! A N ( N 1)(N 2) ( N n 1) ( N n) !
n N
设:N=10,n=5,则: ANn =10×9×8×7×6=30240个可能样本数目
量,例如估计总体平均数,可以用样本 平均数,也可以用样本中位数、样本众 数等。具体应以哪一个统计量来估计总
体平均数才是最优的,就涉及估计量的
7
1Βιβλιοθήκη Baidu 样本平均数:
2. 样本成数数:
x
x
n
n1 p n n0 n n1 q 1 p n n
2
3. 样本标准差 和样本方差:
( x x)
n
2
( x x)
n
2
8
四、抽样方式和样本可能数目
► (一)抽样方式
重复抽样(放回抽样):从总体N中随机 抽取n个单位,每次抽取均为独立试验。 ► 2. 不重复抽样(不放回抽样):每次抽中的 单位不再放回总体中,为不独立试验。 ► 3. 考虑顺序抽样:即考虑总体单位的性质, 还考虑各单位排序的抽样。 ► 4. 不考虑顺序抽样:只考虑总体单位的性质 差异,而不考虑其排序的抽样。
抽样调查
1
第一节 抽样调查的基本概念 及理论依据
一、估计量和估计值
二、全及总体和抽样总体
三、全及指标和样本指标
四、抽样方式和样本可能数目 五、抽样理论依据
2
一、估计量和估计值
► 1.
估计量:是指用于估计相关的总体参数的
统计量。样本均值、样本比例(样本成数) 和样本方差都是估计量,估计量是随机的。
二、全及指标的区间估计
31
一、全及指标的点估计
► (一)点估计的概念 ► 点估计又称定值估计,它是直接以样本
指标作为相应总体指标的估计量。
► 例如,以样本平均数直接估计总体平均
数,即:x=X。例如,某地区根据样本
资料计算的粮食亩产量为600公斤,就
以600公斤作为全地区粮食亩产水平的
估计值。
32
(二)点估计的优缺点
优点:点估计能够提供总体指标的具 体数值,可以作为行动决策的数量依据。 例如,企业的市场部门对产品销量的预 测直接决定着生产部门和采购部门的作 业计划。 ► 2. 缺点:任何点估计的结果不是对就是 错,并不能提供误差情况和误差程度等 相关的信息。
► 1.
33
(三)点估计量的评价标准
► 估计一个总体指标可以用多种样本统计
14
第二节 抽样平均误差
一、抽样平均误差的概念
二、影响抽样平均误差的因素
三、抽样平均误差的意义
四、抽样平均误差的计算※
15
一、抽样平均误差的概念
► (一)抽样误差
► 是指样本指标和总体指标之间在数量上的差
别,是随机性的代表性误差。是抽样推断的 依据,不包括登记误差和可能产生的偏差。 ► ※(二)抽样平均误差 ► 是指所有可能出现的样本指标的标准差,即 所有可能出现的样本指标和总体指标的平均 离差。抽样实际误差无法知道,而平均误差 是可能计算的。
► 1.
总体平均数:根据变量总体的标志值 计算的。 X
X N
5
2. 总体成数(总体比例):常用“P”表示 ► 是指总体中具有某种标志的单位数在总体中 所占的比重。变量总体也可以计算成数。
总体 成数
N1 P N
具有某种属性的单位数 总体单位总数
不具有某种属性的单位数 不具有某种属 性的单位数所 占的比重
p(1 p) n (1 ) n N
抽样比例
25
※解决未知的总体指标的4点办法:P263
► 1.
用过去调查所得到的资料。如果有几个
不同的总体方差,应该用数值较大的。
► 谨慎性要求。σ2越大,说明总体的离散程
度越高,要抽取更多的样本单位(n)才
具有代表性。
► 2.
► 3. ► 4.
用样本方差代替总体方差σ2(※)
18
► 2.
► 3.
※ 四、抽样平均误差的计算
► (一)抽样平均数的抽样平均误差μx ► 是变量总体一系列抽样平均数对总体平均数
的标准差。其理论计算公式:
平均数 抽样平 均误差
x
( X x)
K
2
样本平均 数(随机 变量)
总体平均数(惟 一确定的,但通 常是未知的)
样本可能数目
19
1. 重复抽样抽样平均数的抽样平均误差μx ► 根据数理统计理论,在重复抽样方式下,抽 样平均误差与全及总体的标准差成正比关系, 而与抽样总体单位数的平方根成反比关系, 重要 可推导出如下公式:
n0 q 1 p n
P Q 1 p q 1
23
交替标志的平均数和标准差计算表P265
xf x f
p
1 p 0 q p p pq 1
样本 成数
( x x) 2 f
f
(1 p) 2 p (0 p) 2 q pq
q 2 p p 2q p pq
σ N n σ n μx ( ) μx (1 ) n N 1 n N
2 2
总体单位总数
样本单位总数
抽样比例
21
(一)抽样成数的抽样平均误差μp ► 属性总体的标志值是用文字表示的,且标志 只有两个取值,非此即彼,故将属性总体的 标志称为“交替标志”或“是非标志”。 ► 交替标志也可以计算平均数(即成数)和标 准差。为了计算交替标志的平均数和标准差 必须将交替变异的标志过渡到数量标志。 ► 交替标志仍以x表示,设:x =1表示单位具有 某一标志, x = 0表示单位不具有某一标志。 具有某一标志的单位数用N1表示;
29
合
计
x A 2 x A ( d ) f ( d )f d σ f f
2
256 72 σ 50 11504 50 53.63 200 200
2
30
第三节 全及指标的推断
一、全及指标的点估计
► 2.
估计值:是指估计量的具体数值。根据具
体样本数据,按照估计量的计算公式,计算 出的样本均值、样本比例和样本方差的具体 数值就是估计值。是抽样推断的基础。
3
二、全及总体和抽样总体
► 1.
全及总体(总体):是指所要认识对象的
全体,是同一性质的许多个体的集合体。有 变量总体与属性总体之分,全及总体是惟一 的、确定的但却是未知的,常用“N”表示。
16
二、影响抽样平均误差的因素
► (一)总体标志的变动程度(σx ) ► 总体标志的变动程度与抽样平均误差μ成同
向变动关系。 ► (二)抽样单位数(n)的多少 ► 在其他条件不变的情况下,抽样单位数与抽 样平均误差μ成反向变动关系。 ► (三)抽样组织方式 ► 重复抽样方式的μ高于不重复抽样,分类抽 样的μ低于机械抽样或整群抽样。
N0 N N1 Q 1 P N N
6
3. 总体标准差σ和总体方差σ2 ► 都是测量总体标志值分散程度的指标。
(X X )
N
2
2
(X X )
N
2
► (二)抽样指标 ► 是指根据抽样总体各个标志值或标志特征计
算的综合指标。与全及指标相对应也有抽样 平均数、抽样成数、样本标准差和样本方差 等估计量。抽样指标是随机的。
13
► 2.
(二)中心极限定律 ► 1. 独立同分布中心极限定理:证明不论变量 总体服从何种分布,只要它的数学期望和方 差存在,从中抽取容量为n 的样本,则这个 样本的总和或平均数是个随机变量,当n 充 分大时,样本的总和或平均数趋于正态分布.
► 2.
德莫佛-拉普拉斯中心极限定理:证明属性 总体的样本成数和样本方差,在n足够大时, 同样趋于正态分布。
10
2. 考虑顺序的重复抽样可能数目 ► 即可重复排列的可能样本数目。公式: ► BNn=Nn =105 =100000个可能样本数目 ► 3. 不考虑顺序的不重复抽样可能数目 ► 即不重复组合。计算公式:
N ( N 1)( N 2) ( N n 1) C n!
n N
10 9 8 7 6 30240 C 252 5 4 3 2 1 120
五、抽样理论依据
► 抽样调查的理论依据是概率论的大数定律。 ► (一)大数定律 ► 1.
独立同分布大数定律:证明当n足够大时, 平均数具有稳定性,为用样本平均数估计总 体平均数提供了理论依据。 贝努力大数定律:证明当n足够大时,频 率具有稳定性,为用频率代替概率提供了理 论依据。大数的重要意义P253
平均数 抽样平 均误差
σ σ μx n n
2
全及总体 的标准差 抽样单位数
1 抽样平均误差仅为全及总体标准差的 n 注意理解P259例题
20
2. 不重复抽样抽样平均数的抽样平均误差μx ► 不重复抽样与重复抽样相比,样本可能数目 减少,且样本变量之间不是互相独立的。因 此,在重复抽样的基础上考虑一个修正系数 重要 重要 即可。证明过程见P261-262 总体标准差
22
不具有某一标志的单位数用N0表示。 ► 总体成数和标准差与样本成数和标准差的计 算方法相同。只是总体指标用大写字母表示, 样本指标用小写字母表示。例如: ► 具有某一标志的单位数占总体的比重:
N1 P N
总体成数
n1 p n
样本成数
不具有某一标志的单位数占总体的比重:
N0 Q 1 P N
用小规模调查资料计算的方差代替σ2 用估计材料计算的方差代替σ2
26
(三)抽样平均误差计算实例P266
使用时间 (小时) 900以下 900~950 950~1000 1000~1050 1050~1100 1100~1150 1150~1200 1200以上 合 计 抽取灯泡个 组中值(x) 数(个) 2 4 11 71 84 18 7 3 200 875 925 975 1025 1075 1125 1175 1225 —— x· f 1750 3700 10725 72775 90300 20250 8225 3675 211400
抽取灯泡 组中值 个数(个) (x)
2 4 11 71 84 18 7 3 200
875 925 975 1025 1075 1125 1175 1225 ——
-8(-4) -12(-3) -22(-2) -71(-1) 0(0) 18(1) 14(2) 9(3) -72
32 36 44 71 0 18 28 27 256
27
xf x f
样本平均数
211400 1057 200
200 17 183 灯泡合格率P 91.5% 200 200
样本成数
28
使用时间 (小时) 900以下 900~950 950~1000 1000~1050 1050~1100 1100~1150 1150~1200 1200以上
17
三、抽样平均误差的意义
► 抽样平均误差是一种标准差的概念,是所有
可能样本指标与总体指标之间离差平方的平 均数的平方根。它概括了一系列抽样可能结 果所产生的所有抽样误差。它有三点意义:
► 1.
μ是衡量抽样指标对于总体指标代表性程 度的一个尺度; μ是计算极限误差的依据;
μ是确定抽样单位数多少的计算依据之一
n N
11
4. 不考虑顺序的重复抽样可能数目 ► 即可重复组合。计算公式: DNn=CnN+n-1
► 对于同一总体,采用四种不同的抽样组织形
式,其样本可能数目也是不同的。按样本可 能数目的多少排序依次是:考虑顺序的重复 抽样>考虑顺序的不重复抽样>不考虑顺序 的重复抽样>不考虑顺序的不重复抽样
12
► 2.
抽样总体(样本):是从全及总体中随机
抽取出来一部分单位的集合体。有大样本和 小样本之分,以30个样本单位为划分依据。
► 样本总体是随机的、已知的,常用“n”表示。
4
三、全及指标和样本指标
► (一)
全及指标
► 根据全体总体各个单位的标志值或标志
特征计算的、反映总体某种属性的综合 指标。全及指标也是惟一确定的,但也 是未知的。
pq(q p) 1
pq
p(1 p)
属性总体抽样平均误差的计算也有重复 抽样和不重复抽样之分:
24
1. 重复抽样抽样成数的抽样平均误差
p
p(1 p) n
样本成数
样本单位数
2. 不重复抽样抽样成数的抽样平均误差
p
p(1 p) N n ( ) n N 1
总体单位总数
► 1.
9
(二)样本可能数目 ► 是指从既定的总体中可以抽取多少个样本, 即样本总体的数量有多少。
► 1.
考虑顺序的不重复抽样可能数目
► 即不重复排列的可能样本数目。计算公式:
N! A N ( N 1)(N 2) ( N n 1) ( N n) !
n N
设:N=10,n=5,则: ANn =10×9×8×7×6=30240个可能样本数目
量,例如估计总体平均数,可以用样本 平均数,也可以用样本中位数、样本众 数等。具体应以哪一个统计量来估计总
体平均数才是最优的,就涉及估计量的
7
1Βιβλιοθήκη Baidu 样本平均数:
2. 样本成数数:
x
x
n
n1 p n n0 n n1 q 1 p n n
2
3. 样本标准差 和样本方差:
( x x)
n
2
( x x)
n
2
8
四、抽样方式和样本可能数目
► (一)抽样方式
重复抽样(放回抽样):从总体N中随机 抽取n个单位,每次抽取均为独立试验。 ► 2. 不重复抽样(不放回抽样):每次抽中的 单位不再放回总体中,为不独立试验。 ► 3. 考虑顺序抽样:即考虑总体单位的性质, 还考虑各单位排序的抽样。 ► 4. 不考虑顺序抽样:只考虑总体单位的性质 差异,而不考虑其排序的抽样。