第10节 抽样估计与样本量确定

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
正态分布及标准值Z
• 正态分布有以下几个重要特征:
– 正态曲线呈钟形,曲线下的面积等于1,表明它 包括了所有的调查结果。 – 在正态曲线下任意两个变量值之间的面积,等于 在这一范围内随机抽取一个观察对象的概率。例 如,任意抽取一个样本单元,IQ分数落在55-145 之间的概率是99.72%,即图10-3中正态曲线下55145之间的面积。 – 所有的正态分布在平均数±1个标准差之间的面 积相同,都占曲线下方面积的68.26%。这是正 态分布的比例性,为统计推断提供了基础。 – 一个正态分布的特殊性由其平均数和标准差决定。
2
10.2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元 数,它是由抽样设计所决定的,通常以wd表示。确定 设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如 入样概率是1/10,那么每个入选样本代表总体中的10 个单元,此时设计权数即为10。 – 不同样本单元的设计权数可能不同,这取决于抽样设 计。因此,加权估计应区分等概率抽样的加权和不等 概率抽样的加权。
N女性 420 9.33 45
表10-3 某公司吸烟习惯抽样调查数据
回答者数量
男性
女性
总计
吸烟人数
总人数 调查的估计值
25
55 男性
5
45 女性
30
100 (nr) 总计
表10-4 根据某公司吸烟习惯抽样计算的估计值
吸烟人数
总人数 吸烟者的比例
195
429 0.455
39
351 0.111
234
• 了解统计推断的理论基础,首先注意区分三 种不同性质的分布:
– 总体分布 – 样本分布 – 抽样分布
• 同时,特别注意总体分布与抽样分布的关系。
12
三种不同性质的分布
• 总体分布:总体各单位的观察值所形成的频数分布,总 体分布通常是未知的。 • 样本分布:一个样本中各个观察值所形成的频数分布就 叫做样本分布。当样本容量n逐渐增大时,样本分布逐 渐接近总体的分布。 • 抽样分布:样本统计量的抽样分布,是指在重复选取容 量为n的样本时,由该统计量的所有可能取值形成的相 对频数分布。抽样分布是一种理论分布。 • 抽样分布提供了样本统计量长远而稳定的信息,是进行 推断的理论基础。
4
不等概率抽样的加权
• 自加权设计并不总是可行的。如,在使用分层抽样进行 一个全国调查时,可能需要采用纽曼分层。 • 当所采用的抽样设计不是等概率时,正确地使用设计权 数就显得尤为重要。 • [例10.2] 有关各层总体数和样本数资料见表10-1。对 于这项调查,被调查者的设计权数是多少呢?
收入层次 高收入层 中收入层 低收入层 各层单位数 2000 12000 6000 样本数量 33.3 133.3 33.3 设计权数 wd,1=N1/n1=2000/33.3=60.1 wd,2=N2/n2=12000/133.3=90.0 wd,3=N3/n3=6000/33.3=180.2
中心极限定理,概括为:
设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本, 当n足够大(n 30)时,样本均值的抽样分布近似服从均值为μ、方差 为σ2/n的正态分布。
15
样本比例的抽样分布
• 样本比例的抽样分布,是在重复抽取容量为n的样本时, 由样本比例的所有可能取值形成的相对频数分布。 • 比较样本比例的分布与总体分布,得出如下结论:
調查分析與預測 MRAF
从总体分布到抽样分布
[例10.6] 设一个总体,含有4个元素(个体) ,即总体单位数 N =4。4个个体分别为x1=1,x2=2,x3=3,x4=4。 可以计算总体均值、方差及其分布。
总体均值

x
i 1
N
P(x)
i
N
N
1 2 3 4 2.5 4
i
0.3 0.2 0.1
– 当样本容量足够大时,样本比例的抽样分布近似地服从正态分布, 样本比例的数学期望等于总体比例,即E(p)=π;在重复抽样条件下, 样本比例的方差为总体方差的1/n,即
样本比例 的方差:
Sp
2
(1 )
n
样本比例 S 的标准误: p
(1 )
n
• 样本比例的中心极限定理
– 设从比例为π、方差为 2的一个任意总体中随机抽取容量为n的样 本,当n足够大(n 30)时,样本比例的抽样分布近似服从比例为π、 方差为(1-)/n的正态分布。
步骤1:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。 步骤2:计算无回答调整因子。 由于在n=25人中只有nr=20人提供了 所需的信息,最终样本量应为20。假定回 答单元不仅能代表回答单元且能代表无回 答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25 步骤3:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数 与无回答调整因子的乘积:
• 为了达到这些要求,王洪和他的小组正努力寻找计算所需 样本容量的方法。
1
10.1 引言
• 估计就是根据从样本中收集的信息对 总体未知量进行推断的过程。 • 抽样估计涉及的重要问题:
– 一个样本单元的设计权数问题。 – 抽样估计,包括总体总量、均值和比例以及抽 样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和 内容。同时,样本量的确定与样本估计值的精 度密不可分。
总体方差

2

(x
i 1
)
2
N
1.25
0
1.0
2.0
3.0
4.0
x
图10-1 例10.6中的总体分布
14
均值抽样分布的规律
比较样本均值的分布与总体分布,得出如下结论: (1)样本均值的数学期望 等于总体均值,即E( x)=μ。
(2)在重复抽样条件下,样本均值的方差等于总体方差的1/n,或者说, 样本均值的标准误 。 n Sx (3)如果总体服从正态分布,即x~N(μ,σ2),那么样本均值也服从正态 分布,即 ~ x N(μ,σ2/n)。 (4)如果总体不服从正态分布,那么当样本量足够大时,样本均值 x 也 服从正态分布。
表10-6 各种分布的均值、比例和标准差的符号表示
分布类型
均值
比例
标准差
总体分布 样本分布
抽样分布

X


x
P
P
百度文库
SX
S
SP
13
样本均值的抽样分布
• 样本均值的抽样分布,是 指在重复选取容量为n的样 本时,由样本均值的所有 可能取值形成的相对频数 分布。 • [例10.6]设一个总体, 含有4个元素,即总体单位 数N =4。4个个体分别为 x1=1, x2=2, x3=3, x4=4。 则总体分布如图10-1。 • 现在从总体中有放回地抽 取n=2的简单随机样本, 则样本均值的抽样分布如 图10-2。
2.14%
13.59%
34.13%
34.13%
13.59%
2.14%
55
70
85
图10-3
100
115
130
145
IQ
智商(IQ)分数的正态分布示例
在大样本情况下,测得智商(IQ)分数的 分布如图10-3所示,这是一个平均数为 100、标准差为15的典型正态曲线。
城市层:
农村层:
w nr,1 w d,1
w nr,2
n1 5 1.33 6.67 n r,1 n w d,2 2 2 1.25 2.5 n r,2
9
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢?
– 首先,使调查的估计值与已知总体总值相匹配。例如, 使用最新的人口普查数据来调整估计值,以确保这些 估计值(如年龄、性别分布等)的一致性。
w nr w d
n 4 1.25 5 nr
8
对无回答的权数调整(STR)
• [例10.4] 对于一项公共交通 系统调查,总体由1100人组成, 并按城乡分为两个层。分层及 样本数据如表10-2所示。那么, 回答者的权数是多少?
表10-2 公交系统调查的分层数据 层 城市 农村 总体大小 N1=1000 N2=100 样本量 n1=200 n2=50 回答者数量 nr,1=150 nr,2=40
– 二是为了提高估计值的精度。将辅助信息与抽样设计 相结合,将有助于提高估计的精度。
• 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都 必须具备这个辅助信息。否则,就只能在数据收集上来后, 在估计阶段利用辅助信息提高估计值的精度。
10
使用辅助信息调整权数
• [例10.5] 为得到某公司职员是否 有吸烟习惯的信息,进行了一项调 查。从N=780人的名录中抽出了一 个n=100人的简单随机样本。 • 在收集有关吸烟习惯信息时,收集 了每个回答者的年龄和性别情况, 且100人都做出了回答,由此得到 样本数据的分布如表10-3所示:
开篇案例
“百脑汇”调研中的样本计划问题
• “百脑汇”在中国华北几个省市经营连锁电脑超市,它希 望获得更多关于其现有客户特点方面的信息。接受调研委 托的李文博士指派班上的王洪同学为样本计划小组的负责 人。 • 通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了 解到调研的一个主要目的是分别按人口和心理因素来估计 “百脑汇”的客户构成和比例。此外,确认总体估计值不 超过实际值的±5.0%,可靠度为95%。
[例10.5] 计算过程
步骤1:设计权数是入样概率的倒数,设计权数计算如下: wd=N/n=780/100=7.8 步骤2:利用设计权数,计算得到调查估计值,如表10-4所示。 估计公司男女性职员各有429名和351名,且吸烟比例不同。 假定调查完成后,得到如下辅助信息:该公司实际共有360名男 性职员和420名女性职员。如何利用这个辅助信息呢? 步骤3:对样本分层,计算事后分层权数用于估计。 事后分层权数W pst是事后层的辅助变量总和除以该层回答单元的 数量。 N 360 w 男性 6.55 其中,男性的事后分层权数为: pst ,男性 n r,男性 55 女性的事后分层权数为:w pst ,女性 n r,女性
3
等概率抽样的加权
• 当每个单元都有相同的入样概率时,所有样 本单元的设计权数都相同,这种抽样就是自 加权设计。
– SRS抽样和SYS抽样都属于自加权设计,比例分层 抽样也是自加权设计。 – 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整, 则在计算比例、均值等估计量时可将其忽略, 对总值估计也仅需将样本总值乘上某个倍数。 (例P215)
5
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整; – 考虑来自其他渠道的、更具权威性的某些辅助 信息,将它们合并到权数中。
6
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。 简单的处理办法是忽略它。然而,如果发现忽略单元 无回答是不适当的,则应该对权数进行调整。即,
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的 单元的权数和的比值。对于自加权设计,该比值可用 原样本的单元数与给出回答的单元数的比值来表示。 • 无回答权数调整应区分两种不同情况:
– 等概率抽样 – 不等概率抽样
7
对无回答的权数调整(SRS)
• [例10.3] 从一个 N=100人的总体中 抽取一个n=25人 的简单随机样本。 记回答单元的数量 为nr,结果显示只 有20个人提供了所 需的信息。那么, 此时无回答的调整 权数是多少?
步骤1:各层的设计权数为: 城市层 wd,1=N1/n1==5 农村层 wd,2=N2/n2==2 步骤2:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层:n1 / nr,1==200/150==1.33 农村层:n2 / nr,2==50/40==1.25 步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:
780 0.30
表10-5 利用辅助信息对抽样调查估计值的调整
事后分层 估计值 吸烟人数 总人数 吸烟者比例
男性 164 360 0.455
女性 47 420 0.111
总计 211 780 0.271
11
在抽样后利用辅助信息计算分层权数用于估计,估计值如表10-5。
10.3 抽样分布与抽样误差
• 抽样调查的目的是要对总体做出推断。
相关文档
最新文档