[数学]抽样估计与样本量确定
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
城市层:
农村层:
w nr,1 w d,1
w nr,2
n1 5 1.33 6.67 n r,1 n w d,2 2 2 1.25 2.5 n r,2
9
調查分析預測
MRAF
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢?
– 首先,使调查的估计值与已知总体总值相匹配。例如, 使用最新的人口普查数据来调整估计值,以确保这些 估计值(如年龄、性别分布等)的一致性。 – 二是为了提高估计值的精度。将辅助信息与抽样设计 相结合,将有助于提高估计的精度。
• 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都 必须具备这个辅助信息。否则,就只能在数据收集上来后, 在估计阶段利用辅助信息提高估计值的精度。
2
調查分析預測
MRAF
10.2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元 数,它是由抽样设计所决定的,通常以wd表示。确定 设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如 入样概率是1/10,那么每个入选样本代表总体中的10 个单元,此时设计权数即为10。 – 不同样本单元的设计权数可能不同,这取决于抽样设 计。因此,加权估计应区分等概率抽样的加权和不等 概率抽样的加权。
4
調查分析預測
Βιβλιοθήκη Baidu
MRAF
不等概率抽样的加权
• 自加权设计并不总是可行的。如,在使用分层抽样进行 一个全国调查时,可能需要采用纽曼分层。 • 当所采用的抽样设计不是等概率时,正确地使用设计权 数就显得尤为重要。 • [例10.2] 有关各层总体数和样本数资料见表10-1。对 于这项调查,被调查者的设计权数是多少呢?
步骤1:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。 步骤2:计算无回答调整因子。 由于在n=25人中只有nr=20人提供了 所需的信息,最终样本量应为20。假定回 答单元不仅能代表回答单元且能代表无回 答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25 步骤3:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数与 无回答调整因子的乘积:
步骤1:各层的设计权数为: 城市层 wd,1=N1/n1==5 农村层 wd,2=N2/n2==2 步骤2:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层:n1 / nr,1==200/150==1.33 农村层:n2 / nr,2==50/40==1.25 步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:
MRAF
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整; – 考虑来自其他渠道的、更具权威性的某些辅助 信息,将它们合并到权数中。
6
調查分析預測
MRAF
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。 简单的处理办法是忽略它。然而,如果发现忽略单元 无回答是不适当的,则应该对权数进行调整。即,
1
調查分析預測
MRAF
10.1 引言
• 估计就是根据从样本中收集的信息对 总体未知量进行推断的过程。 • 抽样估计涉及的重要问题:
– 一个样本单元的设计权数问题。 – 抽样估计,包括总体总量、均值和比例以及抽 样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和 内容。同时,样本量的确定与样本估计值的精 度密不可分。
• [例10.3] 从一个 N=100人的总体 中抽取一个n=25 人的简单随机样本。 记回答单元的数量 为nr,结果显示只 有20个人提供了所 需的信息。那么, 此时无回答的调整 权数是多少?
w nr w d
n 4 1.25 5 nr
8
調查分析預測
MRAF
对无回答的权数调整(STR)
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的 单元的权数和的比值。对于自加权设计,该比值可用 原样本的单元数与给出回答的单元数的比值来表示。 • 无回答权数调整应区分两种不同情况:
– 等概率抽样 – 不等概率抽样
7
調查分析預測
MRAF
对无回答的权数调整(SRS)
調查分析預測
开篇案例
“百脑汇”调研中的样本计划问题
MRAF
• “百脑汇”在中国华北几个省市经营连锁电脑超市,它希 望获得更多关于其现有客户特点方面的信息。接受调研委 托的李文博士指派班上的王洪同学为样本计划小组的负责 人。 • 通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了 解到调研的一个主要目的是分别按人口和心理因素来估计 “百脑汇”的客户构成和比例。此外,确认总体估计值不 超过实际值的±5.0%,可靠度为95%。 • 为了达到这些要求,王洪和他的小组正努力寻找计算所需 样本容量的方法。
表10-2 公交系统调查的分层数据 层 城市 农村 总体大小 N1=1000 N2=100 样本量 n1=200 n2=50 回答者数量 nr,1=150 nr,2=40
• [例10.4] 对于一项公共交通 系统调查,总体由1100人组成, 并按城乡分为两个层。分层及 样本数据如表10-2所示。那么, 回答者的权数是多少?
收入层次 高收入层 中收入层 低收入层 各层单位数 2000 12000 6000 样本数量 33.3 133.3 33.3 设计权数 wd,1=N1/n1=2000/33.3=60.1 wd,2=N2/n2=12000/133.3=90.0 wd,3=N3/n3=6000/33.3=180.2
5
調查分析預測
3
調查分析預測
MRAF
等概率抽样的加权
• 当每个单元都有相同的入样概率时,所有样 本单元的设计权数都相同,这种抽样就是自 加权设计。
– SRS抽样和SYS抽样都属于自加权设计,比例分 层抽样也是自加权设计。 – 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整, 则在计算比例、均值等估计量时可将其忽略, 对总值估计也仅需将样本总值乘上某个倍数。 (例P215)
农村层:
w nr,1 w d,1
w nr,2
n1 5 1.33 6.67 n r,1 n w d,2 2 2 1.25 2.5 n r,2
9
調查分析預測
MRAF
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢?
– 首先,使调查的估计值与已知总体总值相匹配。例如, 使用最新的人口普查数据来调整估计值,以确保这些 估计值(如年龄、性别分布等)的一致性。 – 二是为了提高估计值的精度。将辅助信息与抽样设计 相结合,将有助于提高估计的精度。
• 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都 必须具备这个辅助信息。否则,就只能在数据收集上来后, 在估计阶段利用辅助信息提高估计值的精度。
2
調查分析預測
MRAF
10.2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元 数,它是由抽样设计所决定的,通常以wd表示。确定 设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如 入样概率是1/10,那么每个入选样本代表总体中的10 个单元,此时设计权数即为10。 – 不同样本单元的设计权数可能不同,这取决于抽样设 计。因此,加权估计应区分等概率抽样的加权和不等 概率抽样的加权。
4
調查分析預測
Βιβλιοθήκη Baidu
MRAF
不等概率抽样的加权
• 自加权设计并不总是可行的。如,在使用分层抽样进行 一个全国调查时,可能需要采用纽曼分层。 • 当所采用的抽样设计不是等概率时,正确地使用设计权 数就显得尤为重要。 • [例10.2] 有关各层总体数和样本数资料见表10-1。对 于这项调查,被调查者的设计权数是多少呢?
步骤1:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。 步骤2:计算无回答调整因子。 由于在n=25人中只有nr=20人提供了 所需的信息,最终样本量应为20。假定回 答单元不仅能代表回答单元且能代表无回 答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25 步骤3:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数与 无回答调整因子的乘积:
步骤1:各层的设计权数为: 城市层 wd,1=N1/n1==5 农村层 wd,2=N2/n2==2 步骤2:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层:n1 / nr,1==200/150==1.33 农村层:n2 / nr,2==50/40==1.25 步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:
MRAF
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整; – 考虑来自其他渠道的、更具权威性的某些辅助 信息,将它们合并到权数中。
6
調查分析預測
MRAF
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。 简单的处理办法是忽略它。然而,如果发现忽略单元 无回答是不适当的,则应该对权数进行调整。即,
1
調查分析預測
MRAF
10.1 引言
• 估计就是根据从样本中收集的信息对 总体未知量进行推断的过程。 • 抽样估计涉及的重要问题:
– 一个样本单元的设计权数问题。 – 抽样估计,包括总体总量、均值和比例以及抽 样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和 内容。同时,样本量的确定与样本估计值的精 度密不可分。
• [例10.3] 从一个 N=100人的总体 中抽取一个n=25 人的简单随机样本。 记回答单元的数量 为nr,结果显示只 有20个人提供了所 需的信息。那么, 此时无回答的调整 权数是多少?
w nr w d
n 4 1.25 5 nr
8
調查分析預測
MRAF
对无回答的权数调整(STR)
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的 单元的权数和的比值。对于自加权设计,该比值可用 原样本的单元数与给出回答的单元数的比值来表示。 • 无回答权数调整应区分两种不同情况:
– 等概率抽样 – 不等概率抽样
7
調查分析預測
MRAF
对无回答的权数调整(SRS)
調查分析預測
开篇案例
“百脑汇”调研中的样本计划问题
MRAF
• “百脑汇”在中国华北几个省市经营连锁电脑超市,它希 望获得更多关于其现有客户特点方面的信息。接受调研委 托的李文博士指派班上的王洪同学为样本计划小组的负责 人。 • 通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了 解到调研的一个主要目的是分别按人口和心理因素来估计 “百脑汇”的客户构成和比例。此外,确认总体估计值不 超过实际值的±5.0%,可靠度为95%。 • 为了达到这些要求,王洪和他的小组正努力寻找计算所需 样本容量的方法。
表10-2 公交系统调查的分层数据 层 城市 农村 总体大小 N1=1000 N2=100 样本量 n1=200 n2=50 回答者数量 nr,1=150 nr,2=40
• [例10.4] 对于一项公共交通 系统调查,总体由1100人组成, 并按城乡分为两个层。分层及 样本数据如表10-2所示。那么, 回答者的权数是多少?
收入层次 高收入层 中收入层 低收入层 各层单位数 2000 12000 6000 样本数量 33.3 133.3 33.3 设计权数 wd,1=N1/n1=2000/33.3=60.1 wd,2=N2/n2=12000/133.3=90.0 wd,3=N3/n3=6000/33.3=180.2
5
調查分析預測
3
調查分析預測
MRAF
等概率抽样的加权
• 当每个单元都有相同的入样概率时,所有样 本单元的设计权数都相同,这种抽样就是自 加权设计。
– SRS抽样和SYS抽样都属于自加权设计,比例分 层抽样也是自加权设计。 – 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整, 则在计算比例、均值等估计量时可将其忽略, 对总值估计也仅需将样本总值乘上某个倍数。 (例P215)