不等概率抽样若干问题探讨

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x 与辅助标志 y 在绝对数上有高的正相关关系的
助标志。 既然确定每个个体被抽中的概率和不等概 率抽样的效果都与辅助标志有关, 那么正确选择辅 助标志就至关重要。 总的原则就是要选择与调查标 志正相关关系最密切、 最接近呈等比例变化且具备 全面资料的标志作为辅助标志。 例如, 若要由以乡为 个体的样本来估计全县的粮食总产量, 那么可供选 择的、 衡量乡大小的辅助标志就有村庄数、 人口数和 耕地面积等, 这时该选择哪一个呢? 考虑到与粮食总 产量的关系, 在正常情况下以乡的耕地面积作为辅 助标志来确定各乡被抽中的概率恐怕是最合适的, 因为粮食总产量直接取决于播种面积 ( 亩产水平相 当的情况下) , 其正相关关系高于村庄数和人口数等 因素。 这就告诉我们, 在不等概率抽样以前, 要先对 调查标志与有关辅助标志之间的关系进行必要的分 析研究。 此外, 如果条件允可, 那么以调查标志本身 的近期资料为依据来确定个体被抽中的概率也十分 有效, 甚至优于其他相关标志。 这也是一个很重要的 原则。
即为真实的总体总量 X T , 即:
Nn
δT jZ j = N 2X 2
n 1 n xi 2 ・0 p i n pi n 1 n xi n =N E 2 ・0 p i n pi N n xi = Nn 2 E ( t i) ・0 E (p i) pi
n
n
的理由。 三、 应用不等概率抽样要注意的问题
1 n xi - XT ) 2 2 n pi 2 1 n xi (2 - nX T ) E n pi n xi 1 E 2 ( - X T ) 2+ 0 pi n2 N x 1 i 2 ( - X T ) 2 E ( t i) pi n2 1 N xi 2 ( - X T ) 2p i n pi
N
δ δ V (X T ) = E (X T - X T ) 2
16
如果把 N 个所有可能的估计值按照各自出现 的概率编制成数列, 就可形成为概率分布。 容易证明, N n 个样本构成出现的概率之和为 1
N n 个估计值以各自出现的概率进行加权平均,
及其概率却有很大不同, 最终导致两者估计量方差 有很大的差异。 在等概率抽样下, 可以计算出总体方 差为 Ρ2 = 1610925, 从而总体工资总额估计量方差为 δ T ) = N 2 Ρ2 n = 128174 万元。 在不等概率抽样 V (X ′ δ′ 下, 则按公式 ( 5 ) 可以计算出估计量方差为 V (X T) = 61008 万元 ( 其中 A 、 B、 C、 D 四个企业被抽中的概 率分别为 50 332、 90 332、 32 332、 160 332) 。 显而易 见, 不等概率抽样的估计量方差要小得多, 仅为等概 率抽样的 4167% , 这正好佐证了应用不等概率抽样
’ 99 《统计研究》 增刊
方差反而会高于等概率抽样, 抽样效果反而会更差。 这说明不是在任何个体有大小差异的情况下都可以 应用不等概率抽样的。
21 正确选择作为衡量个体大小依据的相关辅
愿望是有可能的, 主要途径有两方面 : 一是采用分 层的方法, 通过分层使层内个体之间的大小差异充 分小, 然后每层按一定比例等概率抽取样本。 这样 做, 既有应用等概率抽样的简便性, 又能通过分层所 提高的估计精度来弥补放弃采用不等概率抽样所受 的精度损失, 能达到良好的效果。 二是把对总体总量 的直接估计转化为先对某种总体相对数或平均数进 行估计、 然后再乘以辅助标志总体总量 Y T 来得出 总体总量估计值的间接估计。 因为, 如果说调查标志
146
’ 99 《统计研究》 增刊
不等概率抽样若干问题探讨
李金昌
δ X T i= x i p i 行简单平均, 即可得总体总量的估计量为: n δT = 2 X δT i n= ( 2 X x i p i) n
随着抽样调查在我国应用领域的不断扩展, 不 等概率抽样方法的应用也将越来越普遍。 本文拟就 其有关问题作一探讨。 一、 不等概率抽样的估计量及其方差 不等概率抽样是指当总体中的个体有大小差 异、 而所要调查的标志又与其有密切的正相关关系 时, 按个体大小赋予不同的被抽中概率的一种随机 抽样方法。 其中用以衡量个体大小的标志称为辅助 标志。 是否利用辅助标志来抽样, 是不等概率抽样与 等概率抽样之间的一个根本区别。 在实践中, 我们之所以有时要应用不等概率抽 样这种方法, 其理由可以通过一个简单的例子来初 步说明。 问题是要由一个以县为个体的随机样本数 据来估计一国 ( 或一省) 的出生人数, 并设各县的人 口数已知。 显而易见, 一个县出生人数的多少与该县 人口数的多少直接相关, 即人口数多 ( 少) 的县其出 生人数也多 ( 少) , 两者呈高度正相关关系。 因此在估 计全国出生人数时, 人口数多的县应该比人口数少 的县有较多被抽中的机会, 并根据各自被抽中的概 率来估计全国出生人数, 以避免受个体大小的影响 而产生大的抽样误差。 与等概率抽样相同, 不等概率 抽样也有重复抽样与不重复抽样之分。 其中重复抽 样的具体方式有累积总和法和拉希里法等, 不重复 抽样则有纯随机抽样法和等距抽样法等。 本文暂讨 论重复抽样。 设 x 为所要调查的标志, y 为衡量个体大小的 相关辅助标志, 2 y i 为辅助标志的总体总量且为已知
( 记为 T T ) 。所要估计的是调查标志的总体总量是 x i ( 记为 X T ) 。
N
( 2)
当样本容量为 n 时, 对 n 个个体给出的估计进
( 3)
这里之所以采用简单平均, 是由于在抽样时已 经考虑到了个体的大小差异而赋予不同的被抽中概 率, 权重的作用已经得到体现。也即 N 个 x i p i 之间 的差异已经不再取决于个体的大小, 而是受随机因 素的影响。 δT 是无偏的。 容易可以证明, 估计量 X δ 关于估计量 X T 的方差, 我们可得:
31 要根据调查对象的特点来决定是否采用不
话, 那么把 x 除以 y 以后的相对数或平均数就不再 与 y 有相关关系了。 例如县人口出生数与县总人口 数有关, 但县人口出生率与县总人口数无关; 企业工 资总额与企业人数有关, 但企业平均工资与企业人 数无直接相关。 这样, 在估计总体相对数 ( 如全国人 口出生率) 或总体平均数 ( 如总体平均工资) 时, 就可 以不考虑个体的大小差异而采用等概率抽样了。 在 用等概率抽样估计出总体相对数或总体平均数后, 乘以辅助标志总体总量 Y T 即可得出 X T 的估计值,
= E( = = = =
( 5)
很显然, 若各个体大小相等, 即 y i= 2 y i N , 也即 δT= N p i = 1 N , 那么总体总量的估计量就成为 X ′ n δ′ 2 2 2 2 x i n, 估计量方差则成为 V (X T ) = N Ρ n ( 其中 Ρ
= 2 (x i- X ) 2 N 为总体方差) , 不等概率抽样问题就
n n δ″ 即X 事实上, 这种估计就变成了比 T = ( 2 x i 2 y i) Y T。
率估计, 但它是有偏的。 从估计效果上看, 它一般略 差于不等概率抽样的直接估计, 但会较明显地优于 等概率抽样的直接估计。 在上例中, 若先估计出总体 的平均工资 ( 即样本平均工资) , 再乘以总体职工总 人数来得出总体工资总额的估计值, 那么可以计算 16 δ″ δ T j - X T ) 2 16 = 出 估 计 量 方 差 为 V (X T ) = 2 (X ″ δT ) 813606 万元, 大于不等概率抽样直接估计的 V (X
企业编号 企业人数 ( 人) y 企业工资 ( 万元) x
A 50 215 B 90 5 C 32 119 D 160 12
合计
332 2114
在重复抽样时, 不等概率抽样与等概率抽样都 有 N n = 42 = 16 种样本构成可能, 即 AB、 BA 、 A C、
CA 、 AD、 DA 、 BC、 CB、 BD、 DB、 CD、 DC、 AA 、 BB、 CC、 DD。在分别计算出各种可能样本所估计的总体工资
δ′: 1917125 20175 21167222 22130625 2419 估计值 X Tj 概率 Z j
1024 3322 16000 332 2 28800 3322 10240 3322
25600 3322
( 7)
可 以 验 证, 两 种 抽 样 的 估 计 都 是 无 偏 的, 即 16 δ δ 2X ′ T jZ′ j = 2 X T jZ j = 2114= X T , 但两种抽样的估计值
N
成了等概率抽样问题。 从这个角度上看, 等概率抽样 是不等概率抽样的一个特例。 δT ) 的无偏样本 在实际应用中, 估计量方差 V (X 估计为: δ v (X T ) =
n xi 1 δT ) 2 2( - X ) ( n n- 1 pi
( 6)
在不等概率重复抽样时, 某个个体被抽中的概 率为:
2, …N n ) , 那么其出现的概率为 ( 记 Z j) : Z j = 0 y i ( 2 y i) n = 0 p i j= 1, 2, …N n
n n n N
δ′: 估计值 X Tj 概率 Z j
对于不等概率抽样有:
1616 2500 3322 17152222 9000 3322 18115625 3200 3322 1814 8100 3322 19107847 5760 332 2
p i= y i 2 y i
N
Hale Waihona Puke 二、 不等概率抽样的估计量概率分布 在重复抽样时, 从总体的 N 个个体中不等概率 抽取 n 个个体, 仍有 N n 种样本构成的可能, 这一点
( 1)
按此概率, 由个体给出的 X T 的估计量为:
第七次全国中青年统计科学研讨会论文集
147
与等概率抽样相同。 但要注意的是, 每种样本构成出 现的机会不再象等概率抽样那样都为 1 N n , 而是有 所不同。 也即不等概率抽样的估计量概率分布与等 概率抽样有所不同。 δT j为由第 j 种样本构成给出的估计值 ( j= 1, 设x
x 与 y 呈负相关关系, 那么不等概率抽样的估计量
这就从估计量概率分布的角度再次证明了不等 概率抽样估计的无偏性。 搞清不等概率抽样的估计 量概率分布, 对于进一步研究更深入复杂的问题是 十分重要的。 例如, 某总体 4 个企业的人数及工资总额资料 如下表所示, 试比较样本容量为 2 时的不等概率抽 样与等概率抽样的总体工资总额的估计量概率分 布。 其中企业人数为辅助标志。
总额估计值及其出现概率后, 即可分别得出两者的 估计量概率分布。
δ′: 716 818 10 1318 15 20 2718 29 34 48 估计值 X Tj 概率 Z′ j:
1 16 2 1 16 16 2 16 2 1 16 16 2 16 2 2 1 16 16 16
对于等概率抽样有:
148
11 要分析不等概率抽样的适用性。不等概率抽 ( 8)
= N n ( n 2 x i) ( 1 N ) n n = 2xi = XT
N
N
样是一种用于解决当总体内的个体存在大小差异时 的抽样估计问题的方法, 是否意味着对任何个体之 间存在大小差异的总体都适用不等概率抽样方法 呢? 我们认为必须具备两个条件: 一是有完整的辅助 标志的全面资料, 能够根据个体的大小确定各自被 抽中的概率。 二是调查标志与辅助标志之间存在所 需的联系关系。 从估计量的方差公式 ( 5 ) 可以看出, 不等概率抽样的估计量方差取决于各个体所给的估 计值 x i p i 与总体真值 X T 之间的差异情况, 而这种 差异又取决于调查标志 x 与辅助标志 y 之间的关 系。 不难发现, 当 x 与 y 呈等比例变化, 即 x i X T = y i Y T = p i 时 ( 此时两者的相关系数必定为 1 ) , 由任 何一个个体所给的估计值都将与总体真值相等。 即 x i p i = x i ( x i X T ) = X T , 从而估计量的方差达到最 低值 0。按此结论, 一般地当 x 与 y 呈较高的正相关 关系且 x 与 y 大致呈等比例变化时 ( 但要注意: 相关 系数为 1 不等于两者一定呈等比例变化) , 采用不等 概率抽样会有比等概率抽样较小的估计量方差。 前 面所举的例子中, 企业人数与企业工资总额之间的 相关系数高达 019882 且两者的变化大致呈等比例, 因而有比等概率抽样低得多的估计量方差。 相反, 若
相关文档
最新文档