抽样技术第3章比估计和回归估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

标准差为:
总结:估计域均值是比估计的一个特例,因为 域中的样本容量随样本而变化。如果SRS中域 的样本容量足够大,我们可以用SRS公式来推 导域均值。总体总值估计取决于域的总体容量 是否已知。如果 已知,被估计总体总值等于 。如果未知,则为域中观测值定义一个新变 量 ,而不在域中的观测值为零;这样用估 计域总值。这部分的结论仅针对于SRSs。
3、域估计
经常我们需要对子样本的单独估计;这些 子样本被称为域或子域。比如我们需要对9 月18号飞往纽约的旅客进行一次SRS,然 后估计滞留时间超过1周的国外旅客占所有 国外旅客的比例。对于这样一个调查,存 在有两个研究域:国内和国外旅客。我们 不知道总体中每一个人属于哪个域直到他 被抽取。这样,每一次SRS中,落入每一个 域的旅客数目是一个随机变量,直到调查 设计后才知道具体值。
比较
比估计和回归估计都提出一种方法——利 用与我们感兴趣的变量相关的辅助变量。 我们已知y与x是相关的,且知道 与 之间的 差距,所以我们利用这个信息来调整 并希 望来提高估计的精确度。比估计和回归估 计的估计量来自于我们希望用来描述数据 的模型,但是估计量的随机理论特性不取 决于这些模型。
比估计和回归估计量是一般回归估计量的 特例。总体总值的三个估计量:
比估计中,用于近似MSE的方法也可以用于
回归估计中。令
这样,
利用关系 可得到:
MSE的近似值非常小,如果: 样本容量n足够大; 抽样分数n/N足够大; 足够小; x和y的相关系数R接近于+1或者-1。 标准差可以通过计算样本残差得到。
标准差可以通过计算样本残差得到。令
2.2、差异估计
且,它们的比例为
在比估计的最简单应用中,进行一个容量 为n的简单随机抽样(SRS),x和y的信息都 被用于估计B,,。。
比估计和回归估计都利用总体中x和y的相 关性;相关性越高,估计的结果越好。定 义x和y的总体相关系数为:
这里,是 的总体标准差,是 的总体标准差, R是总体中N个单元x和y的Pearson相关系 数。
第一部分的分母是一个常量。第二部分相对 于第一部分通常很小,所以方差和MSE非 常相似,

那么, ,所以
且 经过公示的等价变形可得:
MSE近似值非常接近方差,如果: 样本容量n足够大; 抽样分数n/N足够大; 的偏差非常小; x和y的相关系数接近于+1; 足够大。
1.2.1 MSE近似值的精确性
,可用回归系数部分来表示。对于一个容量n 的SRS,估计量为:
对于表中任意一个估计方差为:
其中, 是 的样本方差。 当对于这种方法的 小于 , 比估计和回 归估计的估计效果优于 。整群抽样中,比 估计更加适用。 在这章中,我们讨论了利用一个辅助信息的 比估计和回归估计。在实际中,你可以利 用多个辅助变量来提高你的估计精度。利 用多元回归的原理也是一样的。
第三章
比估计和回归估计
引言
在抽样调查中,我们经常利用辅助信息。 经常抽样框给出每一个单元的额外信息, 这些信息可以提高估计的精度。比率和回 归估计就是利用与待调查变量相关的变量, 来提高一个总体均值和总值的估计精度。
一、比估计
要利用比估计,必须知道每一个样本单元 的某两个数量和;通常被称为辅助变量或 者附属变量。在一个容量为N的总体中,
这样, ,且
因为我们要估计一个比例,我们可以用式 (3.7)来计算标准差
最后一行的近似取决于域d 内的一个大样本容量; 如果样本足够大,那么我们可认为 且。在大样本中,如果我们使用公 式(2.10), 的标准差近似相等。这样,在 足够大的样本中,我们使用比估计的技术性使 得估计域均值有一点小的不同。当估计一个域 总体时,这种情形有点复杂。如果 已知,估 计比较简单:用 。如果未知,我们需要用 估计。这时,
例一、假定总体包括了不同面积的农业面积。 令, 这样 ,
若采用SRS方法,B,,的自然估计量为
其中, 假定是已知的。
1.1、比估计的作用
(1)有时仅仅想要估计一个比例。 (2)有时需要估计总体总值,但总体容量
N未知。 (3)比估计常用于提高被估计均值和总体的
精确度。 (4)比估计用于调整样本估计,使得估计值

仅当,
如果变动系数近似相等,当x和y之间的相关 系数大于2,比估计效果很好。
二、回归估计
2.1直线模型 如果数据可由一条过原点的直线拟合,比估 计的效果最好。有时,一些数据由一条不 过原点的直线拟合效果更好,那么应使用 模型:
假定总体均值 已知。那么回归估计量 是当 时,来自回归模型的y的预测值:
在SRS中,如果 足够小,比估计偏差的绝 对值相对于估计量的标准差非常小。可以 得到一个结论表示:
其中,R是x和y的相关系数。最后一个等式 利用了 和 之间的协方差。 的偏差将非常小, 如果:
样本容量n足够大; 抽样分数n/N足够大; 足够大; 较小; 相关系数R接近于1。
对于的MSE,偏差计算中给出相同的认识:
假定存在D域。令 是总体中,属于域d内
单元的指数集合 ,是样本中,属于域d的
单元的集合,其中
。令 是中总体单
元的数目, 是 中样本单元的数目。假定要
估计:
的自然估计量是
然而, 是一个随机变量,抽取不同的随机 样本,可得到不同的值。正如不同的样本 可得到不同的国外旅客数目。技术上,式 (3.15)是一个比例估计。令:
其中,和 是回归普通最小二乘系数的截距 和方差。对于这个模型,
且r是x 和y之间的样本相关相关系数。同比 估计一样,回归估计也是有偏的。令 是由 总体中所有数据计算得到的最小二乘回归 斜率:
的偏差为:
如果回归线通过总体中所有的点 ,那么偏 差为零:在这种情况下,每一个样本, , 所以, 同比估计一样,对于大型SRSs,回归估计 的MSE近似等于方差;在大样本中,偏差 可以忽略。
能反映人口统计总体。 (5)比估计用于无应答情形的调整。
1.2 比估计的偏差与均方误差
不同于SRS的 和 估计量,比估计对于 和 是有偏的。如果我们计算所有可能SRS,那 么来自不同样本的所有的平均值将逼近, 但不相等。 比估计的偏差和方差的计算:ss指出:
差异估计是一种特殊的回归估计,调查 者首先已知斜率为1。差异估计常用于:当 一个SRS被抽取时的会计领域。一系列账目 包括每一账本的账面价值——每一个公司 提供的价值。在最简单的抽样中,核查人 员随机抽取一些账本来确定真实价值,这 样可确定所有账本中的错误。考虑的量是:
这样, 是被核查账本的均值差异。
被估计的总体差异是:
账本的被估计核查价值是:
定义此模型的残差:
的方差是
这里
如果残差的波动性远小于 的波动性,差异估 计将提高精确度。
当总体和样本是大的非零差值,这些差值 被高估或者低估时,且如果样本足够大以 致的近似服从正态分布,则差异估计的效 果最佳。
在核查中,样本中的核查值可能与账面价 值完全相同。这时, , 的标准差为零。 这种情况下,大多数差异为零时,需要采 取更精确的模型。
之前计算得出的MSE事实上仅是一个近似 值;即使总体和样本都很小,这个近似值 也非常精确。
对于上述估计值要成为一个好的MSE估计 值,样本容量必须大于30且,
。如果这些条件不满足,它就严重高 估真实MSE。
1.2.2 比估计的优势
如果由 得到的 的偏离小于由 得到的,那

。则,
这样,
所以对于精确性,
相关文档
最新文档