抽样技术第二章_简单随机抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2 简单估计量及其性质
2.2.1简单估计量的性质
引理2.1 从大小为N的总体中抽取一个样本量为n
的简单随机样本,则总体中每个特定单元入样
的概率为
n N
,两个特定单元都入样的概率为
。 nn 1
N N 1
一、总体均值的估计 1.简单估计及其无偏性:
在没有其他总体信息的 条件下,
y
1 n
也许有人会认为,在抽样时不用随机数表,而 采取随意抽选的办法也可以达到预期的抽样效 果。表面上看,这种想法似乎有一定道理,但 实际试验的结果证明随意抽样不等于随机抽样。
简单随机抽样的方法评估
简单随机抽样对总体不加任何限制,等概率地 从总体中直接抽取样本,是最简单、最单纯的 抽样技术,它具有计算简便的优点,是研究其 它复杂抽样技术的基础,也是比较各种抽样技 术之间估计效率的标准,同时,从理论上讲简 单随机抽样在各种抽样技术中是贯彻随机原则 最好的一种,并且数学性质很简单,是等概率 抽样的特殊类型。
834 203 593 980 172 287 753 259 276 876
692 371 887 641 399 442 927 442 918 11
178 416 405 210 58 797 746 153 644 476
(1)计算样y本均值与样本方差。
(2)若用 估计总体均值μ,按数理统计结果,是否无偏, 并写出它的方差表达式。
此外,简单随机抽样要求在抽样前编制出抽样 框,并对每一个总体抽样单元进行编号,而且 当总体抽样单元的分布比较分散时,样本也可 能会比较分散,这些都会给简单随机抽样方法 的运用造成许多的不便,甚至在某些情况下干 脆无法使用。因此,在此基础上研究其它抽样 技术显得更加重要。
符号的表示
总体均值 总体总值(总体总量) 总体比例 总体比率(总体比值)
2、随机数骰子及其使用方法
随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面 体,即正方体),面上刻有0-9的数字各2个。每盒骰子由盒体、 盒盖、泡沫塑料垫及若干个(通常是3-6个)不同颜色的骰子组成。 使用随机数骰子时可以像普通骰子那样用投掷的方法。但正规的 方法是将一个或n个骰子放在盒中,拿去泡沫塑料垫,水平地摇动 盒子,使骰子充分旋转,最后打开盒子,读出骰子表示的数字。 一个骰子一次产生一个0-9的随机数。要产生一个m位数字的随 机数,就需要同时使用m个骰子(事先规定好每种颜色所代表的位 数,例如红色表示百位数,蓝色表示十位数,黄色表示个位数等) ,或将一个骰子使用m次(规定第一次产生的数字为最高位数,最 后一次产生的数字为最末位即个位数字等)。特别规定m个骰子的 数字(或一个骰子m次产生的数字)都为0时,表示10m。
率都等于1/ CNn,这种抽样称为简单随机抽样。
注意:定义2.1与定义2.3是等价的。
三个定义之间的联系
简单随机抽样的具体实施方法
常用的有抽签法和随机数法两种。 (一)抽签法 抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与
之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以 是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽 中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样 本。 抽签法在技术上十分简单,但在实际应用中,对总体各单元编号 并制作号签的工作量可能会很繁重,尤其是当总体容量比较大时 ,抽签法并不是很方便,而且也往往难以保证做到等概率。因此 ,实际工作中常常使用随机数法。
随机数表是由0到9的10个阿拉伯数字进行随机排列组 成的表。
所谓随机排列,即每个数字都是按等概和重复独立抽 取的方式排定的。在编制时,使用一种特制的电器或 用计算机,将0至9的10个数字随机地自动摇出,每个 摇出的数字就是一个随机数字。为使用方便,可依其 出现的次序,按行或按列分成几位一组进行排列。根 据不同的需要,它们所含数字的多少以及分位和排列 的方式尽可以不同。
④在重复抽样时,遇到重复的数字应重复使用 ;在不重复抽样时,遇到重复的数字应舍去不 用。
随机数表法一般分下述几步:
第一步:确定起点页码,如用笔尖在随机数表上随机 指定一点,若落点数字(或距落点最近的数字)为奇数 ,则确定起点在第1页;否则,起点在第二页。
第二步:确定起点的行数与列数,先在表上随机指定 一点,由落点处的两位数确定起点的行数。由于每页 只有50行,所以当落点处的两位数大于50时,则取其 减去50的差数为行数。为保证等概性,当落点处的数 为“00”时,则行数应取作50。然后依同样的方法再确 定起点的列数。
简单随机抽样属等概率抽样,在使用 随机数表时,要注意以下几点:
①每次使用时,确定使用哪页及哪行哪列的数 字为起点,必须是随机的。
②设总体容量为N,若N的位数为r,则一定要 从r位数中抽取。遇到1至N的数可直接使用; 遇到其它的数不能直接使用。
③当r≥2时,可从含有起点数字左边的r位数开 始,也可从右边的r位数开始。可从起点开始 向下抽取,也可向右抽取。但一经确定使用哪 一种方式,就必须用一种方式抽取全部单元号 ,中途不能变更。
Y
)
根据前面定理2.1证明的方法二中使用过的对
称性证明方法,即知:
= E
n
( yi Y )2
i1
n
N
N
(Yi Y )2
i 1
n
n
E
i
j
(
yi
Y
)(
yi
Y
)
n(n 1)
= N(N 1)
(Yi Y )(Yj Y )
i j
故 V(y)=
1 nN
N i 1
(Yi
Y
估计量的方差
在抽样推断中,有时往往只计算出估计量的值,而不 大注意估计量的误差(方差或标准差)。但是,总体均 值的估计量通常与总体均值的真值间不完全一致,即 存在误差,而且所有可能的样本均值相对于总体均值 的误差大小也是不一致的。联合国统计局编的《抽样 调查理论基础》一书指出:“从研究大多数国家的抽 样实践中,可以看出:虽然计算估计量的标准差,至 少对关键性的几个估计量计算其标准差来说,仅需增 加很少的额外开支或负担,但是他们并不意识到确定 估计量的标准差的重要意义。这是否因为统计人员无 意识地忽视了估计量的不精确性所产生的严峻的现实 呢?计算标准差,并且把他们与估计量一起列出来, 应该成为实际工作的一个常规。”
另一方面,因为是等概率抽取样本,所以要求 总体在所研究的主要标志上同质性或齐性(共 性)较好,也即总体要比较均匀;要求样本容 量要比较大,以保证样本对总体具有充分的代 表性。但是,在社会经济现象中,这种均匀总 体是很少见的。因此,实际工作中很少单纯使 用简单随机抽样方法。
再者,因为直接从总体中抽取样本,未能充分 利用关于总体的各种其它已知信息,以有效地 提高样本的代表性,并进而提高抽样的估计效 率。
2.2.2简单估计量 y 方差与协方差
1、简单估计量 y 的方差
证明: 方法一: 根据方差的定义和性质,显
然有
V ( y) E( y Y )2 1 Eny Y 2
n2
1 n2
n E
i1
( yi
Y ) 2
=
1
n2
E
n i 1
( yi
Y
)2
2E
n i j
( yi
Y
)( y j
(二)随机数法
随机数法就是利用随机数表、随机数骰子或计 算机产生的随机数进行抽样。由于计算机产生 的随机数实际上是伪随机数,不是真正的随机 数,特别是直接采用一般现成程序时,产生的 随机数往往不能保证其随机性。因此,一般使 用随机数表,或用随机数骰子产生的随机数, 特别在n比较大时。
1、随机数表及其使用方法
,并写出它的方差表达式。
ˆ y,
V (y) 2
n
(3)根据上述样本数据,如何估计?
性质:E(s2) 2 ,
vˆ( y) s2 n
(4)假定的分布是近似正态的,试分别给出总体均值μ的置信 度为95%的近似置信区间。
假定总体是近似正态分布
设y1,y2,..., yn是独立同分布样本,则
y ~ t(n 1),即 y ~ t(n 1)
s2 / n
s(y)
y
t
1
2
s(y),y
t
1
2
s(y)
概述
一、简单随机抽样(或单纯随机抽样) 本书一般局限于不放回随机抽样
二、实施方法 三、地位、作用
是其他抽样方法基础
2.1定义与符号
定义2.1 从总体的N个单元中,一次整批抽取n 个单元,使任何一个单元被抽中的概率都相等 ,任何n个不同单元组成的组合被抽中的概率 也都相等,这种抽样称为简单随机抽样.
n i1
y i 估计 Y
1 N
N i1
Yi
这种估计即是简单估计
性质1:E(y) Y
定理2.1 对于简单随机抽样,作为Y 的简单估
计 ,Y y 是无偏的。
注意定理可以表示成更简洁的形式:
Ey Y
证明1:(定义法)
y
E(y) CnN
(y1 yn )/ n CnN
y1 n
(y1
yn
第二章 简单随机抽样
第二章 简单随机抽样
1、简单估计量 2、比率估计量 3、回归估计量
例:从某个总体抽取一个n=50的独立同分布样本,样本数据如下 :
567 601 665 732 366 937 462 619 279 287
690 520 502 312 452 562 557 574 350 875
目前,世界上已编有许多种随机数表。其中较 大的有兰德公司编制,1955年出版的100万数 字随机数表,它按五位一组排列,共有20万组 ;肯德尔和史密斯编制,1938年出版的10万 数字随机数表,它也按五位一组排列,共有 25000组。我国常用的是中国科学院数学研究 所概率统计室编印的《常用数理统计表》中的 随机数表。
第三步:确定所抽样本单元的号码。从上述确定的起 点开始向下(或向右),每次取一个r位数。通常,若所 需抽的数是一位数或两位数(即r=1或2),则由起点开 始,依次向右抽取较方便,达到该行右端时,从下一
行左端开始继续向右抽取;若所需抽的数是三位及以 上(即r≥3)则由起点开始依次向下抽取较方便,达到最 后一行时,向右移10位(或r位),再从第一行开始向下 继续抽取,直到取足所需的n个r位数为止,以这n个r 位数所对应的总体单元组成样本。
(3)根据上述样本数据,如何估计?
(4)假定的分布是近似正态的,试分别给出总体均值μ的置信 度为95%的近似置信区间。
(1)计算样本均值与样本方差。
n
n
y
yi i1 , s2
n
(yi y)2
i1
n1
n
1
( 1
n i1
y
பைடு நூலகம்
2 i
ny2 )
(2)若用 y 估计总体均值μ,按数理统计结果,是否无偏
)
1 n
Cn1 N1
N i1
Yi
E(y)
y CnN
1 n
Cn1 N1
N i1
CnN
Yi
1 N
N i1
Yi
Y
证明2:(对称性论证法)
y
1 n
n i1
yi
E(y)
1 n
E(
n i1
yi
)
1 n
n N
N i1
Yi
1 N
N i1
Yi
Y
证明3:从总体规模为N的总体中抽取一个容 量为n的简单随机样本。若对总体中每个单元 ,如引理2.2引进随机变量即可完成证明。参 见34页。
推论2.4 对于简单随机抽样,Yˆ Ny 的方差为:
V (Yˆ) N 2 1 f S 2 n
2、两个估计量的 y, x 协方差
证明1:根据定义,采用对称证明法。参见40 页。
2.2.3方差与协方差的估计
性质:E(s2) S2
其中s2
1 n1
n
(yi
i1
y)2
1
n
(
n 1 i1
定义2.2 从总体的N个单元中,逐个不放回抽 取单元,每次抽取到尚未入样的任何一个单元 的概率都相等,直到抽足n个单元为止,这样 所得的n个单元组成一个简单随机样本.
定义2.3 按照从总体的N个单元中抽取n个单元的 所有可能不同组合构造所有可能的 CNn 个样本, 从中随机抽取一个样本,使每个样本被抽到的概
)2
2
n 1 N 1
n i j
(Yi
Y )(Yj
Y )
1
= nN
1
n 1 N 1
N i 1
(Yi
Y )2
n 1 N 1
N i 1
(Yi
Y
)2
2
n 1 N 1
n i j
(Yi
Y
)(Yj
Y
)
= 1
n
N N
n
1 N 1
N i 1
(Yi
Y
)2
= S 2 (1 f )
n
证明2:仿照前面定理2.1 之证明3引进随机变 量,且运用引理2.2的结论就可完成证明。参 见36页。
yi2
ny 2)