抽样检验和抽样分布

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

占总体单位数N的比例,即:
n n n n 1 2 3 K n
N1 N2 N3
NN K
各类型组应抽取的样本单位数为:
N n
in
n N i N i N
样本比率抽样样本容量:按前面指定的比
例(n/N)从每组的Ni单位中抽取ni个单位 即构成一个抽样总体,其样本容量为:
K
n= n1+ n2+ n3+…+ nk= ni i 1
数μ;
3、样本平均数 x 分布的均方差 x 等于:
当为有限总体无放回抽样时,其样本均值 标准差为:
N
N x
N
N
p
1
p
如果总体为无限总体的或抽取是有放回的
,其样本均值标准差为:
x
N
(二)非正态总体样本平均数 x 的分布及
性质?
1、中心极限定理可以解决上述问题:
一个具有任意函数形式的总体,其样
2、抽样误差:是指由于随机抽样的偶然因 素使样本各单位的结构不足以代表总体 各单位的结构,而引起抽样指标和全及 指标之间的绝对离差。不包含登记性误 差和不遵守随机原则造成的偏差。
影响抽样误差的因素有:总体各单位标 志值的差异程度;样本的单位数;抽样 的方法;抽样调查的组织形式。
第二节 随机抽样设计
样本容量足够大(n=50),据中心极限
定理,x 近似服从正态分布。
(1)
3160
x
800 113.14
x
N
50
x
P x3000 P
x
3000
3160
/ n
113.14
Pz 1.41 0.9207
同理处理(2)和(3)
(2)
x
P x 3000 P
x
3000
3160
/ n
113.14
Pz 1.41 1 0.9207 0.0973
(3)
P
3200
x
3300
P
3200
3160
x
x
3300
3160
800 / 50 / n 800 / 50
p0.35 z 1.24 0.2557
例2:从海外A地区采购大豆10000包,已 知平均每包重量为100公斤,标准差为4 公斤,现按不重复抽样从中抽取样本容 量n=500包的样本,来测定这批大豆的 每包平均重量,要求标出样本平均重量 短0.5公斤以上的概率.
3、样本容量和样本个数
样本容量:指一个样本所包含的单位数。通常 将样本单位数不少于30个的样本称为大样本 ,不及30个的称为小样本。社会经济统计的 抽样调查多属于大样本调查。样本个数又称样 本可能数目。指从一个总体中可能抽取的样本 个数。一个总体有多少样本,则样本统计量就 有多少种取值,从而形成该统计量的分布,此 分布是抽样推断的基础。
程度
组之和
i结K N合i考i 中虑所,占使比得例N等i i 于在所nn i有或类NN型i
n N ,即: i1
i
ii
n
K
N i i
i 1
从而求得各类型的样本单位数为:
K
n N N n
/
i
ii
ii
i 1
四、整群抽样
在全及总体中以群(或组)为单位, 按纯随机方式或等距抽样方式,抽取若 干群(或组),然后对所有抽中的各群 (或各组)中的全部单位一一进行调查 。
要求的概率为:
P
p
0.5025
p
p 0.46 0.0352
0.5025 0.46 0.0352
2Pz 1.21 1 2Pz 1.21 0.1131
(2)样本中大多数人支持候选人的选取民 比例为:1000人中的大多数即为 :500.5/1000=0.5005
样本代表性问题:随着样本容量的增大, 样本对总体的代表性越来越高,并且当 样本单位数足够多时,样本平均数愈接 近总体平均数。
2.全及指标和抽样指标
全及指标:根据全及总体各个单位的标 志值或标志属性计算的,反映总体某种 属性或特征的综合指示称为全及指标。 常用的全及指标有总体平均数(或总体 成数)、总体标准差(或总体方差 )。
样本方差
总体容量:N 总体平均数:μ 总体比例:p 总体标准差:σ
总体方差: 2
三、随机抽样和判断抽样
❖ 随机抽样:按照随机原则抽取样本,在 总体中所有单位被抽中的机会是均等的 。
❖ 判断抽样:根据个人或集体的设想或经 验,从总体中有目的地抽取样本。
三、非抽样误差和抽样误差
❖ 1、非抽样误差:在调查登记过程中发生 的误差和由于主观因素破坏了随机原则 而产生的系统性偏差。
1、全及总体和样本总体 全及总体是我们所要研究的对象,而样本总体 则是我们所要观察的对象,两者是有区别而又 有联系的不同范畴。 全及总体又称母体:具有某种共同性质的许多 单位的集合体。 样本总体:又称子样,简称样本,是从全及总 体中随机抽取出来,代表全及总体的那部分单 位的集合体。样本总体的单位数称为样本容量 ,通常用小写英文字母n来表示。
等距抽样的优点:(1)能保证被抽取到
的样本单位在全及总体中均匀分布;(2 )简化抽样过程。
等距抽样应注意:要避免抽样间隔或样
本距离和现象本身的节奏性或循环周期 相重合。
三、类型抽样
类型抽样:将全及总体中的所有单位按某
一主要标志分组,然后在各组中采用纯 随机抽样或等距抽样方式,抽取一定数 目的调查单位构成所需的样本。
抽样检验和抽样分布
2021/7/13
第一节 抽样及抽样中的几个基本概念
一、抽样的概念和特点 1、抽样:从所研究的对象中随机地取出其
中一部分来观察,由此而获得有关总体 的信息。
2、抽样的3个特点: 1)遵守随机原则; 2)推断被调查现象的总体特征; 3)计算推断的准确性和可靠性。
二、抽样的基本概念
本平均值μ和方差 有2 限。在对该总体进
行抽样时,随着样本容量n的增大,由这
些平均样本算出的平均数 的x 抽样分布
将近似服从平均数为μ和方差为 的 2正
态分布。
n
2、样本容量究竟该多大才能使抽样分布逼 近于正态分布?
中心极限定理说明了不仅从正态总体抽 取样本时,样本平均数这一统计量要服 从正态分布,即使是从非正态总体进行 抽样,只要是大样本(容量n≧30),样 本平均数也趋向于正态分布。
2、比例抽样分布的均值 p P
3、比例抽样分布的标准差:
(1)有限总体且有放回抽样:
pq
p(1 q)
p
n
n
(2)有限总体且抽样无放回:
pq N n p(1 q) N n
p
n N 1
n
N 1
(三)比例抽样分布的例子
某选区的选取举结果表明某一位候选人 得到了46%的选票。从选民中随机抽取 (1)200人,(2)1000人作民意测验 ,求大多数人支持这位候选人的概率。
该问题的模型描述
因为样本容量n(n=200或1000)较大,
故 p的分布接近于正态分布。
均值
p 0.46
P
标准差
(1) pq
0.46 (1 0.46)
0.0352
p
n
200
(2) pq
0.46 (1 0.46)
0.0158
p
n
1000
(1)样本中大多数人支持候选人的选取民 比例为:200人中的大多数即为 :100.5/200=0.5025
问题的模型描述
没有告知总体服从正态分布,但样本容 量足够大(n=500),据中心极限定理, 可知 x 近似服从正态分布。
大豆的抽样:
N n 4 10000 500
x n N 1 500 10000 1
4 9500 0.1744 500 9900
p x 99.5 P z 99.5 100 2.68
二、统计量抽样分布的均值、标准差:
对于每个统计量的抽样分布,可计算出 它的均值和标准差等,称之为该统计量 抽样分布的均值和标准差等。
三、均值的抽样分布
(一)被抽样的总体服从正态分布,样本平均数 x 的抽样分布具有下列质: 1、样本平均数的分布依然是正态分布;
2、样本平均数 x分布的平均值 x 等于总体平均
2)随机数字法:用字母顺序或身份证号 等任何方便的方法对总体容量编者按号 ,利用随机数表从1到总体容量N中随机 抽取n(样本容量数)个数,遇到那些不 在编号里的数字需跳过。
二、等距抽样:先将总体各单位按某一
有关标志(或无关标志)排队,然后相 等距离或相等间隔K 抽取样本单位。根据 需要抽取的样本单位数(n)和全及总体 单位数(N),可以计算出抽取各个样本 单位之间的距离和间隔,即:K=N/n, 然后按此间隔依次抽取必要的样本单位 。
一、纯随机抽样:对总体的所有容量不做 任何的分类和排队,完全按随机原则逐 个抽取样本容量。
纯随机抽样的常用抽样方法
1)抽签法:将总体容量全部加以编 号,并编成相应的号签,然后将号签充 分混合后逐个抽取,直到抽到预定需要 的样本容量为止。
缺点:总体容量很多时,编制号签的 工作量很大,且很难掺和均匀。
0.1744
1 0.9979 0.0021
四、比例的抽样分布
(一)比率的抽样分布:从一个计数的变 量总体中抽取一定容量的样本,计算其 具有某种特征的单位数所占的比率,其 所有可能样本比率所形成的分布就是比 率的抽样分布。
(二)比例的抽样分布、均值 和方差
1、 当样本容量很大(n≧30)时,比例的 抽样分布 非p 常接近于正态分布。
ห้องสมุดไป่ตู้
(三)应用举例
例1:从某地区统计中得知,该地区郊区平 均每一家庭年收入为3160元,标准差为 800元。从此郊区抽取50个家庭为一随机 样本,平均每年收入为以下数字的平均 概率是多少:(1)多于3000元;(2) 少于3000元;(3)在3200元到3300元 之间。
使用模型描述我们的问题
题中没有告知总体服从正态分布,但
等距抽样的一个例子
某企业有职工5000名,现要随机抽取100人进 行家庭收入水平调查。
抽取方法:按与研究目的无直接关系的姓 名笔划对总体进行排列,把总体划分为 K=5000/100=50个相等的间隔,在第1 至第50人中随机抽取一名,如抽到第10 名,后面间隔依次抽取第60,110,160 ,210,…直到4960为止,总共抽取50同 名职工组成一个抽样总体。
4、重复抽样和不重复抽样
有放回抽样:总体中的每个个体单位可以 不止一次地被选中的抽样。
无放回抽样:总体中的每个个体被选中的 次数不多于一次。
5、样本统计量的总体参数符号
名称
样本
总体
定义 特征
从总体中抽出的部分单位数 统计量
研究对象的全部单位总数 参数
样本容量:n 符号 样本平均数:x
样本比例: p 样本标准差:s
第三节 抽样分布
一、抽样分布:从一个给定的总体中抽取 (不论是否有放回)容量(或大小)为n 的所有可能的样本,对于每一个样本, 计算出某个统计量(如样本均值或标准 差)的值,不同的样本得到的该统计量 的值是不一样的,由此得到这个统计量 的分布,称之为抽样分布。
例如:如果特指的统计量是样本均值, 则此分布为均值的抽样分布。类似的有 标准差、方差、中位数、比例的抽样分 布。
适用范围:主要适用于总体情况比较复杂
,各类型或层次之间的差异较大,而总 体单位又较多的情形,分层使层内各单 位之间的差异减小,层间差异扩大。
(一)类型比例抽样
按照总体单位数在各组之间的比例,分
配各组的抽样单位数。即:各类型中抽
取的样本单位数ni占该类型所有单位数Ni 的比例是相等的,等同于样本单位总数n
(二)类型适宜抽样
在抽取样本单位数时,要考虑各类型组
包含的单位数不同和标志变动度( i )
的不同,变动程度( i )大的类型组要
多抽样本单位数,变动程度( i )小的
组要少多抽样本数,使得各类型组的变
动程度( i )在所有类型组变动程度之

中的比例相等,等同于是 ni
或 Ni 。
n
N
此外,还可将各类型组单位数 N i 和变动
抽样指标:由样本总体各单位标志值计 算出来反映样本特征,用来估计全及指 标的综合指标称为统计量(抽样指标) 。统计量是样本变量的函数,用来估计 总体参数,因此与总体参数相对应,统 计量有样本平均数(或抽样成数)、样 本标准差(或样本方差 )。
注意: 对于一个问题全及总体是唯一确定的
,所以全及指标也是唯一确定的,全及指标也 称为参数,它是待估计的数。而统计量则是随 机变量,它的取值随样本的不同而发生变化。
五、多阶段抽样
将多个抽样程序分成若干阶段,然后逐 阶段进行抽样,以完成整个抽样过程。
适用范围:总体包括的单位很多,而且分 布很广,通过一次抽样抽选出样本是很 困难的,这时使用多阶段抽样。
多阶段抽样的一个例子
例:对我国的农产量进行抽样调查。 抽样方法是:先由省抽县,由抽中的县内 再抽乡、村,由抽中的乡、村抽地块, 最后才由抽中的地块再抽样本单位。
相关文档
最新文档