概率论-抽样原理与方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二.非随机抽样(非概率抽样)
就近抽样(偶遇抽样、方便抽样、自然抽样) 目标式或判断式抽样或立意抽样 滚雪球抽样 配额抽样 空间抽样
抽样调查的目的和指标要求
确定调查对象(总体和观察单位)
确定抽样调查的方法
确定样本容量和抽样分数
总体单位编号
编制抽样调查表
制订抽样调查的组织计划
样本平均数的标准误
X =
n
s sx = n
置信区间
(x 0.05sx, x + t0.05sx) t
df=n-1
样本频率的标准误
sp =
p(1 p) n
置信区间
(p 0.05sp, p+ u0.05sp) u
df=n-1
一、平均数资料样本容量的确定
根据均值区间估计公式可得样本容量n为:
观察多少例,才可能在α=0.05的水准上
发现两种疗法近控率有显著相差?
一.随机(概率)抽样
简单随机抽样 分层抽样 系统(等距)抽样 整群(集体)抽样 多阶段抽样 双重抽样
简单随机抽样
它是按随机原则直接从总体N个单位中抽出n个单位作为样 本,总体中每个总体单位都有同等被抽取的机会,适用于均 匀总体。
首先抽取一个初步样本,并搜取一些简单项目以获 得有关总体的信息; 然后,在此基础上再进行深入抽样。
做一次随机抽样,调查y和x两种性状,从中求出y依x的回归方程。
这个样本容量n 不一定很大,但希望x和y有较大的幅度。
采用双重抽样法,必须注重y和x两性状间不但要有显著相关,
而且须有高程度显著相关,才能获得比较准确的结果,所以在建 立回归方程时要检验其相关系数的大小及显著性。
第七章
抽样原理与方法
抽样是从所研究的总体中抽取一定数量的
个体构成样本,通过对样本特征的研究和
计算,进而 对总体特征作出推断。
***** ************* ***************** ******************* ******************* ***************** *************** ************ ******
①先抽大单位(可以用类型抽样或机械抽样)
②再在大单位中抽小单位(可用整群抽样或简单随机
抽)
③小单位中再抽更小的单位;而不是一次就直接抽
取基层的调查单位。
优点:(1)当群具有同质性时,多阶抽样的效率高于整群抽样;
(2)样本的分布比简单随机抽样集中,采用面访可以节约 时间和费用;(3)不需要整个总体单元的名录框,只要群 的名录框和抽中群的单元名录框。
Nt p(1p)
2
优点:
(1)比较容易理解和掌握;(2)抽样框不需要其他辅 助信息;(3)理论上比较成熟,有现成的方差估计公 式。
缺点:
(1)没有利用辅助信息;(2)样本分散,面访费用较
高;(3)有可能抽到较差的样本;(4)抽选大样本
比较费时
定义:在抽样之前将总体按变异原因或程度 或分成若干区层。然后在每一个层独立地 随机抽取样本。
系统抽样比简单随机抽样更容易实施,可节约抽样成本;
我们国家的国家统计局的调查多采用系统抽样,它便于
操作。
整群抽样即从全及总体中成群地抽取样本单 位,对抽中的群内的所有单位都进行观察。
绿色为总体 红色为群 白点为基本单元
整群抽样的优点:
(1)能大大减低收集数据的费用; (2)当总体单元自然形成群时,容易取得抽样 框,抽样也更容易; (3)当群内单元差异大,而不同群之间的差异 小时,可以提高效率。
缺点: (1)效率不如简单随机抽样;(2)通常不能提前知道
最终的样本量;(3)调查的组织较整群抽样复杂;(4)估 计值与抽样方差的计算较为复杂。
又称二重抽样、复式抽样,相关抽样法。
是指在抽样时分两次抽取样本的一种抽样
方式。
双重抽样的主要作用是提高抽样效率、节
约调查经费。
双重抽其具体步骤为:
三、样本容量和样本个数
样本容量是指一个样本所包含的单位数。 样本个数又称样本可能数目,指从一个总体中可 能抽取的样本个数
四、重复抽样和不重复抽样
抽样误差的概念:由于生物界变异普遍存在,进 行随机抽样时,不可避免地造成样本统计量与总 体参数之间或各样本统计量之间的差别,称为抽 样误差。
抽样误差存在的根本原因:个体差异 由于个体差异的普遍存在,所以抽样误差是 不可避免的(但其存在是有规律的),为更加准 确地通过样本统计量估计其总体参数,就应该寻 找抽样误差的规律,估计抽样误差的大小。
例 某高中共有900人,其中高一年级300 人,高二年级200人,高三年级400人,现采 用分层抽样抽取容量为45的样本,那么高一、 高二、高三各年级抽取的人数分别为( ) A.15,5,25 B.15,15,15 C.10,5,30 D15,10,20
优点:样本代表性高、抽样误差小、抽样
调查成本较低。如果抽样误差的要求相同
三、成对资料样本容量的确定
= n t
2 2 0.05 d 2
s
d
4s d 2 2 d
sd = sx12 x
四、非成对资料样本容量的确定
= n
2t s x (x )
2 0.05 x 21 2 x 2 1 2
百度文库
8s (x1 2)2 x
2 x1 2 x
[例]某职业病防治所用两种疗法治疗矽肺患者,
的话则抽样数目可以减少。
缺点:必须有分层的辅助信息;若调查变
量与分层的变量不相关,效率可能降低;
估计值的计算比简单随机抽样复杂
定义:又称等距抽样,对研究的总体按一定的顺序 排列,每隔一定的间隔抽取一个单元的抽样方法。 抽选方法:设总体单元数为N,要抽n个单元为样
本,先计算抽样间隔k=N/n,在1到k之间抽取一个 随机起点r,则被抽中单元的顺序位置是:r,r+k,
整群抽样的缺点:
(1)若群内个单元有趋同性,效率将会降低; (2)通常无法预先知道总样本量,因为不知道群内有多少单元; (3)方差估计比简单随机抽样更为复杂
可以综合利用分层和整群抽样技术,采取分层整群抽样,比 如人体尺寸调查,采用分层提高样本代表性,采用整群抽样,
便于数据的收集。
是由两个或更多个连续的阶段抽取样本的方法。
二、全及指标(参数)和样本指标(统计量)
1、全及指标:根据总体各单位的标志或标志属性计算的,反 映总体数量特征的综和指标称为全及指标。
2、样本指标:根据样本各单位标志值或标志属性计算的综合
指标称为统计量。
总体平均数 总体成数 全及指标 总体标准差 总体方差
样本平均数 样本成数 样本指标 样本标准差 样本方差
= n t
2 0.05 2 2
s L
4s2 2 L
L置信半径,即参数估计的允许误差Δ
[例]用某药治疗胃及十二指肠溃疡病人,服药 四周后胃镜复查时,患者溃疡面平均缩小 0.2cm2,标准差为0.4cm2,假定该药确能使 溃疡面缩小或愈合,问需多少病人作疗效观
察才能在α=0.05的水准上发出用药前后相
重置抽样又称重复抽样、有放回抽样,是每次从总体中抽取
一个单位,观察记录后又放回,再抽取下一个。
不重置抽样又称不重复抽样、无放回抽样,是每次从总体中
抽取一个单位,观察记录后不放回,再抽取下一个。
重复抽样(同前) 不重复抽样
n
=
N+t X
2
Nt
2
2 2
2
n
=
N+t p(1p) P
2 2
差显著?
二、频率资料样本容量的确定
4p(1p) n= L2
[例]拟了解40岁以上男性冠心病患病率,据以往调查, 预测其患病率在10%左右,允许误差为2%,试计 算需要调查多少人才比较合适。 已知p=10%=0.1,L=2%=0.02,可得
=
n
4p(1p) = L2
4×0.1×0.9 = 900 0.022
r+2k,…。当N不能被n整除时,可采用随机抽样
的方法从总体中剔除部分个体,使剩下的个体数能
被样本容量整除,然后再采用系统抽样方法。
系统抽样的缺点
个差的样本;(2)不使用辅助信息使抽样效率不高; (3)样本彼此不独立,没有一个无偏的方差估计量, 对抽样误差的估计只是近似的。
(1)若抽样间隔与总体的某种周期性变化一致,会得一
一个疗程后,患者血清粘蛋白下降值甲疗法
平均为2.6(mg),乙疗法平均为2.0(mg,)
两种疗法下降值之合并标准差为1.3(mg)。
若要发现两组疗效相差显著,每组至少应观 察多少病人?
[例]据某院初步观察,用甲、乙两种药物治
疗慢性气管炎患者,近控率甲药为45%,
乙药为25%。现拟进一步试验,问每组需
**** ****** ****
实际工作中,由于存在无限总体,即使是 有限总体,由于受到人力、物力、财力及 其他因素的限制,只能通过对样本的研究 和分析,推断该样本所在总体的特征。
一、全及总体与样本总体
全及总体简称总体,是指所研究现象的全 体。总体单位数用N表示。
样本总体简称样本,是指按照随机原则, 从全及总体中抽取的一部分单位所组成的 小总体,用n表示。
将相似的个体归入一类,即为一层,分层 要求每层的各个个体互不交叉,即遵循不 重复、不遗漏的原则。
分层抽样示意图
分层抽样的步骤: (1)按某种特征将总体分成互不相交的层 (2)按比例k=n/N确定每层抽取个体的个数 (n/N)*Ni个。 (3)各层分别按简单随机抽样的方法抽取。 (4)综合每层抽样,组成样本。