统计学(抽样极限误差与平均误差的关系及抽样方案的设计)讲课稿
统计学教案(第6章抽样推断)

二、区间估计法
在参数估计中,虽然点估计可以给出未知参数得一个估计,但不能给出估计得精度。为此人们希望利用样本给出一个范围,要求它以足够大得概率包含待估参数真值。这就就是导致区间估计问题。
所谓区间估计,就就是估计总体参数得区间范围,并要求给出区间估计成立得概率值。
设 就是未知参数, 就是来自总体得样本,构造两个统计量 , ,对于给定得 (0< <1),若 、 满足
例如
就就是一个统统计量,称为样本方差(Sample variance),
3、重复抽样与不重复抽样
(1)重复抽样:就是指从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一次样本单位得抽取。
(2)不重复抽样:即每次从总体中抽取一个单位,登记后不放回原总体,不参加下一次抽样。
2、总体参数与样本统计量
(1)总体参数:总体分布得数量特征就就是总体参数,也就是抽样统计推断得对象。常见得总
体参数有:总体得平均数指标,总体成数(比重)指标,总体分布得方差、标准差等等。
(2)样本统计量:与总体参数对应得就是样本统计量。
设( )就是总体 容量为n得样本,若样本函数
( )
中不含任何未知参数,则称 为一个统计量。
2、根据部分推断总体得数量特征
3、抽样推断得结果具有一定得可靠性与准确性,抽样误差可以事先计算与控制
其她特点有经济性、时效性、准确性、灵活性等
(三)抽样推断得应用
1、不可能进行全面调查时
2、不必要进行全面调查时
3、检查生产过程正常与否
4、对全面调查资料进行补充修正时
二、抽样得几个基本概念
1、样本容量与样本个数
区间估计步骤:
1、计算样本统计量
第九章 抽样与抽样估计 《统计学原理》PPT课件

第四节 必要的样本容量
一、平均数的样本容量 二、比例的样本容量
一、平均数的样本容量
(一)重复抽样下的样本容量 (二)不重复抽样下的样本容量
二、比例的样本容量
(一)在重复抽样条件下 (二)在不重复抽样下
在重置抽样的条件下,抽样平均数的单位数是:
n t 2 2
2x 在不重置抽样的条件下,抽样平均数的单位数是:
n t 2 N 2 N2x t 2 2
在重置抽样的条件下,抽样成数的单位数为:
n t 2 p(1 p) 2p
在不重置抽样的条件下,抽样成数的单位数为:
n
t 2 Np(1 p) N2p t 2 p(1 p)
(三)在确定抽样单位时要注意以下几点:
1、抽样单位数受允许误差范围的制约。 2、一个总体往往同时需要计算抽样平均数和抽
• 又称估计可靠程度或把握程度,也即估 计的区间包含总体参数的可能性大小, 常用1 表示。
一、总体均值的估计
(一)总体均值的点估计 (二)总体均值的区间估计
(二)总体均值的区间估计
1、总体方差已知时总体均值的区间估计 2、总体方差未知时总体均值的区间估计
二、对总体比例的估计
(一)总体比例与样本比例 (二)样本比例p的分布特征 (三)总体比例P的估计
误差的可能范围。
x x X p pP 将上式等价转换为下列不等式: X x x X x Pp p Pp 因为,总体指标是未知,上述不等式应该转换为: x x X x x pp P pp
基于理论上的要求,抽样极限误差通常 需要以抽样平均误差为标准单位来衡量,把
极限误差除以抽样平均误差,得出相对数 t,
当N 很大时,重复抽样与不重复抽样的差别不大!
(二)抽样极限误差
《统计学》第七章抽样推断第二节 抽样误差

经济、管理类 基础课程
统计学
二、抽样误差的影响因素
差异越大,抽 样误差越大
单位数越多, 抽样误差越小
1.总体各单位标志值的差异程度; 2.样本的单位数; 3.抽样的方法; 4.抽样调查的组织形式。
重复抽样的抽 样误差比不重 复抽样的大 6-4 简单随机抽样 的抽样误差最 大
三、抽样平均误差
或
p p P
如果抽样极限误差用抽样平均误差来 衡量,则有: x t x 或 p t p
9
式中, N为总体单位数; n为样本容量;σP2 为总体成数方 差一般情况下是末知,可用样本成数方差替代σp2 。
8
四、抽样极限误差
抽样极限误差是指用绝对值形式表示的样本指 标与总体指标偏差可允许的最大范围。即:
x x X
即,抽样极限误差是 抽样平均误差的多少 式中, x样本平均指标 ;X 为总体平均指标 倍。我们把倍数 t称 p为样本成数;P 为总体成数 。 为抽样误差的概率度
2
n ( 1- ) 当N 很大时,可近似表示为: = n N
6
1. 重复抽样的条件下
平均数的抽样平均误差 : x
n
式中,n为样本容量; 为总体标准 。
成数的抽样平均误差 : p
p
n
式中,n为样本容量; 为总体成数标准差 P 一般情况下是末知,可用样本成数标准差替代 p。
P(1 P)
7
2. 不重复抽样的条件下
平均数的抽样平均误差 : x 当N很大时近似为 x
2 ( N n)
n( N 1)
;
2
抽样调查

2020/7/5
浙江财经学院
21
《统计学》课件
二、抽样平均误差的计算 1、理论公式
变量总体x
(xi X )2 (i 1,2,, k) k
属性总体 p
( pi P)2 k
实际上,全及指标是未知的,而且实践中只会抽 样一个样本。所以这个公式实践中不采用。
2020/7/5
浙江财经学院
22
《统计学》课件
2、抽样指标:根据抽样总体中的各单位标志值或标志特征
计算的综合指标。又称统计量,是一个随机
变量总体: 属性总体:
变量。
x x
n
S (x x)2
n 1 p n1
n
S p(1 p) pq
S称为样本标准差
q n0 n
pq 1
n1 具有某种属性的单位数 , n0 不具有某种属性的单位数
2020/7/5
客观地抽取样本,并推断总体。
2020/7/5
浙江财经学院
7
《统计学》课件
2、特 点
1)只抽取部分单位; 2)用部分推断总体; 3)抽样遵循随机原则; 4)会产生抽样误差,但误差可以计算和控制。
3、统计误差
统计数字与各种实际数量之间的差别。
登记误差: 调查误差或工作误差,指在登记、汇总计 算过程中产生的误差。(可以避免的)
而变动。这样,可以在统计意义上,推断总体指标在 一定范围内。样本指标与总体指标的离差绝对值就是
抽样极限误差 。由于离差可正可负,整个变动的
范围区间称为置信区间。
变量总体 x x X
属性总体 p p P
2020/7/5
浙江财经学院
30
《统计学》课件
对上式去掉绝对值符号,并且移项可得到:
抽样误差和总体均数估计二PPT课件

(t=2.14, P=0.039). The 95% CI of the mean
Hgb level in the male workers exposed to
lead was (122.12第,161页3/共96.35页4)g/L.
16
17
假设检验中的单侧检验和双侧检验
根据研究目的与专业知识确定。如认为从事铅作业男性工人的Hgb含量不 可能高于正常成年男性,则可选用单侧检验。
0.454
0.296
8
0.730
0.512
0.218
9
1.200
0.997
0.203
10 合计
0.870
----
0.506
----
0.364
2.724
第30页/共63页
1.建立假设,确定检验水准α。 H0:d=0 (即两种方法的测定结果相同) H1:d≠0(即两种方法的测定结果不同) α=0.05
第29页/共63页
两法对乳酸饮料中脂肪含量的测定结果(%)
编号
哥特里-罗紫法 脂肪酸水解法 差值(d)
1
0.840
0.580
0.260
2
0.591
0.509
0.082
3
0.674
0.500
0.174
4
0.632
0.316
0.316
5
0.687
0.337
0.350
6
0.978
0.517
0.461
7
0.750
第13页/共63页
t 统计量的提出
• Fisher,E. Pearson和Neyman完善了t 检验的理论 • Gosset 提出实际问题, Fisher 和E. Pearson 将其转成统计问题,
5 抽样课件内容

第五章抽样【本章内容要点】·抽样的意义与原则·概率抽样的基本原理·抽样的一般程序与设计原则·抽样的方法·样本规模与抽样误差【本章重点】·概率抽样方法·样本规模的确定【本章教学内容】第一节抽样的意义与作用一、抽样的基本概念(一)总体和样本1、总体总体是具有某种共同性质或特征的许多元素所组成的集合。
·属性总体·变量总体2、元素构成总体的每一个成员,它是收集信息的基本单位。
3、样本从总体中按一定方式抽取出来的一部元素所组成的集合。
·样本容量·样本可能数(二)抽样、抽样单位和抽样框1、抽样从调查总体中,按一定方式选择或抽取一部分元素组成样本的过程。
2、抽样单位一次直接的抽样所使用的基本单位。
3、抽样框(抽样结构)对可以选择作为样本的总体元素列出名册或排序编号,以确定总体的抽样范围和结构。
(三)参数值和统计值1、参数值(总体参数)参数值是关于总体中某一变量的综合描述。
【变量总体的参数值】【算术平均数】【简单算术平均数】【例】现有5 位老人的月退休金分别为:783 元、896 元、984 元、1 295元、1 137元,求这五位老人的平均月退休金。
【加权算术平均数】()X μ→或总体集中趋势2σσ→和总体离散趋势=总体标志总量算术平均数总体单位总量121...1n n i i xx x x x x n n n=+++===∑∑783896984129511375095101955x x n ++++====∑解:(元)11221121......ni in ni nnii x fxf x f x f x f x f f f ff==+++===+++∑∑∑∑【例】某地区100户居民按月水电费支出分组的资料如下表所示,求该地区100户居民的平均月水电费支出。
某地区100户居民月水电费支出情况统计表解: 某地区100户居民平均月水电费支出计算表【例】某班男、女生(各12人)上学期统计学考试成绩分别为: 女生:72、76、77、78、80、81、81、84、84、85、87、87; 男生:50、63、63、70、74、82、88、95、95、97、97、98。
均数的抽样误差PPT课件

第二个要素是“精确性”,常用可信区间的长度(CL,CU)来表示,当
然长度越小越好。精确性与变量的变异度大小、样本例数和1- 的取值 有关。当1- 的取值确定后,可信区间的长度受限于个体变异和样本含
量,个体变异越大区间越宽,样本越小区间越宽,反之区间越窄。
例:某年级学生总人数800人,通过计算其中50人 的医学统计学考试成绩来估计其总体均数。
抽样n=50, X =75.00。估计μ= ?。
①μ=75.00
可能性
②μ=70.00~80.00 可能性
③μ=65.00~85.00 可能性
24
二、t 检验
统计分析
统计描述
是用统 计指标、统计表 和统计图描述资 料的分析规律及 其数量特征。
统计推断
包括“总体 参数估计”和“ 假设检验”两个 内容。
本例自由度:ν-1=25-1=24; t0.05,24,经查表得t0.05,24 = 2.064 则
S X + t0.05,24 × X =73.6 + 2.064×6.5/ 25 = 76.3次/分
X
-
t0.05,24
×
S X
=
73.6
-
2.064×6.5/
25 = 70.9次/分
即该地区正常男子脉搏总体均数的95%可信区间为:
可能高,也可能低
双侧检验
肯定不会低(或高)
单侧检验
H1 : μ>μ0 μ<μ0 μ1 >μ2 μ1< μ2
33
17
2)小样本可信区间估计--t分布法:
x
总体均数95%可信区间估计计算公式:
X
t
0.05,
S X
总体均数99%可信区间估计计算公式:
第三节抽样极限误差

第三节抽样极限误差教学目的:让学生掌握抽样极限误差的计算教学过程:一、抽样极限误差。
抽样极限则说明样本指标对总体指标的代表性高。
其次,平均误差还说明样本指标与总体指标差别的一般范围。
这个范围实际上就是抽样极限误差。
误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。
它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围。
它是由抽样指标变动可允许的上限或下限与总体指标之差的绝对值求得的。
由于总体平均数和总体成数是未知的,它要靠实测的抽样平均数成数来估计。
因而抽样极限误差的实际意义是希望总体平均数落在抽样平均数的范围内,总体成数落在抽样成数的范围内。
基于理论上的要求,抽样极限误差需要用抽样平均误差,或,为标准单位来衡量。
即把极限误差 ?x或 ?pxp相应除以或,得出相对的误差程度t倍,t称为,,px抽样误差的概率度。
于是有:,,t,,,t,xxxx二、抽样估计方法抽样估计就是利用实际调查计算的样本指标值来估计相应的总体指标数值。
抽样估计有点估计和区间估计两种。
参数点估计的基本特点:根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值。
点估计的优良标准是无偏性、一致性和有效性。
抽样估计的置信度是表明抽样指标和总体指标的误差不超过一定范围的概率有多大。
参数区间估计的基本特点:根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。
总体参数区间估计根据给定的概率保证程度的要求,利用实际抽样资料,指出被估计值的上限和下限,即指出总体参数可能存在的区间范围。
总体参数区间估计必须同时具备估计值、抽样误差范围和概率保证程度三个要素。
【推荐】抽样误差和抽样分布培训讲义34

计算公式为
X
n
其中,σ为总体标准差,n为抽样的样本例数
在研究工作时,由于总体标准差常常未知, 可以利用样本标准差近似估计
sX
s n
【推荐】抽样误差和抽样分布培训讲 义34
【推荐】抽样误差和抽样分布培训讲 义34
标准误的计算
【例】根据7岁男童的身高资料, 在已知总体标准差时,标准误为
【推荐】抽样误差和抽样分布培训讲 义34
样本均数和 总体均数间 的差别 X i
样本均数和 样本均数间 的差别 X i X j
【推荐】抽样误差和抽样分布培训讲 义34
抽样误差
定义。 只要有个体变异和随机抽样研究,
抽样误差就是不可避免的。 抽样误差有自己的客观规律,统
计学就是拨开抽样误差之雾来洞 察客观规律的利器。
【推荐】抽样误差和抽样分布培训讲 义34
【推荐】抽样误差和抽样分布培训讲 义34
2.1 标准误的定义
样本统计量(如均数)也服从一 定的分布;
与描述观测值离散趋势的指标类 似,我们使用样本统计量的标准 差来反映抽样误差的大小。又称 标准误(standard error)。
【推荐】抽样误差和抽样分布培训讲 义34
对象 计算方法
标准差
个体变异 定义
标准误
抽样误差 定义
性质 用途
n越大,标准差越
稳定
参考值范围 衡量离散程度
n越大,标准误越小
可信区间,假设检验
【推荐】抽样误差和抽样分布培训讲 义34
【推荐】抽样误差和抽样分布培训讲 义34
3.1 样本均数的抽样分布规律
中心极限定理
从均数为μ,标准差为σ的正态总体中随机抽样,样 本均数服从均数为μ,标准差为 的n 正态分布。
《均数的抽样误差》PPT课件

精选ppt
6
二、t值与t分布 样本均数与总体均数间的差如以均数标准误 的估 计值的倍数来表示,此倍数即为t值
t x
Sx
从正态分布总体中抽取若干个样本含量相同的样 本,每个样本各计算一个t值,如抽取的样本很多 时,可发现t值的分布是以0为中心,两侧对称的 类似正态分布的一种分布。即t distribution。
t分布曲线的峰度kurtosis:受n的影响。当n小时, 曲线低平;n越大越接近正态分布。即t 分布曲线 是随自由度的大小而有规律地变动的。
精选ppt
7
degree of freedom: ν=n-1 (读:nu)
t分布曲线不是一条曲线而是一簇曲线
t 分布曲线与横轴间的面积有规律:
两侧外部面积为5%及1%的界限的t值常用t0.05(ν)、 t0.01(ν)表示 自由度趋于∞时,t分布趋向于均数为0,标准差为 1的标准正态分布。一般情况下t分布曲线较正态 分布低平,因而t0.05(ν)≥1.96, t0.01(ν)≥2.58 t值与P值呈反向关系:t越大,则P越小;反之亦 然。|t|≥ t0.05(ν),P≤0.05
抽取一定数量的观察单位作为样本进行抽样研究,
通过样本指标来说明总体特征,这种从样本获取
总体信息的过程,称~
精选ppt
2
二、均数的标准误
数理统计推论和中心极限定理central limit theorem 表明:(1)从正态总体N(μ,σ)中,随机抽
取例数为n的样本,样本均数 x 也服从正态分布;
(2)从均数为μ,标准差为σ的正态或偏态总体, 抽取例数为n的样本,样本均数 的x总体均数也 为μ,标准差用 表 x示。通常将样本统计量的 标准差称为标准误standard error, SE, 样本均 数的标准差即均数标准误standard error of mean, SEM。
统计学(抽样极限误差与平均误差的关系及抽样方案的设计)

抽样极限误差与抽样平均误差的关系抽样极限误差通常用抽样平均误差的倍数表示,即pp t μ=∆ 2p p Z αμ∆=t 称为概率度 x x t μ=∆ 2x xZ αμ∆=3、可信程度可信程度是表示估计的可靠程度如果估计区间越大,则可靠程度越大;估计区间越小,则可靠程度越小。
而估计区间又与抽样极限误差有关,在一定的抽样方式下,抽样极限误差又是由概率度t 决定的。
因而可靠程度与t 之间有一定正比关系。
概率度t 与概率保证程度(可靠程度)之间的关系见下表。
例:若概率为0.95,查表得t=1.96三、抽样推断(区间估计)抽样推断(区间估计)的步骤如下:⒈计算抽样平均误差⒉给定概率保证程度,查表得概率度t⒊计算抽样极限误差x x t μ=∆⒋估计总体指标区间x x x X x ∆+≤≤∆-接前面灯泡例题:灯泡样本平均使用时间 为1057小时,合格率为91.5%,重复抽样下,灯泡的使用时间抽样平均误差 小时,合格率的平均误差为 ,计算在不同概率保证下,平均数和成数的抽样极限误差?当t=1?当t=2?当t=3?第五节 抽样方案设计(P96)一、抽样方案设计的基本原则保证实现抽样随机性的原则(保证消除代表性误差中的偏差)保证实现最大的抽样效果原则注意:调查费用取决很多因素,其中最重要的是抽样单位数目,要确定适当的抽样单位数目,取决于抽样的精度和可靠性的要求;精度是指希望估计区间的长度越短越好,可靠性是指估计区间包含参数的概率越大越好;在样本容量确定的条件下二者是矛盾的,因此抽样设计的原则是在一定的误差和可靠性的要求下选择费用最少的样本设计。
二、简单随机抽样(既不分组也不排队)简单随机抽样又称纯随机抽样,是按照随机的原则直接从N 个总体单位中抽取n 个单位作为样本。
注意:简单随机抽样最符合随机原则直接抽选法抽签法随机数码表法三、类型抽样 (分层抽样)类型抽样又称分类抽样或分层抽样,是先对总体各单位按一定标志加以分类,然后再从各类中按随机原则抽取样本,由各类内的样本组成一个总样本。
统计学第六章抽样与抽样估计

三、整群抽样及其抽样估计
三、整群抽样及其抽样估计 1.整群抽样的概念 2.整群抽样估计
例3 某商场有某种饮料500箱,每箱6瓶,现随机抽取10箱检查 每瓶的含菌量数,测得这10箱的平均每瓶含菌数分别为:90、 80、65、85、75、70、60、65个。要求以95%的置信度推 断这批饮料的平均含菌数的区间?(教材P108)
置信上限=96%+1.3%=97.3%上限=96%-1.3%=94.7% 以68.27%的置信度估计全部产品合格率的区间 为94.7%至97.3%
解:N=10000, N1=4000, N2=6000, n1=n2 =100, p1=94%, p2=98%,z=1
等距抽样及其抽样估计 等距抽样的概念 无关标志排队等距抽样 其抽样误差按简单随机抽样的抽样误差公式近似计算。 有关标志排队等距抽样 其抽样误差按分层抽样的抽样误差公式近似计算。 半距起点等距抽样 对称起点等距抽样
抽样极限误差 概念 又称允许误差。指样本指标与总体指标之间产生抽样误差被允许的最大可能范围。 抽样极限误差的计算
(三)抽样误差的概率度
(四)抽样估计的置信度
基于概率估计的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量。 极限误差除以抽样平均误差得到的相对数称为概率度。用Z表示。
指样本指标与总体指标误差不超过一定范围的概率保证程度。抽样误差的概率就是概率度Z的涵数,即:
几个总体参数的无偏、有效、一致点估计 样本平均数估计量是总体平均数的无偏、有效、一致估计,即 样本比例是总体比例的无偏、有效、一致估计,即
总体方差的无偏估计是:
三、总体参数的区间估计 (一)区间估计的概念要点 1.根据一个样本的观察值给出总体参数的估计范围 2.给出总体参数落在这一区间的概率 3.例如: 总体均值在50~70之间,置信度为 95% 置信区间 置信下限 置信上限 样本统计量 (点估计)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 抽样极限误差与抽样平均误差的关系
抽样极限误差通常用抽样平均误差的倍数表示,即
p
p t μ=∆ 2p p Z αμ
∆=
t 称为概率度 x x t μ=∆ 2x x
Z αμ∆=
3、可信程度
可信程度是表示估计的可靠程度
如果估计区间越大,则可靠程度越大;估计区间越小,则可靠程度越小。
而估计区间又与抽样极限误差有关,在一定的抽样方式下,抽样极限误差又是由概率度t 决定的。
因而可靠程度与t 之间有一定正比关系。
概率度t 与概率保证程度(可靠程度)之间的关系见下表。
概率度t
误差范围() 概率F (t ) 概率度t 误差范围() 概率F (t ) 0.5
1.00
1.50 0.5 1.00 1.50 0.3829 0.6827 0.8664 1.96
2.00
3.00 1.96 2.00 3.00 0.9500 0.9545 0.9973
例:若概率为0.95,查表得t=1.96
三、抽样推断(区间估计)
抽样推断(区间估计)的步骤如下:
⒈计算抽样平均误差
⒉给定概率保证程度,查表得概率度t
⒊计算抽样极限误差
x x t μ=∆
⒋估计总体指标区间
x x x X x ∆+≤≤∆-
接前面灯泡例题:
灯泡样本平均使用时间 为1057小时,合格率为91.5%,重复抽样下,灯泡的使用时间抽样平均误差 小时,合格率的平均误差为 ,计算在不同概率保证下,平均数和成数的抽样极限误差?
当t=1?
当t=2?
当t=3?
第五节 抽样方案设计(P96)
一、抽样方案设计的基本原则
➢ 保证实现抽样随机性的原则
(保证消除代表性误差中的偏差)
➢ 保证实现最大的抽样效果原则
注意:
➢ 调查费用取决很多因素,其中最重要的是抽样单位数目,要确定适当的抽样单位数目,取决于抽样的精度和可靠性的要求;
➢ 精度是指希望估计区间的长度越短越好,可靠性是指估计区间包含参数的概率越大越好;
➢ 在样本容量确定的条件下二者是矛盾的,因此抽样设计的原则是在一定的误差和可靠性的要求下选择费用最少的样本设计。
二、简单随机抽样(既不分组也不排队)
➢ 简单随机抽样又称纯随机抽样,是按照随机的原则直接从N 个总体单位中抽取n 个单位作为样本。
注意:简单随机抽样最符合随机原则
➢ 直接抽选法
➢ 抽签法
➢ 随机数码表法
三、类型抽样 (分层抽样)
➢ 类型抽样又称分类抽样或分层抽样,是先对总体各单位按一定标志加以分类,然后再从各类中按随机原则抽取样本,由各类内的样本组成一个总样本。
➢ 将总体N 分成N1、N2、Nm,从N1中抽取n1个单位、N2中抽取n2个单位、Nm 中抽取nm 个单位组成样本。
➢ 总体单位数N=N1+N2+…Nm
样本单位数n=n1+n2+…nm
注意:在类型抽样的情况下,因为从各类型组都抽取了样本单位,所以,对各类型组来说是全面调查,因此,组间方差是可以不考虑的。
影响抽样误差的总方差是组内方差。
四、机械抽样(系统抽样)
➢ 机械抽样又称等距抽样,它是对总体按一定的顺序排列,每隔一定的间隔抽取一个或若干个单位,并把这些单位组成样本的一种抽样方法。
➢ 等距抽样按排队的标志不同,分为无关标志排队和有关标志排队的等距抽样 。
➢ 随机起点等距抽样
➢ 半距起点等距抽样
3.7922x μ= 1.972%p μ=
➢ 对称等距抽样
五、整群抽样
➢ 整群抽样是将总体划分为由总体单位的组成的若干群,然后以群为抽样单位,抽取
若干群作为样本,对群内所有单位进行全面调查的抽样方法。
➢ 影响整群抽样误差大小的是群间方差,误差一般大于简单随机抽样。
六、多阶段抽样
➢ 在抽样调查抽选样本时并不是一次直接从总体中抽取,而是分成两个或者两个以上
的阶段来进行。
➢ 多阶段抽样的前几个阶段类似整群抽样
➢ 两阶段抽样和类型抽样、整群抽样的联系
第六节 必要抽样单位数的确定(P141)
一、确定抽样单位数的意义和原则
➢ 在选定了抽样方式后,必须确定样本容量n 。
➢ n 的大小同抽样推断的效果成正比,同抽样组织需要耗费的人力、物力、财力等也
成正比。
➢ 在组织抽样调查的时候,需要在确保抽样推断的可靠程度和精确程度的要求下,力
求抽样组织工作更简单。
二、确定抽样单位数的依据
➢ 总体各单位标志变异程度 :即总体方差或p(1-p)的大小。
总体标志变异程度大,要
求样本容量大一些;反之,总体标志变异程度小,样本容量可以小些。
➢ 允许的极限误差 或 的大小 :允许的极限误差越大,样本容量越小;反之,
极限误差越小,样本容量越大
➢ 抽样方法:在其它条件相同的情况下,重置抽样比不重置抽样要抽取多一些样本单
位。
➢ 抽样方式:采用类型抽样的样本容量要小于简单随机抽样的样本容量。
三、确定抽样单位数的计算公式(只要求掌握简单随机抽样)
➢ 简单随机重复抽样平均指标的必要抽样单位数公式
➢ 简单随机不重复抽样平均指标的必要抽样单位数公式
简单随机重复抽样成数的必要抽样单位数公式
➢ 简单随机不重复抽样成数的必要抽样单位数公式
注意:
➢ 公式的运用要求事先取得全及总体的标准差 或
所以一般用抽样指标的标准差 或 222
22x x x x
t t t n σσμμ∆====∆222
22222
x x x x Nt N t t n N t N σσμσμσ∆==⇒==∆++222(1)(1)p p p p t p p p p t t n μμ--∆====∆2222(1)(1)(1)(1)p p p p Nt p p Np p t t n N t p p N p p μμ--∆====∆+-+-σσ
➢如果缺少成数资料,可以直接假定P=0.5来计算,这样P(1-P)取得最大值为0.25 ➢在同一个抽样调查中,如果既需要推断全及平均数,也需要推断全及成数,依据成数和平均数计算出来的必要抽样单位数不一致的时候,取较大的n作为统一的抽样单位数。
例题:详见教材142、143页例4.12和4.13做题时,如果没有指出时重复抽样还是不重复抽样,需要计算两种情况下的抽样单位数。
注意,不重复抽样单位数一定比重复抽样单位数要小。
本章结束!。