第6章抽样估计
自考-市场调查与预测-第6章-抽样方法
1 定义总体 确定调查对象全体:从抽样元素、抽样 单位、抽样范围、抽样时间角度考虑 例如…
2 确定抽样框架 抽样总体中,抽样元素的表现形式。总体中 的每一个元素都在抽样框架中出现一次,且 仅出现一次。如户籍簿。 适用性、完整性。 3 确定抽样单位 容纳总体的基本单位,大于等于样本元素。 取决于抽样框架和调查方法。 电话调查——电话号码 邮寄调查——地址或姓名
B 平均值估计 C 百分比估计样本容量
根据允许误差大小估计样本量
不同抽样方法样本容量的确定 影响因素: 调查目的;总体大小;总体构成;抽样方式 计算公式:见表6-4
其它调查方法介绍
2、自愿样本
被调查者自愿参加,成为样本中的一分子,向
调查人员提供有关信息
–
例如,参与报刊上和互联网上刊登的调查问
第6章 抽样方法
普查与抽样调查 抽样程序
常用抽样方法
样本容量的确定
6.1普查与抽样调查
抽样设计的重要性 案例6-1 普查的相关概念和案例 P159 抽样调查的概念 抽样是通过抽取总体中的部分单位,收集 这些单位的信息,从而对总体进行推断的 一种手段。 抽样调查的含义 P163 抽样调查的适用范围
第一节 抽样方法
6.3 常用抽样方法
1 简单随机抽样 2 分层随机抽样 3 分群随机抽样 4 等距随机抽样 5 任意抽样 6 判断抽样 7 配额抽样 8 滚雪球抽样
1 简单随机抽样 1、抽样方法 根据研究目的选定总体,首先对总体中所 有的观察单位编号,遵循随机原则,采用不放 回抽取方法,从总体中随机抽取一定数量观察 单位组成样本。 2、具体方法 ①抽签法
统计学 第 6 章 抽样与参数估计
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
统计学课后答案(第3版)第6章抽样分布与参数估计习题答案
第六章 抽样分布与参数估计习题答案一、单选1.B ;2.D ;3.D ;4.C ;5.A ;6.B ;7.C ;8.D ;9.A ;10.A 二、多选1.ADE ;2.ACDE ;3.ABCD ;4.ADE ;5.BCE6.ACD ;7.ACDE ;8.ACE ;9.BCE ;10.ABD 三、计算分析题1、解:n=10,小样本,由EXCEL 计算有:11.6498==S x ; (1)方差已知,由10596.14982⨯±=±nz x σα得,(494.9,501.1)(2)方差未知,由1011.62622.2498)1(2⨯±=-±nS n t x α得,(493.63,502.37)2、n=500为大样本,p=80/500=16%,则置信区间为 016.096.1%16500)16.01(16.096.1%16)1(2⨯±=-⨯±=-±n p p z p α=(14.4%,17.6%) 3、nx σσ=,由于大国抽取的样本容量大,则抽样平均误差小。
4、(1)3.10100103===nS x σ(小时);=-=-=100)95.01(95.0)1(n p p p σ 2.18%(2)=⨯±=±3.10211202x z x σα(1099.4,1140.6) ⨯±=±2%952p z p σα2.18%=(90.64,99.36)5、为简化起见,按照重复抽样形式计算 (1)∑∑=ff s Si22=22.292; 472.010072.4===nS x σ(2)93.0691472.096.1100691002±=⨯±=±nSz x α=(690.07,691.93) 6、由于总体标准差已知,则用标准状态分布统计量估计nz x σα2=∆(1)10160170102022=-===∆αασz nz x则58.12=αz ,有%29.94)58.1(=F α=1-94.29%=5.71%,则概率%58.88%71.5%29.941=-=-=α (2)=⇒⨯=⇒⨯=∆n n nz x 2096.142σα97(个)(3)=⇒⨯=⇒⨯=∆n nnz x 2096.122σα385(个)允许误差缩小一半,样本容量则为原来的4倍。
社会研究方法 第6章
整群抽样
不同子群
子群抽取
整群抽样
优点:简便易行,节省费用 扩大抽样应用范围
缺点: 样本分布不广, 代表性相对较差
适用对象: 总体的不同子群之间差别不大, 而每个子群内部差异较大
五、多段抽样
按抽样元素的隶属、层级关系把抽样过程分为 几个阶段进行:先从总体中随机抽取几个大群, 然后再从这几个大群内随机抽取几个小群,这 样一级级抽下去直到抽到最基本的元素为止。
第六章 抽样
第一节 抽样的意义与作用 第二节 概率抽样的原理与程序 第三节 概率抽样方法 第四节 户内抽样与PPS抽样 第五节 非概率抽样方法 第六节 样本规模与抽样误差
第一节 抽样意义与作用
一、抽样的概念
(1)总体(population):构成它的所有元素的 集合,用“ N ”表示。
(2)元素(element):构成总体的最基本单位。
出总体内在结构的变量作为分层变量。 c:以那些已有明显层次区分的变量作为分层变量 (2)分层的比例 a:按比例分层抽样 b:不按比例分层抽样
按比例分层抽样
分层
学生
1200
女生1000 (5/6)
男生200 (1/6)
抽 样(120人)
100人 5/6
样 本 20人 1/6 120
按各种类型或层次中单位数目同总体单位数目间 的比例来抽取子样本的方法。可以确保得到一个 与总体结构完全一样的样本。
样本规模的计算
简单随机抽样中样本规模的计算 置信水平对应的临界值
➢
推论总体均值
:
n
t2
e2
பைடு நூலகம்
2
总体的标准差 允许的抽样误差
推论总体成数:
t 2 p(1 p)
统计学第六章 抽样法
第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80
-
x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数
据
概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计
据
总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。
统计学第六章抽样和抽样分布
2021/3/4
统计学第六章抽样和抽样分布
4
一、总体与样本
▪ 把握两个问题: ▪ 1、总体和总体参数; ▪ 2、样本和样本统计量。
2021/3/4
统计学第六章抽样和抽样分布
5
1、总体与总体参数
(1)总体:指根据研究目的确定的所 要研究的同类事物的全体,是所要说 明其数量特征的研究对象。按所研究 标志性质不同,分为变量总体和属性 总体,分别研究总体的数量特征和品 质特征。 构成总体的个别事物(基本单元 )就是总体单位,也称个体。总体单 位的总数称为总体容量,记作N。
缺点:受主观影响易产生倾向性误差; 不能计算、控制误差,无法说明调查结果 的可靠程度。
抽样一般都是指概率抽样。
2021/3/4
统计学第六章抽样和抽样分布
15
2、重复抽样和非重复抽样
(1)重复抽样:又称重置抽样,是指从总体 中抽出一个样本单位,记录其标志值后,又将 其放回总体中继续参加下一轮单位的抽取。特 点是:第一,n个单位的样本是由n次试验的结 果构成的。第二,每次试验是独立的,即其试 验的结果与前次、后次的结果无关。第三,每 次试验是在相同条件下进行的,每个单位在多 次试验中选中的机会(概率)是相同的。在重复 试验中,样本可能的个数是 N n ,N为总体单位 数,n为样本容量。
2021/3/4
统计学第六章抽样和抽样分布
16
2、重复抽样和非重复抽样
(2)非重复抽样:又称为不重置抽样,即每次从
总体抽取一个单位,登记后不放回原总体,不参加下
一轮抽样。下一次继续从总体中余下的单位抽取样本
。特点是:第一,n个单位的样本由 n 次试验结果构成
统计学第六章抽样和抽样分 布
第六章 抽样与抽样分布
第6章抽样分布与参数估计
抽样分布反映了依据样本计算出来的统计量数值的概率分布,这是科 学地进行统计推断的基础。例如,在大样本场合,由中心极限定理有样 本均值趋于正态分布。
★ 讨论题 为什么说抽样分布是抽样理论研究的对象,解释三种分布之 间的联系。
/3:22
《统计学教程》
第6章 抽样分布与参数估计
6.1 抽样分布
6.1.4 样本均值的抽样分布 1.大样本场合下的样本均值抽样分布
总体(Population)是指所研究的事物及其现象的全体,由该事物及 其现象的全部个体组成。
个体(Item Unit)是指构成总体的元素。 总体容量(Population Size)是指构成总体的全部个体的数量。
样本(Sample)是指从总体抽取的若干个体构成的集合。 抽样(Sampling)是指按照具体的抽样方法和抽样设计,从总体中抽 取若干个体的过程。 样本容量(Sample size)是指构成样本的全部个体的数量。
ln i mPnnA
PA
1
(6.1)
贝努利定理表明事件发生的频率依概率收敛于事件发生的概率。从而 以严格的数学形式表述了频率的稳定性特征,即n当很大时,事件发生 的频率与概率之间出现较大的偏差的可能性很小。由此,在n充分大的 场合,可以用事件发生的频率来替代事件的概率。
/3:22
《统计学教程》
第6章 抽样分布与参数估计
在反复抽取容量相同的独立同分布样本条件下,所得到的样本均值的 概率分布称为样本均值的抽样分布。在样本容量充分大的情况下,即大 样本场合,样本均值依据中心极限定理趋于正态分布。
所谓独立同分布样本为从无限总体中随机抽取的等概样本,或从有限 总体中以放回方式,随机抽取的等概样本。
所谓大样本是指能够满足中心极限定理要求,使样本均值趋于正态分 布的样本容量。在统计实践中一般称样本容量大于30即为大样本这只是 一个粗略的经验数值。
第6章 抽样调查(1)
33
1、由于总体单位总数未 知,因此采用重复抽样 公式。又总体标 准差未知,采用过去资 料最大标准差作为估计 值。
x
n
0.12 0.0219 (升) 30
n1 30 2 2、合格率p 93.3% n 30 S P p(1 p) 93.3% (1 93.3%) 6.25%
根据质量标 准,使用寿 命800小时及 以上者为合 格品,计算 产品平均合 格率和标准 差。
14
全及指标
X XF X N F
P N1 N
X
2
( X X )2
N
( X X )2 F F
X
(X X )
N
2
(X X ) F F
2
P 2 P(1 P)
31
例 上题中,如果寿命低于9000小时的产品是不合格品,计 算不合格率(合格率)的抽样平均误差。
不合格率:
n1 90 x p 18% n 500
Sp
p(1 p)
Sp
0.18 (1 0.18) 38.4%
重复抽样下:
p
p
Sp n
0.384 1.7% n 500
3
特 点
遵循随机原则抽取部分单位 ;
用样本推断总体;
会产生抽样误差,但误差可以计算和控制。
4
随机原则的实现
统 计 学 概 论
是将总体中每个单位的编号写在外形完全 一致的签上,将其搅拌均匀,从中任意抽 抽签法 选,签上的号码所对应的单位就是样本单 位。 将总体中每个单位编上号码,然后使 用随机数表,查出所要抽取的调查单 随机数表法 位。
第六章不等概率抽样
23 9542
30 9542
2806070
se(YˆHH ) v(YˆHH ) 1675 (头)
20
第三节 不放回不等概率抽样
21
一、包含概率与 PS 抽样
在不放回不等概率抽样中,不仅总体中每 个单位被包含到样本的概率,即入样概率 ij p(i, j) 起着关键的作用,而且总体中任意
码数,将代码数累加得到 M 0,每次抽取都产生一个
单[1 ~位M拥0]有之的间代的码随数机,数则,第设个为jm单,位若入代样码。m重属复于n第次j这个
样的过程,就可得到由 n 个单位(存在重复的可能)
组成的 PPS 样本。如果在实际中存在 M i 不是整数的
情况,则可以乘以一个倍数,使所有的 v 都成为整数。
获得而且与研究变量往往有很高的相关性,这些优点可以极大
地提高抽样估计的精度,所以在抽样实践中,与单位规模大小
成比例的概率抽样受到青睐。记这种度量单位规模大小的指标
为Mi
,并记
M0
N
Mi
,则可取:
i 1
Zi
Mi M0
这时,每个单位在每次抽样中入样的概率与其单位的规模
大小成比例,称这种特殊的多项抽样为放回的与单位规模大小
4
如果这些为数不多,但指标值在总体总值中占较 大份额的大、特大城市,大、特大商场,大型农场, 万吨巨轮,大额账单,在调查中与为数众多,但指标 值在总体总值中只占微小份额的中小城市、中小商场、 中小农场、小船舶、小额账单一样对待,仍然采取等 概率抽样,显然是不合理的。这些调查指标值占较大 份额的大单位理应在调查中具有较重要的地位,给予 较多的关注,而那些调查指标值占较小份额的中 小单位则处于次要的地位,给予较少的关注。
统计学 第6章 练习题
一、 填空题 1. 抽样调查可以是 抽样,也可以是 抽样,但作为抽样推断 抽样。 基础的必须是 2. 抽样推断运用 的方法对总体的数量特征进行估计。 3. 在 组 织 抽 样 时 , 以 清 单 、 名 册 、 图 表 等 形 式 来 界 定 总 体 的 范 围 , 称 为 。 。 4. 样本成数的方差是 5. 重复抽样有 个可能的样本,而不重复抽样则有 个可能 的样本。 6. 抽样误差是由于抽样的 而产生的误差,这种误差不可避免,但可 以 。 。 7. 样本平均数的平均数等于 8. 抽样误差与抽样平均误差之比称为 。 9 优良估计的三个标准是 、 和 。 10. 在 实 际 的 抽 样 推 断 中 , 常 用 的 抽 样 组 织 形 式 有 、 、 、 和 等。 二、 单项选择题 1. 抽样推断的目的是( ) A、以样本指标推断总体指标 B、取得样本指标 C、以总体指标估计样本指标 D、以样本的某一指标推断另一指标 2. 在抽样推断中,可以计算和控制的误差是( ) A、抽样实际误差 B、抽样标准误差 C、非随机误差 D、系统性误差 3. 总体参数是( ) A、唯一且已知 B、唯一但已知 C、非唯一但可知 D、非唯一且不可知 4. 样本容量也称( ) A、样本个数 B、样本单位数 C、样本可能数目 D、样本指标数 5. 从总体的 N 个单位中随机抽取 n 个单位, 用不重复抽样方法一共可抽取 ( ) 个样本。 A、 PN B、 p C、 N D、 C N n 1
n
n
ቤተ መጻሕፍቲ ባይዱ
n
n
6. 在重复抽样条件下,平均数的抽样平均误差计算公式是(
)
2
n
)
A、 n B、 n C、 n D、
7. 不重复抽样的抽样标准误公式比重复抽样多了一个系数(
第六章抽样
册和登记表(抽样框)就可进行。
• 其局限是,只适用于总体单位数量不多,且分布
较均匀的调查总体,即单位间差异性不大的研究
对象,否则将无法保证样本的代表性。
• 练习 请利用随机数表,从N=60总体中抽取15个样本。
系统抽样
• 系统抽样(等轴抽样、等距抽样、机械抽样): 把总体的单位进行编号排序,在计算出某中间隔, 然后按这个固定的间隔抽取个体的号码来组成样 本的方法。 • 基本和简单随机抽样一样,计算公式也一样。 • 需要完整的样本框,直接从总体中抽取个体。
• 获得完全正确的样本框几乎是不可能的。 • 制定抽样框是抽样的关键步骤之一。 • 当抽样是分段进行时,在几个不同的抽样层次上 进行时,则要分别建立起几个不同的样本框。 • 比如:研究某市小学生的学习情况。从500所小 学中抽取10所小学,再从这10所小学,每个小学 抽取3个班级,被抽中的班级中再抽取10名同学。 所以要有三个样本框: 全市学校名单 每所抽中学校班级名单 每个被抽中班级学生的名单
抽样的概念
• 统计值(样本值):样本中某一个变量的综合描 述。 • 是从样本中计算出来的。 • 是作为总体值的估计值。
2 抽样的作用
• 用十分有限的人力、财力、时间去了解庞杂、广 阔、纷繁、多变的社会现象。 • 比如:民意测验,要求迅速、准确。往往调查对 象不到2000人。
3.抽样的类型
• 概论抽样 • 非概率抽样
决定抽样方案
• 对于具有不同研究目的、不同范围、不同对象和 不同客观条件的社会研究,所使用的抽样方法是 不一样的。 • 依据研究的目的的要求、依据各种抽样的特点, 以及其他有关因素来觉得具体采用哪种抽样方法。 • 同时确定样本规模以及主要的精确程度。
实际抽取样本
抽样技术第6章 不等概率抽样
第6章 不等概率抽样1 不等概率抽样原理等概率抽样通常容易设计和解释,但并不总是如不等概率抽样一样的可行、实用、有效。
因为等概率抽样(psu’s)可能导致方差很大(尤其是对于无偏估计量)、管理困难以及成本难以控制。
而不等概率抽样的特点是以不等概率抽取psu’s 、m i 的数目相同,因此不等概率抽样使得每一个样本被抽取的概率相等、调查成本可控、每一个初级样本单元(psu )的样本数相等、方差急剧减小。
当采用不等概率抽样时,我们可以自由的调整选择不同初级样本单元(psu’s )作为样本的概率,并在估计中补充合适的权重。
核心是选择一个给定单元的概率已知: πi =P(psu i), ψi = P(psu i on first sample), ωi =1/πi1.1 抽取一个初级样本单元假定我们只要抽取N 个初级样本单元(psu )中的一个作为样本(n=1)。
初级样本单元i 的总值用t i 表示,我们需要估计总体总值t.用抽取一个初级样本单元的简单例子来说明不等概率抽样的思想。
先来考虑一个所有总体已知的情形。
一个城镇拥有四个超市,从100平方米到1000平方米按面积大小排列。
通过抽取一个超市,来估计四个超市上个月的总营业收入。
你可能预期大超市比小超市的营业收入多而且大超市的收入波动性也明显大于小超市。
因为仅抽取一个超市,所以在第一个回合中一个超市被抽取的概率 ψi 等于这个超市包含在样本中的概率πi 。
即,πi = ψi =P(超市i 被选取),此概率与超市的面积成比例。
超市A 占四个超市总面积的1/16,则它被抽取的概率为1/16。
为了说明性目的,假定我们已知总体的所有总值t i :我们可以以以上给定的概率选择一个容量为1的概率样本,通过洗散16张卡片并从中选择1张。
如果卡片数字为1,则选择超市A;如果卡片数字为2或3,则选择超市B;…… 在估计量中,我们通过使用 ψi 补充选取的不等概率权重。
如果超市面积与超市营业收入近似成比例,那么超市A 的营业收入在总收入的1/16,则可用超市A 的营业收入的16倍来估计四个超市的总收入。
抽样估计
人生得意须尽欢,莫使金樽空对月。0 1:45:29 01:45:2 901:45 11/17/2 020 1:45:29 AM
做一枚螺丝钉,那里需要那里上。20. 11.1701 :45:290 1:45No v-2017 -Nov-2 0
日复一日的努力只为成就美好的明天 。01:45:2901:4 5:2901:45Tues day , November 17, 2020
2
x ( R r ),
x r R 1
2
P(Rr) P r R 1
2
2 x
(xi x)
R
,
2 P
(
pi
R
p)2
注:整群抽样是对中选 群进行全面调查,所以 只存在群间抽样误差不 存在群内抽样误差
抽样方案的检查:
主要有(1)准确性检查(以方案所要求的 允许误差范围为标准)
(2)代表性检查(方案中的样本指
二、抽样推断的内容
(一)参数估计。特点是不知道总体的数 量特征,依据所获得的样本观察资料,对所研究 现象总体的水平、规模等数量特征进行估计
(二)假设检验。特点是对总体的变化情 况不了解,不妨对总体的状况作某种假设,然后 再根据抽样推断的原理,根据样本观察资料对所 作假设进行检验,来判断着种假设的 真伪,以决 定行动的取舍。
l估计值
x x
l估计值的误差范围
t
x
x
注意:t=1 F(t)-68.27%
t=2 F(t)=95.45% t=3 F(t)=99.73% 需要熟记
区间估计:
x x X x x
p p P p p
区间估计的步骤:
(x
t ) X
(p
t ) p
第六章 抽样分布及总体平均数的估计
• 对总体参数的一种看法 总体参数包括总体均值、比例、方差等 分析之前必需陈述
三 假设检验的基本原理
2、什么是假设检验?
1)概念 事先对总体参数或分布形式作出某种假设, 然后利用样本 信息来判断原假设是否成立。 2) 类型 参数假设检验 非参数假设检验 3)特点 采用逻辑上的反证法 依据统计上的小概率原理
二 总体平均数的估计
(3)区间估计(interval estimation)
根据估计量以一定可靠程度推断总体参数所在的区间 范围,用数轴上一段距离表示未知参数可能落入的范围, 虽不具体指出总体参数等于什么,但能指出未知总体参数 落入某一区间的概率有多大。
(4)置信区间(confidence interval)
一 抽样分布与平均数抽样分布
3、样本平均数与总体平均数离差的形态
(2)总体方差未知 总体正态,样本平均数与总体平均数的离差统 计量呈 t 分布; 总体非正态,但满足n>30这一条件,样本平均 数与总体平均数的离差统计量 近似t 分布。
t分布
t 分布(t-distribution)是统计分析中应用较多 的一种随机变量函数的分布,是统计学者高赛特 1908年以笔名“Student”发表的论文中推导出来 的一种分布,又叫学生氏分布。这种分布是一种 左右对称,峰态比较高狭,分布形状随样本容量 n-1的变化而变化的一组分布。
二 总体平均数的估计
4 总体方差σ2未知时,总体平均数μ的估计 用样本的无偏方差作为总体方差的估计值,样本 平均数的分布为t分布,应查t值表,包括以下两 种情况:
(1)总体的分布为正态时,可不管n值大小。 (2)总体分布为非正态,只有n>30,才能用概率对其样本 分布进行解释。
6-2 第六章 抽 样(习题解答)
第六章抽样一、辨析题1、一般来说,任意抽样技术适用于正式的实际调查。
错误。
适用于非正式的探测性调查,或调查前的准备工作。
2、一般说来,总体中各单位之间标志值的变异程度越大,需要抽样的样本数目越多;反之,需要抽样的样本数目越少。
正确3、分层最佳抽样法指的是等比例分层抽样。
错误。
这是非比例分层抽样。
4、一般而言,抽样的样本占总体的比例同抽样误差成反向关系,即抽样比例越大,抽样误差相对越小。
正确5、抽样误差是随机抽样调查中必然发生的代表性误差,所以平均误差是不可避免的。
而且,这种误差一般包括了技术性误差,即调查工作中的误差。
错误。
这种误差一般不包括技术性误差即调查工作中的误差。
6、总体单位之间标志变异程度越大,抽样误差越大;反之则越小。
正确7、样本单位数目越多,抽样误差越大,反之则越小。
错误。
样本单位数目越多,抽样误差越小,反之则大。
8、一般来说,简单随机抽样比分层、分群抽样误差大,不重复抽样比重复抽样误差大。
错误。
重复抽样比不重复抽样误差大。
9、点值估计是考虑了抽样误差,直接以样本指标作为总体指标的估计值,作近似的估计。
错误,不考虑抽样误差。
二、名词解释1、抽样调查抽样调查也称为抽查,是指从调查总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。
2、抽样抽样是指在抽样调查时采用一定的方法,抽选具有代表性的样本,以及各种抽样操作技巧和工作程序等的总称。
3、随机抽样随机抽样又称为概率抽样或机率抽样,是对总体中每一个体都给予平等的抽取机会的抽样技术。
在随机抽样的条件下,每个个体抽中或抽不中完全凭机遇,排除了人的主观因素的选择。
4、分层随机抽样分层随机抽样又称为分类随机抽样,是把调查总体按其属性不同分为若干层次(或类型)然后在各层(或类型)中随机抽取样本的技术。
5、分群随机抽样分群随机抽样(cluster sampling),又称整群抽样,是把调查总体区分为若干个群体,然后用单纯随机抽样法,从中抽取某些群体进行全面调查的技术。
第六章 抽样推断 简答题
第六章抽样推断简答题1.什么是抽样推断?有何特点?简述其作用。
抽样推断:是按照随机的原则,在抽样调查的基础上,利用样本实际资料计算样本指标,并推断总体相应指标数值的统计方法。
特点:(1)是一种由部分认识总体的统计方法(2)抽取样本时按随机性原则抽取的(3)是用样本指标从数量上推断总体指标(4)抽样误差是不可避免的,但可以计算和控制作用:(1)在无法或很困难进行全面调查的情况下,可以应用抽样法来了解全面情况;(2)应用抽样法不但比全面调查有更大的优越性,并可对全面调查的结果加以补充和订正;(3)用于生产过程中产品质量的检查和控制;(4)可以对总体的某种假设进行检验。
2.什么是抽样误差?影响抽样误差大小的各因素与抽样误差的关系如何?抽样误差:是样本指标与总体指标之间的平均离差。
影响因素:(1)在其他条件一定时,总体的变异程度与抽样误差成正比关系。
(2)在其他条件一定时,样本单位数与抽样误差成反比关系。
(3)在其他条件一定时,重复抽样的抽样误差大于不重复抽样的抽样误差。
(4)在其他条件一定时,所选择的组织方式不同,抽样误差的大小不同。
3.影响抽样单位数目的各因素与抽样单位数目的关系如何?(1)在其他条件一定时,总体的变异程度与抽样单位数成正比关系。
(2)在其他条件一定时,概率保证程度与抽样单位数成正比关系。
(3)在其他条件一定时,极限误差大小与抽样单位数成反比关系。
(4)在其他条件一定时,所选择的组织方式不同,需要的抽样单位数目也不相同。
(5)在其他条件一定时,重复抽样所需要的抽样单位数大于不重复抽样。
4.简要说明各种抽样组织方式有什么特点?(1)简单随机抽样:是抽样中最基本、最单纯的方式,它是按随机的原则直接从总体中抽取样本单位,适用于均匀总体。
这种抽样方式在理论上最符合随机原则,它的抽样误差容易得到理论上的论证,因此可以作为其他更复杂的抽样设计的基础,同时也是衡量其他抽样方式抽样效果的比较标准。
但在实践上受到许多限制,如当总体很大时,要首先对每个单位加以编号,就有很大困难;又如对于正在继续生产的产品加以编号是不可能的,在这种情况下,就不能用简单随机抽样。
抽样调查第6章 整群抽样与系统抽样知识讲解
Y K
2
N0N
K i 1
Yi Y
2
由这个思路无法给出其均方偏差的估计量
系统抽样的效率
与简单随机抽样的比较
(N 1)S 2 N0 (K 1)S外2 (N0 1)KS内2 V (YˆSE ) N(K 1)S 2
V (YˆSYS) N0N(K 1)S外2 N (N 1)S 2 N (N K )S内2 V (YˆSYS) V (YˆSE ) N(N K)(S 2 S内2 )
K 2 1 k 1 K k K K 1 i1
N0 j 1
Yij Y
2 (K, N较大时)
Deff
V (YˆCSE V (Yˆ)
)
1 (N0 1)C
C较大,N0较大时,整群抽样精度差得多
对第一级为简单随机抽样的二阶抽样有
Deff 1 C (n0 1)
整群抽样的设计效应
实际当各群容量不等时,常用 1
V (YˆCSE )
K2 k
1
k K
1 K 1
K i 1
Ni
Yij
j 1
Y K
2
(3)V (YˆCSE )的一个无偏估计量为
v(YˆCSE )
K2 k
1
k K
1 k 1
k i 1
Ni
Yi j
j 1
YˆCSE K
2
目标量的估计
定理6.2 对有放回PPS整群抽样,总体总数Y的估计有
(Ni 1) (Yij Y )2
i 1
j 1
若群内各单元指标均相等,则C达最大值1
群内相关系数是衡量群内单元同质性的一个指标
整群抽样的设计效应
Ni N0 (i 1,2, , K)时
抽样调查-第6章整群抽样
(1 n
f
)Sb2
下面我们看一个整群抽样的例题
返回
【例4.11】 在一次对某中学在校生零花钱的调查
中,以宿舍作为群进行整群抽样,每个宿舍都有M=6 名学生。用简单随机抽样在全部N=315间宿舍中抽取
n=8间宿舍。全部48个学生上周每人的零花钱 yij 及
相关计算数据如下表。试估计该学校学生平均每周
sb2
1 0.0254 86
926 .63 18.81
s( y) v( y ) 18.81 4.34
于是置信度为95%的置信区间为98.17±1.96×4.34, 也即[89.66元,106.68元】
返回
2、整群抽样效率分析
在整群抽样中,由于
V (y) 1 f nM
而样本群内方差为:
sw2
1 n(M 1)
n i 1
M
( yij yi )2
j 1
1 n
n i 1
1 M 1
M
( yij
j 1
yi )2
1 n
n i 1
si2
220.79
返回
由相关系数的估计式有
sb2
sb2 sw2 (M 1)sw2
故
y
1 n
n i 1
yi
75 89 93.33 8
98.17
sb2
M n 1
n i 1
(yi
y)
6 [(75 98.17)2 (93.33 98.17)2 926.63 8 1
返回
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
参数
研究总体中 的品质标志
(只有两种表现) 只有两种表现)
总体方差
总体成数
P(1成数方差 σ2 = P(1-P)
统计量
x = ∑x n 样本平均数 x = ∑xf ∑f
σ =
研究数量 标志
样本标准差
∑ (x
=
− x
)
2
n
σ
x
∑ (x − ∑
p (1 − p )
x f
)
2
f
研究品质 标志
样本成数 p = 成数标准差
充分大时, 即当n充分大时, Z n ~ N (0,1)
近似的
6.德莫佛 德莫佛——拉普拉斯定理 德莫佛 拉普拉斯定理
定理 设随机变量 η n ( n = 1,2, L)服从参数为 n, p
t2 − 2
(0 < p < 1)的二项分布,则对于任 意x,有 的二项分布, η n − np x 1 lim P e ≤ x = ∫ −∞ n→ ∞ 2π np(1 − p ) dt
三、抽样推断的理论依据 1.伯努利大数定理
定理 发生的次数, 设n A是n次独立重复试验中事件 A发生的次数, p是事件 A在每次试验中发生的概 率,则对于任意正数
ε > 0,有
nA lim P − p <ε =1 n→ ∞ n nA lim P 或 − p ≥ε = 0 n→ ∞ n
抽样调查的作用
一)应用抽样法可对某些不可能或不容易进行全面 调查而又要了解其全面情况的社会经济现象进行 数量方面的统计分析。 • 1.对无限总体不可能进行全面调查。例如环境保 护要了解空气中某种有害气体的含量或水质中某 种物质的成分,是无法全面调查的;又如要研究 新的工艺设计是否改善产品质量,应该包括未来 生产的全部产品质量,但我们也只能抽取部分产 品进行检验。 • 2.有些现象总体范围过大,单位分布又过于分散, 很难或不必要进行全面调查。例如,要检验水库 的鱼苗数,森林的木材蓄积量。
二)应用抽样法可对全面调查的结果加以补充或订正 三)应用抽样法可对生产过程中产品质量进行检查和控制 四)应用抽样法可对总体的某种假设进行检验,来判断这种 假设的真伪,决定行动的取舍 • 例如新教学法的采用,新工艺新技术的推广,化工原料新 配方的使用,新医疗方法的使用等等是否有明显的效果, 可以对未知的或不完全知道的总体作出一些假设,然后利 用抽样的方法,根据实验资料对所做的假设进行检验,做 出判断,并在行动上做出抉择,这就是抽样法在决策上的 应用。
nA 很大时, 伯努利大数定理给出了 当n很大时, A发生的频率 n 的概率这一结论, 了频率的稳定性。 依概率收敛于 A的概率这一结论,证明 了频率的稳定性。
伯努利大数定理的证明
证明 其中, 因为n A = X 1 + X 2 + L + X n,其中, X 1 , X 2 ,L , X n
相互独立, 分布, 相互独立,且都服从参 数为p的(0 − 1)分布,因而 E ( x k ) = p, D( x k ) = p(1 − p )( k = 1,2,L),则由切比雪夫大数定 理 有 1 lim P ( X 1 + X 2 + L + X n ) − p < ε = 1 n→ ∞ n nA lim P − p <ε =1 n→ ∞ n
德莫佛——拉普拉斯定理的证明 拉普拉斯定理的证明 德莫佛
定理 由于η n ( n = 1,2, L)服从参数为 n, p (0 < p < 1)的二项分布,则令 的二项分布,
ηn = ∑ X k
n n
σ
p
=
样本可能数目
1. 样本可能数目:又称样本个数,是指从一个有N 样本可能数目:又称样本个数,是指从一个有N 个单位的总体中抽取容量为n的样本时, 个单位的总体中抽取容量为n的样本时,有可能 出现的所有样本的个数,是一种理论概率分布。 出现的所有样本的个数,是一种理论概率分布。 2. 样本个数:一个样本包含的单位数。用 “n”表示。 样本个数:一个样本包含的单位数。 表示。 表示 一般要求 n ≥30 在总体单位数N和样本容量n一定的条件下, 3. 在总体单位数N和样本容量n一定的条件下,样本 可能数目与抽样方法有关。而在同一抽样方法下, 可能数目与抽样方法有关。而在同一抽样方法下, 又由于对被抽中的几个单位考虑顺序与否, 又由于对被抽中的几个单位考虑顺序与否,从而 有不等的样本可能数目。 有不等的样本可能数目。
它是由部分推断整体的一种认识方法 抽样推断建立在随机取样的基础上 抽样推断运用概率估计的方法。 抽样推断运用概率估计的方法 抽样推断的误差可以事先计算并加以控制
抽样推断的内容
参数估计 参数估计是依据所获得的 样本观察资料,对所研究现象总体的水平、 样本观察资料,对所研究现象总体的水平、 结构、规模等数量特征进行估计。 结构、规模等数量特征进行估计。 假设检验 假设检验是利用样本的实 际资料来检验事先对总体某些数量特征所 作的假设是否可信的一种统计分析方法。 作的假设是否可信的一种统计分析方法。
第六章 抽样推断
第一节 第二节 第三节 第四节 抽样推断的概念与理论依据 抽样推断的概念与理论依据 抽样误差 参数估计基本方法 抽样调查的组织形式及抽样估计
抽样估计在统计方法中的地位
统计方法
描述统计
推断统计
抽样估计
假设检验
统计推断的过程
总体
样 本
样本统计量 例如:样本均 值、比例、方 差
抽样推断——是按随机原则从全部研 是按随机原则从全部研 抽样推断 究对象中抽取部分单位进行观察, 究对象中抽取部分单位进行观察,并根据 样本的实际数据对总体的数量特征作出具 有一定可靠程度的估计和判断。 抽样推断的特点: 抽样推断的特点:
∑(X
i =1
n
i
− µ) =
∑X
i =1
n
i
− nµ
nσ 的分布函数 Fn ( x )满足
n→ ∞ n→ ∞
nσ
x
lim Fn ( x ) = lim P {Yn ≤ x} = ∫
−∞
1 e 2π
t2 − 2
dt
X − µ 近似的 充分大时, ~ N (0,1) 即当n充分大时,
σ
n
4.李雅普诺夫中心极限定理 李雅普诺夫中心极限定理
可能样本数目的计算公式
不重复抽样 考虑 顺序 不考 虑顺 序 重复抽样
N! A = (N − n)!
n N n N
B =N
n N
n
N! (N + n −1)! n n C = DN = DN = n!(N − n)! n!(N −1)!
抽样框与抽样单位
抽样框:为便于抽样工作的组织,在抽样前在可能 抽样框:为便于抽样工作的组织, 条件下编制的用来进行抽样的记录或表明总体所有抽样 单元的框架。抽样框可以是一份清单(名单抽样框)、 单元的框架。抽样框可以是一份清单(名单抽样框)、 一张地图(区域抽样框), ),它是设计和实施随即抽样所 一张地图(区域抽样框),它是设计和实施随即抽样所 必备的基础条件。 必备的基础条件。 一个理想的抽样框的要求是,它应该尽可能地与目 一个理想的抽样框的要求是, 标总体相一致。 标总体相一致。 一般而言,如果总体中的每个元素在清单上分别只 一般而言, 出现一次,且清单上又没有总体以外的其他元素出现, 出现一次,且清单上又没有总体以外的其他元素出现, 则该清单就是一个完备的抽样框。在完备的抽样框中, 则该清单就是一个完备的抽样框。在完备的抽样框中, 每个元素必须且只能同一个号码对应。 每个元素必须且只能同一个号码对应。
定理 设X 1 , X 2 , L , X n ,L是相互独立,它们具有 数学 是相互独立,
2 2 2 Bn = ∑ σ k k =1 n
期望和方差: 期望和方差: E ( X k ) = µ k , D( X k ) = σ k > 0( k = 1,2, L),记
若存在正数 δ,使得当 n → ∞时, 1 B 则随机变量
返回
3.独立同分布的中心极限定理 独立同分布的中心极限定理
定理 是相互独立, 设X 1 , X 2 ,L , X n , L是相互独立,服从同一 分布 且具有数学期望和方差 :E ( X i ) = µ , D( X i ) = σ 2 > 0 ( k = 1,2,L),则对任意实数 x,随机变量 Yn =
2+δ k =1 n
∑ E{ X
n
k
− µk
2+δ
}→ 0
5.李雅普诺夫中心极限定理 李雅普诺夫中心极限定理
Zn =
∑X
i =1
n
i
− E (∑ X i )
i =1 n
n
=
∑ X −∑µ
i =1 i i =1
n
n
i
D( ∑ X i )
i =1
Bn
的分布函数 Fn ( x )对任意的 x,满足
n n t2 ∑ X i − ∑ µi x 1 −2 i =1 i =1 lim Fn ( x ) = lim P e dt ≤ x = ∫ −∞ n→ ∞ n→ ∞ Bn 2π
显然, 显然,贝努里大数定理 是辛钦定理的特殊情形 。
大数定律在概率论中的意义
大数定律给出了在试验次数很大时频率和平 均值的稳定性, 均值的稳定性,从理论上肯定了用算术平均值代 替均值,用频率代替概率的合理性。 替均值,用频率代替概率的合理性。它既验证了 概率论中一些假设的合理性, 概率论中一些假设的合理性,又为数理统计中用 样本推断总体提供了理论根据,所以说, 样本推断总体提供了理论根据,所以说,大数定 律是概率论中最重要的基本定律。 律是概率论中最重要的基本定律。