第七章 抽样推断与检验
第七章 抽样设计与推断(改)
第七章抽样设计与推断第一节抽样设计一、抽样推断与抽样设计的概念(一)抽样推断抽样推断(Sampling inference)是在抽样调查的基础上,利用样本的实际资料计算样本指标(统计量),并据以推算总体相应特征值(总体参数)的一种统计分析方法。
抽样推断具有如下特点:第一,抽样推断是建立在随机取样的基础上。
按随机原则抽取样本单位,是抽样推断的前提。
所谓随机原则就是在抽选调查单位的过程中,完全排除人为的主观因素的干扰,以保证使现象总体中的每一个个体都有一定的可能性被选中。
换句话讲,哪些单元能够被选作调查单位纯属偶然因素的影响所致。
这里需说明几点:①随机并非“随意”。
随机是有严格的科学含义的,可用概率来描述,而“随便”仍带有人为的或主观的因素,它不是一个科学的概念;②随机原则不等于等概率原则;③随机原则一般要求总体中每个单元均有一个非零的概率被抽中;④抽样概率对总体参数的估计有影响。
只有坚持抽取的随机原则,才能使被抽中单位的频数分布类型与调查对象相同,从而增强被抽中单位对总体的代表性,达到推断总体的目的。
第二,抽样推断是由部分推算整体的—种认识方法。
即对抽取的调查单位进行调查研究,取得调查单位的实际资料,计算出调查单位的指标数值,并据以推断和估计总体的指标数值。
第三,抽样推断以概率论中的大数法则和中心极限定理为理论依据。
第四,抽样误差可以事先计算和控制。
抽样调查除具有十分明显的特色之外,还在实际应用过程中发挥着突出的作用。
其一,抽样调查能够解决全面调查所无法解决的现象的调查问题。
在实际工作中,对某些现象常常可能一方面需要了解其全面情况,另一方面又由于现象自身的特性决定了无法通过全面调查获取资料。
此时,只有使用抽样调查。
该类现象主要有:(1)产品质量的破坏性检验。
如轮胎的里程寿命试验,青砖的抗折耐压试验,炮弹的杀伤力试验,弹簧的抗拉强度试验等等。
(2)无限总体的调查。
无限总体所包含的总体单位数目无限多个,无法一一调查。
(抽样检验)第七章整群抽样最全版
(抽样检验)第七章整群抽样第七章整群抽样第壹节整群抽样概述壹、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取壹部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元能够分成多级,则能够对前几级单元采用多阶抽样,而在最后壹阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的俩个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中且不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括俩步:首先,总体被分为群;然后,在总体中抽取群的样本且访问群中的所有单元。
如果总体单元是自然分成组或群的,创建壹个这种关于群的抽样框且对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而能够创建地域框。
群的抽取能够采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样壹样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有俩个问题:壹是如何定义群,即当群且非是壹个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取壹部分群进行调查,且在抽中的群内作全面调查。
(抽样检验)第七章整群抽样
第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的两个理由:- 抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;- 从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。
如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。
群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样一样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。
因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。
第七章 抽样推断
抽样平均误差是指一个抽样方案的所有 可能样本的某统计量与总体相应指标的离 差的平均值。
因在现实的抽样中,我们只能取得一个 样本,不可能也没必要获得全部所有可能 样本,所以抽样平均误差也不可能通过所 有样本来直接计算。但从统计量的分布律 中我们已经知道:统计量是以总体相应指 标为期望值。抽样平均误差实质上就是该 统计量在其概率分布中的标准差。
总体也称为全及总体或母体。是指所要认识 的对象全体,它由具有某种共同性质的许多单 位所组成。总体的单位数通常都是很大的,甚 至是无限的。一般用大写字母N表示总体单位 数。
总体按其中包含的单位数可以分为有限总体 和无限总体。
(二)样本
样本也称为样本总体或子样。它是作为全及总 体的一个代表而存在的。样本中也有许多个体, 组成样本的单位也称为样本单位。样本中所包含 的单位数称为样本容量,通常用n表示。
例:从已有某种顺序(如学号顺序)的 1000人 中要抽取50人为样本进行调查,则比值为5%,也 就是每20人中抽1人。首先从1—20号中以简单随 机方式抽取一个号码,比如抽中12号,当第一个 号码确定后,以后要抽的单位就都确定了,32, 52,…,992。这50个号码所代表的人构成的样 本就是等距抽样的一个样本。
四、总体指标和样本指标
样本是总体的代表,所以总体指标和样 本指标是一一对应的。总体指标也称为总 体参数,是不变的、未知的,也是客观存 在的。样本指标也称为样本统计量,通过 调查,是可以知道的,但每个样本的样本 指标是不完全相同的,也就是说样本指标 是一个随机变量。
假定总体由X1, X2, …, XN组成 。 样本由x1,x2, …,xn 组成。
不重复抽样:
不考虑顺序的可能样本 重复抽样:
第七章 抽样推断
x x X x x
第七章 抽样推断
p p P p p
合适统计量 的估计值 合理的允 许误差 可接受的 置信度水平
t
概率度
5-40
• 区间估计的三要素 估计区间覆盖 总体参数真值 的概率 F(t)
• 区间估计的特点: • 不指出参数的确定数值,而是在一定的概 率保证程度下指出参数的可能范围。 • 估计的可靠程度可知,即为概率保证程度
X
区间估计的两个基本要求: 置信度 精确度
• 希望置信度尽可能大,精确度尽可能高。 • 但在样本容量n一定时,两者矛盾。
一般在给定的概率保证程度下,尽可能 提高估计的精度(通过降低标准误)。
第七章 抽样推断
抽样极限误差(精度) 与概率保证程度(可靠程度) 99.73%
95.45% 68.27%
3 x 2x x
抽样推断包括三方面的内容:
1、抽样。按照随机原则从总体中抽取部分调查 单位(样本)。
2、 构造统计量 。对样本资料进行加工计算, 获得既能反映样本特征又能用于推断总体的样本数 据。 3、推断。运用概率估计方法,以一定的可靠 性推断总体指标数值。
二、抽样推断的特点 1、按随机原则抽取样本单位 2、用部分推断总体 3、抽样推断的误差可以事先计算并加以控 制 4、运用概率估计方法
实际上就是对估计量可允许取的最高值或最 低值进行了限制
ˆ ˆ Biblioteka 例子• 要估计某乡粮食亩产,从8000亩粮食作物中,用不 重复抽样抽取400亩,求得平均亩产为450公斤。如 果确定抽样极限误差为5公斤,这就要求某乡粮食 亩产为450〒5公斤,即在445公斤到455公斤之间。
x
i 1 n
经济统计学第7章抽样调查
参数的假设检验是根据样本,对总体参数某种假设的正确性作出判断。 可以分别提出两种假设: 前一种不能轻易拒绝的假设为原假 设,后一种为备选假设。假设检验就是根据样本,检验 是否成立, 不成立就接受备选假设 。
一、基本思想: 小概率原则:认为在一次实验中 小概率事件几乎是不可能发生的,小概率事件的概率为显著性水平 。
一个总体的检验
Z 检验 (单尾和双尾)
t 检验 (单尾和双尾)
Z 检验 (单尾和双尾)
2检验 (单尾和双尾)
均值
一个总体
比例
方差
总体方差已知时的均值检验 (双尾 Z 检验)
均值的双尾 Z 检验 (2 已知)
假定条件 总体服从正态分布 若不服从正态分布, 可用正态分布来近似(n30) 原假设为:H0: =0;备择假设为:H1: 0
单侧检验 (原假设与备择假设的确定) 例如,某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上
除非样本能提供证据表明使用寿命在1000小时以下,否则就应认为厂商的声称是正确的 建立的原假设与备择假设应为
H0: 1000 H1: < 1000
第二节
一个正态总体参数的假设检验
-10
100
20
25
-5
25
30
30
0
0
离差
40
35
5
25
50
40
10
100
10
25
-5
25
20
30
0
0
30
35
5
25
40
40
10
100
50
45
15
《统计学》第七章(抽样调查)
20
(1)以99.73%的概率保证程度估计这批茶叶平均每包重量的 范围,以便确定平均重量是否达到规格要求。
第七章 抽样调查
第一节 抽样调查概述 第二节 抽样估计 第三节 抽样的组织形式
1
第一节 抽样调查概述 一、抽样调查的含义
(一)抽样推断的含义 抽样调查是按随机原则,从全部研究对象中抽取一
部分单位进行观察,并根据样本的实际数据,对总体的 数量特征做出具有一定可靠程度的估计和判断,从而达 到对全部研究对象的认识的一种统计方法。其中心问题 是如何根据已知的部分资料来推断未知的总体情况。
(3)抽样总体标准差和抽样总体方差。
说明抽样总体之间标志值变异程度的指标,叫做抽样
总体标准差。抽样总体标准差的平方称为抽样总体方
差(简称样本方差)。其计算公式为:
s
2
xx n
2
s2 x x n
20
一个总体可以抽取许多个样本,而样本不同, 抽样指标的数值也各不相同。可见,抽样指标的数 值不是惟一确定的。因为抽样指标是样本变量的函数, 是随机可变的变量。也就是说,由 样本观测值所决定的 统计量是随机变量。
x=2*60=120
8480~8720
(2) up=3.1%
p=6.2%
68.8%~81.2%
50
例4,某外贸公司出口一种茶叶,规定每包规格不低于150克。 现在用不重复抽样的方法抽取其中1%进行检验,其结果如下:
每包重量 (克)
包数
148~149
10
149~150
20
150~151
50
151~152
21
(三)重复抽样和不重复抽样 1.重复抽样(重置抽样) 采用这种方法抽取样本单位的特点是:同一单位 有多次重复被抽中的机会,并且总体单位数目始 终不变,每个单位抽中或抽不中的机会在各次都 是相同的。
第七章 抽样推断与检验
样本平均数与样本成数的抽样极限误差
用 x 、 p 分别表示样本平均数与样本成数的 抽样极限误差 x x x x
Pp p Pp
上式说明:由于总体参数是未知数,而统计量是可测算的,因 此,抽样误差范围的实际意义是被估计总体指标落在由抽样指 标所确定的范围,即落在以下范围内
其平均数和方差分别为
它是一个是 非标志
N 0 N N1 N1 P ,Q 1 P N N N
N1 P P N
PQ P1 P
2 P
第一节
c)是根据样本各单位标志值 或标志属性计算的综合指标。与常用的总体参数 相对应,有样本平均数、样本方差和样本成数等。 以小写字母表示。
第三节
假设检验
一、假设检验的基本原理 二、总体的均值的假设检验 三、总体成数的假设检验
第三节
假设检验 一、假设检验的基本原理
假设检验(Hypothesis testing)是利用样本的 实际资料检验事先对总体某些数量特征所作的假 设是否可信的一种统计分析方法。 假设检验是从总体参数所做的一个假设开始 的。假设一般包括两部分:原假设H0和备择假设 H1。
第七章抽样推断与检验
学习内容
学习重点
第一节 抽样中的几个基本概念 第二节 参数估计 第三节 假设检验 第四节 抽样设计 1、参数估计 2、假设检验
假设检验的基本原理和方法
学习难点
第一节
抽样中的几个基本概念
一、抽样推断 二、参数和统计量 三、重复抽样和不重复抽样 四、抽样误差
第一节
抽样中的几个基本概念 抽样推断
P
P 1 P n
p1 p n 1 n N
重复抽样的条件下
第七章 抽样推断 (《统计学》PPT课件)
接作为相应全及指标的估计值。
2.定义:设x_
表示总体平均数
__
X
的估计值,p^ 表示
总体成数P的估计值,则有:
__ _
X x
或
^
Pp
27
第四节 抽样估计
二、总体参数的点估计
3. 性质:
用抽样指标估计总体指标时,要求抽样指标
的平均数等于被估计的总体指标;E(
_
x)
__
X
_
E( p) P
用抽样指标估计总体指标时,要求当样本容 量n充分大时抽样指标充分靠近总体指标;
6
第一节 抽样推断概述
二、有关抽样的基本范畴
2.指标
:根据全及总体各个单位的标志值或标 志特征计算的,用来反映全及总体某种属性的综合 指标;
:由样本总体各单位标志值或标志特征 计算出的综合指标。
注:对于一个确定的问题,全及指标是唯一的, 样本指标不是唯一确定的,即样本指标的随机变量。
7
抽样推断
2.种类:
根据抽样资料计算样本指标,并以此直接作 为相应全及指标的估计值;
根据给定的概率保证程度的要求,利用实 际抽样资料,求出总体被估计值的上限和下限,即给 出总体参数可能存在的区间范围,而不是直接给出总 体参数的估计值。
26
第四节 抽样估计
二、总体参数的点估计
根据抽样资料计算样本指标,并以此直
n
N
22
第三节 抽样误差
三、抽样极限误差
在抽样推断中可允许的误差范围,等于样本指 标可允许变动的上限或下限与总体指标之差的绝对值。
2.计算公式:
_ __
_
__ _
抽样平均数极限误差: 或
_ x- X
第7章抽样调查
二、抽样误差的基本要求
无偏性 一致性 有效性
评价估计量优良性的三个标准:
1、无偏性: 样本统计量的期望值等于被估计 的总体参数。
设 表示总体的待估参数,ˆ 是估计 的样本
统计量,无偏估计指的是ˆ 满足:
E
如:由于 E x X ,所以样本平均数是总体平
x
9.13
n3
2.在不重复抽样下
抽样平均误差
x
2 1 n n N
σ为总体标准差,n为样本单位数,N为总体单位数。
例:从40、50、70、80中抽取3个组成样本,在不重 复抽样下,求抽样平均误差。
求总体标准差,直接用计算器统计功能键可以求出:
X X 2 15.81
N
求抽样平均误差
x
2 N n n N 1
15.812 4 3 5.27 3 41
练习:
1、随机重复抽选某校学生100人,调查他们的体 重得到平均体重为58公斤,标准差为10公斤。问 抽样推断的平均误差是多少?
练习:
1、随机重复抽选某校学生100人,调查他们的体重得到平 均体重为58公斤,标准差为10公斤。问抽样推断的平均误 差是多少?
设它们的平均数为 X,方差为,2 即 Exi ,X u
2 xi 2(i=1,2,…)。则对任意的正数ε,有:
limBiblioteka n p1 n
n i 1
xi
u
1
中心极限定理
正态分布的再生定理:
只要在样本容量n充分大的条件下,不论全 及总体的变量分布是否属于正态分布,其抽样 平均数也趋近正态分布。
第七章抽样推断
(二)抽样平均误差的计算公式
1.平均数抽样误差的计算
⑴ 重复抽样
x
2
n
n
⑵ 不重复抽样
x
2
n
(1 )
n
N
• 例1、随机抽选某大学的100名大学生,得到
他们的平均体重为58公斤,根据过去的材料
知道大学生的总体标准差是10公斤。求抽样
误差。
• 例2、某工厂生产一种新型聚光灯泡共2000只 ,随机抽选400只作耐用时间实验。测试和计 算结果,平均寿命为4800小时,样本标准差 为300小时。求抽样误差。
第七章 抽样推断
第一节 抽样调查的一般问题 第二节 抽样误差 第三节 抽样估计 第四节 必要样本容量的确定
2020/5/16
本章基本要求
• 理解抽样调查的概念、特点、作用以及几个 基本概念;
• 掌握抽样误差的含义和影响抽样误差的主要 因素;
• 熟练掌握抽样平均误差的计算; • 熟练掌握点估计和区间估计方法; • 熟练掌握必要样本容量的确定方法。
2020/5/16
第二节 抽样误差
一、抽样误差的概念 抽样误差(sampling error)是指按照随机原
则抽样,所得的样本指标和总体指标之间的数 量差别。 二、抽样平均误差 (一)概念
抽样平均误差(average error of sampling) 就是所有可能出现的样本指标的标准差,是由 于抽样的随机性而产生的样本指标与总体指标 之间的平均离差。
二、抽样调查中的几个基本概念
1.全及总体 是指研究对象的全部单位组成的总体
,简称总体(population)。 2.样本总体 是指从全及总体中随机抽选出来的单
位所组成的小总体,简称样本(sample)。
第七章 抽样推断与检验
n Z 22 P ( 1 P ) 2 p
(三)总体方差的区间估计
▪ 总体均值已知时,总体方差的区间估计
2
( xi )2 2
2(n)
P (1 2 (n) 2 ) 1
P(
2 (n)
1 )
P(
2 (n)
2 )
2
1
2 1
(n), 2
一定误差的要求下选择费用最小。或者一定 费用开支条件下,选择误差最小。
二、抽样的组织设计
(一)简单随机抽样(Simple random sampling):直接从总体N个单位中抽取n
个单位作为样本,也称单纯随机抽样。
(二)类型抽样(Stratification sampling): 又称分层抽样,对总体单位按主要标志分 组,再从各组中按随机的原则按比例抽选 一定单位构成样本。不存在组间误差。
▪ 抽样推断(sampling inference)是在抽样调查的 基础上,利用样本的实际资料计算样本指标,并据 以推算总体相应数量特征的一种统计分析方法。
▪ 特点: 1. 抽样推断是建立在随机取样的基础上,坚持抽取的
随机原则,增强被抽中单位对总体的代表性。
2. 抽样推断是由部分推算整体的一种认识方法。 3. 抽样推断以概率论中的大数法则和中心极限定理为
2
(n)
2
2
P
(
2 1
(n)
2 (n)
2
(n))
1
2
2
P
(x 2 i( n))22
2
(1 2 x i2 (n ))2 1
▪ 总体均值未知时,总体方差的区间估计
2
第七章 抽样推断与检验习题讲课稿
第七章 抽样推断与检验习题一、填空题1.抽选样本单位时要遵守 原则,使样本单位被抽中的机会 。
2.常用的总体指标有 、 、 。
3.在抽样估计中,样本指标又称为 量,总体指标又称为 。
4.全及总体标志变异程度越大,抽样误差就 ;全及总体标志变异程度越小,抽样误差 。
5.抽样估计的方法有 和 两种。
6.整群抽样是对被抽中群内的 进行 的抽样组织方式。
7.常用的离散型随机变量分布包括 、二项分布和 。
8.简单随机抽样的成数抽样平均误差计算公式是:重复抽样条件下: ;不重复抽样条件下: 。
9.误差范围△,概率度t 和抽样平均误差σ之间的关系表达式为 。
10.对总体指标提出的假设可以分为原假设和 。
二、单项选择题1.所谓大样本是指样本单位数在( )及以上A 30个B 50个C 80个 D100个2.抽样指标与总体指标之间抽样误差的可能范围是( )A 抽样平均误差B 抽样极限误差C 区间估计范围D 置信区间3.抽样平均误差说明抽样指标与总体指标之间的( )A 实际误差B 平均误差C 实际误差的平方D 允许误差4.成数方差的计算公式( )A P(1-P)B P(1-P)2C )1(P P -D P 2(1-P)5.总体平均数和样本平均数之间的关系是( )A 总体平均数是确定值,样本平均数是随机变量B 总体平均数是随机变量,样本平均数是确定值C 两者都是随机变量D 两者都是确定值6.对入库的一批产品抽检10件,其中有9件合格,可以( )概率保证合格率不低于80%。
A 95.45%B 99.7396C 68.27%D 90%7.在简单随机重复抽样情况下,若要求允许误差为原来的2/3,则样本容量( ) A 扩大为原来的3倍 B 扩大为原来的2/3倍C 扩大为原来的4/9倍D 扩大为原来的2.25倍8.假设检验是检验( )的假设值是否成立A 样本指标B 总体指标C 样本方差D 样本平均数9.在假设检验中的临界区域是( )A 接受域B 拒受域C 置信区间D 检验域10.假设检验和区间估计之间的关系,下列说法正确的是( )A 虽然概念不同,但实质相同B 两者完全没有关系C 互相对应关系D 不能从数量上讨论它们之间的对应关系三、多项选择题1.影响抽样误差大小的因素有( )A 抽样组织方式和抽样方法不同B 全及总体的标志变动度的大小C 样本单位数的多少D 抽样总体标志变动度的大小E 抽样的随机性2.常用的样本指标有( )A 样本平均数B 样本成数C 抽样误差D 样本方差E 标准差3.在简单随机重复抽样条件下,抽样单位数n 的计算公式为( )A 222x t n ∆=σB 22222σσt x N N t n +∆=C 22)1(Np p p t n -= D )1()1(222p p t p N p Np t n -+∆-= E 2222)1(Np p p t n -= 4.在总体2000个单位中,抽取20个单位进行调查,下列各项正确的是( ) A 样本单位数是20个 B 样本个数是20个C 一个样本有20个单位D 样本容量是20个E 是一个小样本5.若进行区间估计,应掌握的指标数值是( )A 样本指标B 概率度C 总体单位数D 抽样平均误差E 样本单位数6.参数估计方法有( )A 点估计B 区间估计C 统计估计D 抽样估计E 假设检验7.衡量点估计量好坏的标准有( )A 无偏性B 一致性C 有效性D 充分性E 随机性8.根据样本指标,分析总体的假设值是否成立的统计方法称为( )。
统计学-07抽样推断
6 368
4 2 5 3 4 3 3 4 5 4 2 1 54
3
4 6 11 14 18 21 24 28 33 37 39 40 45 49 52
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
370 371 388 402 410 446 453 470 477 490 499 502 503 51 520 6
可编辑ppt
12
第三步:抽取调查单位
半距起点、等距抽样
可编辑ppt
13
半距起点、等距抽样
➢ 以第一个抽样距离的一半处作为第一个调查单 位
➢ 以后毎隔一个抽样距离抽取一个调查单位 ➢ 直到最后一个调查单位抽出为止
可编辑ppt
14
以抽取6户为例,抽取的户数依次为:
第1户 n1=17.5÷2=8.75 为第3号户 第2户 n2=8.75+17.5=26.25 为第8号户 第3户 n3=26.25+17.5=43.75 为第13号户 第4户 n4=43.75+17.5=61.25 为第19号户 第5户 n5=61.25+17.5=78.75 为第24号户 第6户 n6=78.75+17.5=96.25 为第28号户
可编辑ppt
22
7.2 抽样分布及抽样推断理论依据 ——基础知识:概率
发生概率很小的事件称为小概率事件(small probability event);
小概率事件不那么可能发生,但它往往比 很可能发生的事件更值得研究。
在某种意义上,新闻媒体的主要注意力大
都集中在小概率事件上。
可编辑ppt
23
例如:对某镇农户进行家计调查,以自然村庄划分群,
统计学 抽样推断课件
3、抽样误差极限
在做抽样估计时,应该根据所研究对象的 变异程度和分析任务的要求确定可允许的 误差范围,在这个范围内的数字都算是有 效的。我们把这种可允许的误差范围称为 抽样极限误差。它等于样本指标可允许变 动的上限或下限与总体指标之差的绝对值。
4、抽样误差的概率度
基于概论估计的要求,抽样极限误差通常 需要以抽样平均误差 或 为标准单位来 或 衡量。把极限误差 分别 除 以 或 x x 得相对数t,表示误差范围为抽样平均误差 的 t 倍。 T 是测量估计可靠程度的一个参数, 称为抽样误差的概率度。
教学重点与难点
一、有关抽样的基本概念——总体和样本、 参数和统计量、样本容量和样本个数重复 抽样和不重复抽样。 二、抽样误差的意义及其影响因素、抽样 极限误差、抽样平均误差、抽样估计等内 容。
教学内容
一、抽样推断的基础 二、抽样推断与误差 三、抽样估计与推算
(一)抽样推断的基础
我们从如下3个方面进行研究: 1、 抽样推断的意义 2、抽样推断的内容 3、有关抽样的基本概念
2、抽样估计的精度
误差率=
x X x x x
估计精度=1-误差率=1-
x x
x X x
=1-
3、抽样估计的置信度
抽样估计置信度就是表明抽样指标和总体指标的 误差不超过一定范围的概率保证程度。 所谓概率就是指在随机事件进行大量实验中,某 种事件出现的可能性大小,它通常可以用某种事 件出现的频率来表示。抽样估计的概率保证程度 就是指在抽样误差不超过一定范围的概率大小。
课堂练习
22.某部门对职工进行家庭经济情况调查,取得各项抽样资料如下:
抽查户数 每户月平均收入(元) 标准差(元)
职员工人
200 600
第7章 抽样调查及答案
第七章 抽样调查一、本章重点1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。
它是一种非全面调查,其意义在于对总体的推断上,存在可控制性误差。
是一种灵活快捷的调查方式。
2.抽样调查有全及总体与样本总体之区分。
样本容量小于30时一般称为小样本。
对于抽样调查来讲全及总体的指标叫做母体参数,是唯一确定的未知的量,样本指标是根据样本总体各单位标志值计算的综合性指标,是样本的一个函数,是一个随机变量,抽样调查就是要用样本指标去估计相应的总体指标。
样本可能数目与样本容量有关也与抽样的方法有关。
抽样方法可以分为考虑顺序的抽样与不考虑顺序的抽样;重复抽样与不重复抽样。
3.大数定律、正态分布理论、中心极限定理是抽样调查的数理基础。
正态分布的密度函数有两个重要的参数(σ;x )。
它有对称性、非负性等特点。
中心极限定理证明了所有样本指标的平均数等于总体指标如X x E =)(。
推出了样本分布的标准差为:1--=N n N n x σμ。
4.抽样推断在逻辑上使用的是归纳推理的方法、在方法上使用的是概率估计的方法、存在着一定误差。
无偏性、一致性和有效性是抽样估计的优良标准。
抽样调查既有登记性误差,也有代表性误差,抽样误差是一个随机变量,而抽样的平均误差是一个确定的值。
抽样误差受总体标志值的差异程度、样本容量、抽样方法、抽样组织形式的影响。
在重复抽样下抽样的平均误差与总体标志值的差异程度成正比,与样本容量的平方根成反比即n x σμ=,不重复抽样的抽样平均误差仅与重复抽样的平均误差相差一个修正因子即N nn x -=1σμ。
在通常情况下总体的方差是未知的,一般要用样本的方差来代替。
把抽样调查中允许的误差范围称作抽样的极限误差x ∆或p ∆。
μt =∆,用抽样的平均误差来度量抽样的极限误差。
把抽样估计的把握程度称为抽样估计的置信度。
抽样的极限误差越大,抽样估计的置信度也越大。
抽样估计又可区分为点估计和区间估计。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(一)抽样推断
料计算样本指标,并据以推算总体相应特征的值一种统计 分析方法。
抽样推断是在抽样调查的基础上,利用样本的实际资
统计推断的过程
总体
样 本
样本统计量 例如:样本均 值、比例、方 差
抽样推断的特点
第一,建立在随机取样的基础上,按随机原则抽样 第二,是由部分推算整体的一种认识方法 第三,以大数法则和中心极限定理为理论依据 第四,抽样误差可以事先计算和控制
P
当 N 很大时
例
某灯泡厂从一天所生产的产品10,000个中抽取100个 检查其寿命,得平均寿命为2000小时,根据以往资 料σ=20小时,试求抽样平均误差。
重复抽样:
x
不重复抽样:
2
20
2
(小时) 2
n
100
x
2
(1
n N
)
20
2
(1
100 10000
) 1.99(小时)
P(X )
B A
较小的样本容量
X
3.有效性
设
ˆ1 , ˆ 2为 的两个无偏估计量, ˆ1的方差小于 ˆ 2
的方差,即V( ˆ1 )< V( ˆ2 )则称
ˆ1 是较 ˆ2 有效的估计量。
有效性
一个方差较小的无偏估计量称为一个更有效的
估计量。
如,与其他估计量相比,样本均值是一个更有效的
2
2
无偏性
•
估计量的数学期望等于被估计的总体参数
P( X ) 无偏 有偏
A
C
X
2.一致性
• 对于任意给定的ε>0,有
lim P { ˆ } 1
对于这种极限,我们称估计量 ˆ 依概率收敛于 。
一致性 •
随着样本容量的增大,估计量越来越接近被 估计的总体参数
较大的样本容量
2 2 2
例2
某笔厂月产10000支金笔,以前多次抽样调查,一等 品率为90%、92%、96%和94%,现在要求误差范围在2% 之内,可靠程度达95.45%,问必须抽取多少单位数?
解: N 10000,P 90%, p 2% 重复抽样: n t P(1-P) p
2 2 2
F (t ) 95.45% 900(支)
解: N 4000, 0.2,t 3, 1.5 n t N
2 2
N t
2 2
2
3 (1.5) 4000
2 2
(0.2) 4000 3 (1.5)
2 2
2
450(人)
若误差范围缩小
2 2
1 2
(即0.1M ), 则 1344(人)
3
n
3 (1.5) 4000 (0.1) 4000 3 (1.5)
n
100
例
某玻璃器皿厂某日生产15000只印花玻璃杯, 现按重复抽样方法从中抽取150只进行质量检验, 有147只合格,试求这批印花玻璃杯合格率的抽样 平均误差。
p 147 150 p p(1 p ) n 0.98 (1 0.98) 150 1.14% 98%
若按不重复抽方式:
x
n
t p 1 p
2
2 p
不重复抽样
n t N
2 2
Nx t
2 2
2
n
t p 1 p N
2
N
2 p
t p 1 p
2
例1
建筑工地打土方工人4000人,需测定平均每人工 作量,要求误差范围不超过0.2M3,并需有99.73%保证 程度。根据过去资料σ为1.5M3、1.36M3和1.48M3,求 样本数应是多少?如果误差范围缩小一半,其他条件不 变,样本数又应是多少?
(二)抽样平均误差
抽样平均误差就是用来反映抽样误差的一 般水平的指标。通常用符号δ来表示。 用 x 表示平均数的抽样平均误差; p 表示成数的抽样平均误差。
M表示可能出现的样本种数
x
x
M
2
p
M
P
2
p
1、平均数的抽样平均误差(简单随机抽样)
重复抽样: 不重复抽样:
第七章抽样推断与检验
第一节
抽样设计
第二节
第三节
参数估计
假设检验
1
学习目的和要求
明确抽样推断的概念、特点; 了解几种基本的抽样推断方式; 熟练掌握参数的区间估计方法; 了解假设检验的基本原理和方法。
2
学习重点
1、参数估计 2、假设检验
3
学习难点
假设检验的基本原理和方法
第一节
抽样设计
一、抽样推断与抽样设计的概念
Px Z /2 x Z /2 1 a n n
1
a
则称区间(θ1,θ2)为总体指标θ的臵信区间,
臵信概率为1
a
a 为显著性水平,
θl是臵信下限,θ2是臵信上限。
(一)总体均值的区间估计 (二)总体成数的区间估计 (三)总体方差的区间估计
(一)总体均值的区间估计 进行总体均值的区间估计,要考虑三个问题: • • • 首先是总体分布形式 其次是总体方差是否已知 再次是样本容量n的大小
1、重复抽样: 2、不重复抽样:
1 N
1 1 1 、 、 ...... N N 1 N 2 N n 1
四、几种基本的抽样方式 (一)简单随机抽样(纯随机抽样)
简单随机抽样是按随机原则直接从总体N个
单位中抽取n个单位作为样本。 在抽样之前要求对总体各单位加以编号,然 后用抽签的方式或根据《随机数字表》来抽必要 的单位数。简单随机抽样是抽样中最基本的抽样 组织形式,它适用于均匀总体。
(一)影响因素 用户对抽样推断可靠程度和精确度的要求。 不同的抽样组织方式。 不同的抽样组织方法。 总体变量值的差异程度。 按上述依据确定的抽样单位数,还要结合调查人 力、物力和财务的许可情况加以适当调整。
(二)必要抽样单位数的计算(简单随机抽样) 重复抽样
n t
2 2 2
X
n
2
n
X
n
2
N n N 1
当总体单位数N很大时
X
n 1 n N
2
2、成数的抽样平均误差(简单随机抽样)
重复抽样:
P
P 1 P n
不重复抽样:
P 1 P N n n N 1 p 1 p n 1 n N
估计量
P(X )
均值的抽样分布
B
A
中位数的抽样分布
X
二、区间估计
区间估计是用一个区间去估计未知参数, 即把未知参数值估计在某两个界限之间。 对于待估参数θ,找出样本的两个统计量θ1和θ2, 使被未知参数θ落在区间(θ1,θ2)内的概率为1-α, 0<α<1为已知的。即
,
P 1 2
(二)类型抽样(分层抽样)
类型抽样在抽样之前,先将总体N个抽样
单位按某一标志分为k个组,然后在各组内分 别独立的进行随机抽样。
(三)等距抽样(机械抽样)
等距抽样先将总体各抽样单元按某一
标志和顺序排队,然后每隔一定的间隔抽 取一个单元组成样本进行调查。 (1)无关标志:选择标志与抽样调查内容无关。 (2)有关标志:选择标志与抽样调查内容有关。
P 表示总体成数P的估计量,
2 ˆ 表示总体方差 2 的估计量,则点估计的基本公式为:
x
p P
ˆ =S2
2
(二)点估计量优劣的标准
1.无偏性
设
ˆ为未知参数 的估计量,若估计量
ˆ 的期望等于未知参数的真值,即
E (ˆ )
则称 ˆ
为 的无偏估计量。
E x Ep P E S n 1
t
x
(t为概率度)
t t
x
p
p
概率度t 1 1.96 2 3
臵信概率F(t) 0.6827 0.95 0.9545 0.9973
(四)抽样误差的影响因素:
1. 总体标志的变异程度。
2. 抽样单位数目的多少。
3. 不同的抽样方法。
4. 不同的抽样组织形式。
六、必要抽样单位数的确定
性计算的综合指标。
与常用的总体参数相对应,有样本平均数、 样本方差和样本成数等。
统计量如何计算?
x
n
x
或
xf f
2
S
2
x x
n n1 n
或
x x f
2
f
xp p S
2 p
P 1 P
三、重复抽样和不重复抽样
抽样的基本方法有重复抽样和不重复抽样两种。
第二节
参数估计
参数估计就是利用实际调查计算的样本统计量 来估计相应的总体指标的数值。
点估计 区间估计
一、点估计
(一)点估计量的方法 参数点估计的基本特点是,根据总体指标的 结构形式设计样本指标(统计量)作为总体参数的 估计量,并以样本指标的实际值直接作为相应 总体参数的估计值。 设 表示总体平均数 的估计量,
它有什么作用?
抽样推断的主要应用场合
1、在不可能进行全面调查的时候 2、实施全面调查困难时 3、为了节省调查的人力、费用和时间 4、抽样调查的结果可被用来检验和修正全面调查的结果 5、对工业生产过程的稳定性进行检测并实现质量控制 6、对总体的某些假设进行控制