第六章抽样分布
概率论与数理统计(06)第6章 统计量及其抽样分布
σx =
σ
n
当样本容量足够 大时( 大时(n ≥ 30) , 样本均值的抽样 分布逐渐趋于正 态分布
6 - 11
µx = µ
xቤተ መጻሕፍቲ ባይዱ
x 的分布趋 于正态分布 的过程
6 - 12
6.4 正态总体 6.3.1 χ2分布 6.3.2 t 分布 6.3.3 F 分布
6 - 13
χ2 分布
第六章 样本与统计量
6.1引言 6.1引言
数理统计学: 运用概率论的基础知识,对要研究的随机现象进行 多次观察或试验,研究如何合理地获得数据资料, 建立有效的数学方法,根据所获得的数据资料,对 所关心的问题作出估计与检验。
6-1
§6.2总体与样本 6.2总体与样本
对某一问题的研究对象全体称为总体。 组成总体的某个基本单元,称为个体。 总体可以是具体事物的集合,如一批产品。 也可以是关于事物的度量数据集合,如长度测量。 总体可以包含有限个个体,也可以包含无限个个体。 有限总体在个体相当多的情况下,可以作为无限 总体进行研究。 总体中的个体,应当有共同的可观察的特征。该 特征与研究目的有关。
6 - 16
χ2分布
(图示) 图示)
n=1 n=4 n=10
n=20
6 - 17 不同容量样本的抽样分布
χ2
t 分布
6 - 18
t 分布
1. 高 塞 特 (W.S.Gosset) 于 1908 年 在 一 篇 以 (W. “Student”(学生)为笔名的论文中首次提出 Student”(学生)
X ~ N(µ,σ ) ,则
2
χ2分布
2. 3.
z=
X −µ
Y=z
统计学第6章统计量及其抽样分布
整理ppt
16
2. T统计量
设X1,X2,…,Xn是来自正态总体N~ (μ,σ2 )
n
的一个样本,
X
1 n
n i 1
Xi
(Xi X )2 s 2 i1
n 1
则 T(X) ~t(n1)
S/ n
称为T统计量,它服从自由度为(n-1)的t分布。
整理ppt
17
F分布
定义:设随机变量Y与Z相互独立,且Y和Z分别服 从自由度为m和n的c2分布,随机变量X有如下表达式:
整理ppt
8
中心极限定理
设从均值为,方差为2的一个任意总 体中抽取容量为n的样本,当n充分大时, 样本均值的抽样分布近似服从均值为μ、 方差为σ2/n的正态分布。
当样本容量足够大时
(n≥30),样本均值的抽样
分布逐渐趋于正态分布
整理ppt
9
标准误差
标准误差:样本统计量与总体参数之间的平均差异
1. 所有可能的样本均值的标准差,测度所有样本 均值的离散程度
因此,估计这100名患者治愈成功的比 例在85%至95%的概率为90.5%
整理ppt
22
6.5 两个样本平均值之差的分布
设
X
1
是独立地抽自总体
X1 ~N(1,12)
的一个容量
为n1的样本的均值。 X 2 是独立地抽自总体
X2 ~N(2,22)的一个容量为n2的样本的均值,则有
E (X 1X 2)E (X 1) E (X 2)12
2. 样本均值的标准误差小于总体标准差
3. 计算公式为
x
n
整理ppt
10
【例】设从一个均值μ=8、标准差σ=0.7的总 体中随机抽取容量为n=49的样本。要求:
社会研究方法 第6章
整群抽样
不同子群
子群抽取
整群抽样
优点:简便易行,节省费用 扩大抽样应用范围
缺点: 样本分布不广, 代表性相对较差
适用对象: 总体的不同子群之间差别不大, 而每个子群内部差异较大
五、多段抽样
按抽样元素的隶属、层级关系把抽样过程分为 几个阶段进行:先从总体中随机抽取几个大群, 然后再从这几个大群内随机抽取几个小群,这 样一级级抽下去直到抽到最基本的元素为止。
第六章 抽样
第一节 抽样的意义与作用 第二节 概率抽样的原理与程序 第三节 概率抽样方法 第四节 户内抽样与PPS抽样 第五节 非概率抽样方法 第六节 样本规模与抽样误差
第一节 抽样意义与作用
一、抽样的概念
(1)总体(population):构成它的所有元素的 集合,用“ N ”表示。
(2)元素(element):构成总体的最基本单位。
出总体内在结构的变量作为分层变量。 c:以那些已有明显层次区分的变量作为分层变量 (2)分层的比例 a:按比例分层抽样 b:不按比例分层抽样
按比例分层抽样
分层
学生
1200
女生1000 (5/6)
男生200 (1/6)
抽 样(120人)
100人 5/6
样 本 20人 1/6 120
按各种类型或层次中单位数目同总体单位数目间 的比例来抽取子样本的方法。可以确保得到一个 与总体结构完全一样的样本。
样本规模的计算
简单随机抽样中样本规模的计算 置信水平对应的临界值
➢
推论总体均值
:
n
t2
e2
பைடு நூலகம்
2
总体的标准差 允许的抽样误差
推论总体成数:
t 2 p(1 p)
第六章 统计量及其抽样分布
样本均值的抽样分布
样本均值的抽样分布
1. 容量相同的所有可能样本的样本均值的概率分 布
2. 一种理论概率分布 3. 进行推断总体总体均值的理论基础
样本均值的抽样分布
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。 总体的均值、方差及分布如下
第 一
16个样本的均值(x)
个
第二个观察值
观 察值1 2
3
4
11
1.
20.
52. 0.
5
21
2.
25.
03. 5.
0
23
2.
30.
53. 0.
5
24
3.
35.
04. 5.
0
.3 P (X ) .2 .1 0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
第六章 统计量及其抽样分布
抽样理论依据: 1、大数定律 (1)独立同分布大数定律:证明当N足够大时,平均数据有稳定性,为用样本平 均数估计总体平均数提供了理论依据。 (2)贝努力大数定律:证明当n足够大时,频率具有稳定性,为用频率代替概率 提供了理论依据 2、中心极限定律 (1)独立同分布中心极限定律:设从均值为u、方差为s2(有限)的任意一个总体 中抽取样本量为n的样本,但n充分大时,样本均值X的抽样分布近似服从均值为u, 方差为s2/n的正态分布。 (2)德莫佛-拉普拉斯中心极限定律:证明属性总体的样本数和样本方差,在n足 够大时,同样趋于正态分布。
(central limit theorem)
概率论 第六章 样本及抽样分布
一般,设 x1,x2, …,xn 是总体F的一个容 量为n的样本值,先将x1,x2, …,xn 按自小到 大的次序排列,并重新编号,设为
x(1) ≤x(2) ≤…≤x(n) 则经验分布函数Fn(x)的观察值为
0,
若x x(1) ,
性质:
(1) limf (t)
1
e ; t2 2
n
2
(2)当n 45时 取t (n) Z .
(三)设X~2(n1), Y~ 2(n2), 且X 与Y相互独立,则随机变量
F X/ n1 Y / n2
则称F服从第一自由度为n1,第二自由 度为n2的F分布,记作
F~F(n1 ,n2)
F分布的分布密度为
2 2
E( X 2 ) D( X ) (E( X ))2
2 2
n
E(S 2 )
E[ 1 n 1
n i 1
(Xi
X
)2 ]
E[
1
n
(
n 1 i1
X
2 i
2
n X )]
1
n
E(
n 1 i1
X
2 i
nX
2
)
1 [E( n 1
n i 1
X
2 i
)
E(n X
2
)]
1[ n 1
n i 1
考察某厂生产的电容器
的使用寿命。在这个试验 中什么是总体,什么是个 体。
解 个体是每一个电容器 的使用寿命;总体X是各个 电容器的使用寿命的集合。
2. 样本
为推断总体分布及各种特征,按一定规 则从总体中抽取若干个体进行观察试验,以 获得有关总体的信息,这一抽取过程称为 “抽样”,所抽取的部分个体称为样本. 样 本中所包含的个体数称为样本容量.
统计学第六章抽样和抽样分布
2021/3/4
统计学第六章抽样和抽样分布
4
一、总体与样本
▪ 把握两个问题: ▪ 1、总体和总体参数; ▪ 2、样本和样本统计量。
2021/3/4
统计学第六章抽样和抽样分布
5
1、总体与总体参数
(1)总体:指根据研究目的确定的所 要研究的同类事物的全体,是所要说 明其数量特征的研究对象。按所研究 标志性质不同,分为变量总体和属性 总体,分别研究总体的数量特征和品 质特征。 构成总体的个别事物(基本单元 )就是总体单位,也称个体。总体单 位的总数称为总体容量,记作N。
缺点:受主观影响易产生倾向性误差; 不能计算、控制误差,无法说明调查结果 的可靠程度。
抽样一般都是指概率抽样。
2021/3/4
统计学第六章抽样和抽样分布
15
2、重复抽样和非重复抽样
(1)重复抽样:又称重置抽样,是指从总体 中抽出一个样本单位,记录其标志值后,又将 其放回总体中继续参加下一轮单位的抽取。特 点是:第一,n个单位的样本是由n次试验的结 果构成的。第二,每次试验是独立的,即其试 验的结果与前次、后次的结果无关。第三,每 次试验是在相同条件下进行的,每个单位在多 次试验中选中的机会(概率)是相同的。在重复 试验中,样本可能的个数是 N n ,N为总体单位 数,n为样本容量。
2021/3/4
统计学第六章抽样和抽样分布
16
2、重复抽样和非重复抽样
(2)非重复抽样:又称为不重置抽样,即每次从
总体抽取一个单位,登记后不放回原总体,不参加下
一轮抽样。下一次继续从总体中余下的单位抽取样本
。特点是:第一,n个单位的样本由 n 次试验结果构成
统计学第六章抽样和抽样分 布
第六章 抽样与抽样分布
江西财经大学统计学课件第六章抽样分布
STAT
[例]某养猪场共有存栏生猪10万头,现欲了解这批生猪的平均 毛重及健康比例。调查者按随机原则从中抽取了100头生猪进行 调查,以计算其平均毛重和健康比例。
(一)总体参数:反映总体特征的变量。
X P N 1 2 (X )2
N
N
N
(二)样本统计量:反映样本特征的变量。任何样本的函数, 只要不包含总体的未知参数,都称为统计量。样本的随机性决 定统计量的随机性(统计量是随机变量)。
x1
x1 E(x)
N n x2 E(x) x2 E(x)xi E(x) ?
x 总 总个 离 = 数 差 [xi M E(x)]
理论公 x 式 [xi: M E(x)2 ]
第六章 抽样和抽样分布
STAT
[计算] N=3人,(A,B,C)=(1,2,3) n=2
x
[xi
E(x)]0 M
STAT
5. 抽样分布:样本统计量的所有可能取值及其出现概率的分
布。 →理论分布
抽样分布的形成:
样本及样本平均数
抽样分布的影响因素:总体分布、 样 本
样本容量、抽样方法、抽样组织形
A ,A
式、统计量构造
A,B A,C
B ,A
[例] n=2,计算样本平均年龄。
B ,B
样本平均年龄的抽样分布
B ,C C ,A
x 1 1.5 2 2.5 3
C ,B
P 1/9 2/9 3/9 2/9 1/9 C , C
x
x
1, 1 1
1 , 2 1 .5
1, 3 2
2 , 1 1 .5
2, 2 2
2 , 3 2 .5
3, 1 2
第6章 抽样调查(1)
33
1、由于总体单位总数未 知,因此采用重复抽样 公式。又总体标 准差未知,采用过去资 料最大标准差作为估计 值。
x
n
0.12 0.0219 (升) 30
n1 30 2 2、合格率p 93.3% n 30 S P p(1 p) 93.3% (1 93.3%) 6.25%
根据质量标 准,使用寿 命800小时及 以上者为合 格品,计算 产品平均合 格率和标准 差。
14
全及指标
X XF X N F
P N1 N
X
2
( X X )2
N
( X X )2 F F
X
(X X )
N
2
(X X ) F F
2
P 2 P(1 P)
31
例 上题中,如果寿命低于9000小时的产品是不合格品,计 算不合格率(合格率)的抽样平均误差。
不合格率:
n1 90 x p 18% n 500
Sp
p(1 p)
Sp
0.18 (1 0.18) 38.4%
重复抽样下:
p
p
Sp n
0.384 1.7% n 500
3
特 点
遵循随机原则抽取部分单位 ;
用样本推断总体;
会产生抽样误差,但误差可以计算和控制。
4
随机原则的实现
统 计 学 概 论
是将总体中每个单位的编号写在外形完全 一致的签上,将其搅拌均匀,从中任意抽 抽签法 选,签上的号码所对应的单位就是样本单 位。 将总体中每个单位编上号码,然后使 用随机数表,查出所要抽取的调查单 随机数表法 位。
《概率论与数理统计》第六章
既然总体是随机变量X,自然就有其概率分布。
我们把X的分布称为总体分布。
总体的特性是由总体分布来刻画的。因此,常 把总体和总体分布视为同义语。
第六章 样本及抽样分布 ‹#›
例2
在例1中,假定物体真实长度为(未知)。一般 说来,测量值X就是总体,取 附近值的概率要大一 些,而离 越远的值被取到的概率就越小。
k=1,2,…
第六章 样本及抽样分布 ‹#›
它反映了总体k 阶矩的信息
样本k阶中心矩
Bk
1 n
n i 1
(Xi
X )k
它反映了总体k 阶 中心矩的信息
第六章 样本及抽样分布 ‹#›
统计量的观察值
1 n
x n i1 xi;
s2
1 n 1
n i1
(xi
x )2
s
1 n 1
n i1
(xi
x
)2
第六章 样本及抽样分布 ‹#›
实际上,我们真正关心的并不一定是总体或个
体本身,而真正关心的是总体或个体的某项数量指 标。
如:某电子产品的使用寿命,某天的最高气温, 加工出来的某零件的长度等数量指标。因此,有时也
将总体理解为那些研究对象的某项数量指标的全
体。
第六章 样本及抽样分布 ‹#›
为评价某种产品质量的好坏,通常的做法是: 从全部产品中随机(任意)地抽取一些样品进行观测(检
样本X1,X2,…,Xn 既被看成数值,又被看成随机变量, 这就是所谓的样本的二重性。
随机样本
例 4 (例2续) 在前面测量物体长度的例子中,如果我们 在完全相同的条件下,独立地测量了n 次,把这 n 次测 量结果,即样本记为
X1,X2,…,Xn .
概率论第六章样本及抽样分布
本相互独立,记
1 n1 X Xi n1 i 1 1 n2 Y Yi n2 i 1
则有 ⑴
2 1 2 2 2 1 2 2
1 n1 S12 ( X k X )2 n1 1 k 1 1 n2 2 S2 (Yk Y ) 2 n2 1 k 1
S / ~ F (n1 1, n2 1) S /
⑵ 当 时
2 1 2 2 2
X Y ( 1 2 ) ~ N (0,1) 1 1 n1 n2
(n1 1) S12
2 1
2 (n2 1) S2
2 2
~ 2 (n1 n2 2)
X Y ( 1 2 ) ~ t (n1 n2 2) 1 1 S n1 n2
2
又因为
(n 1)S 2
2
~ (n 1)
2
X n1 X n
故 Y
(n 1) S 2
n n 1 ~ t (n 1) /(n 1)
2
X n1 X n Y S
n ~ t (n 1) n 1
例4
设总体X , Y 相互独立 X ~ N (0,32 ) , Y ~ N (0,32 ) ,
2
X n1 X n n X 1 , X 2 ,, X n , X n1 , 求 Y 的分布 . S n 1 1 n 1 n 2 2 其中 X n X i , S ( Xi X n ) n i 1 n 1 i 1
1 2 解 由已知得 X n1 ~ N ( , ) , X n ~ N ( , ) , n n 1 2 所以 X n1 X n ~ N (0, ) n n 标准化得 X n1 X n ~ N (0,1) n 1
西南财经大学向蓉美、王青华《统计学》第三版——第6章:抽样及抽样分布
§6.1 总体与样本的统计分布
§6.1.1 统计推断中 的总体及总体分布
研究的标志
组成元素 具体对象
组成元素
变量的具体 取值
§3.1 总体与样本
实物总体
数字总体
例:班级同学的成绩
班级同学的集合 (全体同学)
同学成绩的集合
组成元素:每位同学
组成元素:成绩分数
在统计推断中,我们感兴趣的是总体单位的某个或某些数 量特征。例如研究某种型号灯泡的寿命这一数量特征。总体的 含义是所感兴趣变量的所有取值。
T (x1, x2 ,..., xn ) 统计值
统计量既然是随机变量的函数,那么它也应该
是随机变量,并有其概率分布,统计量的分布也 称为抽样分布。抽样分布和统计推断有着密切的
联系。统计量提出以后,必须要知道其分布才能在 统计推断中使用,因为只有知道了统计量的分布, 才能利用概率论对总体的特征进行推断,并得到相 应的推断的置信度。所以在统计推断中,一项重要 的工作就是寻找统计量和导出统计量的分布。
不是 T6
1
2
( X12
X 22
.
X
2 3
)
【例6-1】总体X服从两点分布,概率分布律如下:
P(X 1) p P(X 0) 1 p
从总体中抽取容量为n的样本,求统计量T
n
Xi
的分布。
i 1
解:其取值是0到n之间的所有整数,其分布是二项分布:
P(T k) Cnk pk (1 p)nk k 0,1, 2,..., n
这样得到的X1, X2,…, Xn 称为来自总体X的一个 简单随机样本,n为这个样本的容量。
n次观察一经完成,我们就得到一组实数x1,
贾俊平统计学第六章 抽样分布
n=4 σx = 5 n =16 σ x = 2.5
µ = 50
X
µx = 50
X
总体分布
抽样分布
中心极限定理
(central limit theorem)
中心极限定理: 中心极限定理:设从均值为µ,方差为σ 2的一个任意总 体中抽取容量为n的样本, 充分大时, 体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为µ 方差为σ 样分布近似服从均值为µ、方差为σ2/n的正态分布
解:根据中心极限定理,样本容量>30,可视 为样本均值近似服从正态分布。
样本均值的抽样分布与中心极限定理 (例题分析)
因此知,样本均值服从:
0.62 X~N ( µ , σ 2 n ) = N 10, = N (10, 0.01) 36 (1) P X <9. = P X − 10 < 9.9 − 10 9) ( 0.1 0.1
6.1 统计量
1. 统计量的概念 2. 常用的统计量
统计量的概念
定义:
设X1,X2,……,Xn是从总体X中抽取的样本容 量为n的一个样本,如果由此样本构造一个函数 T(X1,X2,……,Xn),不依赖任何未知参数, 则称行数T(X1,X2,……,Xn)是一个统计量。 统计量是样本的函数 统计量不依赖任何未知总体参数 根据具体样本的观测值x1,x2,……,xn带入统 计量函数,计算出来的值是一个具体的统计量 的值。
0.1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 X 0.3 0.2 P (X )
样本均值的抽样分布 3.0 3 3.5 2 4.0 1
均值X的取值 均值 的取值 均值X的个数 均值 的个数
第六章 抽样分布及总体平均数的估计
• 对总体参数的一种看法 总体参数包括总体均值、比例、方差等 分析之前必需陈述
三 假设检验的基本原理
2、什么是假设检验?
1)概念 事先对总体参数或分布形式作出某种假设, 然后利用样本 信息来判断原假设是否成立。 2) 类型 参数假设检验 非参数假设检验 3)特点 采用逻辑上的反证法 依据统计上的小概率原理
二 总体平均数的估计
(3)区间估计(interval estimation)
根据估计量以一定可靠程度推断总体参数所在的区间 范围,用数轴上一段距离表示未知参数可能落入的范围, 虽不具体指出总体参数等于什么,但能指出未知总体参数 落入某一区间的概率有多大。
(4)置信区间(confidence interval)
一 抽样分布与平均数抽样分布
3、样本平均数与总体平均数离差的形态
(2)总体方差未知 总体正态,样本平均数与总体平均数的离差统 计量呈 t 分布; 总体非正态,但满足n>30这一条件,样本平均 数与总体平均数的离差统计量 近似t 分布。
t分布
t 分布(t-distribution)是统计分析中应用较多 的一种随机变量函数的分布,是统计学者高赛特 1908年以笔名“Student”发表的论文中推导出来 的一种分布,又叫学生氏分布。这种分布是一种 左右对称,峰态比较高狭,分布形状随样本容量 n-1的变化而变化的一组分布。
二 总体平均数的估计
4 总体方差σ2未知时,总体平均数μ的估计 用样本的无偏方差作为总体方差的估计值,样本 平均数的分布为t分布,应查t值表,包括以下两 种情况:
(1)总体的分布为正态时,可不管n值大小。 (2)总体分布为非正态,只有n>30,才能用概率对其样本 分布进行解释。
第6章 抽样分布s1
作者钟卫统计学1Statistics第6 章统计量及其抽样分布6.1 统计量6.2 关于分布的几个概念6.3 由正态分布导出的几个重要分布6.4 样本均值的分布与中心极限定理6.5 样本比例的抽样分布6.6 两个样本平均值之差的分布6.7 关于样本方差的分布第6章抽样分布6.1 抽样误差6.2 样本均值的期望与方差6.3 样本均值的抽样分布6.4 样本比例的抽样分布6.5 两个样本均值之差的抽样分布 6.6 样本方差的抽样分布3•推断统计学的主要任务就是利用样本均值、样本比例、样本方差等统计量来估计和检验总体的相应参数…•由于我们实际上只做了一次抽样,借助这一次抽样的结果,我们能够准确的估计总体相应的参数吗?•抽样分布知识能回答这一问题。
6.1 抽样误差/需要抽样分布的理由5抽样方法概率抽样非概率抽样简单随机抽样系统随机抽样整群抽样分层抽样判断抽样方便抽样总体样本抽样推论(总体参数)(样本统计量)自愿抽样配额抽样•由样本统计量(statistic)去推论总体参数,总会有差距存在,这便是「_______」(sampling error)。
•比如,我们想了解全北京市20岁以上的成年人每年失眠的天数,我们抽取了1000位北京市20岁以上的居民进行调查,并求得其每年失眠天数的样本平均数( ),它不可能刚好等于总体平均数( ),势必有一些抽样误差存在。
•以平均数为例,抽样误差为•差距越大,抽样误差也就______。
•通常,由于总体参数是未知的,而在实际抽样时,我们又只抽一次样,因而无法知道抽样误差的确切值。
x X μ-x X μ抽样误差抽样分布•抽样分布(sampling distribution) :指在既定的样本量下,所有可能的样本组合所分别计算出的样本统计量,及其所发生的概率。
•样本统计量主要包括:样本均值, 样本比例,样本方差等•样本平均数的抽样分布(sampling distribution of the sample mean) :在既定的样本数下(例:北京市抽1000人),所有可能的样本组合(例:)所分别计算出的样本平均数(例:这1000人平均每年失眠天数),及其所发生的概率(例:平均每天失眠2小时的概率有多高),即为抽样分布。
概率论与数理统计6.第六章:样本及抽样分布
),
,
,
,
是来
Z=
(
-
证明统计量 Z 服从自由度为 2 的 t 分布。
14
),
,
,
,
是来 , .ຫໍສະໝຸດ 自 总 体 X 的 样 本 , E( ) 则 ,D( )=
是来自总体 X ,D(X)= . ,
,D( )=
11
3. 设 , 本 ,E(X)=
, , 为来自总体 X 的样 ,D(X)=9, 为样本均值 , 试用 < ≥ ,
切比雪夫不等式估计 P{ P{ 4.设 , 则当 K= > ≤ , , . 是总体 X
lim f (t ) (t )
n
1 e 2
t2 2
, x
3.分位点 设 T~t(n), 若对 :0<<1,存在 t(n)>0,
4
满足 P{Tt(n)}=, 则称 t(n)为 t(n)的上侧分位点 注: t1 (n) t (n) 三、F—分布 1.构造 若 1 ~2(n1), 2~2(n2),1, 2 独立,则
y0
2. F—分布的分位点 对于 :0<<1,若存在 F(n1, n2)>0, 满足 P{FF(n1, n2)}=, 则称 F(n1, n2)
5
为 F(n1, n2)的上侧 分位点; 注: F1 (n1 , n2 )
1 F (n2 , n1 )
§ 6.3 正态总体的抽样分布定理
X Y /n ~ t ( n)
t(n)称为自由度为 n 的 t—分布。 t(n) 的概率密度为
n 1 ) 1 t 2 n2 2 f (t ) (1 ) , t n n n ( ) 2 (
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6.1.3 样本容量和样本个数
样本容量:样本中的单位数,通常用字
母n表示。
– 通常,n≥30的样本称为大样本, n<30的样
本称为小样本。
样本个数:从总体中可能抽得的样本的
数目
从总体N中随机抽取n个样本单 位共有多少种可能的抽选结果 样本的可能数目 与抽样方法和是否考虑顺序有 关。有以下四种组合: ⒈ 重复抽样考虑顺序 ⒉ 不重复抽样考虑顺序 3. 不重复抽样不考虑顺序 4 重复抽样不考虑顺序(不常用)
⒈ 重复抽样考虑顺序的可能样本数目:
P N N N N
n N
n
共 n个
⒉ 不重复抽样考虑顺序的可能样本数目:
m N N 1
N n 1
3 不重复抽样不考虑顺序的可能样本数目:
C
n N
N! n !( N n)
参数(parameter)
06343
67110 07577 93294 25352 00144
68260 43880 82290 61467 98294
79820 08133 95922 51683 64512
91123 09898 96329 43833 19201
注意: 必须先对总体中的每一个单位进行编码或编号, 确定抽样框。 简单随机抽样适合于调查标志在各单位分布较均 匀的总体,一般情况下,简单随机抽样的效果相 对差些。
–用 表示
总体
样本
参数
统计量
平均数 标准差 比例 x s p
( P)
6.15抽样框
抽样框:全部抽样单位的名单框架。抽样框的好坏 通常会直接影响到抽样调查的随机性和调查效果。 有如下几种抽样框形式: 名单抽样框:列出全部总体单位的名录一览表。如 职工名单,企业名单。 区域抽样框:按地理位置将总体范围划分为若干小 区,以小区为单位进行抽样。如市住房调查划分为 街道、区片。 时间抽样框:将总体全部单位按时间顺序排列,每 隔一定时间抽样。如流水线抽样进行产品质检。
( x )2 2
2
( x )
统计量(statistic)
– 又称样本指标或估计量,是根据样本数据计算出来
的一些量,用以推断总体参数(总体指标)的综合 指标。
– 特点:是随样本不同而不同的随机变量,不含未知
参数。
– 所关心的样本统计量有:样本均值(x)、样本标准差
(s)、样本比例(p)等
抽签、随机数字表法
59079 48391 67072 86050 84426
46755 76486 33693 07331 40439
72348 60421 81976 89994 57595
69595 69414 68018 36265 37715
53408 37271 89363 62934 16639
第 6 章 抽样与抽样分布
6.1 6.2 6.3 6.4
抽样的基本概念 抽样分布基本理论 样本抽样分布 抽样误差的计算
学习目标
1. 2. 3. 4. 5.
了解抽样中的概率抽样方法 理解抽样分布的意义 了解抽样分布的形成过程 理解中心极限定理和大数定理 理解抽样分布的性质
6.1 抽样的基本概念
6.1.6 抽样的组织形式
一、简单随机抽样 二、分层抽样 三、系统抽样 四、整群抽样 五、多阶段抽样
简单随机抽样
(simple random sampling)
——对总体单位逐一编号,然后按随机原 则直接从总体中抽出若干单位构成样本
应用
仅适用于规模不大、内部各单位 标志值差异较小的总体
是最简单、最基本、最符合随机原则, 但同时也是抽样误差最大的抽样组织形式
6.1.1 抽样推断 6.1.2 抽样的方法 6.1.3 样本容量和样本个数 6.1.4 参数和样本统计量 6.15 抽样框 6.1.6 抽样的组织形式 6.1.7 抽样误差
抽样推断的含义 从研究现象总体的所有单位中,按照随 机原则抽取部分单位作为样本,然后以 样本的观测结果对总体的数量特征作出 具有一定可靠程度和精度的估计或推断 的一种统计调查方法。 总体
——将总体全部单位分类,形成若干个类型组, 然后从各类型中分别抽取样本单位组成样本。
N1
n1
分层抽样 (stratified sampling)
等额抽取 样本 n
总体
N
N2
Nk
n2
nk
等比例抽取
最优抽取
能使样本结构更接近于总体结构,提高样本的 代表性;能同时推断总体指标和各子总体的指标
· · ·
· · ·
抽样推断的内容
(一)参数估计 (二)假设检验
6.1.2 抽样的方法
抽样的方法
重复抽样
不重复抽样
重复抽样:也叫回置抽样。 特点:每个单位在每次抽中机会一样。 不重复抽样:也叫不回置抽样。 特点:每个单位在每次抽中机会不一样; 每个单位最多只能被抽中一次。 不重复抽样的抽样平均误差小于重复抽 样的抽样平均误差。
随机样本
抽样推断方法的特点 1.在调查单位的抽取上遵循随机原则 2.以样本的数量特征去推断总体的数量特征 3.存在抽样误差,可计算并加以控制
抽样推断的作用 一、了解不能或难以采用全面调查的总 体的数量特征 二、与全面调查相结合,修正和补充全 面调查 三、在生产过程中进行质量控制 四、可以对总体的某种假设进行检验
注意:
1、随机性 2、分层抽样要求事先对总体有较多的了解。 3、分层抽样对层而言是全面调查,对层内单位而 言是非全面调查。 4、能避免明显的偏高或偏低情况。 5、适合于调查标志在各单位间的分布差异大的总 体。
系统抽样 (systematic sampling)
等距抽样/机械抽样 ——将总体单位按某一标志排序,而后按一 定的间隔抽取样本单位。
– 来描述总体数量特征的指标,又称总体指标。即对总体
特征的数量描述。参数已知,总体的分布特征就已知。
– 所关心的参数主要有总体均值()、标准差()、总体比 – 用 表示
例(P/ )等
– 参数的特点:参数的数值是客观存在的,总体一定,参
数就唯一确定,但却是未知的。
f ( x)
1 e 2