应用统计学课件-8
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽取个数值,将每一个值变换成标准正态变量,并对这个新
的变量分别取平方再求和之后,就得到一个服从χ2分布的变
量。它主要适用于对拟合优度检验和独立性检验,以及对总
体方差的估计和检验等。
χ2分布是一个以自由度为参数的分布族,自由度决定了χ2分布
的形状。不同的自由度,有不同χ2的分布。这一点与 t分布相
同。
2020/11/27
Jinlong
3
重复抽样Leabharlann Baidu不重复抽样
从单位数为N 的总体中随机抽取一个容量为 n 的样本,如果 每次抽出一个单位,将它的测试、观察结果登记下来后,又 重新放回总体,继续参加下一次的抽选,这样的抽样方法称 为重复抽样。从单位数为N的总体中随机抽取一个容量为 n 的样本,如果每次抽选一个单位登记以后不再放回总体,参 加下一次的抽选,这样的抽样方法称为不重复抽样。
n N 1
2020/11/27
Jinlong
14
正态分布练习
假设众多学生参加本届满分为500分的数学竞赛。往届经验表 明,参赛学生的得分近似服从μ=300、σ=35的正态分布。
1)从本届参赛学生中随机抽取1名学生, 其参赛得分高于300分或高于335的概率各是多少?
2)从本届参赛学生中随机抽取4名学生,组成一个简单随机 重复抽样样本,
其样本平均数高于300分或高于335的概率各是多少?
2020/11/27
Jinlong
15
正态分布练习 (续)
1)Z =( X -μ)/σ
Z =(300-300)/ 35 = 0
Z =(335-300)/ 35 = 1
2) Z =( X -μ)/
n
Z =(300-300)/
35
=0
4
Z =(335-300)/ 35 = 2
第八章 抽样分布
你不必吃完整头牛,才知道肉是老的。
---- 谚语
国家统计局公布的夏粮产量数据,由夏粮主产区开展以省为
总体抽样调查和非主产区重点调查两种调查方式得出。夏粮
产量抽样调查由播种面积和单位面积产量抽样调查组成。夏
粮播种面积,是在国家调查县(市)抽取的4000多个调查村、
20多万农户中,开展小麦等粮食作物种植情况调查,省级调
Jinlong
2
一、抽样概述
抽样推断是按照随机原则,从总体中抽取一部分单位进行调 查,并依据所获得数据对总体的某一数量特征做出具有一定 可靠程度的估计或推断的一种方法。
总体是所要认识的研究对象的全体,它是具有某种共同性质 或特征的许多单位的集合体。总体的单位数通常用N来表示。
样本是总体的一部分,它是从总体中随机抽取出来、代表总 体的那部分单位的集合体。样本的单位数通常用 n 表示,也 称为样本容量。一般来说,样本单位数等于或大于30,称为 大样本;小于30,称为小样本。
样本
46,34 46,38 46,42 46,46 46,50 50,34 50,38 50,42 50,46 50,50
样本平
均数 X
40 42 44 46 48 42 44 46 48 50
12
样本平均数的分布的两个结论
样本平均数 X 频数
34
1
36
2
38
3
40
4
42
5
44
4
46
3
48
2
50
1
1
1
2
2
2020/11/27
Jinlong
17
样本比率的分布
q=1-P
抽样方法
平均数 方差
标准差
重复抽样
E(Pˆ) E(n / n) i
2 Pˆ
Pq / n
P
Pˆ
Pq n
不重复抽样 E(Pˆ) E(n / n) i P
2 Pˆ
Pq n
(
N N
n) 1
Pˆ
Pq (N n) n N 1
按中心极限定理,只要样本足够大[np和n(1-p)大于5],样
52 = 25个样本
34,34 34,38 34,42 34,46 34,50 38,34 38,38 38,42 38,46 38,50 42,34 42,38 42,42 42,46 42,50
2020/11/27
Jinlong
样本平
均数 X
34 36 38 40 42 36 38 40 42 44 38 40 42 44 46
从正态总体中抽样得到的样本平均数的分布服从正态分布。
从非正态总体中抽样得到的样本平均数的分布呢?
中心极限定理:无论总体为何种分布,只要样本足够大,样
本平均数逼近X正态分~布N,(0,即1),:X ~ N(, 2 / n)或 / n
何为样本足够大?一般认为,n≥30。
X ~ N[, 2 (
n
X ~ N(不,重 2复/ n抽)或样下, X ~ N[, 2 ( N n)]
查总队根据调查基础数据推算得出省级夏粮播种面积。夏粮
单位面积产量,是在国家调查县(市)抽取的3000多个调查村
中抽取4万个样本地块,通过对夏收小麦实割实测推算得出。
2020/11/27
Jinlong
---- 国家统计局
1
本章主要内容
一、抽样概述 二、抽样设计 三、抽样分布
2020/11/27
合计
25
2020/11/27
1) E(X)
样本平均数的平均数等于总体平均数。 样本平均数以总体平均数为中心,呈 正态分布。
2) 2(X ) 2
n
样本平均数的方差小于总体方差,等 于总体方差除以样本容量。样本容量 越大,样本平均数的方差越小,样本 平均数的分布越集中。
Jinlong
13
中心极限定理
方差就趋近于1,t分布也就渐近于标准正态分布,这时可用标 准正态分布来代替t分布。
2020/11/27
Jinlong
21
Student’s t Table
α/ 2 右端尾部区域
df .25 .10 .05
假设: n = 3 df = n - 1 = 2 = .10 /2 = .05
1 1.000 3.078 6.314
4
P = 1 - 50% = 50% P = 1 - 84.13% = 15.87%
P = 1-50% = 50% P = 1- 97.72% = 2.28%
2020/11/27
Jinlong
16
两个样本平均数之差的抽样分布*
X N( , 2),
1
11
X N( , 2),
2
22
*选讲
正态总体
则( x1
本比率(p)的分布近似正态分布。即
p~N(P, P(1-P)/n),或 p~N(π, π(1-π)/n)
2020/11/27
Jinlong
18
样本比率分布的练习
假设赞成治理城市污染A方案的市民比率为40%。如果随机
抽取一个200名市民的样本,那么这个样本中赞成 A 方案的市
民比率在40%至45%的概率为多大?
不等比例分配。
2020/11/27
Jinlong
8
等距抽样
等距抽样又称机械抽样或系统抽样。它是在抽样之前将总 体各单位按照一定的标志顺序排列,根据总体单位数和样 本单位数计算出抽选间隔或抽选距离,然后按这一间隔或 距离抽选样本单位。
等距抽样可分为: 按有关标志排队的等距抽样; 按无关标志排队的等距抽样。
2020/11/27
Jinlong
9
整群抽样
整群抽样就是将总体各单位按一定的标志或要求,分成若干 群,使得每群内均含多个总体单位,然后以群为单位从中随 机抽取一部分群,对被抽中的群进行全面调查。
这种抽样方式又称成批抽样。整群抽样也常按地理区域划分 群,这时又称区域抽样。
进行整群抽样时,可以按简单随机抽样方式进行抽选,也可 以按等距抽样方式抽选。抽样的可靠程度取决于采用的抽样 方法及抽选的单位数。
若从总体N个单位中,随机重复抽取 n 个单位构成样本,则 样本可能数目为Nn 个;随机不重复抽取n个单位构成样本, 则样本可能数目为N(N-1)(N-2)……(N-n+1)个。
2020/11/27
Jinlong
4
总体参数与样本统计量
第一章已述: 总体参数是根据总体各个单位的标志值或标志特征计算的、
反映总体的某种数量特征的综合指标。由于总体是唯一的, 所以总体参数是一确定的数值。通常需要计算的总体参数包 括总体平均数、总体比率和总体方差。 样本统计量是由样本各单位标志值或标志特征计算的、反映 样本的某种数量特征的综合指标。它的数值随着样本的不同 而变化,因此它是一个随机变量。和常用总体参数相对应, 样本统计量有样本平均数、样本成数和样本方差等。
2020/11/27
Jinlong
10
三、抽样分布
样本平均数的分布 样本比率的分布 t 分布、 χ2分布和F分布 样本方差的分布
2020/11/27
Jinlong
11
样本平均数的分布
某班组5个工人的日工资为 样本
34、38、42、46、50元。
= 42 2 = 32
现用重置抽样的方法从5人 中随机抽取2个构成样本, 共有 ? 个样本:
2020/11/27
Jinlong
7
类型抽样
也称分类抽样或分层抽样。它的特点是先对总体各单位按某 一主要标志加以分组,然后再分别从各组中按随机原则抽选 一定单位构成样本。
每个类型组应该抽取多少样本单位,是进行抽样前必须考虑 的问题。通常有两种分配办法:
等比例分配。按照总体单位数在各组之间的比例,分配各组 的抽样单位数。
2 0.817 1.886 2.920
.05
3 0.765 1.638 2.353 t值
0 2.920 t
2020/11/27
Jinlong
22
Degrees of Freedom (df )
自由度:当样本统计量被计算出以后可以自由改变的观测值 的数目。例如:
三个数之和是6;其中 X1 = 1 (或其他数)
20
t 分布*
英国统计学家威廉·西利·戈塞特在1900年就开始了t分布的早 期理论工作。t分布是小样本分布,小样本一般是指n<30。
t分布适用于当总体标准差未知时用样本标准差代替总体标准 差,由样本平均数推断总体平均数及两个小样本之间差异的显 著性检验。
t分布是对称分布,且其均值为0。这完全同于标准正态分布。 当样本容量n 较小时,t分布的方差大于1;当n≥30时,t分布的
2020/11/27
Jinlong
6
简单随机抽样
简单随机抽样又称纯随机抽样,也即在对总体未作任何处理 的情况下,按随机原则直接从总体N 个单位中抽取 n 个单位 作为样本,保证总体中每个单位在抽选时都有相等的被抽中 机会。
采用简单随机抽样,在进行抽样调查之前应该先确定总体范 围,并对总体的每个单位进行编号,然后用抽签的方式或根 据“随机数字表”来抽选必要的单位数。
x2 )
~
N (1
2
,
2 1
n1
2 2
)
n2
非正态总体 (大样本)
(x
x
)~
N[(
2
,1
N (1
n 2
1) 2
N (2
n 2 )]
1
2
1 2 n N 1 n N 1
1
1
2
2
(x
x
) ~ N(
2
,1
2
2)
1
2
1
2n
n
1
2
(x
x
) ~ N[(
2
,1
(
N 1
n 1
)
2 2
N (2
n 2 )]
1
2
1 2 n N 1 n N 1
X2 = 2 (或其他数) X3 = 3 (不能改变) 由于Sum=6的限制 自由度 = n - 1= 3 - 1= 2
2020/11/27
Jinlong
23
χ2分布*
x2
n i 1
(xi )2 2
χ2 分布是海尔墨特和卡·皮尔生分别于1875年和1890年导出
的,它是一种抽样分布。当我们对正态随机变量随机地重复
2020/11/27
Jinlong
19
两个样本比率之差的抽样分布*
(1)
(Pˆ
Pˆ )
~
N(P
P
,
Pq 11
Pq 22
)
1
2
1
2n
n
1
2
*选讲
(2)
(Pˆ1
Pˆ2
)
~
N[P1
P2 ,
P1q1 n1
(
N1 n1 N1 1
)
P2 q2 n2
(
N2 n2 N2 1
)]
2020/11/27
Jinlong
2020/11/27
Jinlong
5
二、抽样设计
在进行抽样调查时必须根据所研究总体的特征和调查的目的 要求,对抽取样本的程序和工作,作出周密的设计和安排, 此称为抽样组织方式或抽样方案的设计。
选择抽样方式(设计抽样方案),必须遵循两项基本原则:随 机原则(等可能性),效果原则(经济节省)。
常用抽样组织方式有简单随机抽样、分类抽样、等距抽样、 整群抽样。
解答:Z p
σp
p (1 )
;σp
(1 )
n
0.4(1 0.4) 0.03464 200
n
P(0.40 p 0.45) P 0.40 0.40 Z 0.45 0.40
0.03464
0.03464
P(0 Z 1.44)
= 0.9251- 0.5 = 0.4251
2020/11/27
Jinlong
24
样本方差的抽样分布*
从一个正态总体中抽样, 得到的样本方差S2,近似 服从 (n 1)S2 / 2 ~。 2(n 1)