统计学提纲第五章汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章抽样推断
第一节抽样推断的相关基本概念
一、抽样调查
(一)什么是抽样调查
抽样调查是按随机原则从总体中选取部分单位进行观察,用所获得的样本数据推算总体数量特征的一种非全面调查。
(二)抽样调查的特点:
1.按随机原则去抽取调查单位。
随机原则也就是机会均等的原则,每个单位被抽中的机会相等。
其目的是保证抽出的样本是随机样本。
2.以样本数据估计总体参数或检验总体的某种假设。
抽样调查虽仅是直接调查被抽取的那一部分样本,但其目的是着眼于研究总体的数量特征。
3.抽样误差可以事先计算并加以控制。
(三)抽样调查的适用范围:
1.能够解决全面调查无法或难以解决的问题;
2.对能取得全面资料,但不必进行全面调查的情况。
3.可以补充和订正全面调查的结果;
4.可用于对总体的某种假设进行检验,为行动决策提供依据。
(四)抽样调查的基本形式
基本形式有简单随机抽样、类型随机抽样、等距抽样、整群抽样。
1.简单随机抽样
按随机原则直接从总体中抽选样本单位进行调查。
这里,不论是重复抽样还是不重复抽样,每个单位都有相等的中选机会。
2.类型随机抽样(分层抽样)
先将总体单位按某一标志分类,然后按随机原则直接从各类中抽取一定的样本单位进行调查。
3.等距抽样(机械抽样或系统抽样)
它是先将总体单位按某一标志进行排列,再按照一定的间隔抽取样本单位进行调查。
4.整群抽样(集团抽样)
整群抽样是先将总体单位按某一标志进行分群,再按随机原则从各群中抽取部分群,对抽中的群的所有单位进行调查是抽样组织方式。
二、抽样推断的概念及主要内容
(一)抽样推断是在抽样调查的基础上,以样本实际数据计算的样本指标推算总体相应数量特征的一种统计分析方法。
(二)抽样推断的主要内容为:参数估计和假设检验
三、抽样的有关基本概念
(一)全及总体和样本总体
1.全及总体简称总体,又称母体,它是指所要认识的研究对象的全体。
也就是具有某种共同性质的许多单位的集合体。
2.样本总体简称样本,又称子样,是从全及总体中抽取,代表全
及总体的那部分单位的集合体。
全及总体是我们所要研究的对象,而样本总体则是我们所要观察和采集数据的对象,两者是有区别。
(二)样本容量和样本个数
1.样本容量是指样本所包含的单位数。
2.样本个数又称样本可能数目,也就是从一个总体中可能抽取的样本个数。
重复抽样时:; 不重复抽样时:
对于一次抽样调查,全及总体是唯一确定的,而一个全及总体可能抽出很多个样本总体;样本的个数和样本的容量有关,也和抽样的方法有关。
(三)参数和统计量
1.根据全及总体各个单位的标志值或标志属性计算的,反映总体某一数量特征的综合指标称为全及指标,也称为总体参数,简称参数。
2.由样本总体各单位标志值或标志属性计算的,反映样本数量特征,并用以估计全及指标的综合指标称为样本指标,或称为抽样指标、统计量。
统计量有:
样本平均数n
x x ∑= 抽样成数p x =
样本方差:()
n
x x ∑-=
2
2
σ
pq p p =-=)1(2
σ
样本标准差:
()
n
x x ∑-=
2
σ[注意:()1
2
-=
∑-n S x x ]
pq p p =-=)1(σ
对于一个问题,全及总体是唯一确定的,而一个总体有多少样本;总体指标值是唯一确定的;而统计量是样本变量的函数,也就是样本统计量就有多种取值。
(四)重复抽样和不重复抽样
重复抽样:从有N 个单位的总体中,每次随机抽取1个单位,登记其标志表现后放回,再从总体中重新抽取,一直抽取n 次。
不重复抽样:从有N 个单位的总体中,每次随机抽取1个单位,登记其标志表现后不放回,再从总体中重新抽取,一直抽取n 次。
第二节 抽样误差
一、误差
调查资料的检查是指对资料的准确性、完整性、及时性检查 (一)登记性误差
凡是由于错误判断事实、错误登记事实或错误计算而发生的误差,登记性误差在全面调查与非全面调查中都可能存在。
它分为1.偶然登记性误差;2.系统登记性误差 其特点是具有明显的倾向性和一贯性。
(二)代表性误差
在没有登记性误差的条件下,由于用样本指标代表总体指标而产生的误差,它分为:
1.偏差 凡是由于违反随机原则抽样而产生的代表性误差,又称
为系统性代表误差、非偶然性代表误差。
2.抽样误差 是指由于随机抽样的偶然因素,使样本的结构不足以代表总体各单位的结构,而引起抽样指标和总体指标之间的误差,也称为随机误差、偶然性代表误差。
抽样误差既不包括登记误差,也不包括系统性代表误差。
影响抽样误差的因素有:总体各单位标志值的差异程度;样本的单位数;抽样的方法;抽样调查的组织形式。
二、抽样平均误差。
抽样平均误差是反映抽样误差一般水平的指标,它反映了抽样指标与总体指标的平均离差程度,即样本指标与总体指标的标准差。
通常用抽样平均数的标准差来衡量
M
X x x ∑-=
2
)(μ M
P p p
∑-=
2
)(μ
i x X 为第i 个样本的平均数;
为总体平均数; M 为样本个数
i p P 为第i 个样本的成数;
为总体成数;
M 为样本个数
抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。
平均误差大,说明样本指标对总体指标的代表性低;反之,则说明代表性高。
抽样平均数的平均数=总体平均数。
抽样平均误差的计算: (一)简单随机抽样条件下: 1、重复抽样: n
n
σ
σμ=
=2
2、不重复抽样:)
1
(
2--=
N n
N n
σμ
当总体单位数N 很大时,)1(2N n n
-
=
σμ
当N 很大且很小时,n
σ
μ=
其中,σ为总体标准差,n 为样本单位数,在总体标准差未知,
用样本标准差2
()1
x x x S n -'=-∑代替σ;但如果是大样本时,可以用样本
标准差n
x x S x ∑-=
2
)(代替x
S '。
(二)分层抽样条件下: 分类 1 2 … k 合计 总体单位数 … N 总体标准差 … 样本单位数 …
n
不重复抽样:
若总体标准差未知时,可用样本标准差代替。
分层抽样为等比例抽样时:
(三)整群抽样条件下:
由于整群抽样一般采用不重复抽样,因而有:
其中,R 为总体群数;r 为样本群数;为群(组)间方差。
为第i 群的样本平均数;为全样本平均数,。
三、抽样极限误差
抽样极限误差是指用绝对值形式表示的样本指标与总体指标之间偏差的最大允许范围。
X
x x -=∆ P
p p -=∆
即:x x x X x ∆+≤≤∆- p p p P p ∆+≤≤∆-
四、抽样误差的概率度
抽样极限误差以抽样平均误差为标准单位来衡量。
即把极限误差 △x 或 △p 相应除以x μ或p μ,得出相对的误差程度t 倍,t 称为抽样误差的概率度。
于是有:
x x t μ=∆或p p t μ=∆ 概率度与概率保证程度之间的几个数值关系:
五、样本容量的确定 在简单随机抽样下:
1.在重复抽样的条件下,样本容量的确定:
2
2
2x
t n ∆=σ 2
2)1(x p p t n ∆-=
2.在不重复抽样的条件下,样本容量:
22
222
x
x x
Nt n N t σσ=∆+ 222(1)
(1)
p Nt p p n N t p p -=∆+-
第三节 抽样估计
一、抽样估计的的概念
抽样估计就是利用实际调查计算的样本指标值来估计相应的总体指标值。
抽样估计有点估计和区间估计两种
估计量是根据样本数据来估计总体参数的形式。
一般情况下估计量就是样本统计量。
估计量的优良标准:
(1)无偏性 要求样本指标值的平均数等于被估计的总体指标
值,即无系统性误差。
(2)有效性 要求作为优良估计量的方差(标准差)应比其它估计量的方差(标准差)小,即估计量的数学期望等于总体参数; (3)一致性 当作为优良估计量的样本容量充分大时,抽样指标也应充分地靠近总体指标. 即估计量的误差随着样本容量的增大而减小。
二、点估计
参数的点估计:直接以样本指标作为相应总体参数的估计量。
总体平均数的估计:用样本平均数估计总体平均数 三、区间估计
参数的区间估计:根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限。
抽样估计的置信度是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。
注意:抽样估计的置信度并不是概率度,但两者之间存在一一对应的关系。
2.区间估计步骤:
(1)计算抽样平均数和标准差。
(2)计算抽样平均误差
(3)计算抽样极限误差x x t μ=∆
(4)根据给定的抽样极限误差计算总体平均数的上下限
x x x X x ∆+≤≤∆-
如果抽样误差的概率度已给出,查《正态分布概率表》得出置信
度。
四、抽样估计的精度
x x X x x
-∆=
=误差率 估计精度=1-误差率
误差率是抽样的相对误差率。
概率保证程度,置信区间长度及估计精度的关系:概率保证程度越大,置信区间长度越长,估计精度越低;反之,概率保证程度越小,置信区间长度越短,估计精度越高。
例1、某学校进行一次统计学测验,为了解学生的考试情况,随机从全校统计学考生中抽选部分学生进行调查,所得资料如下:
(1)试以95.45%的可靠性估计该校学生统计学的平均成绩的范围;
(2)试以95.45%的可靠性估计该校学生成绩在80分以上的学生所占的比重的范围;
(3)如果其它条件不变,将允许极限误差缩小一半,应抽取多少名学生?
解:1、该校学生统计学平均成绩的范围: 计算样本平均数:
∑∑
∑∑⋅==
i
i i
i
i i f f
x f f x x 100
8951055⨯++⨯=
=76.6(分)
计算样本标准差:∑∑-=
i
i f
f x x 2)(σ=11.38(分) 计算抽样平均误差:n
x
σ
μ
=
100
377.11=
=1.1377(分)
查《正态概率表》得出误差概率度t=2
计算抽样极限误差:△x =t μx =2×1.1377=2.2754 该校学生考试的平均成绩的区间范围是: x-△x ≤X≤x+△x
76.6-2.2754≤X≤76.6+2.2754
74.32≤X≤78.89
在95.45%概率保证程度下,该校学生的平均成绩74.32%—78。
89.99%之间。
2、估计该校学生成绩在80分以上的学生所占的比重的范围 计算样本成数平均数:48
=0.48100
x p == 计算样本成数标准差:
0.4996σ
计算抽样平均误差:0.04996
p
μ
=
= 查《正态概率表》得出误差概率度t=2 计算抽样极限误差:
20.049960.09992p p t μ∆==⨯=
80分以上学生所占的比重的范围:
p p p P p ∆+≤≤∆-
P=p ±△p =0.48±0.09992 0.3801≤P≤0.5799
在95.45%概率保证程度下,该校学生成绩在80分以上学生所占的比重在38.01%—57.99%之间。
3、如果其它条件不变,允许极限误差缩小一半时应抽取的样本容量:
n t t t n x x x 44)21(22
2222222=∆⨯=∆=∆'='σσσ
=4×100=400(人)
第四节 抽样组织设计的基本原则
一、抽样组织设计的基本原则
(一)要保证随机抽样
抽取样本单位时,应确保每个总体单位都有被抽取的可能;在对样本单位的资料进行搜集和整理时,不能随意遗漏或更换样本单位。
(二)要保证抽样误差最小
在其他条件相同的情况下,选抽样误差最小的方案。
(三)费用最少
在其他条件相同的情况下,选费用最少的方案。
本章计算题
1. 从一批元件中按简单随机重复抽样抽取100件产品进行检验,结果发现10件不合格品。
要求:(1)在95.45%的概率保证程度下(t=2)估计该批元件合格率的区间范围;(2)当允许误差不变,概率保证程度提高到99.73% (t=3)时,这时应抽取多少元件进行检验?
2. 某工厂共有5000名职工,现以不重复随机抽样方式抽取19%的职工,调查他们在5月份的手机话费,所得调查资料如下:
试以95.45%的可靠性:(1)估计该厂职工5月份的人均话费;(2)估计该厂职工5月份话费在80元及以上的职工所占比重。
3.对某鱼塘的鱼进行抽样调查,随机地从鱼塘不同地方同时撒网捕鱼捕到150条,其中草鱼125条,草鱼平均每条重2千克,标准差0.75千克,试按95.45% 的保证程度,(1)对该鱼塘中草鱼的平均每条重量作区间估计;(2)对该鱼塘中草鱼条数所占作区间估计。
4.某乡1999年播种小麦2000亩,随机抽样调查其中100亩,测得平均亩产800斤,标准差为50斤要求:(1)计算抽样平均亩产量的抽样平均误差;(2)概率度为0.9973(t=3)的条件下,平均亩产量的可能范围;(3)概率度为0.9973的条件下,2000亩小麦总产量的可能范围。