第5章抽样与抽样估计
社会调查研究方法教案第5章 抽样
第5章抽样(8学时)第一节抽样的意义与作用一、抽样的概念1.总体总体(population)通常与构成它的元素共同定义:总体是构成它的所有元素的集合,元素则是构成总体的最基本单位。
2.样本样本(sample)就是从总体中按一定方式抽取出的—部分元素的集合。
或者说一个样本就是总体的一个子集。
3.抽样明白了总体和样本的概念,再来理解抽样的概念就十分容易了。
所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择成抽取样本的过程。
4.抽样单位抽样单位(sampling unit)就是一次直接的抽样所使用的基本单位。
抽样单位与构成总体的元素有时是相同的,有时又是不同的。
5.抽样框抽样框(sampling frame)又称做抽样X围,它指的是一次直接抽样时总体中所有抽样单位的。
6.参数值参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。
在统计中最常见的总体值是某一变量的平均值,7.统计值统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。
样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。
二、抽样的作用在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。
本章一开始我们就说过,一项社会研究若能对总体中的全部个体都进行了解,那当然是很好的。
但实际上广大研究人员在时间、经费、人力等方面遇到难题,甚至陷入困境,从而不得不在庞大的总体与有限的时间、人力、经费这二者之间寻求平衡。
以现代统计学和概率论为基础的现代抽样理论,以及不断发展、不断完善的各种抽样方法.正好适应了社会研究的发展和应用的需要,成为社会研究知识体系中必不可少的一部分内容。
第5章--抽样分布与参数估计教案资料
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
9
9,1
9,2
9,3
9,4
9,5
9,6
9,7
9,8
9,9
9,10
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
(9.5)
10
10,1
10,2
10,3
10,4
10,5
10,6
10,7
10,8
10,9
10,10
数是 ,标准差是 ,从这个总体中抽出一 个容量是 n 的样本,则样本平均数 X 也服从 正态分布,其平均数 E( X ) 仍为 ,其标准
差为 。 X 5-19
从正态分布的再生定理可以看出,只要总体 变量服从正态分布,则从中抽取的样本,不管n 是多少,样本平均数都服从正态分布。但是在 客观实际中,总体并非都是正态分布。对于从 非正态分布的总体中抽取的样本平均数的分布 问题,需要由中心极限定理来解决。
第5章--抽样分布与参数估计
第一节 抽样的基本概念与数学原理
一、有关抽样的基本概念 二、大数定理与中心极限定理
5-2
一、有关抽样的基本概念
(一)样本容量与样本个数 1.样本容量。样本是从总体中抽出的部分
单位的集合,这个集合的大小称为样本容量, 一般用n表示,它表明一个样本中所包含的单 位数。
lim
n
1 n
p
n
i 1
X
i
1
(5.5)
5-17
大数定理表明:尽管个别现象受偶然因 素影响,有各自不同的表现。但是,对总体 的大量观察后进行平均,就能使偶然因素的 影响相互抵消,消除由个别偶然因素引起的 极端性影响,从而使总体平均数稳定下来, 反映出事物变化的一般规律。
第五章 抽样
• 二是抽样要求不同:配额注重量的分配, 而判断抽样注重质的分配 • 三是抽样方法不同:配额抽样的方法复杂 精密,而判断抽样的方法简单、易行。
(二)独立控制配额抽样
• 独立控制配额抽样规定按独立的控制特征 分配并抽取样本。 • 例如,假设某调查项目需要对客户进行调 查,选定的控制特征为年龄、性别、和收 入三种,确定的样本数为360个。其独立控 制配额抽样如下表:
五、抽样数目的确定
• 第一,总体中各单位之间标志值的变异程 度; • 第二,允许误差的大小,允许误差又称为 极限误差或最大可能误差,是抽样误差的 范围。用 ∆ 来表示,公式为 ∆ =tµ ,式中t代 表概率度是指扩大或缩小抽样误差范围的 倍数, µ 代表抽样误差。 • 第三,不同的抽样方法也会影响抽样数目。
• 2、分层随即抽样:是把调查总体按其属性不 、分层随即抽样: 同分为若干层次然后在各层中随即抽取样本的 技术。例如:调查人口,可按年龄、收入、职 业、居住位置等标志划分不同的阶层。 • 3、分群随即抽样:又称整群抽样,是把调查 、分群随即抽样: 总体区分为若干个群体,按后用单纯随机抽样 法,从中抽取某些群体进行全面调查的技术。 • 4、系统随即抽样 、系统随即抽样:又称等距离抽样,它是在 总体中先按一定标志顺序排列,并根据总体单 位数和样本单位数计算出抽样距离,然后按相 同的距离或间隔抽选样本单位的技术。
四、固定样本连续抽样调查法
• (一)固定样本连续调查法的含义和特点 • 定义:是把选定的样本单位固定下来,长 期进行调查。 • 优点:调查对象稳定,可以及时、全面取 得各种可靠的资料;费用低效果好。 • 缺点:调查对象登记、记账的工作量很大, 长年累月记录,负担较重。
• • • • • • • •
二、分层随即抽样技术及其应用
社会调查研究方法教案第章 抽样
第5章抽样(8学时)第一节抽样的意义与作用一、抽样的概念1.总体总体(population)通常与构成它的元素共同定义:总体是构成它的所有元素的集合,元素则是构成总体的最基本单位。
2.样本样本(sample)就是从总体中按一定方式抽取出的—部分元素的集合。
或者说一个样本就是总体的一个子集。
3.抽样明白了总体和样本的概念,再来理解抽样的概念就十分容易了。
所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择成抽取样本的过程。
4.抽样单位抽样单位(samplingunit)就是一次直接的抽样所使用的基本单位。
抽样单位与构成总体的元素有时是相同的,有时又是不同的。
5.抽样框抽样框(samplingframe)又称做抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单。
6.参数值参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。
在统计中最常见的总体值是某一变量的平均值,7.统计值统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。
样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。
二、抽样的作用在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。
本章一开始我们就说过,一项社会研究若能对总体中的全部个体都进行了解,那当然是很好的。
但实际上广大研究人员在时间、经费、人力等方面遇到难题,甚至陷入困境,从而不得不在庞大的总体与有限的时间、人力、经费这二者之间寻求平衡。
以现代统计学和概率论为基础的现代抽样理论,以及不断发展、不断完善的各种抽样方法.正好适应了社会研究的发展和应用的需要,成为社会研究知识体系中必不可少的一部分内容。
第5章__抽样推断
抽样误差的影响因素
(1)总体各单位标志变异程度。 (2)样本容量的大小。 (3)抽样方法。 (4)抽样的组织形式。
四、抽样极限误差
含义:
抽样极限误差指在进行抽样估计时,根据研究对象的变 异程度和分析任务的要求所确定的样本指标与总体指标 之间可允许的最大误差范围。
计算方法:
它等于样本指标可允许变动的上限或下限与总体指标 之差的绝对值。
则:
x
n
10 1(公斤) 100
即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。
例题二解 已知: N 2000, n 400, x 4800, 300
则:
x
n
300 15(小时) 400
x
2 1 n
3002 1
400
13.42(小时)
n N
-20
400
-15
225
-5
25
0
0
-15
225
-10
100
0
0
5
25
-5
25
0
0
10
100
15
225
0
0
5
25
15
225
20
400
0
2000
样本平均数的平均数( x )
x
样本可能数目
960 16
60元
所以 (x) X
样抽样平均误差x
x (x)2
样本可能数目
2000 11.18元 16
四个工人工资分别为40、50、70、80元
抽样平均误差 x
n
15.81 11.18元 2
第五章 抽样法
抽样的作用
抽样调查能够解决全面调查无法或难以解决的问
题。
抽样调查可以补充和订正全面调查的结果。
抽样调查方法可以用于生产过程中产品质量的检
查和控制。 抽样调查方法可以用于对总体的某种假设进行检 验,以判断这种假设的真伪,决定行动的取舍。
抽样中的几个基本术语
总体(Population):调查研究的事物或现象的全体 个体(Item unit):组成总体的每个元素
一、抽样的概念、特点、作用 二、抽样中的基本术语 (一)总体和样本 (二)参数和统计量 (三)样本容量和样本个数 (四)重复抽样和不重复抽样 (五)概率抽样与非概率抽样 (六)抽样框 三、抽样误差
抽样的概念 特点
(一)概念 抽样调查是按照随机原则从全部研究对象中抽取 一部分单位进行观察,并依据获得的数据对全部研 究对象的数量特征做出具有一定可靠性的估计和判 断.达到对现象总体认识的一种方法. (二)特点 它是按照随机原则从总体中抽取样本。 它是由部分推算整体的一种方法。 它是运用概率估计的方法。 抽样误差可事先计算并加以控制。
抽样中的几个基本术语
X
i 1 N
总体均值
X
i
N
或
X F
i 1 K i
K
i
F
i 1
i
标准差
X
N i 1
i
X
2
N
或
X
K i 1
i K
X Fi
i
2
F
i 1
抽样中的几个基本术语
总体方差
2
( X i X )2
i 1
N
N
或
( X i X ) 2 Fi
医用数理统计方法课件第五章抽样估计
医用数理统计方法课件第五章 抽样估计
简介
抽样估计的基本概念和方法
本章介绍抽样估计的基本概念和方法,包括点估计和区间估计。点估计涵盖 最大似然估计、矩估计和贝叶斯估计;区间估计包括置信区间和可靠区间的 定义和计算方法。
点估计
最大似然估计
最大似然估计是一种重要的点估计方法,通过寻找使样本观测概率最大的参数值来进行估计。举例说明最大似 然估计在医学研究中的应用。
置信区间是用于估计总体参数范围的一种方法,提供了对估计结果的不确定性的度量。介绍置信区间的概念、 构造方法和在医学研究中的实际应用。
可靠区间
可靠区间是一种用于估计样本大小和统计误差之间关系的方法。讨论可区间的概念、构造方法以及在医学研 究中的应用案例。
总结
本章内容总结,重点强调抽样估计在医学研究中的应用和意义。抽样估计是一种重要的统计推断方法,能够为 研究者提供准确可靠的参数估计,以支持科学研究的发展。
矩估计
矩估计是一种常用的统计推断方法,基于样本矩与总体矩之间的对应关系进行参数估计。详细介绍矩估计的概 念、估计方法和在医学研究中的应用。
贝叶斯估计
贝叶斯估计是一种基于贝叶斯定理的统计推断方法,结合了先验信息和样本信息进行参数估计。探讨贝叶斯估 计的概念、估计方法和在医学研究中的应用。
区间估计
置信区间
统计学习题第五章_抽样与抽样估计答案
第五章抽样与抽样估计复习题一、填空题1、在实际工作中,人们通常把n≥30 的样本称为大样本,而把n<30 的样本称为小样本。
2、在抽样估计中,常见的样本统计量有样本均值、样本比例、样本标准差或样本方差以及它们的函数。
3、在研究目的一定的条件下,抽样总体是唯一确定的,而样本则有许多个。
4、在抽样调查中,登记性误差和系统性误差都可以尽量避免,而抽样误差则是不可避免的,但可以计算并加以控制。
5、在抽样估计中,抽样估计量是指用于估计总体参数的样本指标(统计量),评价估计量优劣的标准有无偏性、有效性和一致性。
二、选择题单选题:1、在其它条件不变的情况下,要使抽样平均误差为原来的1/3,则样本单位数必须((2))(1)增加到原来的3倍(2)增加到原来的9倍(3)增加到原来的6倍(4)也是原来的1/32、在总体内部情况复杂,且各单位之间差异程度大,单位数又多的情况下,宜采用((3))(1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样3、某厂产品质量检查,确定按5%的比率抽取,按连续生产时间顺序每20小时抽1小时的全部产进行检验,这种方式是((4))(1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样4、其它条件一定,抽样推断的把握程度提高,抽样推断的准确性就会((2))(1)提高(2)降低(3)不变(4)不一定降低5、在城市电话网的100次通话中,通话持续平均时间为3分钟,均方差为分钟,则概率为时,通话平均持续时间的抽样极限误差为((2))(1)(2)(3)(4)6、假定11亿人口大国和100万人口小国的居民年龄变异程度相同,现在各自用重复抽样方法抽取本国人口的1%计算平均年龄,则平均年龄抽样平均误差((3))(1)两者相等(2)前者比后者大(3)前者比后者小(4)不能确定大小多选题:1、降低抽样误差,可以通过下列那些途径((2)(4)(5))(1)降低总体方差(2)增加样本容量。
(3)减少样本容量(4)改重复抽样为不重复抽样(5)改简单随机抽样为类型抽样2、抽样推断中的抽样误差((1)(5))(1)是不可避免要产生的(2)是可以通过改进调查方法来消除的(3)只有调查后才能计算(4)即不能减少,也不能消除(5)其大小是可以控制的3、抽样极限误差((1)(2)(4))(1)是所有可能的样本指标与总体指标之间的误差范围(2)也叫允许误差 (3)与所做估计的概率保证程度成反比 (4)通常用来表示抽样结果的精确度 4、影响样本容量的因素有((1)(2)(3)(4)(5) ) (1)总体方差(2)所要求的概率保证程度 (3)抽样方法(4)抽样的组织形式(5)允许误差法范围的大小 5、不重复抽样的抽样平均误差( (2)(4) )(1)总是大于重复抽样的抽样平均误差 (2)总是小于重复抽样的抽样平均误差(3)有时大于,有时小于重复抽样的平均误差(4)在Nn很小时,几乎等于重复抽样的抽样平均误差 6、从3000名职工中随机抽取400名调查收入水平,共抽了( (1) (3) (5) ) (1)一个样本 (2)400个样本(3)一个样本总体 (4)400各样本总体 (5)400个样本单位 7、简单随机抽样一般适合于( (1)(3) (5) )(1)具有某种标志的单位均匀分布的总体 (2)具有某种标志的单位存在不同类型的总体 (3)现象的标志变异程度较小的总体 (4)不能形成抽样框的单位 (5)总体单位可以编号的总体三、简答题1、 什么是抽样平均误差影响抽样平均误差的因素有哪些答:抽样平均误差是所有可能的样本指标与被估计的总体参数之间的平均离差,即样本指标的标准差。
第五章 抽样估计学习指导
第五章 抽样估计学习指导一、判断题×√1.抽样估计是利用样本资料对总体的数量特征进行估计的一种统计分析方法,因此不可避免地会产生误差,这种误差的大小是不能进行控制的.( )2.从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本.( )3.在抽样估计中,作为推断的总体和作为观察对象的样本都是确定的.唯一的.( )4.优良估计的无偏性是指:所有可能的样本平均数的平均数等于总体平均数.( )5.抽样成数的特点是,样本成数越大,则成数方差越大.( )6.在总体方差一定的条件下,样本单位数越多,则抽样平均误差越大.( ) n x σμ=7.抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度.( )8.抽样误差即代表性误差和登记性误差,这两种误差都是不可避免的.( )9.在其他条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样估计的精确度.( )10.在简单随机抽样中,如果重复抽样的抽样极限误差增加40%,其他条件不变,则样本单位数只需要原来的一半左右.( ) 11.抽样平均误差反映抽样的可能误差范围,实际上每次的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差.( )12.样本单位数的多少与总体各单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比.( )二.单项选择题1.抽样调查的主要目的是( ).A.用样本指标来推算总体指标B.对调查单位做深入研究C.计算和控制抽样误差D.广泛运用数学方法2.抽样调查所必须遵循的基本原则是( ).A.准确性原则B.随机性原则C.可靠性原则D.灵活性原则3.在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/2时,则样本单位数为原来的( ).A.2倍B.3倍C.4倍 D1/4倍4.按随机原则直接从总体N 个单位中抽取n 个单位作为样本,这种抽样组织形式是( ).A.简单随机抽样B.类型抽样C.等距抽样D.整群抽样5.抽样误差是指( ).A.在调查过程中由于观察.测量等差错所引起的误差B.在调查中违反随机原则出现的系统误差C.随机抽样而产生的代表性误差D.人为原因所造成的误差6.事先将总体各单位按某一标志排列,然后依排列顺序和按相同的间隔来抽选调查单位的抽样称为( ).A.简单随机抽样B.类型抽样C.等距抽样D.整群抽样7.在一定的抽样平均误差条件下( ). p p xx Z Z μμ=∆=∆A.扩大极限误差范围,可以提高推断的可靠程度B. 扩大极限误差范围,会降低推断的可靠程度C. 缩小极限误差范围,可以提高推断的可靠程度D. 缩小极限误差范围,不改变推断的可靠程度8.反映样本指标与总体指标之间的平均误差程度的指标是( ).A.抽样误差系数B.概率度C.抽样平均误差D.抽样极限误差9. 抽样平均误差是( ).A.全极总体的标准差B.样本的标准差C.抽样指标的标准差D.抽样误差的平均差10.当成数等于( )时,成数的方差最大. A.1 B.0 C.0.5 D.-111.对某行业职工收入情况进行抽样调查,得知其中80%的职工收入在800元以下,抽样平均误差为2%.当概率为95.45%时,该行业职工收入在800元以下所占比重是( ). p p ∆-p p P ∆+≤≤A.等于78%B.大于84% p p Z μ=∆C.在76%--84%之间D.小于76%12.假定一个拥有一亿人口的大国和百万人口的小国居民年龄变异程度相同,现在各自用重复抽样方法抽取本国的1%人口计算平均年龄,则平均年龄抽样平均误差( ). 212121,n n N N ≥≥=σσ n x σμ=A.不能确定B.两者相等C.前者比后者大D. 前者比后者小13.在其他条件不变的情况下,提高估计的概率保证程度,其估计的精确程度( ).A 随之扩大 B.随之缩小 C.保持不变 D.无法确定14.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( ).A. 简单随机抽样B.类型抽样C.等距抽样D.整群抽样15.对甲乙两个工厂工人平均工资进行纯随机不重复抽样调查,调查的工人数一样,两工厂工资方差相同,但甲厂工人总数比乙厂工人总数多一倍,则抽样平均误差( ). )1(2Nn n x -=σμ A.甲厂比乙厂大 B. 乙厂比甲厂大C.两个工厂一样大D.无法确定16.按地理区域划片进行的区域抽样,其抽样方法属于( ).A. 简单随机抽样 D.类型抽样B.等距抽样C.整群抽样三.多项选择题1.抽样估计的特点是( ).A.由部分认识总体的一种认识方法B.建立在随机取样的基础上C.对总体参数进行估计采用的是确定的数学分析方法D.可以计算出抽样误差,但是不能对其进行控制E.既能够计算出抽样误差,又能够对其进行控制2.抽样估计中的抽样误差( ).A.是一种系统性误差B. 是一种代表性误差C.属于一种登记误差D.属于一种偶然性误差E.是违反了随机原则而产生的误差3.影响抽样误差大小的因素有( ). n x σμ= )1(2Nn n x -=σμA.抽样调查的组织形式B.抽取样本单位的方法C.总体被研究标志的变异程度D.抽取样本单位数的多少E.总体被研究标志的属性4.在抽样估计中( ).A.抽样指标的数值不是唯一的B.总体指标是一个随机变量C.可能抽取许多个样本D.统计量是样本变量的函数E.全及指标又称为统计量5.从全及总体抽取样本单位的方法有( ).A.简单随机抽样B.重复抽样C.不重复抽样D.概率抽样E.非概率抽样6.在抽样估计中,样本单位数的多少取决于( ). 222x Z n ∆=σA.总体标准差的大小B.允许误差的大小C.抽样估计的把握程度D.总体参数的大小E.抽样方法7. 总体参数区间估计必须具备的三个要素是( ). x x ∆-≤X ≤x x ∆+, p p ∆-p p P ∆+≤≤A.样本单位数B.样本指标C.全及指标D.抽样误差范围E.抽样估计的置信度8.采用类型抽样的组织形式( ).A.需要对总体各单位进行分组B.适用于总体各单位标志值差异较大的总体C.随机抽选其中的某一类型,并对其所有单位进行调查D.抽样误差较小E.最符合随机原则9.简单随机抽样( ).A. 适用于总体各单位呈均匀分布的总体B. 适用于总体各单位标志值差异较大的总体C.在抽样之前要求对总体各单位加以编号D. 最符合随机原则E.是各种抽样组织形式中最基本最简单的一种形式10.在抽样平均误差一定的条件下( ).A. 扩大极限误差范围,可以提高推断的可靠程度B. 缩小极限误差范围,可以提高推断的可靠程度C. 扩大极限误差范围,只能降低推断的可靠程度D. 缩小极限误差范围,只能降低推断的可靠程度E.扩大或缩小极限误差范围与推断的可靠程度无关五.计算题(主要是思路和方法提示)1.(1)进行简单随机重复抽样,假定抽样单位增加3倍,则抽样平均误差μ将发生如何变化?(2)如果要求抽样误差范围Δ减少20%,其样本单位数n 应如何调整?2.某企业生产一批日光灯管,随机重复抽取400只作使用寿命试验.测试结果,平均寿命为5000小时,样本标准差为300小时,400只中发现10不合格.求平均数的抽样平均误差和成数的抽样平均误差. p x μμ和3.某机械厂生产一批零件10000个,检验员甲用简单随机重复抽样方法抽取300个,发现有9个不合格.检验员乙用简单随机不重复抽样方法抽取200个, 发现有5个不合格.试求两种不同抽样方法下合格品率的抽样平均误差.4.某企业生产某产品10000袋,为检验其包装重量是否达到标准,检验员甲按简单随机重复抽样方法抽取200袋进行检查, 检验员乙用简单随机不重复抽样方法抽取200袋进行检验.样本标准差均为2克.试求两种不同抽样方法下包装平均重量的抽样平均误差。
统计学课件05第5章抽样与参数估计
反映样本数据的集中趋势和平均水平。
样本方差
定义
样本方差是每个样本数据与样本均值差的平方和的平均值,即 $s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - overline{x})^2$。
计算方法
先计算每个样本数据与样本均值的差,然后将差平方,最后求和平 均。
作用
反映样本数据的离散程度和波动情况。
样本量的确定
根据调查目的和精度要求确定样 本量:精度要求越高,需要的样
本量越大。
根据总体规模和抽样方法确定样 本量:总体规模越大,需要的样 本量越大;分层或整群抽样较简 单随机抽样需要的样本量更大。
根据调查资源确定样本量:资源 有限时,需要在满足调查目的和 精度要求的前提下,合理确定样
本量。
02 参数估计
大数定律的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布函数F(x),则对于任意正实数ε,有 lim(n->∞)P(|X1+X2+...+Xn/n-E(X))/ε)=0,其中E(X)是随机变量X的期望值。
大数定律的实例
在抛硬币实验中,随着实验次数的增加,正面朝上的频率将趋近于0.5。
中心极限定理
中心极限定理定义
中心极限定理是指在大量独立同分布的随机变量中,不论 这些随机变量的分布是什么,它们的平均值的分布总是趋 近于正态分布。
中心极限定理的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布 函数F(x),则对于任意实数x,有lim(n->∞)P(∑Xi≤x)=∫(∞->x)F(t)dt。
样本分布的性质
无偏性
如果样本统计量的数学期 望等于总体参数,则该统 计量是无偏的。
第5章抽样调查及参数估计(练习题)
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
第5章抽样分布与参数估计
第5章抽样分布与参数估计在统计学中,抽样分布与参数估计是重要的概念。
抽样分布是指从总体中随机抽取样本,计算样本统计量,然后将这些统计量进行分布的过程。
参数估计是通过样本数据对总体参数进行估计的方法。
首先,我们来了解抽样分布。
在统计学中,我们通常很难直接获得总体数据,因为总体数据往往很大,难以收集。
因此,我们采用抽样的方式来获取样本数据,并通过样本数据来推断总体特征。
抽样分布是指在重复抽取样本的过程中得到的统计量的分布。
抽样分布的中心趋于总体参数,而抽样分布的形状可以通过中心极限定理进行描述。
中心极限定理认为,当样本数量足够大时,样本均值的抽样分布近似服从正态分布,且均值等于总体均值。
这对于统计推断和参数估计具有重要意义。
其次,我们来了解参数估计的概念及其方法。
参数估计是指根据样本数据对总体参数进行估计的统计方法。
常见的参数包括总体均值、总体方差等。
参数估计可以分为点估计和区间估计两种方法。
点估计是指通过样本数据计算得到的单个数值来估计总体参数。
常用的点估计方法包括最大似然估计和矩估计。
最大似然估计是基于样本的观测值选择使得观测值出现的概率最大的参数值作为估计值的方法。
矩估计是通过样本矩与总体矩的对应关系来估计总体参数的方法。
区间估计是指对总体参数给出一个区间估计值,该区间包含了真实参数值的概率。
常用的区间估计方法包括置信区间估计和预测区间估计。
置信区间估计是通过样本数据计算得到的一个区间,可以包含真实参数值的概率。
置信区间的置信水平是指在多次重复抽样中,这个区间包含了真实参数值的概率。
预测区间估计是在给定自变量取值的情况下,通过样本数据对应的因变量的取值的一个区间估计。
总之,抽样分布与参数估计是统计学中重要的概念和方法。
通过抽样分布可以了解样本统计量的分布情况,而参数估计可以通过样本数据对总体参数进行估计。
这些概念和方法对于数据分析和决策具有重要的实际应用价值。
《抽样调查》第五章 整群抽样-课件ppt
平方和 19 112
1 216 203 1 235 315
自由度 6 524 530
均方(方差)
sb2=3 185 sw2=2 321 s2=2 331
三、整群抽样效率分析及群的划分原则
在总体方差固定的条件下,整群抽样的精 度取决于群内相关系数,群内相关系数愈小, 即群内差异或群内方差愈大,则估计量的精度 愈高。
群间抽样,群内全查 层间全查,层内抽查
分组原则 缩小群间差异,
扩大层间差异,
扩大群内差异
缩小层内差异
分组目的 扩大抽样单元
缩小总体
分组结果 总方差=群间方差+群 总方差=层间方差+层
内方差
内方差
第二节 群大小相等的整群抽样
—对群进行简单随机抽样时的估计量与方差
❖ 一、符号说明 ➢ 总体群数 N(A) ,样本群数 n(a) ➢ 第i群中包含的总体单位数 M ➢ 总体第i群第j个单位指标值 Yij(i=1,2...N;j=1,2..M) ➢ 样本第i群第j个单位指标值 yij(i=1,2...n;j=1,2..M)
)(Yik Y Y )2
)
(
j
k)
ˆc
sb2
sb2 (M
s2 1)s2
c
M (N 1)Sb2 (NM 1)S 2 (M 1)(NM 1)S 2
c
1
S 2 S2
sb 2
M n 1
n i 1
( yi
y)2
s2
1 n
n i 1
si2
分析
c 的取值范围在[ 1 ,1]。
1 M
明群当内单元c 越0 相时似,;表明c群值完越全小是,随则机群的内;单c元值的越差大异,越表大。 当 c 0时,表示这个差异比随机分组时群内的差异
5 应用统计学(教案)-抽样推断
4、抽样估计的一般步骤
设计抽样方案 抽取样本单位 收集样本资料
整理样本资料
推断总体指标
(1)抽样方案设计的基本准则
随机原则: 确保每个总体单位都有 被抽取的可能。 抽样误差最小: 控制和选择抽样数 目及抽样组织方式 费用最少: 在误差达到一定要求的 条件下,选择费用最少 的方案。
(2)抽样方案设计的主要内容 ① 编制抽样框 抽样框即总体单位的名单。 主要形式: 名单抽样框 区域抽样框 时间表抽样框 编制要求: 应包括全部总体单位 总体单位不应重复 应便于抽样的实施 应尽量利用资料,提高抽 样效果
第五章 抽样推断
基本概念
抽样误差
抽样估计 抽样组织方式
第一节 抽样估计的基本概念
一、抽样估计的意义和一般步骤 1、抽样估计的概念
抽样估计 按随机原则从总体中抽取一部 分单位进行调查,并以调查结 果对总体数量特征作出具有一 定可靠程度的估计与推断,从 而认识总体的一种统计方法。 也是一种收集资料的方法,所以也称为抽 样调查。
另外,分两个以上阶段完成抽取样本的多阶段抽 样,多在总体单位数量多分布广时采用。一般前阶段 采用分层或有关标志排队等距抽样;后阶段采用简单 随机或无关标志排队等距抽样。
④ 确定抽样数目 抽样数目: 即样本容量、样本单位数 大样本:n ≥ 30 小样本:n < 30 抽样数目的确定,与抽样误差、费 用及抽样组织方式有直接的关系。 误差小费用多时抽样数目多,误差 大费用少时抽样数目少;分层抽样除确 定整个样本容量外,还需确定子样本容 量;整群抽样需确定样本群数;多阶段 抽样需确定各阶段抽样数目。
| x - X |≤△ x (在一定概率下) 置信度、概率保证度、 可信度、把握程度,)与△x 是一对矛盾
第五章 抽样估计
步骤: 步骤:
例题1.(题型一)
某乡水道总面积2000亩,从中随机抽取40亩(重复抽样),每亩产量资料如下:
每亩产量(斤)
亩数
x
xf
(x- ) f
400—450
450—500
500—550
550—600
600—650
650—700
1)常用的参数和统计量(指标:平均指标和变异指标)
对于数量标志,计算平均指标和变异指标( )
对于品质标志,计算成数指标(结构相对指标)来表示某种性质的单位数在总体全部单位数中所占的比重。即p=(n1/n),则总体中不具有某种性质的单位数在总体中所占的比重为:q=1-p
如果进行对品质标志是非标志进行赋值,即:定义为“1”和“0”,则有:
(五)抽样估计的置信度
前面我们学习了两种误差,即平均误差和极限误差,这两种误差有着不同的含义。
抽样平均误差反映抽样误差一般水平,是样本资料和总体之间所有离差值的一个平均数。极限误差指进行抽样在统计工作前设立的一个误差最大值。二者的关系是 ( )用抽样误差概率度来表示的。
我们客观地承认,只要进行抽样调查,必然存在误差,并且根据经验或工作要求,我们可以设置一个误差最大值,但要使抽样调查结果一定符合误差在极限误差范围内,却并非能够实现。所以要保证误差不超过一定范围的,只能给一定程度的概率保证程度。抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。
如:t=1 F(t)=P=68.27%查《正态分布概率分t=2 F(t)=F(2)=P=95.45%布表》
t=3 F(t)=F(3)=P=99.73%
t=1.64 F(t)=90%
抽样技术第5章等概率整群抽样
第5章等概率整群抽样到目前为止,我们假定所有抽样程序中的总体是实现给定的,我们要做的就是从这个给定的总体中抽取一个合适的样本,而这些样本中包含一定的单元。
但单元要被很好的定义并非易事,甚至再总体被很好定义的时候也是如此。
列举单元的方法多种多样,并且我们所选取的单元很可能包含了更小的单元。
假定我们想调查包含10000户家庭的某个社区中拥有自行车的住户数目,那么我们可以做一个样本容量为400个家庭的简单随机抽样,我们也可以把这个社区分为500个街区,每个街区20户家庭,然后从这个500个街区中随机的抽取20个街区作为样本。
后者实际上就是一个整群抽样。
500个街区称为初级抽样单位(PSU)或群。
街区中的家庭称为次级抽样单位(SSU)。
通常,SSU也是总体的元素。
这个有400个家庭构成的整群抽样样本的精度不及简单随机抽样样本;因为一些街区主要是由一些拥有自行车的住户构成,而一些街区的住户主要是由退休人员构成(不拥有自行车)。
处于同意街区的20户家庭并不能想随机样本的20户家庭一样反映整个社区的多样性。
因此,整群样本中的每一个观测单元所提供的信息少于随机样本。
但是,调查同一街区的20户家庭比随机调查整个社区的20户家庭要便宜很多,容易很多,因此,整群样本中,每一单元所取得的信息多于SRS中每一单元所获得的信息。
在整群抽样中,总体中的个体元素仅仅当它所属的群被抽样时它才被入样。
这个入样的群(抽样单元PSU)不同于观测单元(SSU),并且在计算整群抽样样本的标准误时,两者的容量被考虑。
为什么使用整群抽样?1、构造一个列举所有观测单元的抽样框可能就是困难、昂贵或不可能的。
我们不可能列出某一区域内所有蜜蜂或某一商场的所有顾客:就算我们能列举出北部某针叶林的所有树木或某一城市中的所有个人,但其耗时且昂贵。
2、总体在地域上分布广泛或者误群是自然产生的,如家庭或学校。
若目标总体是美国所有护理所的居民,则调查入样的某个护理所的全体居民比调查SRS中的等量居民要便宜很多:在SRS的护理所居民调查中,你可能不得不为了调查一个居民而去拜访他所在的护理所。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
同时,由于n/N=30/2500=0.012<=0.05,因此样本 标准差为
又由于n·p=300.6=18, n(1-p)=30 0.4=12 因此,样本比例服从如下正态分布:
p ~ N (0.6, 0.089 2 )
四、点估计量的性质:估计量优劣的衡量 用样本统计量(sample statistics)可以作为其对 应的总体的点估计量(point estimator)。 但要估计总体的某一指标,并非只能用一个样本 指标,而可能有多个指标可供选择,即对同一总体 参数,可能会有不同的估计量。
由于样本标准差与总体标准差及样本容量有关:
x n 因此,样本容量增大,样本均值标准差变小,从而 使样本分布峰度变高,于是在相同区间内,概率分 布线下的面积变大,提高了样本均值落在该区间的 可能性。
▼注意:
1、所有可能的样本均值的平均数等于总体均值, 而与样本容量无关。
2、点估计往往是在总体方差已知的情况下进行 的。
样本均值的标准差可用来测度样本均值与总 体均值的“距离”,即可用来计算可能的误差, 它也被称为均值标准误(standard error of the mean)。
3、样本均值抽样分布的实际应用
样本统计量的估计值与其所要测度的总体参数值之间的 绝对差距,被称为抽样误差(sampling error)。
400个 样本
支持人数: 160
推断
支持该候选人的选民 占全部选民的比例:
160/400=40%
抽样估计方法主要用在下列两种情况:
1、对所考查的总体不可能进行全部测度; 2、从理论上说可以对所考查的总体进行全部测 度,但实践上由于人力、财力、时间等方面的原因, 无法(不划算)进行全部测度。
注意: ●抽样估计只得到对总体特征的近似测度,因此, 抽样估计还必须同时考察所得结果的“可能范围” 与“可靠程度”。
根据中心极限定理有:当样本容量增大时 (大样本),样本比例抽样分布趋向于以样本 期望值为中心、以样本方差为方差的正态分布。
经验上,当下面两个条件满足时,与p相关的样本 为大样本:
n·p>=5
n(1-p)>=5
在例3中,由于全体中层干部接受过培训的人数比 例为P=0.6,因此样本比例期望值为p=0.6;
二、点估计(Point Estimation)
在例3中,假如随机抽取了一个容量为30的样本:
Annual Salary Management Training Program?
49094.3
Yes
53263.9
Yes
49643.5
Yes
…
…
假如根据该样本求得的年薪样本平均数、标准差及参 加过培训计划人数的比例分别为:
在总体单位数为N的总体中抽取容量为n的样本, 样本个数可能有:
1、考虑顺序的不重复抽样:N(N-1)(N-2)…(N-n+1)
2、考虑顺序的重复抽样:Nn
3、不考虑顺序的不重复抽样:CNn
N! n!(N
n)!
4、不考虑顺序的重复抽样:
Cn N n1
在社会经济统计中,往往采用的是较大总体 (视为无限总体)下的无序不重复抽样。
参数是总体的数值特征 A parameter is a numerical characteristic of a population。
如:例3中的中层干部平均年薪,年薪标准差及受培训人数 所占比例均为该公司中层干部这一总体的参数。
●抽样估计就是要通过样本而非总体来估计总体参数。
一、简单随机抽样(Simple Random Sampling)
(ˆ )
(二)抽样平均误差:
所有可能样本估计值与相应总体参数的平均差 异程度:
(三)抽样极限误差 一定概率下抽样误差的可能范围(也称允许误 差):
▼注意: 1、统计学上往往用抽样极限误差来测度抽
样误差的大小或者说测度点估计的精度。 原因:总体参数值往往并不知道,因此,
实际抽样误差与抽样平均误差也往往无法求出, 但在抽样分布大体知道的情况下,抽样极限误 差是可以估计出来的。
抽样分布能够用来提供抽样误差大小的可能性(概率)。
在例3中,如果人事部经理认为 在一次抽样中所得到的中层干部的 平均年薪与总体均值(51800$)误 差在500元以内,他就可以接受样本 估计值。则问题归结为在一次抽样 中,误差在500元以内的可能性(概 率)有多大?
x
由于样本容量为30,可认为样本均值服从正态分布,因 此,上述问题即为求一次抽样的样本均值点落在区间 [51300, 52300]内的概率,即求下图中阴影部分的面积。
该例中:52300对应的标准正态分布中的点为:
(52300-51800)/730.3=0.68
查标准正态分布表:上述区间的面积为
0.2518+0.2518=0.5036
表明:在上述简 单随机抽样中,只 有50%的概率使得 样本均值与总体实 际均值的误差不超 过500元。
4、样本容量与样本均值分布的关系
作为一个好的点估计量,统计量必须具有如下性质: 无偏性、有效性、一致性
1、无偏性(Unbiasedness):样本估计量的 均值等于被估总体参数的真值;
2、有效性(Efficiency):好的点估计量应具有较小 的方差;
3、一致性(Consistency):当样本容量增大时, 估计量依概率收敛于总体参数的真值。
正是抽样分布及其特征使得用样本统计量估计 总体参数的“精确程度”能够给予概率上的描述。
可靠度
精确度
(一)样本平均数的抽样分布 (Sampling Distribution of x )
1、样本均值抽样分布的形状
考察样本均值的概率分布形式。分两种况: 1)总体分布已知且为正态分布; 2)总体分布未知;
同样地,如果多次抽样,则可得到多个不同的结果。 表4.1是一个假设的经过500次抽样后的布,
0.3 相 对 0.2 频 数
0.1
图4.1 500个 x 的相对频数分布
这里, x 的相对频数分布,就称为 x 的抽样分布。
一般地,样本统计量的可能取值及其取值概率所 形成的概率分布,统计上称为抽样分布(sampling distribution)。
样本均值(标准差/比例)称为总体均值(标准差 /比例)的点估计量(point estimator);
样本均值(标准差/比例)的具体数值称为总体均 值(标准差/比例)的点估计值(point estimate)。
由于点估计量是由样本测算的,因此也称为样本 统计量。
三、抽样分布
在上述某公司30个中层干部的简单随机抽样中,如果再 一次抽样的样本与前一次的不同,则可得到另外的平均年 薪样本均值、标准差以及受训干部的比例。
简单随机抽样可根据总体的有限性或无限性分为 有限总体随机抽样与无限总体随机抽样。
有限总体简单随机抽样: 每个样本点(个体)能以相同的概率被抽出。
无限总体简单随机抽样: 1、每一个体来自同一总体; 2、每一个体是独立抽取的。
注意: 在有限总体的简单随机抽样中,由抽样是否具有可重
复性,又可分为重复抽样与不重复抽样。而且,根据抽样 中是否排序,所能抽到的样本个数往往不同。
(二)样本比例的抽样分布(Sampling Distribution of p)
在经济与商务的许多场合,需要用样本比例p对 总体比例P进行统计推断。
样本比例的抽样分布是样本比例所有可能值的 概率分布。
The sampling distribution of p is the probability distribution of all possible values of the sample proportion p.
因此统计上常称容量在30(含30)以上的样本 为大样本(large-sample-size)。
I Population Distribution
x
Sampling distribution
of x x
(n=2)
Sampling
distribxution
of
x
(n=5)
Sampling
distribxution
(1)当总体分布已知且为正态分布或接近正态 分布时,则无论样本容量大小如何,样本均值 都为正态分布。
(2)当总体分布未知时,需要用到中心极限定 理(Central limit Theorem)
对容量为n 的简单随机样本,样本均值的分布 随样本容量的增大而趋于正态分布。
经验上验证,当样本容量等于或大于30时,无 论总体的分布如何,样本均值的分布则非常接近正 态分布。
例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。
120个 样本
测试
平均里程: 36,500公里
新轮胎 推断 平均寿命:
36,500公里
例2:某党派想支持某一候选人参选美国某州议员,为了决定 是否支持该候选人,该党派领导需要估计支持该候选人的民众 占全部登记投票人总数的比例。由于时间及财力的限制:
x xi / n 1554420/ 30 51814.00
s (xi x)2 /(n 1) 325009260/ 29 3347.72
p 19 / 30 0.63
则可用上述结果分别代表2500名中层干部的平 均年薪、年薪的标准差及受训比例。
上述估计总体参数的过程被称为点估计(point estimation);
可以证明: 样本均值、样本比例、样本标准差: 无偏、有效、一致
注:样本二阶中心矩:不具有无偏性
第二节 抽样误差与区间估计
一、抽样误差(Sampling Error) 一个样本可以得到总体参数的一个点估计,该 点估计值与总体参数真值之间的差异,即为抽样误 差。有三个相互联系的概念: (一)实际抽样误差: