第六章 抽样理论与参数估计 作业
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N差 252 n差 n 120 42 N 720
⑵.最佳配置法
最佳配置法不仅考虑各层的人数比例,而 且考虑到了各层的标准差。当各层内的 标准差已知,应该在标准差大的层内多 分配而在标准差小的层内少分配抽样数 量。 最佳配置法可以使得到的样本具有较好的 异质性。
在各层内应抽取个体数计算
Z 2 n d 1.9613 2 162 .3 163 2
2
第二节 样本分布
• • • • • 一、什么是样本分布 二、正态分布及渐近正态分布 三、t分布 四、 分布 2 F分布 五、
一、样本分布/抽样分布
• 样本分布指样本统计量的分布,它是统计 推论的重要依据。 • 在谈及样本统计量的分布时,首先要保证 各个样本是独立的,各个样本都服从同样 的分布。要保证这一点,取样方法应该用 随机抽样的方法。
样本均值的抽样分布
(例题分析)(重复抽样)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。 总体的均值、方差及分布如下 总体分布
.3
均值和方差
x
i 1
N
i
.2 .1 0
1 2 3 4
N
N i 1
2.5
2
(22.3)
• 分层随机取样法的优点是代表性和
推论的精确性较好。它适用于总体 单位数量较多,并且内部差异较大
的研究对象。
• 分层随机取样法的局限性是要求对 总体各单位的情况有较多的了解, 否则就难以作出科学的分类。
4.两阶段随机抽样
• 当总体容量很大时,直接以总体中 的所有个体为对象,从中进行抽样, 在实际调查或研究中存在很大困难。 • 采用分阶段的抽样方法,可以缩小 实际抽样的范围,使实际抽样工作 能够按研究设计的要求顺利进行。
样本均值的抽样分布
3 2.0 2.5 均值X的取值 4 2.5 3.0 均值X的个数
3.0 2
3.5 2
取值的概率P(X ) 2/12 2/12 4/12 2/12 2/12
样本均值的抽样分布
(例题分析)(不重复抽样)
总体分布
.3 .2
.1 .3 .2 P(X)
抽样分布
.1 0
0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
标准分成许多群(小
组),然后按随机原 则从这些群中抽取若
干群作为样本。
• 整群随机取样法的优点是样本比较集 中,适宜于某些特定的研究,尤其是 在教育实验中常用此法。此外,在规 模较大的调查研究中,整群随机取样 易于组织,可节省人力、物力和时间。 • 整群随机抽样法的缺点是样本分布不 均匀,代表性较差。
由 t
2
X S n
有
t S 2 n d
2
(22.5)
当样本容量n 未确定时,t 值无法确定, 因此一般采用尝试法。
• 例:拟估计某市高校四级英语考试 成绩的总体平均分数。以往考试成
绩的标准差为13,这次的估计最大
允许误差为2分,可信度为95%,问 应抽取多大的样本?
2
1,2 2,2 3,2 4,2
3
1,3 2,3 3,3 4,3
4
1,4 2,4 3,4 4,4
样本均值的抽样分布
(例题分析)(重复抽样)
计算出各样本的均值如下表。给出样本均值的抽样分布
16个样本的均值(x)
0.3 0.2 P (X )
第一个 观察值
1 2 3 4
第二个观察值
1
1.0 1.5 2.0 2.5
(例题分析)(不重复抽样)
计算出各样本的均值如下表。给出样本均值的抽样分布
16个样本的均值(x) 第一 个 观察 值 1 2 1.5 第二个观察值 1 2 1.5 3 2.0 2.5 1.5 3.5 2 4 2.5 3.0 3.5 2.0 2 2.5 4
0.3 0.2 0.1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 X P (X )
X
= 2.5
σ2 =1.25
1.25 4 2 5 2 4 1 12
2 X
X 2.5
样本均值的抽样分布 与中心极限定理
当总体服从正态分布 N~(μ,σ2) 时,来自该总体的 所有容量为 n 的样本的均值 X也服从正态分布, X 的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)
• 简单随机抽样法的局限是:当样本 规模小时,样本的代表性较差。
简单随机取样有两种基本方式:
• 抽签法(drawing lots) • 随机数字表法(random number table)
2.等距抽样
• 等距抽样(interval sampling)也称为 机械抽样或系统抽样。实施时,先把 总体中的所有个体按一定顺序编号,
三.抽样设计的意义及原则
1.抽样设计的意义
⑴.使研究节省人力及费用;
⑵.使研究节省时间,提高时效性; ⑶.保证研究结果的准确性。
2.抽样设计的原则
• 抽样设计的要求是样本对研究总体有良 好的代表性,即样本的构成与总体保持 一致。为了保证这一点,抽样时必须遵 循随机化 (randomization)的基本原 则。 • 所谓随机化原则,是指在抽样时,样本 中的每一个体都是按照随机的原理被抽 取的,总体中每一个体被抽到的可能性 是相等的。
=10
n=4 x 5 n =16 x 2.5
= 50
X
x 50
X
总体分布
抽样分布
中心极限定理
(central limit theorem)
中心极限定理:设从均值为,方差为 2的一个任意总 体中抽取容量为 n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为μ、方差为σ2/n的正态分布
样本均值的分布与总体分布的比 较 (例题分析)(重复抽样)
总体分布
.3 P(X)
抽样分布
.3 .2 .1 0
.2 .1 0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
X
= 2.5
σ2 =1.25
1.25 0.625 2
2 X
X 2.5
样本均值的抽样分布
(例题分析)(不重复抽样)
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
抽样分布与总体分布的关系
总体分布
正态分布
大样本
非正态分布
小样本
正态分布
正态分源自文库 抽样分布
非正态分布
问题
• 样本平均数的分布是怎么得到的? • 样本平均数分布的平均数与方差和母总体的平均数 与方差有何关系?在不同情况下一样吗? • 什么叫自由度? • 样本平均数的分布与t分布的关系? 2 分布是什么分布?特点?应用于? •
2.总体平均数估计样本容量的确定
• ⑴.总体σ已知
由
Z
2
X
n
有
Z 2 n d
2
(22.4)
其中,最大允许误差为 d X ,可信度为1-α。
可以看到,当α确定之后,总体标准差和 最大允许误差d是决定样本容量的两个因素。
⑵.总体σ未知
Ni i ni n N i i
(22.2)
公式中,ni表示从某一层所抽个体数 n表示样本容量 Ni表示某层个体总数 σi表示某层标准差
当各个σ没有现成资料可以应用时, 可以先从该层抽一个小样本,由这 一小样本计算出的样本标准差S对σ 进行估计。
N i Si ni n N i Si
• 例1:为了调查某区重点中学720名
高一学生的视力,首先按视力的情
况将他们分成好(108人)、中(360 人)、差(252人)三种水平。若用
分层抽样法抽取120人进行调查,问
各层应抽多少人?
• 计算:
N好 108 n好 n 120 18 N 720
N中 360 n中 n 120 60 N 720
抽样分布
(sampling distribution)
总 体
样 本
计算样本统计 量 例如:样本均 值、比例、方 差
样本统计量的抽样分布
1、样本平均数的分布 2、样本方差的抽样分布
样本均值的抽样分布
1. 容量相同的所有可能样本的样本均值的概 率分布
2. 一种理论概率分布 3. 进行推断总体总体均值的理论基础
样本对总体的代表性,既涉及到抽样方法, 又涉及到样本的容量。
一、概念回顾
• 总体、个体、样本 • 参数、统计量
二.几种重要的随机抽样方法
1.简单随机抽样(simple random sampling) 简单随机抽样就是按照随机原则直接从总体 中抽取出若干个单位作为样本。 简单随机抽样法能保证总体中的每一个对象 都有同等的被抽取到的可能性,并且个体 之间都相互独立。这是在总体异质性不是 很大而且所抽取的样本较小时经常采用的 一种形式。
2 ( x ) i
N
1.25
样本均值的抽样分布
(例题分析)(重复抽样)
现从总体中抽取n=2的简单随机样本,在重复抽 样条件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个) 第一个 观察值 1 2 3 4 第二个观察值
1
1,1 2,1 3,1 4,1
如果从总体中抽取n=2的简单随机样本,在不重 复抽样条件下,共有 4×3=12 个样本。所有样本的 结果为
所有可能的n = 2 的样本(共12个) 第一个 观察值 1 第二个观察值
1 2,1
3,1 4,1
2
1,2 3,2 4,2
3
1,3
4
1,4
2
3 4
2,3
4,3
2,4
3,4
样本均值的抽样分布
四 .样本容量的确定
• 1.确定样本容量的意义
• 在应用中应根据研究所要求的精确度及 经费情况确定样本容量。如果样本容量 过小,会影响样本对总体的代表性,增 大抽样误差而降低研究推论的精确性; 样本容量过大,虽然减小了抽样误差, 但可能增大过失误差,并且增加不必要 的人力物力资源的浪费。
• 样本容量与抽样误差并不 是直线关系。 • 确定容量的基本原则是: 在尽量节省人力、经费和 时间的条件下,确保用样 本推断总体达到预定的可 行度及准确性。
然后依固定的间隔取样。
• 等距抽样可以保证样本的成分与总体
一致,但随机性不如单纯随机抽样法。
应用中可将两种方法结合使用。
3.分层随机抽样
• 分层随机取样简称分层抽样 (stratified sampling 或
hierarchical sampling),是进行
大规模研究时常常使用的抽样方 法。
• 分层抽样的方法:先将总体按照一定标准 分为若干类型(统计上称为层),再根据 各层对象的数量在总体数量中所占的比例, 确定从每一种类型(层)中抽取样本的数 量,然后按随机原则和所确定的各层取样 的数量,从各层中取样。 • 做好分层随机取样的关键:分类的标准要 科学,要符合实际情况。各层内的差别要 小,而层与层之间的差异则越大越好。
第六章 抽样理论与参数估计
第一节 抽样的基本概念
• • • • 一、概念回顾 二、抽样方法 三、抽样设计的意义及原则 四、样本容量的计算
统计推断的可靠性与下列因素有关 1.数据的质量 2.运用统计方 法及数据处理的准 确性 3.样本对总体 的代表性
在收集数据的 过程中控制 选择恰当的方法
通过抽样 设计控制
2
1.5 2.0 2.5 3.0 1
3
2.0 2.5 3.0 3.5 1.0 1.5 2
4
2.5 3.0 3.5 4.0 2.0 3 2.5 4 3
0.1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
样本均值的抽样分布
均值X的取值 均值X的个数
3.0
3.5 2
4.0 1
取值的概率P(X ) 1/16 2/16 3/16 4/16 3/16 2/16 1/16
抽样分布
(sampling distribution)
1. 样本统计量的概率分布
2. 是一种理论概率分布 3. 随机变量是 样本统计量
– 样本均值, 样本比例,样本方差等
4. 结果来自容量相同的所有可能样本 5. 提供了样本统计量长远我们稳定的信息,是进 行推断的理论基础,也是抽样推断科学性的重 要依据
• 两阶段随机抽样(two-stages
random sampling)的一般过程是:
先将总体分成M个部分;
• 第一阶段从这M个部分中随机抽取m 个部分作为第一阶段样本;
• 第二阶段是分别从这m个部分中抽取
一定数量(ni)的个体构成第二阶段 样本。
5.整群抽样
• 整群随机抽样是先将 总体各单位按一定的
⑵.最佳配置法
最佳配置法不仅考虑各层的人数比例,而 且考虑到了各层的标准差。当各层内的 标准差已知,应该在标准差大的层内多 分配而在标准差小的层内少分配抽样数 量。 最佳配置法可以使得到的样本具有较好的 异质性。
在各层内应抽取个体数计算
Z 2 n d 1.9613 2 162 .3 163 2
2
第二节 样本分布
• • • • • 一、什么是样本分布 二、正态分布及渐近正态分布 三、t分布 四、 分布 2 F分布 五、
一、样本分布/抽样分布
• 样本分布指样本统计量的分布,它是统计 推论的重要依据。 • 在谈及样本统计量的分布时,首先要保证 各个样本是独立的,各个样本都服从同样 的分布。要保证这一点,取样方法应该用 随机抽样的方法。
样本均值的抽样分布
(例题分析)(重复抽样)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。 总体的均值、方差及分布如下 总体分布
.3
均值和方差
x
i 1
N
i
.2 .1 0
1 2 3 4
N
N i 1
2.5
2
(22.3)
• 分层随机取样法的优点是代表性和
推论的精确性较好。它适用于总体 单位数量较多,并且内部差异较大
的研究对象。
• 分层随机取样法的局限性是要求对 总体各单位的情况有较多的了解, 否则就难以作出科学的分类。
4.两阶段随机抽样
• 当总体容量很大时,直接以总体中 的所有个体为对象,从中进行抽样, 在实际调查或研究中存在很大困难。 • 采用分阶段的抽样方法,可以缩小 实际抽样的范围,使实际抽样工作 能够按研究设计的要求顺利进行。
样本均值的抽样分布
3 2.0 2.5 均值X的取值 4 2.5 3.0 均值X的个数
3.0 2
3.5 2
取值的概率P(X ) 2/12 2/12 4/12 2/12 2/12
样本均值的抽样分布
(例题分析)(不重复抽样)
总体分布
.3 .2
.1 .3 .2 P(X)
抽样分布
.1 0
0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
标准分成许多群(小
组),然后按随机原 则从这些群中抽取若
干群作为样本。
• 整群随机取样法的优点是样本比较集 中,适宜于某些特定的研究,尤其是 在教育实验中常用此法。此外,在规 模较大的调查研究中,整群随机取样 易于组织,可节省人力、物力和时间。 • 整群随机抽样法的缺点是样本分布不 均匀,代表性较差。
由 t
2
X S n
有
t S 2 n d
2
(22.5)
当样本容量n 未确定时,t 值无法确定, 因此一般采用尝试法。
• 例:拟估计某市高校四级英语考试 成绩的总体平均分数。以往考试成
绩的标准差为13,这次的估计最大
允许误差为2分,可信度为95%,问 应抽取多大的样本?
2
1,2 2,2 3,2 4,2
3
1,3 2,3 3,3 4,3
4
1,4 2,4 3,4 4,4
样本均值的抽样分布
(例题分析)(重复抽样)
计算出各样本的均值如下表。给出样本均值的抽样分布
16个样本的均值(x)
0.3 0.2 P (X )
第一个 观察值
1 2 3 4
第二个观察值
1
1.0 1.5 2.0 2.5
(例题分析)(不重复抽样)
计算出各样本的均值如下表。给出样本均值的抽样分布
16个样本的均值(x) 第一 个 观察 值 1 2 1.5 第二个观察值 1 2 1.5 3 2.0 2.5 1.5 3.5 2 4 2.5 3.0 3.5 2.0 2 2.5 4
0.3 0.2 0.1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 X P (X )
X
= 2.5
σ2 =1.25
1.25 4 2 5 2 4 1 12
2 X
X 2.5
样本均值的抽样分布 与中心极限定理
当总体服从正态分布 N~(μ,σ2) 时,来自该总体的 所有容量为 n 的样本的均值 X也服从正态分布, X 的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)
• 简单随机抽样法的局限是:当样本 规模小时,样本的代表性较差。
简单随机取样有两种基本方式:
• 抽签法(drawing lots) • 随机数字表法(random number table)
2.等距抽样
• 等距抽样(interval sampling)也称为 机械抽样或系统抽样。实施时,先把 总体中的所有个体按一定顺序编号,
三.抽样设计的意义及原则
1.抽样设计的意义
⑴.使研究节省人力及费用;
⑵.使研究节省时间,提高时效性; ⑶.保证研究结果的准确性。
2.抽样设计的原则
• 抽样设计的要求是样本对研究总体有良 好的代表性,即样本的构成与总体保持 一致。为了保证这一点,抽样时必须遵 循随机化 (randomization)的基本原 则。 • 所谓随机化原则,是指在抽样时,样本 中的每一个体都是按照随机的原理被抽 取的,总体中每一个体被抽到的可能性 是相等的。
=10
n=4 x 5 n =16 x 2.5
= 50
X
x 50
X
总体分布
抽样分布
中心极限定理
(central limit theorem)
中心极限定理:设从均值为,方差为 2的一个任意总 体中抽取容量为 n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为μ、方差为σ2/n的正态分布
样本均值的分布与总体分布的比 较 (例题分析)(重复抽样)
总体分布
.3 P(X)
抽样分布
.3 .2 .1 0
.2 .1 0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
X
= 2.5
σ2 =1.25
1.25 0.625 2
2 X
X 2.5
样本均值的抽样分布
(例题分析)(不重复抽样)
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
抽样分布与总体分布的关系
总体分布
正态分布
大样本
非正态分布
小样本
正态分布
正态分源自文库 抽样分布
非正态分布
问题
• 样本平均数的分布是怎么得到的? • 样本平均数分布的平均数与方差和母总体的平均数 与方差有何关系?在不同情况下一样吗? • 什么叫自由度? • 样本平均数的分布与t分布的关系? 2 分布是什么分布?特点?应用于? •
2.总体平均数估计样本容量的确定
• ⑴.总体σ已知
由
Z
2
X
n
有
Z 2 n d
2
(22.4)
其中,最大允许误差为 d X ,可信度为1-α。
可以看到,当α确定之后,总体标准差和 最大允许误差d是决定样本容量的两个因素。
⑵.总体σ未知
Ni i ni n N i i
(22.2)
公式中,ni表示从某一层所抽个体数 n表示样本容量 Ni表示某层个体总数 σi表示某层标准差
当各个σ没有现成资料可以应用时, 可以先从该层抽一个小样本,由这 一小样本计算出的样本标准差S对σ 进行估计。
N i Si ni n N i Si
• 例1:为了调查某区重点中学720名
高一学生的视力,首先按视力的情
况将他们分成好(108人)、中(360 人)、差(252人)三种水平。若用
分层抽样法抽取120人进行调查,问
各层应抽多少人?
• 计算:
N好 108 n好 n 120 18 N 720
N中 360 n中 n 120 60 N 720
抽样分布
(sampling distribution)
总 体
样 本
计算样本统计 量 例如:样本均 值、比例、方 差
样本统计量的抽样分布
1、样本平均数的分布 2、样本方差的抽样分布
样本均值的抽样分布
1. 容量相同的所有可能样本的样本均值的概 率分布
2. 一种理论概率分布 3. 进行推断总体总体均值的理论基础
样本对总体的代表性,既涉及到抽样方法, 又涉及到样本的容量。
一、概念回顾
• 总体、个体、样本 • 参数、统计量
二.几种重要的随机抽样方法
1.简单随机抽样(simple random sampling) 简单随机抽样就是按照随机原则直接从总体 中抽取出若干个单位作为样本。 简单随机抽样法能保证总体中的每一个对象 都有同等的被抽取到的可能性,并且个体 之间都相互独立。这是在总体异质性不是 很大而且所抽取的样本较小时经常采用的 一种形式。
2 ( x ) i
N
1.25
样本均值的抽样分布
(例题分析)(重复抽样)
现从总体中抽取n=2的简单随机样本,在重复抽 样条件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个) 第一个 观察值 1 2 3 4 第二个观察值
1
1,1 2,1 3,1 4,1
如果从总体中抽取n=2的简单随机样本,在不重 复抽样条件下,共有 4×3=12 个样本。所有样本的 结果为
所有可能的n = 2 的样本(共12个) 第一个 观察值 1 第二个观察值
1 2,1
3,1 4,1
2
1,2 3,2 4,2
3
1,3
4
1,4
2
3 4
2,3
4,3
2,4
3,4
样本均值的抽样分布
四 .样本容量的确定
• 1.确定样本容量的意义
• 在应用中应根据研究所要求的精确度及 经费情况确定样本容量。如果样本容量 过小,会影响样本对总体的代表性,增 大抽样误差而降低研究推论的精确性; 样本容量过大,虽然减小了抽样误差, 但可能增大过失误差,并且增加不必要 的人力物力资源的浪费。
• 样本容量与抽样误差并不 是直线关系。 • 确定容量的基本原则是: 在尽量节省人力、经费和 时间的条件下,确保用样 本推断总体达到预定的可 行度及准确性。
然后依固定的间隔取样。
• 等距抽样可以保证样本的成分与总体
一致,但随机性不如单纯随机抽样法。
应用中可将两种方法结合使用。
3.分层随机抽样
• 分层随机取样简称分层抽样 (stratified sampling 或
hierarchical sampling),是进行
大规模研究时常常使用的抽样方 法。
• 分层抽样的方法:先将总体按照一定标准 分为若干类型(统计上称为层),再根据 各层对象的数量在总体数量中所占的比例, 确定从每一种类型(层)中抽取样本的数 量,然后按随机原则和所确定的各层取样 的数量,从各层中取样。 • 做好分层随机取样的关键:分类的标准要 科学,要符合实际情况。各层内的差别要 小,而层与层之间的差异则越大越好。
第六章 抽样理论与参数估计
第一节 抽样的基本概念
• • • • 一、概念回顾 二、抽样方法 三、抽样设计的意义及原则 四、样本容量的计算
统计推断的可靠性与下列因素有关 1.数据的质量 2.运用统计方 法及数据处理的准 确性 3.样本对总体 的代表性
在收集数据的 过程中控制 选择恰当的方法
通过抽样 设计控制
2
1.5 2.0 2.5 3.0 1
3
2.0 2.5 3.0 3.5 1.0 1.5 2
4
2.5 3.0 3.5 4.0 2.0 3 2.5 4 3
0.1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
样本均值的抽样分布
均值X的取值 均值X的个数
3.0
3.5 2
4.0 1
取值的概率P(X ) 1/16 2/16 3/16 4/16 3/16 2/16 1/16
抽样分布
(sampling distribution)
1. 样本统计量的概率分布
2. 是一种理论概率分布 3. 随机变量是 样本统计量
– 样本均值, 样本比例,样本方差等
4. 结果来自容量相同的所有可能样本 5. 提供了样本统计量长远我们稳定的信息,是进 行推断的理论基础,也是抽样推断科学性的重 要依据
• 两阶段随机抽样(two-stages
random sampling)的一般过程是:
先将总体分成M个部分;
• 第一阶段从这M个部分中随机抽取m 个部分作为第一阶段样本;
• 第二阶段是分别从这m个部分中抽取
一定数量(ni)的个体构成第二阶段 样本。
5.整群抽样
• 整群随机抽样是先将 总体各单位按一定的