管理定量分析第3章 抽样方法与抽样分布
《抽样和抽样分布》课件
可能导致样本不均衡,造成统计结果的偏差。
系统抽样
1 定义
2 应用
系统抽样是按照固定的间隔从总体中选择 样本的方法。
适用于总体有明显的顺序结构,如时间序 列数据。
整群抽样
定义
整群抽样是按照群组进行抽样的方法,将总体划 分为不同的群组,然后从群组中选择样本。
应用
适用于总体中存在明显的群组结构,如地理区域 或机构。
《抽样和抽样分布》PPT 课件
抽样和抽样分布是统计学中重要的概念。通过抽样方法,我们可以从总体中 获取有关信息,并进行推断。本课程将介绍不同类型的抽样方法和抽样分布 的定义。
简单随机抽样
定义
简单随机抽样是从总体中随机选择样本的方法。每个个体有相等的机会被选中。
优点
结果具有代表性,能够有效减小抽样误差。
中心极限定理
定义
中心极限定理是指在一定条件下,大量样本 的平均值将呈现正许我们使用样本数据进行总体参数的估 计和假设检验。
分层抽样
1
定义
分层抽样是将总体划分为不同的层级,然后从各个层级中选择样本的方法。
2
优点
能够保证每个层级都包含在样本中,提高估计的准确性。
3
缺点
需要事先知道总体的层级结构,并且需要耗费更多的时间和成本。
抽样分布的定义
抽样分布是指在相同抽样方法下得到的样本统计量的分布。通过理解抽样分布,我们可以进行推断性统 计分析。
统计学 第三章抽样与抽样分布
=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取
《抽样和抽样分布》课件
$number {01}
目录
• 抽样调查的基本概念 • 抽样分布的基础知识 • 抽样分布的原理 • 抽样误差的评估 • 实际应用中的抽样技术 • 案例分析
01
抽样调查的基本概念
抽样的定义和意义
定义
抽样是从总体中选取一部分个体 进行研究的方法。
意义
通过对部分个体的研究,推断出 总体的特征,以节省时间和资源 。
适用场景
当总体中存在周期性变化 或某种明显的模式时,系 统抽样能够提高样本的代 表性。
注意事项
要确保抽样的间隔与总体 中的变化模式相匹配,以 避免偏差。
分层抽样
分层抽样
注意事项
将总体分成若干层,然后从每层中随 机抽取一定数量的样本。
要确保分层依据合理,且层内样本的 抽取方法一致,以避免层间和层内的 偏差。
抽样误差的衡量指标
抽样平均误差
抽样平均误差是衡量抽样误差大小的指标,它反映了样本统 计量与总体参数之间的平均偏差。
抽样变异系数
抽样变异系数是衡量非系统抽样误差的指标,它反映了由于 随机性引起的样本统计量与总体参数之间的偏差程度。
05
实际应用中的抽样技术系统ຫໍສະໝຸດ 样010203
系统抽样
按照某种规则,每隔一定 数量的个体进行抽样,直 到达到所需的样本量。
步骤 1. 明确研究目的和要求。 2. 确定总体和样本规模。
抽样的原则和步骤
01 02 03
3. 选择合适的抽样方法。 4. 制定详细的抽样计划。
5. 实施抽样调查。
02
抽样分布的基础知识
总体和样本
1 2
3
总体
研究对象的全体集合。
样本
抽样与抽样分布.pptx
用计来量估,计用总符体号参 数表的示统计量的名称,称为估
用来估计总体参数时计算出来的估计量的具 体数值,称为估计值
点估计与区间估计
参数估计的方法有点估计和区间估计 ◆(一)点估计
x 的分布形式与原有总体和样本容量n的大
小有关 .3 总体分布
.3 P ( x ) 抽样分布
.2
.2
.1
0 1
234
.1
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
= 2.5
σ2 =1.25
当总体服从正态分布N(μ, 2 )n时,样本均值的抽
样分布仍然是服从正态分布的,其均值仍为 μ , 方差为 ,即2 n样本均值的方差比原总体的方差 要小,而且样本容量n越大,方差越小。
点估计又称定值估计。它是用实际样本指标 数值代替总体指标数值,即总体平均数的点 估计值就是样本平均数,总体成数的点估计 值就是样本成数。这种估计不考虑是否有抽 样误差。
例如,对一批某种型号的电子元件10000只 进行耐用时间检查,随机抽取100只,测试的 平均耐用时间子元件的平均耐用时 间为1055小时,全部电子元件的合格率也是 91%。
.2
.1 0
1
234
现从总体中抽取n=2的简单随机样本,在重复抽样条件 下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个)
第一个
第二个观察值
观察值
1
2
3
4
1
1,1
1,2
1,3
1,4
《抽样与抽样分布》PPT课件
写信回应和电话回应,一定会导致高度偏差。
随机原则的实现
抽签法,是将总体中每个单位的编号写在外形 完全一致的签上,将其搅拌均匀,从中任意抽 选,签上的号码所对应的单位就是样本单位。
随机数表法:将总体中每个单位编上号码,然 后使用随机数表,查出所要抽取的调查单位。
案例
1936年美国总统选举的预测,民主党罗斯福VS 共和党兰登。《文摘》邮寄了1000万份调查表; 收回240万份,预测兰登获得57%的选票获胜。 而盖洛普(Gallup)研究所仅仅随机抽取了2000 多选民,预测罗斯福将得到54%的选票获胜。
选举结果是罗斯福获得62%的选票获胜。 此后,盖洛普研究所每年用1000~1500人的样
4 统计抽样与抽样分布
抽样的基本概念 抽样方法与误差 抽样分布的概念 样本均值的抽样分布 样本比率的抽识到通过样本推断 总体的科学性。
当总体元素非常多,或者检查具有破坏性时, 需要进行抽样。
抽样必定伴有某种程度的不确定性,需要用 概率来表示其可靠程度,这是推断统计的重 要特点。
两种有偏的抽样方法
方便抽样,在总体中选择最容易取得的个体。例如, 从每箱桔子中拿上面的几个检查,但它们可能无法 代表整箱桔子的情况。
自发性回应样本:是经由对某一诉求的回应而自然 形成的,会导致高度偏差。
两种有偏的抽样方法
自发性回应样本:例如,专栏作家Landers问读者: “如果可以重来一次,你还会要孩子吗?”她接到 1万份答复,其中70%说不要。难道70%的父母 都后悔了吗?
随机样本
与总体分布 特征相同
与总体分布 特征不同
总体
非随机样本
并非所有的抽样估计都按随机原则抽取样本, 也有非随机抽样。
抽样与抽样分布 ppt课件
分层抽样的样本分布在各个层内,从而使样本在总体 中的分布比较均匀
如果分层抽样做得好,便可以提高估计的精度
系统抽样
(systematic sampling)
1. 将总体中的所有单位(抽样单位)按一定顺 序排列,在规定的范围内随机地抽取一个 单位作为初始单位,然后按事先规定好的 规则确定其他样本单位
样本容量。样本中所包含的个体的数量,一般用n表示。 在实际工作中,人们通常把n≥30的样本称为大样本, 而把n<30的样本称为小样本。
对于某一既定的总体,由于抽样的方式方法不同,样本 容量也可大可小,因而,样本是不确定的、可变的。
抽样的目的一部分,而且样本的抽取又具有随机性, 因此,样本的内部构成与总体的内部构成总是具有一定 的差异,样本不能完全代表总体,抽样估计总是存在一 定的代表性误差。
1. 将总体中若干个单位合并为组(群),抽样 时直接抽取群,然后对中选群中的所有单 位全部实施调查
2. 特点
抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便
调查的实施 缺点是估计的精度较差
多阶段抽样
(multi-stage sampling)
1. 先抽取群,但并不是调查群内的所有单位,而是再 进行一步抽样,从选中的群中抽取出若干个单位进 行调查
1. 由简单随机抽样形成的样本 2. 从总体N个单位中随机地抽取n个单位作为
样本,使得每一个容量为n样本都有相同 的机会(概率)被抽中 3. 参数估计和假设检验所依据的主要是简单 随机样本
简单随机抽样
(用Excel对分类数据随机抽样)
【例】某 班级共有 30 名 学 生 , 他们的名 单如右表。 用 Excel 抽 出一个由5 个学生构 成的随机 样本
3、抽样分布
第3章 抽样和抽样分布
第三节
x
的抽样分布
如前所述, 如前所述,样本均值 一、
x 所有可能取值的概率分布
x
的期望值和标准差
1、数学期望
E (x ) =
2、标准差
σx
表示
x
的抽样分布的标准差 计算式如下: 计算式如下:
第3章 抽样和抽样分布
有限总体
σx = σ
n N n N 1
无限总体
σx =
2
σ
商务与经济统计
第3章 抽样和抽样分布
一、统计抽样的几个基本概念 1、全及总体和样本 全及总体:研究对象全体,又称母体。容量用N表示。具 全及总体 备惟一性。 样本总体:按随机原则从总体中抽出的部分单位的全体, 样本总体 简 称样本,被抽出的每个单位称样本单位。容量用n表示。样 本不具惟一性。 样本容量、样本单位数、样本个数
x2
X
-Z
0
Z
Z
第3章 抽样和抽样分布
第四节 p 的抽样分布 样本比例 p 的所有可能取值的概率分布
一、 p 的期望值和标准差 1、期望
第3章 抽样和抽样分布
在第一部分K个单位中(顺序为1、2、3、…、i、…、K )随 机抽取一个单位i,而在第二部分中抽取第i+K单位。第三部分 中抽取第i+2K单位……在第n部分抽取第i+(n-1)K单位,共n个 单位组成一个样本,而且每个样本的间隔均为K,这种抽样方 法称等距抽样。
}
n
1、2、3、…、 、…、K
0.05 0.04 0.03 0.02 0.01 140 150 160 170 180 190
身高
当组数n→无穷大,折线→曲线。
第三章抽样和抽样分布
Probability Sample
• Probability Sample • A probability sample is a sample chosen
by chance. We must know what samples are possible and what chance, or probability, each possible sample has.
第三章抽样和抽样分布
统计应用
“抓阄”征兵计划
➢ 然而结果是,有73个较小的号码被分配给了前半
年的日子,同时有110个较小的号码被分配给了后 半年的日子。换句话说,如果你生于后半年的某 一天,那么,你因为被分配给一个较小号码而去 服兵役的机会要大于生于前半年的人
➢ 在这种情况下,两个数字之间只应该有随机误差,
convenience sampling chooses the individuals
easiest to reach. Here is an example
of convenience sampling.
Both voluntary response samples and
convenience samples produce samples that are almost guaranteed not to represent the entire
被分配的号码较大的人也许永远轮不上到军队服役
➢ 这种抓阄看起来对决定应该被征召入伍是一个相当不错
的方法。然而,在抓阄的第二天,当所有的日子和它们 对应的号码公布以后,统计学家们开始研究这些数据。 经过观察和计算,统计学家们发现了一些规律。例如, 我们本应期望应该有差不多一半的较小的号码(1到183) 被分配给前半年的日子,即从1月份到6月份;另外一半 较小的号码被分配给后半年的日子,从7月到12月份。 由于抓阄的随机性,前半年中可能不会分到正好一半较 小的号码,但是应当接近一半
统计学5.+抽样分布与抽样方法PPT
5.1 抽样调查的概念、特点和作用
二、抽样调查的特点 (一)按照随机原则抽取总体中的一部分单位
进行调查:
随机原则是指在抽取样本单位时完全排除调查者的主观判断 ,使各总体单位都有同等的被抽中的机会。只有严格遵循 随机原则,才能使样本的内部结构类似于总体的结构分布 特征,对总体具有充分的代表性。
(二)用一部分单位的指标数值去推断总体的 指标数值
抽样调查的目的是根据所得到的样本数据推断被调查现象总 体的特征。如总体指标、总体的概率分布等,这是其他非 全面调查方法都无法做到的。
5.1 抽样调查的概念、特点和作用
二、抽样调查的特点(续) (三)抽样调查会产生抽样误差,抽样误差可
以计算,并且可以加以控制。
任何调查方法都会产生误差,抽样调查以概率论为其 理论依据,根据数理统计所提供的抽样误差的理论 和方法,可以把推断的误差控制在一定的精确度内 ,以满足实际工作的需要。而其他调查方法都无法 计算和控制误差。
5.2 抽样调查的方法
一、两种抽样方式:
抽样方式可分为重复抽样和不重复抽样两种。 ⑴重复抽样 ——又称放回抽样,指每次从总体中随机抽取一个
样本单位,观察登记其标志值后再放回总体中,如
此进行 n 次的抽样方法。
重复抽样的特点: ①在重复抽样的过程中,被抽取的总体单位总数始终
保持不变,每一次抽样中各总体单位被抽到的机会 都相同,每次抽样结果相互独立。 ②每一总体单位都有被重复抽取的可能。
学习目标
❖ 了解各种抽样设计方法 ❖ 了解常用的统计分布; ❖ 掌握常用的统计量及其分布;
5.1 抽样调查的概念、特点和作用
统计学的目的是揭示总体数量分布的规律性,通常可 以采用两种方法:全面调查和非全面调查(抽样 调查)。
第三章抽样与抽样分布
1、抽样分布:
全部可能样本统计量的频率分布叫
做抽样分布。
2、样本均值的抽样分布:
全部可能样本的平均数的概率分
布。
3、样本成数(比例)的抽样分布:
全部可能样本的成数的概率分布。
抽样分布
(sampling distribution)
4、抽样分布的特征值
•统计量:即样本指标
x
xi
每个单位被抽中的概率是已知的,或是可以计 算出来的
当用样本对总体目标量进行估计时,要考虑到 每个样本单位被抽中的概率
3-9
抽样框与抽样单位
抽样框:为便于抽样工作的组织,在抽样前在可 能条件下编制的用来进行抽样的记录或表明总体所有 抽样单元的框架。抽样框可以是一份清单(名单抽样 框)、一张地图(区域抽样框),它是设计和实施随 即抽样所必备的基础条件。
合格品(或不合格品) 与全部产品总数之比
2. 总体比率可表示为
N1 或
N
3. 样本比率可表示为
4. p n1 或 n
3-35
1 N0
N
1 p n0 n
样本比率(成数)的抽样分布的形成 抽样
比率 N1 / N
比率 p n1 / n
所有可能的样本的比率( p1, p2 , pn )所形成 的分布,称为样本比率(成数)的抽样分布。
n
ˆ P
ni
n
S
2
n
1 1
(
xi
x)2
3-21
样本均值的抽样分布
全部可能样本的平均数的概率分布
注意: • 1)在重复选取容量为n的样本时,由样
抽样检验和抽样分布
抽样检验和抽样分布1. 引言抽样是统计学中非常重要的概念,通过对总体的一局部样本进行研究和分析,可以得出关于总体的推断和结论。
抽样检验是统计推断的一种方法,用于判断样本与总体之间是否存在显著差异。
抽样分布是抽样统计量的概率分布,是基于样本的随机变量,用于进行统计推断和估计。
2. 抽样检验抽样检验是统计推断的一种方法,用于判断样本与总体之间是否存在显著差异。
在抽样检验中,我们首先提出一个原假设和一个备择假设,然后通过计算样本统计量的概率来判断原假设是否成立。
常用的抽样检验方法包括:2.1 单样本 t 检验单样本 t 检验用于判断一个样本的均值是否与总体均值存在显著差异。
通过计算样本的 t 统计量来进行判断,如果 t 统计量的值较大,说明样本均值与总体均值之间存在显著差异。
2.2 双样本 t 检验双样本 t 检验用于判断两个样本的均值是否存在显著差异。
通过计算两个样本的 t 统计量来进行判断,如果 t 统计量的值较大,说明两个样本的均值之间存在显著差异。
2.3 卡方检验卡方检验用于判断两个或多个分类变量之间是否存在关联性。
通过计算卡方统计量来进行判断,如果卡方统计量的值较大,说明分类变量之间存在关联性。
2.4 方差分析方差分析用于判断一个因变量在不同组之间是否存在显著差异。
通过计算方差比率统计量来进行判断,如果方差比率统计量的值较大,说明不同组之间的因变量存在显著差异。
3. 抽样分布抽样分布是抽样统计量的概率分布,是基于样本的随机变量,用于进行统计推断和估计。
常用的抽样分布包括:3.1 正态分布在很多情况下,当样本容量足够大时,抽样分布可以近似地认为是正态分布。
正态分布是一种对称的连续概率分布,其概率密度函数可由均值和标准差完全描述。
3.2 学生 t 分布学生 t 分布是在样本容量较小、总体标准差未知的情况下使用的抽样分布。
学生 t 分布相比于正态分布,具有更宽的尾部,适用于小样本量的情况。
3.3 卡方分布卡方分布是基于正态分布的样本推断中经常使用的一种抽样分布。
抽样及抽样分布
抽样及抽样分布引言在统计学中,抽样是从总体中选择一部分个体进行研究的过程。
通过抽样可以获得总体的估计值,从而对总体进行推断。
抽样是统计学的基础,也是进行统计推断的前提。
本文将介绍抽样的基本概念和方法,以及抽样分布的概念和特性。
抽样方法进行抽样时,需要选择合适的抽样方法。
常见的抽样方法包括简单随机抽样、系统抽样、分层抽样和群组抽样等。
简单随机抽样简单随机抽样是最基本的抽样方法,每个个体被随机地选入样本,且每个个体被选入样本的概率相等。
这种方法可以确保样本具有代表性。
系统抽样系统抽样是按照一定的规则从总体中选取样本,例如每隔一定间隔选取一个个体。
这种方法简单实用,但需要注意规则的选择是否会引入偏差。
分层抽样分层抽样是将总体分成若干层,然后从每层中随机选取个体组成样本。
这种方法可以保证每个层次都有足够的代表性。
群组抽样群组抽样是将总体划分为若干群组,然后随机选取若干群组作为样本。
这种方法适用于总体中包含多个群组,但群组内个体相似的情况。
抽样分布抽样分布是指抽样统计量的分布。
统计量可以是样本均值、样本方差、样本相关系数等。
样本均值的抽样分布假设总体服从正态分布,样本均值的抽样分布也会服从正态分布。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将变得更加接近正态分布。
样本方差的抽样分布样本方差的抽样分布是以总体方差为参数的分布,通常服从卡方分布。
样本容量的大小将影响样本方差的抽样分布形状。
样本相关系数的抽样分布样本相关系数的抽样分布通常是以总体相关系数为参数的分布。
样本容量的增加会使样本相关系数的抽样分布趋向于正态分布。
抽样误差与置信区间抽样误差是指样本统计量与总体参数之间的差异。
抽样误差的大小会受到样本容量和抽样方法的影响。
为了评估抽样结果的可靠性,可以构建置信区间。
置信区间是总体参数的一个区间估计,表示总体参数落在该区间的概率。
置信区间的宽度与置信水平、样本容量以及总体标准差等相关。
较高的置信水平会使置信区间变得更宽,而较大的样本容量和总体标准差会使置信区间变得更窄。
抽样与抽样分布
抽样与抽样分布抽样是统计学中一种重要的数据收集方法,通过从总体中选择一部分样本来代表整体,可以更方便、更经济地进行数据分析和推断。
而抽样分布则是与抽样密切相关的概念,指的是样本统计量的概率分布。
本文将从抽样的定义和目的、抽样方法和抽样分布的性质等方面进行探讨。
一、抽样的定义和目的抽样是统计学中利用一定的方法和技术从总体中选取一部分个体作为样本,以了解总体特征或者对总体进行推断的过程。
抽样的目的在于通过对样本的观测和研究来推断总体的特征,而无需对整个总体进行调查。
抽样可以减少调查或实验的成本、节约时间,并且在一定程度上能够保证结果的可靠性和精确度。
二、抽样方法1. 简单随机抽样:简单随机抽样是指从总体中随机选择样本,使每一个样本都有相同的概率被选中。
简单随机抽样通常需要使用随机数表、随机数发生器或者抽签等方法来实现。
2. 系统抽样:系统抽样是按照一定的规则和系统性地从总体中选择样本,例如每隔一个固定的间隔选取一个样本。
系统抽样的优点在于操作简单,但是如果总体中存在某种周期性或者规律性的分布,可能会导致抽样结果的偏差。
3. 整群抽样:整群抽样是将总体根据某些特征进行分类,然后从每个分类中随机选择一定数量的群体作为样本。
整群抽样适用于总体中存在明显的群体结构的情况,可以提高样本的代表性。
4. 分层抽样:分层抽样是按照某种特征将总体分为若干层,然后从每一层中随机选择一定数量的样本。
分层抽样可以更好地体现总体的结构和差异,提高样本的代表性和准确性。
三、抽样分布的性质抽样分布是样本统计量的概率分布,其具有以下几个重要性质:1. 无偏性:如果样本统计量的期望值等于总体参数的真值,那么称该统计量是无偏的。
即样本统计量是对总体参数的无偏估计。
无偏性是抽样分布的重要性质,保证了样本统计量的可靠性和准确性。
2. 一致性:当样本数量趋向无穷大时,样本统计量的值趋向于总体参数的真值。
即样本统计量在大样本情况下能够接近总体参数,具有一致性。
抽样和抽样分布培训课件(PPT 49张)
0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989
7
自有限总体的抽样
• 无放回抽样:一个元素一旦选入样本,就从总体中剔除, 不能再次被选入。 • 放回抽样:一个元素一旦选入样本,仍被放回总体中。
先前被选入的元素可能再次被选,并且在样本中可出现
多次(多于一次)。
8
自无限总体的抽样
• 无限总体经常被定义为一个持续进行的过程,总体的元 素由在相同条件下过程无限运行下去产生的每一项构成。 在这种情况下,对总体内所有项排列是不可能的。
14
点估计
样本均值 51814.00美元 样本标准差
3347.72美元
样本比率 0.63
点估计的 统计过程
15
由30名管理人员组成的简单随机样本的点估计值
16
由30名管理人员组成的500个简单随机样本的点估计值
17
由30名管理人员组成的500个简单随机样本的抽样分布
• 抽样分布:样本统计量所有可能值构成的概率分布。
0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988
抽样与抽样分布PPT-PPT精品文档
特点:
(1)遵循随机原则; (2)推断被调查对象的总体特征; (3)计算推断的准确性与可靠性。 江西财经大学统计学院
1
统计学
所谓抽样
第三章
抽样和抽样分布
抽签 编号 摇号 随机数字表
75 18 26 53 86
90 85 89 64 97
96 18 48 81 06
91 63 57 95 12
江西财经大学统计学院
7
统计学
第三章
抽样和抽样分布
[例]10人年龄资料如下。N=10 n=3。 人: A B C D E F G H I J 年龄: 5 8 12 40 42 46 48 70 72 76 分类: N1=3 N2=4 N3=3 N=10 1=2.87 2=3.16 3=2.49 =8.52 n1=? n2=? n3=? n=3 1、等额分配:n1= n2= n3= 1 2、等比例分配:n1/N1= n2/N2= … = n/N ∵ n/N =0.3 ∴n1/N1=0.3 n1=0.3×N1=0.3 ×3= 0.9 3、最优分配: i/ =ni/Ni ∵ 1/ =2.87/8.52=0.34 ∴ n1/N1=0.34 n1=0.34×3 =1.02 江西财经大学统计学院 8 二、抽样误差的计算
Z x
2
t 概率度 抽样平均误差 x n
s替代 不知 ˆ替代 p P不知
江西财经大学统计学院
3
x x x tx x x x tx
统计学
第三章
抽样和抽样分布
[例]某公司出口一种名茶,规定每包规格重量不低于150g,现用
x x P { x } 1 F ( t ) x x x x P { x x } 1 F ( t ) x x x x
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
候选人得票百分比% 戈尔 51 51 47 49 48 49 46 47 47 49 49 47 52 48 46 51 48 佩罗特 4 2 3 6 4 3 7 5 4 3 4 4 4 4 5 2 3 其他 1 1 2 0 2 1 2 1 2 1 0 1 1 1 1 0 1
• 猜想一下,这些民意调查专家访问了多少 受访者,使其对大约一亿选民的行为预测 的误差不超过两个百分点? • 不超过2000! • 概率抽样与非概率抽样
抽样框老化:
• 又称为“抽样框过时”或“不准确的抽样框”, 是指随着时间的推移,抽样总体与目标总体产生 极大的偏差,即原来的抽样框不符合实际情况, 必须进行更新。最典型的例子,就是随着城市建 设的大规模展开,许多地区已被改造,地址发生 了变化,如果仍按以前的抽样框去抽样,那么精 度就会难以控制。
减少抽样框误差方法:
4种非概率抽样方法:
• • • • 就近抽样 目标式或判断式抽样 滚雪球抽样 据现实情况,以自己 方便的形式抽取偶然遇到的人作为调查对 象,或者仅仅选择那些离得最近的、最容 易找到的人作为调查对象。
就近抽样举例:
• 为了调查某市的交通情况,研究者到离他们最近的公共汽 车站,把当时正在那里等车的人选作调查对象。 • 在街口拦住过往行人进行调查; • 在图书馆阅览室对当时正在阅读的读者进行调查; • 在商店门口、展览大厅、电影院等公众场所向进出往来的 顾客、观众进行的调查; • 利用报刊杂志向读者进行调查; • 老师以他所教的班级的学生作为调查样本的调查等等。
标准差(standard deviation )
• 标准差也称均方差,是各数据偏离平均数 的距离的距离,用σ表示。标准差是方差的 算术平方根。标准差能反映一个数据集的 离散程度。平均数相同的,标准差未必相 同。标准差计算公式
例:学生成绩的抽样
• 样本1:
75 70 73 69 81 68 76 77
滚雪球抽样
• 滚雪球抽样主要用于估计十分稀有的人物特征,例如名字 不能公开的信息,可利用政府或社会服务的人员;特别的 群体,如私家车车主等。 • 滚雪球抽样的主要优点是可以大大增加接触总体中所需群 体的可能性。而且可以根据某些样本特征对样本进行控制 ,适用于寻找一些在总体中十分稀少的人物。此外还可以 使调查费用大大减少,不过这种成本的节约是以调查质量 的降低为代价的。
• 样本2:
99 89
X1 =X 2 =73.625
44
1= 4.47
86
79
2 =26.82
67
25
100
•
抽样框
• 抽样框又称“抽样框架”、“抽样结构” ,是指对可以选择作为样本的总体单位列 出名册或排序编号,以确定总体的抽样范 围和结构。 • 常见的抽样框:大学学生花名册、城市黄 页里的电话列表、工商企业名录、街道派 出所里居民户籍册、意向购房人信息册 ……。
日期 小布什 11/5 11/5 11/5 11/5 11/5 11/5 11/5 11/5 11/5 11/5 11/6 11/6 11/6 11/6 11/6 11/6 11/7 Hotline/Battleground Marist College Fox Newsweek NBC/Wall St.Journal Pew ICR Harris Harris(on line) ABC IDB/CSM CBS Portrait of america CNN/USA Today Reuters/MSNBC 选举结果 43 46 47 46 45 46 44 47 47 46 47 48 43 46 48 45 48
分层抽样
• 分层抽样是在抽样之前将总体分为同质性的不同 群。 • 原理: • 抽样设计中有两个因素可以减少抽样误差。 • 首先,大样本比小样本产生的抽样误差小。 • 其次,从同质(homogeneous)总体中抽取样本比 从异质(heterogeneous)总体中抽取样本所产生的 抽样误差要小。分层抽样便是基于上述抽样理论 第二个影响因素的方法。
复合连接:
•
是指抽样框单元与目标总体单元不完全一一对应,而是存在一对 多、多对一或是多对多模式的现象。 • 在前一种模式中,若进行简单随机抽样,能保证每个目标总体单 位以同等的可能性被抽中。 • 在后两种模式中进行简单随机抽样,每个目的总体单位被抽中的 概率是不同的,从而使估计量产生偏斜。 • 例如:若某银行想了解其客户的情况进行一次抽样调查,则该行 所有客户构成目的总体。选择的抽样框是银行的来往帐目,这就构成 了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中 的可能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两 种客户通常会有较大差异,从而造成样本的偏斜,使估计量产生偏差 。
• 第一,在抽选样本之前,要对抽样框加以检查, 发现可能存在的问题,进行识别、处理,并采取 一定措施加以补救。第二,连接遗漏单位法,就 是指把抽样样本遗漏的个体和抽样样本中的某个 值相连接,其链接规则必须在调查前明确规定。
简单随机抽样
• 例如:要调查居民对某项公共政策的态度,要从100户居民家庭中抽 选10户居民代表抽选样本。具体步骤如下: • 第一步:将100户居民家庭编号,每一户家庭一个编号,即01~00。 (每户居民编号为2数,00代表100), • 第二步:在附录的随机数表随机确定抽样的起点和抽样的顺序。假定 从第1行,第9列开始抽,抽样顺序从左往右抽。 • 第三步:依次抽出号码分别是:92、45、42、05、94、96、05、37 、36、02,共10个号码。由于05号码被抽了两次。再补充1个号码: 22。由此产生10个样本单位号码为:92、45、42、05、94、96、37 、36、02、22。 • 编号为这些号码的居民家庭就是抽样调查的对象。
• 是指在抽样框中既有丢失目标单位,也有包含 非目标单位。 • 在实际调查中,丢失目标单位不易被查觉和发 现,具有较大的隐蔽性,相比之下,包含非目标 单位的抽样框误差的威胁性要小些。因为在调查 过程中,非目标单位容易被发现,并予以剔除。 • 如果丢失目标单位和包含 非目标单位数量相 当,也相互抵消,估计量是否会产生偏差也难以 断定。这要取决于丢失目标单位和非目标单位的 数量特征是否有显著差异。
判断式抽样
• 判断抽样又称“立意抽样”或“目标式抽 样”,是指根据调查人员的主观经验从总 体样本中选择那些被判断为最能代表总体 的单位作样本的抽样方法。 • 例如:要对福建省旅游市场状况进行调查 ,有关部门选择厦门、武夷山、泰宁金湖 等旅游风景区做为样本调查,这就是判断 抽样。
滚雪球抽样
• 定义:滚雪球抽样是指先随机选择一些被访者并对其实施 访问,再请他们提供另外一些属于所研究目标总体的调查 对象,根据所形成的线索选择此后的调查对象。 • 例如,要研究退休老人的生活,可以清晨到公园去结识几 位散步老人,再通过他们结识其朋友,不用很久,你就可 以交上一大批老年朋友。但是这种方法偏误也很大,那些 不好活动、不爱去公园、不爱和别人交往、喜欢一个人在 家里活动的老人,你就很难把雪球滚到他们那里去,而他 们却代表着另外一种退休后的生活方式。
系统抽样
• 系统抽样 ( systematic sampling)是系统化 地选择完整名单中的每第K个要素组成样本 。如果名册包含10000个要素,而需要 1000个样本时,选择每第10个要素作为样 本。
系统抽样方法潜藏的危机
• 例一, • 研究人员从名册中每隔10个士兵抽出一个来进行研究。然 而士兵的名册是依下列的组织方式来编排的:首先是中士 ,接着是下士,其后才是二等兵;用一班一班的方式进行 编排,每个班10个人。 • 因此,此名册中每隔10个便是一位中士。如此系统抽样可 能会取得一个完全是中士的样本,同样的理由,此方式也 可能会取得一个完全不含中士的样本。
例二
• 假设我们想在一栋公寓建筑物内选择公寓样本。 • 如果样本是从每个公寓的编码(如101,102,103,104 ,201 ,202等等)中抽出的话,那么所使用的抽样间隔,可能刚 好等于每层楼的户数或是每层楼户数的倍数。如此所选到 的样本有可能都是属于西北角的公寓或都是接近电梯的公 寓。 • 假设这些形态的公寓有一些共同的特性(如月租费较高), 样本就会产生偏误。
抽样框误差来源
• 抽样框存在偏误,会对预测结果造成很 大影响,因此,需要对抽样框误差来源进 行分析。
丢失目标总体单位:
• 也被称为“涵盖不足”,是指抽样框没有 覆盖全部目标总体单位,有些目标单位没 有在抽样框中出现,因而也就没有机会被 选入样本,这些单位成为丢失目标单位。 • 对丢失的总体单位不能发现并纠正会造成 调查中对总量的估计偏低。(未装电话)
• 抽样就是悬着观察对象的过程,比如在繁 忙的街道上每隔10人就访问一个人就可以 称为抽样。 • 抽样调查与总统选举。 • 抽样调查的历史来源。
3.1非概率抽样
• 无法选择概率样本的情形下采用非概率抽样:
• 例:要研究无家可归者,不但没有一份所有无 家可归者的现成名单,也不可能造一份这样的 名册。
3.2概率抽样方法
• 有意识与无意识的抽样误差 • 举例:“随机”访问遇到的100名学生 • 概率抽样是根据概率理论来选择样本的方 法的总称。一些随机选择机制就是典型。 其背后的基本观念是:要对总体进行有用 的描述,从该总体中抽样出来的样本必须 包含总体的各种差异特征。
几个重要概念
• 总体 (population):是一个统计问题中所涉及个体 的全体。 • 样本(sample):按一定程序从总体中抽取的一 组个体。 • 均值 (mean):表示一系列数据或统计总体的 平均特征的值。 • 样本容量(Sample size):样本中所含个体的数量 。
第3章
抽样方法与抽样分布
管理定量分析
第3章:抽样技术
•
2000年的美国总统选举一波三折,出现了前所未有的激 烈场面,爆出了“难产”的世纪大新闻。11月7日美国第54届 大选投票后,本应在第2天宣布大选结果,• 却因两党总统候选 人对决定胜负的佛罗里达州的计票结果发生严重争执,双方由 政治竞争发展到“对簿公堂”,大小官司打了50多场,从地方 法院,州法院,巡回法院,一直打到联邦最高法院,从而使大 选战火四处蔓延,美国上下沸沸扬扬,全世界都在注视佛州关 于选票所引起的混乱。只是联邦最高法院12月12日对佛州人 工重新计票问题作出最后裁决,戈尔14日发表“退出”竞选之 后,大选才有了最终结果。大举结果显然变成了审判的结果。 因此,不少政治评论家认为,布什总统不是选出来的,而是 “判”出来的。与此同时,共和党以“极其微弱的优势”继续 控制国会参众两院。这是1954年以来,共和党首次同时控制 白宫和国会。美政治分析家认为,共和党在这次大选中获得了 “全面胜利”。