统计学课件 第六章 抽样推断
合集下载
统计学课件-6 抽样推断
• 抽样推断可以用于工业生产过程的质量控制。 • 利用抽样推断法还可以对于某种总体的假设进行检验,
判断其真伪,以作出正确的决策。
5
6.1.2 抽样推断的基本概念
全及总体和样本总体
全及总体也称母体,简称总体(Population), 是指所要研究对象的全体。
样本总体又称子样,简称样本(Sample)。它 是从全及总体中随机抽取出来的,用以代表全及 总体的部分单位的集合。
抽样误差有实际抽样误差、抽样平均误差和抽样 极限误差三个密切联系而又相互区别的概念
18
6.2 抽样误差总体总体参数样本样本统计量
4
抽样推断的特点
• 建立在随机取样的基础上 • 运用概率估计法 • 存在着可控性误差
统计推断的作用
• 对有些不可能或不必要进行全面调查, 但又需要了解 其全面数量情况的社会经济现象,可以运用抽样推断, 实现调查的目的。
• 抽样调查与全面调查同时进行,可以发挥互相补充和 检查调查质量的作用。
非概率抽样又称非随机抽样,是对总体中每一个 体都给予平等的抽取机会,即每一个体抽中或不 抽取完全由机遇规律来决定,排除人的主观因素 的选择。
10
抽样框与抽样单元
抽样框又称抽样结构,是指包括全部抽样单位的 名单框架 。
• 抽样框的主要形式
✓ 名单抽样框,即列出全部总体单位的名录一览表。 ✓ 区域抽样框,即按地理位置将总体范围划分为若干小区域,
《淮南子·说山训》 偶然的东西是没有根据的,因为它是偶然的; 但同样因为它是偶然的,它又是有根据的。
黑格尔
3
6.1 抽样推断概述
6.1.1 抽样推断的意义及特点
抽样推断的意义
抽样推断是在随机抽样基础上推论有关总体的情 况,即用样本对从中抽取样本的那个总体的数量 特征作出具有一定可靠程度的估计和判断。
判断其真伪,以作出正确的决策。
5
6.1.2 抽样推断的基本概念
全及总体和样本总体
全及总体也称母体,简称总体(Population), 是指所要研究对象的全体。
样本总体又称子样,简称样本(Sample)。它 是从全及总体中随机抽取出来的,用以代表全及 总体的部分单位的集合。
抽样误差有实际抽样误差、抽样平均误差和抽样 极限误差三个密切联系而又相互区别的概念
18
6.2 抽样误差总体总体参数样本样本统计量
4
抽样推断的特点
• 建立在随机取样的基础上 • 运用概率估计法 • 存在着可控性误差
统计推断的作用
• 对有些不可能或不必要进行全面调查, 但又需要了解 其全面数量情况的社会经济现象,可以运用抽样推断, 实现调查的目的。
• 抽样调查与全面调查同时进行,可以发挥互相补充和 检查调查质量的作用。
非概率抽样又称非随机抽样,是对总体中每一个 体都给予平等的抽取机会,即每一个体抽中或不 抽取完全由机遇规律来决定,排除人的主观因素 的选择。
10
抽样框与抽样单元
抽样框又称抽样结构,是指包括全部抽样单位的 名单框架 。
• 抽样框的主要形式
✓ 名单抽样框,即列出全部总体单位的名录一览表。 ✓ 区域抽样框,即按地理位置将总体范围划分为若干小区域,
《淮南子·说山训》 偶然的东西是没有根据的,因为它是偶然的; 但同样因为它是偶然的,它又是有根据的。
黑格尔
3
6.1 抽样推断概述
6.1.1 抽样推断的意义及特点
抽样推断的意义
抽样推断是在随机抽样基础上推论有关总体的情 况,即用样本对从中抽取样本的那个总体的数量 特征作出具有一定可靠程度的估计和判断。
统计学第六章抽样推断
尖山一委…
尖山二委
居民一组
居民二
组
…
第六章 抽样推断
某外国公司在##进行 微波炉市场调查:
STAT
在商场的大门口
在微波炉柜台前
在市区街道旁边
在某个住宅小区
时间表抽样框
第六章 抽样推断
连续出产的产品总体 可以编制抽样框:均STAT 匀的出产时间、可以 预见到的产品总量.
连续到加油站加油的 汽车总体无法编制抽 样框:时间不定、总 量也无法确定.
抽样估计的特点
第六章 抽样推断
按随机原则抽取样本单位
目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度, 抽样误差可以事先计算并控制
抽样估计的应用
第六章 抽样推断
不可能进行全面调查时 不必要进行全面调查时 来不及进行全面调查时 对全面调查资料进行补充修正时
抽样调查研究
Sampling Study
P N nN N NN n
共n个
⒉ 不重复抽样的可能样本数目:
C N n N N 1 N n 1
第六章 抽样推断
第六章 抽样推断
STAT
★§1.1 抽样方案的设计 ★§1.2 简单随机抽样的抽样误差的测定
§1.3 简单随机抽样的抽样估计
第六章 抽样推断
§1.2 简单随机抽样的抽样误差的测定 STAT
n1 1{i n1E(xiX)2nn(E xX)2} 由E(于 xX)2D (x)D (i1 nxi)n 1 2i n1D (xi)n2
E(sn21)n11{n2nn2}
2
⒋ 样本成数:
pn1,qn0 1p nn
⒌ 样本单位是非标志的标准差:
第六章 抽样推断
统计学基础课件(第六章抽样推断)
Fundamentals of Statistics
统计是指这种偶然性代表性误差。 即按随机原则抽样时,在没有登记性误差和系统性误 差的条件下单纯由于不同的随机样本得出不同估计量 而产生的误差。抽样误差是抽样调查所固有的,是无 法避免与消除的,但可以运用数学方法计算其数量界 限,并通过抽样设计程序控制其范围,所以这种抽样 误差也称为可控制误差。 需要指出,抽样误差不是 固定不变的数,它的数值是随样本不同而变化的,所 以它也是随机变量。
重复抽样 AA AB AC AD BA BB BC BD CA CB CC CD DA DB DC DD
N n = 42 =16 (个样本)
Fundamentals of Statistics
统计学基础
第六章 抽样推断
不重复抽样
N(N-1)(N-2)……. 4×3 = 12(个样本)
Fundamentals of Statistics
Fundamentals of Statistics
统计学基础
第六章 抽样推断
本章主要内容 •抽样推断概述 •抽样误差 •抽样估计的方法 •样本容量的确定
Fundamentals of Statistics
统计学基础
第第一六章节抽样推抽断样推断概述
一、抽样推断的概念和特点 概念
抽样推断是在抽样调查的基础上,用样 本实际资料计算样本指标,并据以推算总 体相应的数量特征的一种统计分析方法。
代表性误差的发生有以下两种情况:
一种是由于违反抽样调查的随机原则,如有意地多选较好的 单位或较坏的单位进行调查。这样做,所据以计算的抽样指标 必然出现偏高或偏低现象,造成系统性的误差。系统性误差和 登记性误差都是不应当发生的,是可以也应该采取措施避免发 生或将其减小到最小限度。
第6章--抽样推断PPT优秀课件
不考虑顺序
(N n 1)! n!(N 1)!
不重复抽样:又称不回置抽样。
考虑顺序 N !
( N n )!
可能组成的样本数目
不考虑ห้องสมุดไป่ตู้序
N! ( N n )! n!
7
标号为A、B、C、D的四个圆球从中随机抽取两个 可能样本个数
考虑顺序 N n
AA、AB、AC、AD BA 、BB、BC、BD
CA、CB、CC、CD
p
p1p0.9 8 0.0 20.8(0% 8 )
n
300
p p1np1N n 0.938 0 0.0021630000 00 0.80(6 %
计算结果表明:不重复抽样的平均误差小于重复抽样, 但是“N”的数值越大,则两种方法计算 的抽样平均误差就越接近。
24
四、抽样极限误差
含义:
抽样极限误差指在进行抽样估计时,根据研究对象的变 异程度和分析任务的要求所确定的样本指标与总体指标 之间可允许的最大误差范围。
例题二解 已知: N 20 ,n 040,0 x 0 48 ,0 3000
则:
x
n
3001(5小)时 400
x
2 1 n 3020140013.42(小时 )
n N 400 2000
计算结果表明:
根据部分产品推断全部产品的平均使用寿命时,采用
不重复抽样比重复抽样的平均误差要小。
21
抽样成数平均误差的计算公式
例题二:
某厂生产一种新型灯泡共2000只,随机抽出 400只作耐用时间试验,测试结果平均使用寿 命为4800小时,样本标准差为300小时,求抽 样推断的平均误差?
17
下面求 Y 的无偏估计 y 的方差 V ( y )
统计学第六章抽样和抽样分布
2021/3/4
统计学第六章抽样和抽样分布
4
一、总体与样本
▪ 把握两个问题: ▪ 1、总体和总体参数; ▪ 2、样本和样本统计量。
2021/3/4
统计学第六章抽样和抽样分布
5
1、总体与总体参数
(1)总体:指根据研究目的确定的所 要研究的同类事物的全体,是所要说 明其数量特征的研究对象。按所研究 标志性质不同,分为变量总体和属性 总体,分别研究总体的数量特征和品 质特征。 构成总体的个别事物(基本单元 )就是总体单位,也称个体。总体单 位的总数称为总体容量,记作N。
缺点:受主观影响易产生倾向性误差; 不能计算、控制误差,无法说明调查结果 的可靠程度。
抽样一般都是指概率抽样。
2021/3/4
统计学第六章抽样和抽样分布
15
2、重复抽样和非重复抽样
(1)重复抽样:又称重置抽样,是指从总体 中抽出一个样本单位,记录其标志值后,又将 其放回总体中继续参加下一轮单位的抽取。特 点是:第一,n个单位的样本是由n次试验的结 果构成的。第二,每次试验是独立的,即其试 验的结果与前次、后次的结果无关。第三,每 次试验是在相同条件下进行的,每个单位在多 次试验中选中的机会(概率)是相同的。在重复 试验中,样本可能的个数是 N n ,N为总体单位 数,n为样本容量。
2021/3/4
统计学第六章抽样和抽样分布
16
2、重复抽样和非重复抽样
(2)非重复抽样:又称为不重置抽样,即每次从
总体抽取一个单位,登记后不放回原总体,不参加下
一轮抽样。下一次继续从总体中余下的单位抽取样本
。特点是:第一,n个单位的样本由 n 次试验结果构成
统计学第六章抽样和抽样分 布
第六章 抽样与抽样分布
《国民经济统计学概论》_第六章_抽样推断
总体未分组: 2 (X X )2 N
总体分组: 2 (X X )2 F F
总体成数的方差为 P(1 - P)
2.统计量,又称样本指标,反映样本特 征的统计指标
(1)样本平均数( x ),样本各 单位数量标志值的平均数
未分组: x x
n
分组: x xf f
(2)样本成数(p) 是指样本中具有某一相同标志表现的单
要有四个:
(1)总体平均数( X )
总体各单位数量标志值的平均数
X
总体未分组情况下:X N
总体分组情况下:
XF
X
F
(2)总体成数(P)
是指总体中具有某一相同标志表现的单 位数占全部总体单位数的比重
多为交替指标
总体中具有相同标志表现的单位数用N1 表示
P N1 N
(3)总体方差和标准差 总体方差(σ2)
特点: 1.抽样方式组织简便,便于实施 2.在已知总体某些有关信息的情况下,
采用等距抽样能保证样本单位在总体中 均匀的分布,从而提高了样本对总体的 代表性,有利于降低抽样误差。
无关标志排队 有关标志排队
(三)类型抽样 首先把总体按某一标志分成若干个类型
组,使各组组内标志值比较接近,然后 分别在各组内按随机原则抽取样本单位。 特点:在于把分组法和随机抽样原则结 合起来。
i2ni
n
抽样成数的平均误差:
重置抽样:
p
P(1 P) n
不重置抽样:
第四节 抽样的组织形式及抽样方 案设计
一、抽样的组织形式 (一)简单随机抽样 从总体全部单位中直接按随机原则抽取
样本单位,使每个总体单位都有同等机 会被抽中
最基本形式
(1)直接抽选法 直接从调查对象中随机抽选。
总体分组: 2 (X X )2 F F
总体成数的方差为 P(1 - P)
2.统计量,又称样本指标,反映样本特 征的统计指标
(1)样本平均数( x ),样本各 单位数量标志值的平均数
未分组: x x
n
分组: x xf f
(2)样本成数(p) 是指样本中具有某一相同标志表现的单
要有四个:
(1)总体平均数( X )
总体各单位数量标志值的平均数
X
总体未分组情况下:X N
总体分组情况下:
XF
X
F
(2)总体成数(P)
是指总体中具有某一相同标志表现的单 位数占全部总体单位数的比重
多为交替指标
总体中具有相同标志表现的单位数用N1 表示
P N1 N
(3)总体方差和标准差 总体方差(σ2)
特点: 1.抽样方式组织简便,便于实施 2.在已知总体某些有关信息的情况下,
采用等距抽样能保证样本单位在总体中 均匀的分布,从而提高了样本对总体的 代表性,有利于降低抽样误差。
无关标志排队 有关标志排队
(三)类型抽样 首先把总体按某一标志分成若干个类型
组,使各组组内标志值比较接近,然后 分别在各组内按随机原则抽取样本单位。 特点:在于把分组法和随机抽样原则结 合起来。
i2ni
n
抽样成数的平均误差:
重置抽样:
p
P(1 P) n
不重置抽样:
第四节 抽样的组织形式及抽样方 案设计
一、抽样的组织形式 (一)简单随机抽样 从总体全部单位中直接按随机原则抽取
样本单位,使每个总体单位都有同等机 会被抽中
最基本形式
(1)直接抽选法 直接从调查对象中随机抽选。
经济应用统计学-第六章抽样推断
非参数检验优缺点总结
• 易于理解和实现:非参数检验方法通常基于直观和易于理解的思想,计算和实现相对简单。
非参数检验优缺点总结
检验效能较低
与参数检验方法相比,非参数检 验方法的检验效能通常较低,即 当原假设为真时,非参数检验方 法更容易犯第二类错误(接受原 假设)。
对数据信息的利用不 充分
非参数检验方法通常只利用数据 的部分信息(如排序信息),而 忽略了数据的其他有用信息(如 数值大小),因此可能无法充分 利用数据信息。
两配对样本非参数检验
包括Wilcoxon 符号秩次检验、McNemar 检验 等方法,用于比较同一总体内两个配对样本的差 异是否显著。
两独立样本非参数检验
包括Mann-Whitney U 检验、Kruskal-Wallis H 检验等方法,用于比较两个独立样本所来自的 总体的分布位置或分布形状是否存在差异。
考虑样本量大小
在选择置信水平时,应充分考虑样本量的大小。当样本量较小时,应选择较低的置信水平以避免过大的估计误差;当 样本量较大时,可以选择较高的置信水平以获得更精确的估计结果。
参考相关文献或行业标准
在选择置信水平时,可以参考相关领域的文献或行业标准,了解通常采用的置信水平及其依据。这有助 于确保研究结果的可比性和可靠性。
04
假设检验原理与步骤
假设检验基本概念阐述
原假设与备择假设
原假设通常是研究者想要推翻的 假设,而备择假设则是研究者希 望证实的假设。
检验统计量与拒绝域
检验统计量是根据样本数据计算出 的用于检验原假设的统计量,而拒 绝域则是根据显著性水平和检验统 计量的分布确定的,当检验统计量 落入拒绝域时,我们拒绝原假设。
单侧检验
当研究者对备择假设的方向有明确预期时,即备择假设只可能大于或小于原假设时,应选择单侧检验 。例如,在比较两种药物疗效的研究中,如果研究者预期新药疗效优于旧药,则应选择单侧检验。
统计学课件第六章抽样调查PPT课件
特点
每个样本被选中的机会都 相等,样本的代表性相对 较好。
分层抽样
定义
先将总体按一定标准分成 若干层次或群,然后从各 层或群中按随机原则抽取 样本。
方法
分类抽样、比例抽样、类 型抽样。
特点
能够提高样本的代表性, 降低误差,减少资源浪费。
系统抽样
定义
先将总体中的所有个体按某种顺序排列,然后按 照固定的间隔或系统选取样本。
改进抽样方法
采用更科学的抽样方法和技术,如分层抽样、系统抽样等,以提 高样本的代表性。
提高样本代表性
在抽样过程中尽量减少非随机误差,如无回答、不完整数据等, 以提高样本对总体的代表性。
05 抽样调查的组织与实施
抽样调查的设计
确定调查目的
明确调查的目标和意图,为后 续的抽样设计提供指导。
确定调查对象
合理安排问题的顺序、布局和格式,以提高 问卷的易用性和回答率。
确定调查方式
选择合适的调查方式,如自填式、面访式等, 并确定数据收集的途径。
测试与修正
对问卷进行测试和修正,确保问卷的准确性 和可靠性。
调查的实施与质量控制
培训调查员
对调查员进行培训,确保他们了解调 查目的、问卷内容、调查方法等。
现场实施
将总体分成若干个群集或组,然后从每个 群集或组中抽取一定数量的样本,也称为 簇抽样或组抽样。
抽样调查的应用场景
01
02
03
04
市场调查
通过对目标市场的部分消费者 进行调查,了解市场需求、消 费者行为和产品反馈等信息。
社会调查
通过对一定范围内的社会成员 进行调查,了解社会现象、人 口状况和社会问题等信息。
统计学课件第六章抽样调查ppt课 件
统计学课件:抽样推断
3.当总体X~N(, 2),从中抽取容量为n的样本,则
n
2
(n 1)s2
2
~
(2 n-1); 2
(xi x)2
i 1
2
~
(2 n-1)
4. 2—分布的性质 (1)分布可加性 若X ~ 2(n1),Y~ 2(n2 ), X,Y独立,则 X +Y ~ 2(n1+n2 ) (2)期望与方差 若X~ 2(n),则 E(X)= n,D(X)=2n
3、进行产品质量检验 4、进行假设检验
(一)总体和样本 1、总体 总体也称全及总体,指所有认识的研究对象全体,它是
有所研究范围内具有某种共同性质的全体单位所组成的 集合体。 一般用英文字母大写N来表示总体的单位数。 2、样本 样本又称子样,它是从全及总体中随机抽取出来,作为 代表这一总体的那部分单位组成的集合体。 一般用英文小写字母n来表示样本的单位数。
5. 分位点 设X ~ 2(n),若对于:0<<1,
存在 2 (n) 0 满足
P{X 2 (n)} ,
则称 2 (n) 为 2 (n) 分布的上分位点。
2
(n
)
(二)t 分布
若X 服从N (0,1),Y 服从自由度为n的 2分布, 且X 和Y 独立,则 X
Y /n 服从自由度为n的 t分布。
1、全及指标 根据各单位的标志值或标志属性计算的,反映总体
数量特征的综合指标称为全及指标,又称为参数。
设总体变量 X 为: X1, X 2 ,X N 则有:
X X XF N F
2 X X 2 X X 2 F
N
F
设总体 N 个单位,有 N1 个单位具有某种性质, N0 个单位不具有某种性质,
《抽样推断》课件 (2)
参数估计
通过样本数据得到总体参数的估计值。
1
点估计
用单个统计量估计总体参数。
2
区间估计
用一个区间估计总体参数,包含真实参数的可能范围。
3
最大似然估计
选择使样本数据出现的概率最大的参数估计值。
置信区间的计算
置信区间提供了一个总体参数的范围估计。
计算方法
正态分布假设
根据样本数据和置信水平, 使用统计方法计算置信区间。
《抽样推断》PPT课件 (2)
抽样推断是统计学的重要概念之一,通过从总体中选取一部分样本,对总体 的特征进行推断。本课件将介绍抽样推断的概念、抽样方法、样本容量的确 定、参数估计、置信区间的计算、假设检验的基本原理以及实例分析。
抽样推断的概念
抽样推断是从样本数据中,通过统计方法推断总体的特征。借助抽样推断,我们能够在研究中得 到有关总体的重要信息,而无需对整个总体进行研究。
3 分层抽样
4 整群抽样
将总体划分为若干层,每层内进行简单 随机抽样。
将总体划分为若干群,随机抽取群内的 全部个体作为样本。
样本容量的确定
样本容量的大小对抽样推断的准确性有重要影响。
总体大小
总体越大,需要的样本容 量越大。
可接受的抽
置信水平
置信水平越高,需要的样 本容量越大。
在满足一定条件下,可以使 用正态分布进行置信区间的 计算。
置信水平
置信区间给出的范围包含了 真实总体参数的概率。
假设检验的基本原理
假设检验用于对总体参数的某个假设进行验证。
原假设
对总体参数的一个特定 值或范围的假设。
备择假设
与原假设相对立的假设。
检验统计量
用于比较观察到的样本 数据与原假设的预期值。
统计学 第6章 统计推断(1、2节)
即,我们有95%的把握认为,该外资 企业员工平均每周加班时间为52.3小时 至57.7小时之间。
第六章 统计推断
总体成数(比例)
1、假定条件
的区间估计
对于试验结果只有两种情况的总体(二项 总体),且为大样本,即满足
np 5和n(1 - p) 5
2、使用正态分布 z 统计量
第六章 统计推断
第六章 统计推断
设 是总体 的一个参数, 是参数 2的 1 和 X 两个统计量,且 ,对给定的常 1 2 数 ,及任意的 1) , 有 , (0 则称随机区间 ) 1 P( 1 2 是臵信度(臵信水平)为 的臵信区间 1 1 , 2 (区间估计)。其中 分别为臵信下限和 1 和 2 臵信上限。
(比例)为: 225 因为是大样本,故得: p 500 45% p (1 p ) p (1 p ) p z 2 , p z 2 n n
即,我们有95%的把握认为,19岁以下的青少年上网比例 在40.64%至49.36%之间。
第六章 统计推断
在简单随机抽样条件下,样本均值和样本 比例的抽样误差: 样本均值的抽样误差
重复抽样:
x
n
2
不重复抽样:
x
当总体方差 未知时,可用样本方差 代替。
第六章 统计推断
N n ( ) n N 1
2
s
2
样本比例的抽样误差
重复抽样: 不重复抽样:
p
1
n
p
2
第六章 统计推断
、1
2
方式一
统计-抽样推断PPT课件
➢按等价公式计算:
x
2 2.5 1.12(岁)
n
2
2 ( X X ) 2 ( 2 2 0 ) 2 ( 2 2 2 1 ) 2 ( 2 2 2 3 ) 2 ( 2 2 2 4 ) 2 2 2 . 5
N
4
.
12
• 对上述公式的验证——
例:有甲乙丙丁四个人,年龄分别为20、21、23、24岁,现随机抽 2人调查年龄,试计算抽样平均误差。
由 xt x
X
xtx,把有关数据代 结 该论 批入: 茶: 叶以达9到9.了73重%的量概规率格认。为
1. 3 5 3 0 0 . 0 8 X 7 1 5 6 0 3 0 . 0 .3 876
即15 : 0.0 4X150.5( 6 克) .
24
练习
某灯泡厂某月生产灯泡400万个,随机抽取400个进行检验, 得资料如下表:
20
-2
4
甲,乙
20,21
20.5
-1.5
2.25
甲,丙
20,23
21.5
-0.5
0.25
甲,丁
20,24
22
0
0
乙,甲
21,20
20.5
-1.5
2.25
乙,乙
21,21
21
-1
1
乙,丙
21,23
22
0
乙,丁
21,24
22.5
0.5
丙,甲
23,20
21.5
-0.5
丙,乙
23,21
22
0
丙,丙
23,23
.
4
第二节 抽样推断的相关概念
一、总体(又称全及总体)
《统计学》课件第6章抽样推断
01
定义
抽样推断是一种通过从总体中随 机抽取部分样本,并利用这些样 本数据来推断总体特性的统计方 法。
02
03
04
代表性
样本应具有代表性,能够反映总 体的特征和规律。
抽样推断的重要性
01
02
03
节省成本
通过抽样可以减少所需的 数据量,降低调查成本。
提高效率
通过快速收集样本数据, 能够快速获得总体信息, 提高调查效率。
对数据进行核查,确保 数据的准确性,及时纠
正错误或异常值。
分类与编码
对数据进行适当的分类 和编码,以便进行后续
的数据分析。
数据清理
删除或修正不准确、不 完整或重复的数据,提
高数据质量。
数据分析与解释
描述性统计
使用描述性统计方法,如平均 数、中位数、众数、标准差等
,对数据进行初步分析。
推断性统计
根据调查目的,选择合适的推 断性统计方法,如回归分析、 方差分析、卡方检验等,对总 体进行推断。
非参数假设检验的步骤
确定数据特征、提出假设、构造检验统计量、确定临界值、作出推 断结论。
非参数假设检验的优缺点
优点是适用范围广、灵活性高;缺点是计算较为复杂,需要更多的 样本数据支持。
05
样本量的确定
影响样本量的因素
总体标准差
总体标准差越大,需要的样本量 也越大,以减小估计误差。
置信水平置信水平越Biblioteka ,所需样本量也越 大,以减小估计误差。
《统计学》课件第6章抽样 推断
目录
• 抽样推断概述 • 抽样方法与技术 • 参数估计 • 假设检验 • 样本量的确定 • 实例分析
01
抽样推断概述
统计学教学课件:第六章 抽样推断
已知: N 5000, 300小时,x 25小时
F (t) 95% t 1.96
重复抽样:
二、区间估计
总体指标的推断(置信区间):
x x X x x pp P pp
说明在一定可能下,总 体指标落在抽样指标的 一定范围内。
置信区间: X [x x , x x ]
P [ p p, p p ]
置信区间是统计意义上的,即一定概率下,总体指标所 落在的区间长度,等于两倍的抽样极限误差。
第四节 全及指标的推断
抽样调查的目的是为了用样本指标推断总 体指标。对总体指标的估计有两种,一种是点 估计,一种是区间估计。
一、点估计(又称“定值估计”)
——不考虑抽样误差,直接用样本指标代替全及指标。即:
X x;P p
点估计不能说明误差大小,意义不大;而采用区间估 计,可以将误差控制在一定的范围内(即说明总体指标 在某一范围内的可能性大小) 。
1. 概念:先将总体单位按某一有关标志分类(组),再按
随机原则从各类(组)中抽取样本的组织形式。
(1)样本容量n的 分配方法:
① 等比例抽取
② 不等比例抽取 (标志变异大的组多抽,反之少抽。)
组与组之间是全面调查(组间方差不影响 ) (2)特点:
组内是非全面调查(组内方差影响 )
注:类型抽样的误差常小于简单随机抽样。
原则:
节省人力、物力、财力;
保证抽样推断能达到预期的可靠程度和精确 度的要求下,确定一个适当的样本容量。
确定必要抽样单位数n的依据
1、总体被研究标志的变异程度(变异大多抽,小则少抽) 2、抽样误差的范围(精确程度)(范围大少抽,小则多抽) 3、抽样推断的可靠程度(可靠程度高多抽,反之少抽)
统计学A第6章 抽样推断
2
样本可能数目
3 0.577 9
计算复杂,可对 定义公式变形为 更为简单的形式
3.2 抽样平均误差
(2)抽样平均误差的计算 1)抽样平均数的抽样平均误差 ① 重复抽样
第6章 抽样推断 第3节 抽样平均误差
x
(总体标准差)
n (样本容量)
在总体标准差未知, 且样本单位数较大时, 可用样本标准差代替。
解: 已知: n 100, x 58, x
则:
x
10
10 1(公斤) 100 n
x
即: 当根据样本学生的平均体重估计全部学生 的平均体重时,抽样平均误差为1公斤。
② 不重复抽样
1)抽样平均数的抽样平均误差
例2: 某厂生产一种新型灯泡共2000只,随机抽出400只作 耐用时间试验,测试结果平均使用寿命为4800小时, 样本标准差为300小时,求抽样推断的平均误差?
的数量特征做出具有一定可靠性的估计判断,从而达
到对全部研究对象的认识的一种统计方法。 一、 2.特点 ① 抽样调查建立在随机取样的基础上; ② 抽样推断是由部分推算总体的一种方法; ③ 抽样推断是运用概率估计的方法; ④ 抽样推断的抽样误差可以事先计算并加以控制。
1.2 抽样调查的作用
第6章 抽样推断 第1节 抽样调查的意义和作用
x E x
1 0.25 0 0.25 0 0.25 0 0.25 1
2
合计
—
—
27
3
3.2 抽样平均误差
第6章 抽样推断 第3节 抽样平均误差
例1 样本平均数的平均数(总体平均数)
27 23 4 E x 3(或X 3) 9 3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:从某企业的全部员工1000人中随机抽出40个员工调查他们的 每日加班时间,调查结果见下表:
每日加班时间(小时) 人数(人)
2以下
5
2----4
25
4以上
10
合计
40
1、请计算40个员工的平均每 人每日加班时间及标准差?
2、请计算日加班时间不少于 2小时员工的成数(比重)及 标准差?
第一节 抽样推断的一般问题
x
x
x
x
由于 t t 1 0.2 0.2
x
x
2 0.2 X 2 0.2 1.8 X 2.2
第二节 抽样误差
(2)要求的把握(概率)为95.45%时,则总体指标应当介于
2 0.4 X 2 0.4
t 2 0.2 0.4
x
x
1.6 X 2.4
(3)要求的把握(概率)为99.73%时,则总体指标应当介于
的灯泡的比例的可能范围?
1、 x 4500(小时) t=1.96
2 300 3(0 小时)
x n n 100
x t X x t
x
x
2、
p
20 100
20%
t=1.96
4500 1.96 30 X 4500 1.96 30
p
p (1 p) n
20% 80% 4% 100
x
2
nn
50 0.(5 分钟) 10000
p
p (1 p) 10% 90% 0.3%
n
10000
第二节 抽样误差
(三)影响抽样平均误差的因素 1、总体各单位标志的变异程度。变异程度越大,误差越大。 2、样本容量的大小。样本容量越大,误差越小。 3、抽样方法。 4、抽样组织方式。 三、抽样极限误差(△)
p t p P p t p
20%1.964% P 20%1.964%
第三节 抽样估计
一、抽样估计 指根据样本指标对总体参数进行估计,也称为参数估计。包括点估 计和区间估计。 (一)点估计 又称定值估计,即用样本指标值作为总体参数的估计值。 实际中,用样本平均指标值估计总体平均指标值;用样本成数值估 计总体成数值;用样本方差值估计总体方差值。 但要注意:样本方差 s2 不是总体方差 2 的无偏估计量,而修正
1、x
xf f
15 3 25 510 3.25(小时) 40
s
(x x)2 f
(1 3.25)2 5 (3 3.25)2 25 (5 3.25)2 10 1.199(小时)
f
40
2、p n1 35 87.5% n 40
s p q p (1 p) n1 n0 87.5% 12.5% 33.07% nn
1、 x
2
nn
40 (4 元) 100
2、
p
p (1 p) n
30% 70% 4.58% 100
第二节 抽样误差
课堂练习:湖南卫视从全国收看快乐男声节目的观众中随机抽取了 10000名进行调查,来了解观众收看快乐男声节目的平均时间,调 查结果为:这10000名观众的平均收看时间为120分钟,标准差为 50分钟,其中有1000名竟然是老年人。 问题(1)请计算观众平均收看时间的抽样平均误差?(2)请计算 收看快乐男声节目的老年人比例的抽样平均误差?
n 1
(x x)2 (n 30) s n
(x x)2 f f 1
(x x)2 f
f
(
f
30)
第一节 抽样推断的一般问题
(2)属性问题下、包括样本成数、样本方差和标准差。即: p n1
n
s2 p q p (1 p) n1 n0 nn
s p q p (1 p) n1 n0 nn
◆抽样平均误差:所有可能出现的样本的指标值与总体指标值离差
平方的平均数的平方根。一般用 表示
变量问题: x
属性问题: p
第二节 抽样误差
(x X)2
x
所有可能抽取的样本数目
( p P)2
p 所有可能抽取的样本数目
例:假设有A、B、C、D四个人,假设每个人的收入分别为1、2、 3、4,现在要从中不重复随机抽出2个人进行调查他们的平均收入 水平。共有6种可能:AB、AC、AD、BC、BD、CD。即有6个可 能的样本,也意味着有6个样本平均数,分别为:1.5、2、2.5、 2.5、3、3.5,而总体平均数为2.5,则抽样平均误差为:
在目的Ⅰ下是变量总体和变量样本,在目的Ⅱ下是属性总体和属性 样本
第一节 抽样推断的一般问题
注意:从一个总体中抽出容量为n的样本,有多种可能性,即抽样 前不确定到底抽出哪个样本。
例:假设有A、B、C、D四个人,现在要从中随机抽出2个人进行 调查。共有6种可能:AB、AC、AD、BC、BD、CD。但在抽之前 是无法知道到底会抽出哪种组合,即每种组合都有1/6的可能。 ●n≥30为大样本;n<30为小样本。 (二)总体参数(总体指标)和统计量(样本指标)
●指样本指标与总体指标之间的误差范围,用符号△表示,计算公 式为:
x
x
X
p pP
例:假设有A、B、C、D四个人,假设每个人的收入分别为1、2、
3、4,现在要从中不重复随机抽出2个人进行调查他们的平均收入
水平。共有6种可能:AB、AC、AD、BC、BD、CD。即有6个可
能的样本,也意味着有6个样本平均数,分别为:1.5、2、2.5、
2 0.6 X 2 0.6
t 3 0.2 0.6
x
x
1.4 X 2.6
把握越大,误 差越大。
1.4 1.6 1.8 2 2.2 2.4 2.6
第二节 抽样误差
根据前例可得,用样本指标推断总体参数(总体指标)的计算公式 为:
x X x
x
x
x t X x t
x
x
即只要知道了样本指标、概率和抽 样平均误差就可以推断出总体指标 的可能范围。
投飞镖比赛
第二节 抽样误差
概率(把握性)与概率度的关系:
概率度(t) 1
概率F(t) 0.6827
1.96
0.9500
2
0.9545
3
0.9973
例:假设样本平均数为2,抽样平均误差为0.2,现在用样本指标来 推断总体指标的范围。 (1)要求的把握(概率)为68.27%时,则总体指标应当介于
x X x 2 X 2
2
x
n
n
重复抽样
2
(
N
n
)
2 (1 n )
x n N 1
nN
不重复抽样
2、属性问题(成数)的抽样平均误差
p
p (1 p) n
重复抽样
p
p (1 p) ( N n ) n N 1
p (1 p) (1 n )
n
N
不重复抽样
第二节 抽样误差
由于总体标准差和方差未知,可用以下方法解决:
1、总体参数
(1)变量问题下,包括总体平均数、总体方差和标准差。即:
X X N
X
XF F
∑F=N
2 (X - X)
N
2 (X - X)F F
(X - X)
N
(X - X)F F
第一节 抽样推断的一般问题
(2)属性问题下、包括总体成数、总体方差和标准差。即:
P N1 N
2 P Q P (1 P) N1 N0
第一节 抽样推断的一般问题
(三)重置抽样(重复抽样)和不重置抽样 三、抽样推断的特点 1、部分推断总体 2、建立在随机概率的基础上 3、运用概率估计的方法 4、误差可事先计算并加以控制
第二节 抽样误差
一、抽样误差的概念
●指样本指标与总体指标之间的差数。按原因分为:登记性误差和 代表性误差 1、登记性误差:全面和非全面调查都会产生,但能够控制并消除。 2、代表性误差:抽样调查才有。具体分为系统性误差和随机误差: ◆系统性误差:未遵循随机原则造成。可以消除。
NN
P Q P (1 P) N1 N0
NN
2、统计量
(1)变量问题下,包括样本平均数、样本方差和标准差。即:
x x n
x xf f
s2
(x x)2
(x x)2 (n 30)
n 1
n
s2 (x x)2 f f 1
(x x)2 f f
( f
30)
s
(x x)2
x
2
nn
50 0.(5 分钟) 10000
x 120(分钟)
t=2
x t X x t
x
x
119 X 121
120 2 0.5 X 120 2 0.5
p
p (1 p) 10% 90% 0.3%
n
10000
t=2
p 1000 10% 10000
p t p P p t p
定抽样极限误差,那么总体指标的可能范围就能确定出来。
●抽样极限误差还有另外一个计算公式:
t t : 概率度
●概率度:将抽样极限误差标准化后的一个度量。
第二节 抽样误差
●概率:某个随机事件出现的可能性。如向天空抛出一枚硬币,出 现正面和反面属于随机事件,出现的概率为50%。概率的取值范围 介于0到1之间。 ●一般来说,用样本指标来推断总体指标的时候,若误差越大,则 把握性越大。
2.5、3、3.5,而总体平均数为2.5。
1.5 2 2.5 3 3.5
第二节 抽样误差
xX x
该式表明样本指标在总体参数周围的某一范围内变动,把上面的公 式展开可得到:
X x X
x
x
再进行转换可得到:
x X x
x
x
该不等式表示总体指标(参数)应当介于样本指标分别加减极限误
每日加班时间(小时) 人数(人)
2以下
5
2----4
25
4以上
10
合计
40
1、请计算40个员工的平均每 人每日加班时间及标准差?
2、请计算日加班时间不少于 2小时员工的成数(比重)及 标准差?
第一节 抽样推断的一般问题
x
x
x
x
由于 t t 1 0.2 0.2
x
x
2 0.2 X 2 0.2 1.8 X 2.2
第二节 抽样误差
(2)要求的把握(概率)为95.45%时,则总体指标应当介于
2 0.4 X 2 0.4
t 2 0.2 0.4
x
x
1.6 X 2.4
(3)要求的把握(概率)为99.73%时,则总体指标应当介于
的灯泡的比例的可能范围?
1、 x 4500(小时) t=1.96
2 300 3(0 小时)
x n n 100
x t X x t
x
x
2、
p
20 100
20%
t=1.96
4500 1.96 30 X 4500 1.96 30
p
p (1 p) n
20% 80% 4% 100
x
2
nn
50 0.(5 分钟) 10000
p
p (1 p) 10% 90% 0.3%
n
10000
第二节 抽样误差
(三)影响抽样平均误差的因素 1、总体各单位标志的变异程度。变异程度越大,误差越大。 2、样本容量的大小。样本容量越大,误差越小。 3、抽样方法。 4、抽样组织方式。 三、抽样极限误差(△)
p t p P p t p
20%1.964% P 20%1.964%
第三节 抽样估计
一、抽样估计 指根据样本指标对总体参数进行估计,也称为参数估计。包括点估 计和区间估计。 (一)点估计 又称定值估计,即用样本指标值作为总体参数的估计值。 实际中,用样本平均指标值估计总体平均指标值;用样本成数值估 计总体成数值;用样本方差值估计总体方差值。 但要注意:样本方差 s2 不是总体方差 2 的无偏估计量,而修正
1、x
xf f
15 3 25 510 3.25(小时) 40
s
(x x)2 f
(1 3.25)2 5 (3 3.25)2 25 (5 3.25)2 10 1.199(小时)
f
40
2、p n1 35 87.5% n 40
s p q p (1 p) n1 n0 87.5% 12.5% 33.07% nn
1、 x
2
nn
40 (4 元) 100
2、
p
p (1 p) n
30% 70% 4.58% 100
第二节 抽样误差
课堂练习:湖南卫视从全国收看快乐男声节目的观众中随机抽取了 10000名进行调查,来了解观众收看快乐男声节目的平均时间,调 查结果为:这10000名观众的平均收看时间为120分钟,标准差为 50分钟,其中有1000名竟然是老年人。 问题(1)请计算观众平均收看时间的抽样平均误差?(2)请计算 收看快乐男声节目的老年人比例的抽样平均误差?
n 1
(x x)2 (n 30) s n
(x x)2 f f 1
(x x)2 f
f
(
f
30)
第一节 抽样推断的一般问题
(2)属性问题下、包括样本成数、样本方差和标准差。即: p n1
n
s2 p q p (1 p) n1 n0 nn
s p q p (1 p) n1 n0 nn
◆抽样平均误差:所有可能出现的样本的指标值与总体指标值离差
平方的平均数的平方根。一般用 表示
变量问题: x
属性问题: p
第二节 抽样误差
(x X)2
x
所有可能抽取的样本数目
( p P)2
p 所有可能抽取的样本数目
例:假设有A、B、C、D四个人,假设每个人的收入分别为1、2、 3、4,现在要从中不重复随机抽出2个人进行调查他们的平均收入 水平。共有6种可能:AB、AC、AD、BC、BD、CD。即有6个可 能的样本,也意味着有6个样本平均数,分别为:1.5、2、2.5、 2.5、3、3.5,而总体平均数为2.5,则抽样平均误差为:
在目的Ⅰ下是变量总体和变量样本,在目的Ⅱ下是属性总体和属性 样本
第一节 抽样推断的一般问题
注意:从一个总体中抽出容量为n的样本,有多种可能性,即抽样 前不确定到底抽出哪个样本。
例:假设有A、B、C、D四个人,现在要从中随机抽出2个人进行 调查。共有6种可能:AB、AC、AD、BC、BD、CD。但在抽之前 是无法知道到底会抽出哪种组合,即每种组合都有1/6的可能。 ●n≥30为大样本;n<30为小样本。 (二)总体参数(总体指标)和统计量(样本指标)
●指样本指标与总体指标之间的误差范围,用符号△表示,计算公 式为:
x
x
X
p pP
例:假设有A、B、C、D四个人,假设每个人的收入分别为1、2、
3、4,现在要从中不重复随机抽出2个人进行调查他们的平均收入
水平。共有6种可能:AB、AC、AD、BC、BD、CD。即有6个可
能的样本,也意味着有6个样本平均数,分别为:1.5、2、2.5、
2 0.6 X 2 0.6
t 3 0.2 0.6
x
x
1.4 X 2.6
把握越大,误 差越大。
1.4 1.6 1.8 2 2.2 2.4 2.6
第二节 抽样误差
根据前例可得,用样本指标推断总体参数(总体指标)的计算公式 为:
x X x
x
x
x t X x t
x
x
即只要知道了样本指标、概率和抽 样平均误差就可以推断出总体指标 的可能范围。
投飞镖比赛
第二节 抽样误差
概率(把握性)与概率度的关系:
概率度(t) 1
概率F(t) 0.6827
1.96
0.9500
2
0.9545
3
0.9973
例:假设样本平均数为2,抽样平均误差为0.2,现在用样本指标来 推断总体指标的范围。 (1)要求的把握(概率)为68.27%时,则总体指标应当介于
x X x 2 X 2
2
x
n
n
重复抽样
2
(
N
n
)
2 (1 n )
x n N 1
nN
不重复抽样
2、属性问题(成数)的抽样平均误差
p
p (1 p) n
重复抽样
p
p (1 p) ( N n ) n N 1
p (1 p) (1 n )
n
N
不重复抽样
第二节 抽样误差
由于总体标准差和方差未知,可用以下方法解决:
1、总体参数
(1)变量问题下,包括总体平均数、总体方差和标准差。即:
X X N
X
XF F
∑F=N
2 (X - X)
N
2 (X - X)F F
(X - X)
N
(X - X)F F
第一节 抽样推断的一般问题
(2)属性问题下、包括总体成数、总体方差和标准差。即:
P N1 N
2 P Q P (1 P) N1 N0
第一节 抽样推断的一般问题
(三)重置抽样(重复抽样)和不重置抽样 三、抽样推断的特点 1、部分推断总体 2、建立在随机概率的基础上 3、运用概率估计的方法 4、误差可事先计算并加以控制
第二节 抽样误差
一、抽样误差的概念
●指样本指标与总体指标之间的差数。按原因分为:登记性误差和 代表性误差 1、登记性误差:全面和非全面调查都会产生,但能够控制并消除。 2、代表性误差:抽样调查才有。具体分为系统性误差和随机误差: ◆系统性误差:未遵循随机原则造成。可以消除。
NN
P Q P (1 P) N1 N0
NN
2、统计量
(1)变量问题下,包括样本平均数、样本方差和标准差。即:
x x n
x xf f
s2
(x x)2
(x x)2 (n 30)
n 1
n
s2 (x x)2 f f 1
(x x)2 f f
( f
30)
s
(x x)2
x
2
nn
50 0.(5 分钟) 10000
x 120(分钟)
t=2
x t X x t
x
x
119 X 121
120 2 0.5 X 120 2 0.5
p
p (1 p) 10% 90% 0.3%
n
10000
t=2
p 1000 10% 10000
p t p P p t p
定抽样极限误差,那么总体指标的可能范围就能确定出来。
●抽样极限误差还有另外一个计算公式:
t t : 概率度
●概率度:将抽样极限误差标准化后的一个度量。
第二节 抽样误差
●概率:某个随机事件出现的可能性。如向天空抛出一枚硬币,出 现正面和反面属于随机事件,出现的概率为50%。概率的取值范围 介于0到1之间。 ●一般来说,用样本指标来推断总体指标的时候,若误差越大,则 把握性越大。
2.5、3、3.5,而总体平均数为2.5。
1.5 2 2.5 3 3.5
第二节 抽样误差
xX x
该式表明样本指标在总体参数周围的某一范围内变动,把上面的公 式展开可得到:
X x X
x
x
再进行转换可得到:
x X x
x
x
该不等式表示总体指标(参数)应当介于样本指标分别加减极限误