统计学教案(第6章抽样推断)
统计学课件-6 抽样推断
判断其真伪,以作出正确的决策。
5
6.1.2 抽样推断的基本概念
全及总体和样本总体
全及总体也称母体,简称总体(Population), 是指所要研究对象的全体。
样本总体又称子样,简称样本(Sample)。它 是从全及总体中随机抽取出来的,用以代表全及 总体的部分单位的集合。
抽样误差有实际抽样误差、抽样平均误差和抽样 极限误差三个密切联系而又相互区别的概念
18
6.2 抽样误差总体总体参数样本样本统计量
4
抽样推断的特点
• 建立在随机取样的基础上 • 运用概率估计法 • 存在着可控性误差
统计推断的作用
• 对有些不可能或不必要进行全面调查, 但又需要了解 其全面数量情况的社会经济现象,可以运用抽样推断, 实现调查的目的。
• 抽样调查与全面调查同时进行,可以发挥互相补充和 检查调查质量的作用。
非概率抽样又称非随机抽样,是对总体中每一个 体都给予平等的抽取机会,即每一个体抽中或不 抽取完全由机遇规律来决定,排除人的主观因素 的选择。
10
抽样框与抽样单元
抽样框又称抽样结构,是指包括全部抽样单位的 名单框架 。
• 抽样框的主要形式
✓ 名单抽样框,即列出全部总体单位的名录一览表。 ✓ 区域抽样框,即按地理位置将总体范围划分为若干小区域,
《淮南子·说山训》 偶然的东西是没有根据的,因为它是偶然的; 但同样因为它是偶然的,它又是有根据的。
黑格尔
3
6.1 抽样推断概述
6.1.1 抽样推断的意义及特点
抽样推断的意义
抽样推断是在随机抽样基础上推论有关总体的情 况,即用样本对从中抽取样本的那个总体的数量 特征作出具有一定可靠程度的估计和判断。
统计学基础课件(第六章抽样推断)
统计学基础
第六章 抽样推断
其中一类是登记性误差,即在调查过程中由于观察、 测量、登记、计算上的差错所引起的误差,这类误差 是所有统计调查都可能发生的。
另一类是代表性误差,即样本各单位的结构不足以 代表总体而引起的误差。
Fundamentals of Statistics
统计学基础
第六章 抽样推断
第六章 抽样推断
第六章 抽样推断
Fundamentals of Statistics
统计学基础
第六章 抽样推断
教学目的与要求:
抽样估计是抽样调查的继续, 它提供了一套利用抽样资料来 估计总体数量特征的方法。通 过本章的学习,要理解和掌握 抽样估计的概念、特点,抽样 误差的含义、计算方法,抽样 估计的置信度,推断总体参数 的方法,能结合实际资料进行 抽样估计。
(只有两种表现)
Fundamentals of Statistics
总体成数
P=
N1 N
成数标准差 p
P 1 P 统计学基础
第六章 抽样推断
样本指标是根据样本各单位标志值或标志属性
计算的综合指标。
x
=
∑x n
研究数 样本平均数
x
=
∑xf ∑f
量标志
样本标准差
x
2
x
n
x
x
2
x
f
f
研究品 质标志
含义: 抽样极限误差是指样本指标和总体指标之间抽
样误差的可能范围。由于总体指标是一个确定的 数,而样本指标则是围绕着总体指标左右变动的 量,它与总体指标可能产生正离差,也可能产生 负离差,样本指标变动的上限或下限与总体指标 之差的绝对值就可以表示抽样误差的可能范围, 我们将这种以绝对值形式表示的抽样误差可能范 围称为抽样极限误差。
统计学第六章抽样推断
尖山一委…
尖山二委
居民一组
居民二
组
…
第六章 抽样推断
某外国公司在##进行 微波炉市场调查:
STAT
在商场的大门口
在微波炉柜台前
在市区街道旁边
在某个住宅小区
时间表抽样框
第六章 抽样推断
连续出产的产品总体 可以编制抽样框:均STAT 匀的出产时间、可以 预见到的产品总量.
连续到加油站加油的 汽车总体无法编制抽 样框:时间不定、总 量也无法确定.
抽样估计的特点
第六章 抽样推断
按随机原则抽取样本单位
目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度, 抽样误差可以事先计算并控制
抽样估计的应用
第六章 抽样推断
不可能进行全面调查时 不必要进行全面调查时 来不及进行全面调查时 对全面调查资料进行补充修正时
抽样调查研究
Sampling Study
P N nN N NN n
共n个
⒉ 不重复抽样的可能样本数目:
C N n N N 1 N n 1
第六章 抽样推断
第六章 抽样推断
STAT
★§1.1 抽样方案的设计 ★§1.2 简单随机抽样的抽样误差的测定
§1.3 简单随机抽样的抽样估计
第六章 抽样推断
§1.2 简单随机抽样的抽样误差的测定 STAT
n1 1{i n1E(xiX)2nn(E xX)2} 由E(于 xX)2D (x)D (i1 nxi)n 1 2i n1D (xi)n2
E(sn21)n11{n2nn2}
2
⒋ 样本成数:
pn1,qn0 1p nn
⒌ 样本单位是非标志的标准差:
第六章 抽样推断
统计学原理-第六章 抽样调查(复旦大学第六版)
2.样本总体:简称样本,是从全及总体中随机
抽取出来,代表全及总体部分单 位的集合体。单位数用n表示。
5
二.全及指标和抽样指标
(一)全及指标
X 总体平均数: X N 总体成数:P
2
XF 或X F Q=
2 2
N1 N N
(X-X) 总体方差: = 总体标准差:= (X-X)
(一)考虑顺序的不重复抽样数目
N! A N ( N 1)(N 2) ( N n 1) ( N n)! 4 3 2 1 2 例如A4 12 2 1
n N
(二)考虑顺序的重复抽样数目
B N
n N 2 4
n 2
例如 B 4 16
10
(三)不考虑顺序的不重复抽样数目
Ex X
28
2、一致性 当抽样单位数充分大时,抽样指标和未知 的总体指标之间的绝对离差为任意小的可能性 也趋于必然性。
x X 任意小
3、有效性
即用抽样指标估计总体指标,要求作为优良估 计量方差应该比其他估计量的方差小。
2
x X f
2
f
2
x X f
x
x E ( x)
2
18
说明:根据数理统计理论,在重复抽样条件下, 抽样平均误差与全及总体的标准差成正比例关系。 与抽样总体单位平方根成反比关系。
19
在不重复抽样情况下,抽样平均误差计算公式如下:
x x
N n 250 4-2 ( )= ( ) =9.13(件) n N 1 2 4-1
2
N
X X F 或 F X X F 或 F
统计学基础课件(第六章抽样推断)
Fundamentals of Statistics
统计是指这种偶然性代表性误差。 即按随机原则抽样时,在没有登记性误差和系统性误 差的条件下单纯由于不同的随机样本得出不同估计量 而产生的误差。抽样误差是抽样调查所固有的,是无 法避免与消除的,但可以运用数学方法计算其数量界 限,并通过抽样设计程序控制其范围,所以这种抽样 误差也称为可控制误差。 需要指出,抽样误差不是 固定不变的数,它的数值是随样本不同而变化的,所 以它也是随机变量。
重复抽样 AA AB AC AD BA BB BC BD CA CB CC CD DA DB DC DD
N n = 42 =16 (个样本)
Fundamentals of Statistics
统计学基础
第六章 抽样推断
不重复抽样
N(N-1)(N-2)……. 4×3 = 12(个样本)
Fundamentals of Statistics
Fundamentals of Statistics
统计学基础
第六章 抽样推断
本章主要内容 •抽样推断概述 •抽样误差 •抽样估计的方法 •样本容量的确定
Fundamentals of Statistics
统计学基础
第第一六章节抽样推抽断样推断概述
一、抽样推断的概念和特点 概念
抽样推断是在抽样调查的基础上,用样 本实际资料计算样本指标,并据以推算总 体相应的数量特征的一种统计分析方法。
代表性误差的发生有以下两种情况:
一种是由于违反抽样调查的随机原则,如有意地多选较好的 单位或较坏的单位进行调查。这样做,所据以计算的抽样指标 必然出现偏高或偏低现象,造成系统性的误差。系统性误差和 登记性误差都是不应当发生的,是可以也应该采取措施避免发 生或将其减小到最小限度。
统计学 第 6 章 抽样与参数估计
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
统计学第六章 抽样法
第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80
-
x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数
据
概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计
据
总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。
胡德华版统计学第六章
6.2.2 机械抽样
机械抽样又称等距抽样或系统抽样, 机械抽样又称等距抽样或系统抽样,就是将总体的各单位按某一标 志的大小进行排队,用总体单位数除以样本单位数求得抽样间隔, 志的大小进行排队,用总体单位数除以样本单位数求得抽样间隔,然后 按照相同的间隔等距抽取样本的一种抽样方式。 按照相同的间隔等距抽取样本的一种抽样方式。 根据总体单位排列方法,等距抽样可分为两类: 根据总体单位排列方法,等距抽样可分为两类:一是按有关标志排 二是按无关标志排队。 队;二是按无关标志排队。 所谓有关标志就是指与调查问题直接相关的标志。 所谓有关标志就是指与调查问题直接相关的标志。 采用等距抽样法,主要应解决以下两个问题: 采用等距抽样法,主要应解决以下两个问题: 一是要计算抽样间隔, 代表抽样间隔, 代表总体单位数 代表总体单位数, 代 一是要计算抽样间隔,若K代表抽样间隔,N代表总体单位数,n代 代表抽样间隔 表抽取的样本单位数, 表抽取的样本单位数,则K=N / n 。 二是要确定起点样本,即第一个样本。 二是要确定起点样本,即第一个样本。通常的方法可采取在第一组 1-K个样本单位中随机抽取的方法,也可以在第一组 个样本单位中随机抽取的方法, 个样本单位中随机抽取的方法 也可以在第一组1-K个样本单位中采 个样本单位中采 用取中间值的方法,然后,每隔K个单位抽取一个样本 个单位抽取一个样本, 用取中间值的方法,然后,每隔 个单位抽取一个样本,直到抽够样本 为止。 为止。 等距随机抽样方法可以使样本单位均匀地分布在总体的各个部分, 等距随机抽样方法可以使样本单位均匀地分布在总体的各个部分, 因而使样本具有更高的代表性,减少了抽样误差; 因而使样本具有更高的代表性,减少了抽样误差;采用机械顺序抽取样 简单易行,便于操作。但是,在应用等距抽样方法时, 本,简单易行,便于操作。但是,在应用等距抽样方法时,要注意抽样 间隔与现象本身所具有的规律不能重叠,否则,会加大抽样误差。 间隔与现象本身所具有的规律不能重叠,否则,会加大抽样误差。 等距随机抽样方法比较适合于同质性较高的总体。 等距随机抽样方法比较适合于同质性较高的总体。
《国民经济统计学概论》_第六章_抽样推断
总体分组: 2 (X X )2 F F
总体成数的方差为 P(1 - P)
2.统计量,又称样本指标,反映样本特 征的统计指标
(1)样本平均数( x ),样本各 单位数量标志值的平均数
未分组: x x
n
分组: x xf f
(2)样本成数(p) 是指样本中具有某一相同标志表现的单
要有四个:
(1)总体平均数( X )
总体各单位数量标志值的平均数
X
总体未分组情况下:X N
总体分组情况下:
XF
X
F
(2)总体成数(P)
是指总体中具有某一相同标志表现的单 位数占全部总体单位数的比重
多为交替指标
总体中具有相同标志表现的单位数用N1 表示
P N1 N
(3)总体方差和标准差 总体方差(σ2)
特点: 1.抽样方式组织简便,便于实施 2.在已知总体某些有关信息的情况下,
采用等距抽样能保证样本单位在总体中 均匀的分布,从而提高了样本对总体的 代表性,有利于降低抽样误差。
无关标志排队 有关标志排队
(三)类型抽样 首先把总体按某一标志分成若干个类型
组,使各组组内标志值比较接近,然后 分别在各组内按随机原则抽取样本单位。 特点:在于把分组法和随机抽样原则结 合起来。
i2ni
n
抽样成数的平均误差:
重置抽样:
p
P(1 P) n
不重置抽样:
第四节 抽样的组织形式及抽样方 案设计
一、抽样的组织形式 (一)简单随机抽样 从总体全部单位中直接按随机原则抽取
样本单位,使每个总体单位都有同等机 会被抽中
最基本形式
(1)直接抽选法 直接从调查对象中随机抽选。
第6章抽样推断19619
1
e dx
(
x )2 22
2
x t 2
1 et2dt 1
(3)一般正态分布的标准化
若 X N , , 2
对其进行“标准化”变换,即令
Z X
则 Z N 0,1
2 、中心极限定理
一般意义: 无论随机变量服从何种分布,只要样本容量足够
大,都可以近似地看作是服从正态分布。中心极限 定理说明,大量相互独立的随机变量和的概率分布 是以正态分布为极限的。由于正态分布在概率论中 占有的中心地位,中心极限定理因此而得名。
(四)样本容量——指一个样本所包括的单位数。
(五)抽样比例——抽样比例是指在抽取样本时,所抽取的样 本单位数与总体单位数之比。
(六)样本个数——指从总体中可能抽取的最多的样本数量。
1、重复抽样: (1)考虑顺序: M = N n (2)不考虑顺序: M = (N + n- 1)! n!(N - 1)!
(一) 全及总体和抽样总体(总体和样本)
全及总体:所要调查观察的全部事物。
总体单位数用N表示。
抽样总体:抽取出来调查观察的单位。
抽样总体的单位数用n表示。 n ≥ 30 大样本 n < 30 小样本
(二) 抽样方法 1、重复抽样: 1
N
2、不重复抽样: 1 、 1 、 1 ...... 1 N N 1 N 2 N n
重复抽样和不重复抽样会产生三个差别: 抽取的样本数目不同 抽样误差的计算公式不同 抽样误差的大小不同
(三) 参数和统计量
(全及指标和抽样指标、总体指标和样本指标)
全及指标:全及总体的那些指标。 抽样指标:抽样总体的那些指标。
参数
研究总体中 的数量标志
统计学课件:抽样推断
3.当总体X~N(, 2),从中抽取容量为n的样本,则
n
2
(n 1)s2
2
~
(2 n-1); 2
(xi x)2
i 1
2
~
(2 n-1)
4. 2—分布的性质 (1)分布可加性 若X ~ 2(n1),Y~ 2(n2 ), X,Y独立,则 X +Y ~ 2(n1+n2 ) (2)期望与方差 若X~ 2(n),则 E(X)= n,D(X)=2n
3、进行产品质量检验 4、进行假设检验
(一)总体和样本 1、总体 总体也称全及总体,指所有认识的研究对象全体,它是
有所研究范围内具有某种共同性质的全体单位所组成的 集合体。 一般用英文字母大写N来表示总体的单位数。 2、样本 样本又称子样,它是从全及总体中随机抽取出来,作为 代表这一总体的那部分单位组成的集合体。 一般用英文小写字母n来表示样本的单位数。
5. 分位点 设X ~ 2(n),若对于:0<<1,
存在 2 (n) 0 满足
P{X 2 (n)} ,
则称 2 (n) 为 2 (n) 分布的上分位点。
2
(n
)
(二)t 分布
若X 服从N (0,1),Y 服从自由度为n的 2分布, 且X 和Y 独立,则 X
Y /n 服从自由度为n的 t分布。
1、全及指标 根据各单位的标志值或标志属性计算的,反映总体
数量特征的综合指标称为全及指标,又称为参数。
设总体变量 X 为: X1, X 2 ,X N 则有:
X X XF N F
2 X X 2 X X 2 F
N
F
设总体 N 个单位,有 N1 个单位具有某种性质, N0 个单位不具有某种性质,
第六章 抽样分布及总体平均数的估计
• 对总体参数的一种看法 总体参数包括总体均值、比例、方差等 分析之前必需陈述
三 假设检验的基本原理
2、什么是假设检验?
1)概念 事先对总体参数或分布形式作出某种假设, 然后利用样本 信息来判断原假设是否成立。 2) 类型 参数假设检验 非参数假设检验 3)特点 采用逻辑上的反证法 依据统计上的小概率原理
二 总体平均数的估计
(3)区间估计(interval estimation)
根据估计量以一定可靠程度推断总体参数所在的区间 范围,用数轴上一段距离表示未知参数可能落入的范围, 虽不具体指出总体参数等于什么,但能指出未知总体参数 落入某一区间的概率有多大。
(4)置信区间(confidence interval)
一 抽样分布与平均数抽样分布
3、样本平均数与总体平均数离差的形态
(2)总体方差未知 总体正态,样本平均数与总体平均数的离差统 计量呈 t 分布; 总体非正态,但满足n>30这一条件,样本平均 数与总体平均数的离差统计量 近似t 分布。
t分布
t 分布(t-distribution)是统计分析中应用较多 的一种随机变量函数的分布,是统计学者高赛特 1908年以笔名“Student”发表的论文中推导出来 的一种分布,又叫学生氏分布。这种分布是一种 左右对称,峰态比较高狭,分布形状随样本容量 n-1的变化而变化的一组分布。
二 总体平均数的估计
4 总体方差σ2未知时,总体平均数μ的估计 用样本的无偏方差作为总体方差的估计值,样本 平均数的分布为t分布,应查t值表,包括以下两 种情况:
(1)总体的分布为正态时,可不管n值大小。 (2)总体分布为非正态,只有n>30,才能用概率对其样本 分布进行解释。
统计学 第6章 统计推断(1、2节)
即,我们有95%的把握认为,该外资 企业员工平均每周加班时间为52.3小时 至57.7小时之间。
第六章 统计推断
总体成数(比例)
1、假定条件
的区间估计
对于试验结果只有两种情况的总体(二项 总体),且为大样本,即满足
np 5和n(1 - p) 5
2、使用正态分布 z 统计量
第六章 统计推断
第六章 统计推断
设 是总体 的一个参数, 是参数 2的 1 和 X 两个统计量,且 ,对给定的常 1 2 数 ,及任意的 1) , 有 , (0 则称随机区间 ) 1 P( 1 2 是臵信度(臵信水平)为 的臵信区间 1 1 , 2 (区间估计)。其中 分别为臵信下限和 1 和 2 臵信上限。
(比例)为: 225 因为是大样本,故得: p 500 45% p (1 p ) p (1 p ) p z 2 , p z 2 n n
即,我们有95%的把握认为,19岁以下的青少年上网比例 在40.64%至49.36%之间。
第六章 统计推断
在简单随机抽样条件下,样本均值和样本 比例的抽样误差: 样本均值的抽样误差
重复抽样:
x
n
2
不重复抽样:
x
当总体方差 未知时,可用样本方差 代替。
第六章 统计推断
N n ( ) n N 1
2
s
2
样本比例的抽样误差
重复抽样: 不重复抽样:
p
1
n
p
2
第六章 统计推断
、1
2
方式一
第6章 抽样推断
控制。
三、抽样推断的作用
1、对某些不可能进行全面调查的而又要求反映全面 情况的无限总体,必须采用抽样推断的方法。 2、对某些属于破坏性或消耗性产品质量的检查只能 进行抽样推断。 3、对某些不必要进行全面调查的总体现象可以利用 抽样推断取得资料。 4、对全面调查进行验证,并作为修正数字的参考。 5、生产过程中的质量控制。 6、对某些总体的假设进行检验,判断真伪,为制定 决策提供依据。
第二节 抽样估计的一般原理
一、抽样估计的特点
1、运用的是归纳推理的方法。 2、抽样估计运用的是概率原理。 3、抽样估计的结论存在一定的抽样误差。
二、抽样估计的优良标准
由于抽样指标作为统计量,它是一个随 机变量,随着抽取的样本不同,便有不同估 计值。因此要判断一种估计量的好坏,仅从 某一次试验的结果来衡量是不可能的,而应 该从多次重复试验中,看这种估计量是否在 某种意义上说最接近于被估计参数的真值。 一般地说,用抽样指标估计总体指标应 该有三个要求。满足了这个要求的,就可以 认为是合理的估计或优良的估计。
x
x x X x x
1500 160 X 1500 160 1340 X 1660
两种抽样误差的关系
抽样平均误差具有较强的客观性,抽取的样
本一旦确定,抽样平均误差也就随之确定。 它由样本单位数、总体标准差、总体单位数 确定。
抽样极限误差具有较强的主观性,人们可以
离差,不可避免,可以控制。 登记误差:由于观察、测量、登记、计算造 成的误差,可以避免。 系统性误差:由于有意识选取调查单位造成 的系统偏差。理论上可以避免。
3.影响抽样误差的因素
(1) 抽样单位数目的多少
在其他条件不变的情况下,抽样单位数愈 多,抽样误差就愈小;反之抽样单位数少了, 则抽样误差就要增大。
《统计学》课件第6章抽样推断
01
定义
抽样推断是一种通过从总体中随 机抽取部分样本,并利用这些样 本数据来推断总体特性的统计方 法。
02
03
04
代表性
样本应具有代表性,能够反映总 体的特征和规律。
抽样推断的重要性
01
02
03
节省成本
通过抽样可以减少所需的 数据量,降低调查成本。
提高效率
通过快速收集样本数据, 能够快速获得总体信息, 提高调查效率。
对数据进行核查,确保 数据的准确性,及时纠
正错误或异常值。
分类与编码
对数据进行适当的分类 和编码,以便进行后续
的数据分析。
数据清理
删除或修正不准确、不 完整或重复的数据,提
高数据质量。
数据分析与解释
描述性统计
使用描述性统计方法,如平均 数、中位数、众数、标准差等
,对数据进行初步分析。
推断性统计
根据调查目的,选择合适的推 断性统计方法,如回归分析、 方差分析、卡方检验等,对总 体进行推断。
非参数假设检验的步骤
确定数据特征、提出假设、构造检验统计量、确定临界值、作出推 断结论。
非参数假设检验的优缺点
优点是适用范围广、灵活性高;缺点是计算较为复杂,需要更多的 样本数据支持。
05
样本量的确定
影响样本量的因素
总体标准差
总体标准差越大,需要的样本量 也越大,以减小估计误差。
置信水平置信水平越Biblioteka ,所需样本量也越 大,以减小估计误差。
《统计学》课件第6章抽样 推断
目录
• 抽样推断概述 • 抽样方法与技术 • 参数估计 • 假设检验 • 样本量的确定 • 实例分析
01
抽样推断概述
统计学教学课件:第六章 抽样推断
已知: N 5000, 300小时,x 25小时
F (t) 95% t 1.96
重复抽样:
二、区间估计
总体指标的推断(置信区间):
x x X x x pp P pp
说明在一定可能下,总 体指标落在抽样指标的 一定范围内。
置信区间: X [x x , x x ]
P [ p p, p p ]
置信区间是统计意义上的,即一定概率下,总体指标所 落在的区间长度,等于两倍的抽样极限误差。
第四节 全及指标的推断
抽样调查的目的是为了用样本指标推断总 体指标。对总体指标的估计有两种,一种是点 估计,一种是区间估计。
一、点估计(又称“定值估计”)
——不考虑抽样误差,直接用样本指标代替全及指标。即:
X x;P p
点估计不能说明误差大小,意义不大;而采用区间估 计,可以将误差控制在一定的范围内(即说明总体指标 在某一范围内的可能性大小) 。
1. 概念:先将总体单位按某一有关标志分类(组),再按
随机原则从各类(组)中抽取样本的组织形式。
(1)样本容量n的 分配方法:
① 等比例抽取
② 不等比例抽取 (标志变异大的组多抽,反之少抽。)
组与组之间是全面调查(组间方差不影响 ) (2)特点:
组内是非全面调查(组内方差影响 )
注:类型抽样的误差常小于简单随机抽样。
原则:
节省人力、物力、财力;
保证抽样推断能达到预期的可靠程度和精确 度的要求下,确定一个适当的样本容量。
确定必要抽样单位数n的依据
1、总体被研究标志的变异程度(变异大多抽,小则少抽) 2、抽样误差的范围(精确程度)(范围大少抽,小则多抽) 3、抽样推断的可靠程度(可靠程度高多抽,反之少抽)
统计学A第6章 抽样推断
2
样本可能数目
3 0.577 9
计算复杂,可对 定义公式变形为 更为简单的形式
3.2 抽样平均误差
(2)抽样平均误差的计算 1)抽样平均数的抽样平均误差 ① 重复抽样
第6章 抽样推断 第3节 抽样平均误差
x
(总体标准差)
n (样本容量)
在总体标准差未知, 且样本单位数较大时, 可用样本标准差代替。
解: 已知: n 100, x 58, x
则:
x
10
10 1(公斤) 100 n
x
即: 当根据样本学生的平均体重估计全部学生 的平均体重时,抽样平均误差为1公斤。
② 不重复抽样
1)抽样平均数的抽样平均误差
例2: 某厂生产一种新型灯泡共2000只,随机抽出400只作 耐用时间试验,测试结果平均使用寿命为4800小时, 样本标准差为300小时,求抽样推断的平均误差?
的数量特征做出具有一定可靠性的估计判断,从而达
到对全部研究对象的认识的一种统计方法。 一、 2.特点 ① 抽样调查建立在随机取样的基础上; ② 抽样推断是由部分推算总体的一种方法; ③ 抽样推断是运用概率估计的方法; ④ 抽样推断的抽样误差可以事先计算并加以控制。
1.2 抽样调查的作用
第6章 抽样推断 第1节 抽样调查的意义和作用
x E x
1 0.25 0 0.25 0 0.25 0 0.25 1
2
合计
—
—
27
3
3.2 抽样平均误差
第6章 抽样推断 第3节 抽样平均误差
例1 样本平均数的平均数(总体平均数)
27 23 4 E x 3(或X 3) 9 3
《统计学》教案第六章抽样推断
案例三
金融领域中的抽样推断。利用 历史数据建立统计模型,对未 来股票价格、市场走势等进行 预测和分析。
社会科学研究中的抽样推断。 通过对特定群体进行抽样调查 ,了解社会现象、民意倾向等 ,为政策制定提供依据。
感谢您的观看
THANKS
《统计学》教案第六章抽 样推断
目录
• 抽样推断基本概念与原理 • 抽样误差与置信区间 • 参推断在数据分析中应用
01
抽样推断基本概念与原理
抽样推断定义及作用
抽样推断定义
抽样推断是一种统计方法,它基 于随机抽样的原则,从总体中选 取一部分样本进行研究,并通过 样本信息对总体特征进行推断。
03
04
最小二乘法
通过最小化误差平方和来求解参 数估计值,适用于线性模型参数 估计。
区间估计原理及实施步骤
01
区间估计原理:根据样本信息构造一个包含总体参数的置 信区间,并给出该区间包含总体参数真值的概率。
02
实施步骤
03
选择合适的置信水平(1-α),确定置信区间的宽度。
04
根据样本数据计算样本统计量(如样本均值、样本比例等 )。
布等。
计算置信区间上下限
03
利用样本数据、置信水平和抽样分布计算置信区间的上下限。
置信水平选择原则
反映可靠性要求
置信水平应反映对估计结果可靠性的要求, 通常选择较高的置信水平以保证估计结果的 可靠性。
考虑样本容量
在样本容量较小的情况下,应选择较低的置 信水平以减少抽样误差的影响。
结合实际情况
在实际应用中,应根据研究目的、数据特征 等实际情况选择合适的置信水平。
05
根据样本统计量的抽样分布确定对应的临界值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学授课题目第6章抽样推断课次第8-9次授课方式讲授课时安排第8教学周-第9教学周,共4课时教学目的:通过本章的学习,要求掌握利用样本统计资料来推断总体数量特征的原理及方法;深刻理解抽样推断的概念及特点;了解抽样误差产生的原因,并对抽样误差、抽样平均误差、抽样极限误差加以区别,掌握抽样平均误差、抽样极限误差的计算;掌握点估计和区间估计的方法;掌握必要样本单位数的确定方法。
教学重点及难点提示:重点:区间估计难点:抽样平均误差的计算案例导入:大学生消费调查:一个月你花多少?第一节抽样推断概述一、抽样推断的概念及特点(一)概念按随机原则从总体中抽取部分单位,根据这部分单位的信息对总体的数量特征进行科学估计和推断的方法。
包括抽样调查和统计推断抽样调查:一种非全面调查,按随机原则从总体中抽取部分单位进行调查以获得相关资料,以推断总体统计推断:根据抽样调查所获得的信息,对总体的数量特征作出具有一定程度的估计和推断。
(二)特点1.按随机原则(等可能性原则)抽取调查单位.随机抽样的目的是为了排除人的主观教法提示:多媒体教学案例教学列举法影响,使每个样本都有系统的可能性被抽中,使样本对总体具有充分的代表性。
随机性原则是保证抽样推断正确性的一个重要前提条件。
随机抽样不是随便抽样。
2.根据部分推断总体的数量特征3.抽样推断的结果具有一定的可靠性和准确性,抽样误差可以事先计算和控制 其他特点有经济性、时效性、准确性、灵活性等 (三)抽样推断的使用 1.不可能进行全面调查时 2.不必要进行全面调查时 3.检查生产过程正常和否4.对全面调查资料进行补充修正时 二、抽样的几个基本概念 1.样本容量和样本个数(1)样本容量:样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用n 表示,它表明一个样本中所包含的单位数。
一般地,样本单位数大于30个的样本称为大样本,不超过30个的样本称为小样本。
(2)样本个数:又称样本可能数目,它是指从一个总体中可能抽取多少个样本。
样本个数的多少和抽样方法有关。
2.总体参数和样本统计量(1)总体参数:总体分布的数量特征就是总体参数,也是抽样统计推断的对象。
常见的总体参数有:总体的平均数指标,总体成数(比重)指标,总体分布的方差、标准差等等。
(2)样本统计量:和总体参数对应的是样本统计量。
设(12,,n X X X )是总体X 容量为n 的样本,若样本函数T T (12,,n X X X )中不含任何未知参数,则称T 为一个统计量。
例如11nii X X n ==∑就是一个统计量,称为样本均值(Sample mean ),2211()ni i S X X n ==-∑也是统计量,称为样本方差(Sample variance ), 3.重复抽样和不重复抽样(1)重复抽样:是指从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一次样本单位的抽取。
(2)不重复抽样:即每次从总体中抽取一个单位,登记后不放回原总体,不参加下一次抽样。
第二节 抽样推断的方法一、点估计(一)点估计的概念及特点参数估计:以样本统计量对总体参数进行估计,有点估计和区间估计两种。
点估计:直接以样本统计量作为相应的总体参数的估计量。
优点:直接给出了总体参数的具体数值缺点:未能反映误差的大小 参数点估计有:(1)样本均值估计总体均值(2)样本成数估计总体成数(3)样本方差估计总体方差 (二)估计的评价标准:x =μˆp P=ˆ22ˆS =σ(1)无偏性:设ˆTθ=12(,,,)n X X X 是未知参数θ的一个点估计量,若ˆθ满足ˆE θθ= 即估计量的数学期望等于被估计参数则称ˆθ是θ的无偏估计量,否则称为有偏估计量。
需要注意的是,由于估计量ˆθ是样本12(,,,)n X X X 的函数,样本量是n 维随机变量,所以对ˆθ求平均是按样本12(,,,)n X X X 的概率分布求平均。
无偏性是我们衡量点估计量好坏的一个评价标准,这个评价标准的直观意义如下:由于样本的出现带有随机性,所以基于一次具体抽样所得的参数估计值未必等于参数真值,这是由样本的随机性造成的。
我们希望当大量使用这个估计量对参数进行估计时,一系列估计值的平均值应该和待估参数真值相等。
这就从平均效果上对估计量的优劣给出一个评价标准。
(2)有效性:设11ˆT θ=12(,,,)n X X X ,22ˆT θ=12(,,,)n X X X 均为未知参数θ的无偏估计量,如果对参数θ的一切可能取值有)ˆ()ˆ(2212θσθσ<,则称无偏估计量1ˆθ比2ˆθ有效一个无偏估计量并不意味着他就非常接近被估计的参数,他还必须和总体参数的离散程度比较小。
对同一总体参数的两个无偏点估计量,方差小者更有效。
(3)一致性:指随着样本单位数n 的增大,样本估计量将在概率意义下越来越接近于总体真实值 若对于任意ε>0,有二、区间估计法在参数估计中,虽然点估计可以给出未知参数的一个估计,但不能给出估计的精度。
为此人们希望利用样本给出一个范围,要求它以足够大的概率包含待估参数真值。
这就是导致区间估计问题。
所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计成立的概率值。
设θ是未知参数,12(,,,)n X X X 是来自总体的样本,构造两个统计量{}1ˆ lim =<-∞→εθθP n11ˆT θ=12(,,,)n X X X ,22ˆT θ=12(,,,)n X X X ,对于给定的α(0<α<1),若1ˆθ、2ˆθ满足{1ˆP θ≤ }2ˆθθ≤ 1α=-则称随机区间[1ˆθ,2ˆθ]是参数θ的置信水平为1α-的置信区间, 1α-称为[1ˆθ,2ˆθ]的置信度,1ˆθ,2ˆθ称为置信限。
这里有几点需要说明:(1)区间[1ˆθ,2ˆθ]的端点1ˆθ,2ˆθ及长度2ˆθ-1ˆθ都是样本的函数,从而都是随机变量,因此[1ˆθ,2ˆθ]是一个随机区间。
(2){1ˆP θ≤ }2ˆθθ≤ 1α=-是说随机区间[1ˆθ,2ˆθ]以1α-的概率包含未知参数真值,区间长度2ˆθ-1ˆθ描述估计的精度,置信水平1α-描述了估计的可靠度。
(3)因为未知参数θ是非随机变量,所以不能说θ落入区间[1ˆθ,2ˆθ]的概率是1α-,而应是随机区间[1ˆθ,2ˆθ]包含θ的概率是1α-。
通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。
(二)总体均值的区间估计1.正态总体且方差已知;或非正态总体、方差未知、大样本情况下在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值μ,方差为2nσ。
则2X Z nασ±⋅称为总体均值在1α-置信水平下的置信区间。
区间估计步骤:1.计算样本统计量2.计算抽样平均误差px ,n p p np x )1(,-==μσμ3.计算极限误差4.确定置信区间5.估计总量指标 ● 注意抽样方法的不同[例]保险公司从投保人中随机抽取36人,计算得36人的平均年龄39.5X =岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间。
解:10.99,0.01,αα-==查(0,1)N 表得22.575Z α=27.239.5 2.57536.4136X Z nασ-=-⨯= 27.239.5 2.57542.5936X Z nασ+=+⨯= 故全体投保人平均年龄的置信水平为99%的置信区间为[36.41,42.59] ✧ 若总体方差2σ未知,可用样本方差S 2代替即39.5±2.13=(37.37,41.63),投保人平均年龄在90%的置信水平下的置信区间为37.37岁~41.63岁。
2.正态总体、方差未知、小样本情况下如果总体服从正态分布,无论样本容量大小,样本均值的抽样分布都服从正态分布。
只要总体方差已知,即使在小样本情况下,也可以计算总体均值的置信区间。
如果总体方差2σ未知,需用样本方差S 2代替,在小样本情况下,使用t 分布来建立总体均值的置信区间。
t 分布是类似正态分布的一种对称分布,他通常要比正态分布平坦和分散。
随着自由pp x x μμαα22Z =∆Z =∆[][]ppxxp p x x ∆+∆-∆+∆-,,NPXN度的增大,t 分布逐渐趋于正态分布。
正态总体、方差未知、小样本情况下,总体均值在1α-置信水平下的置信区间为:2sX t nα±⋅(重复抽样条件下) (6.18) 21s N nX t N n α-±⋅- (不重复抽样条件下) (6.19) 其中2(1)t n α-为t 分布临界值,可以查t 分布临界值表得到(三)成数的区间估计在大样本(一般经验规则:5(1)5np n p ≥-≥和)条件下,样本比例的抽样分布可用正态分布近似。
在这种情况下,数理统计已经证明如下结论:置信水平为1α-的置信区间为:2(1)p p p Z n α-±⋅(重复抽样) 2(1)()1p p N np Z n N α--±⋅- (不重复抽样) [例]某城市想要估计下岗职工中女性所占的比例,采取重复抽样方法随机抽取了100名下岗职工,其中65人为女性。
试以95%的置信水平估计该城市下岗职工中女性所占比例的置信区间。
解:已知100n =,21.96z α=,6565%100p == 根据公式得:2(1)65%(165%)65% 1.96100p p p Z n α-⨯-±⋅=±⨯即65%±9.35%=(55.65%,74.35%),95%的置信水平下估计该城市下岗职工中女性所占比例的置信区间为55.65%~74.35%。
[例]某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对。
试以95%的置信水平确定赞成改革的人数比例的置信区间。
解:已知200n =,21.96z α=,15075%200p == 根据公式得:2(1)()1p p N np Z n N α--±⋅- 75%(175%)100020075% 1.96()20010001--±⨯-即75%±5.37%=(69.63%,80.37%),95%的置信水平下估计赞成改革的人数比例的置信区间为69.63%~80.37%。
三、样本容量的确定 (一)影响样本容量的意义在抽取样本时样本容量应多大是一个很实际的问题。
样本容量取得比较大,收集的信息就比较多,从而估计精度比较高,但进行观测所投入的费用、人力及时间就比较多;样本容量取得比较小,则投入的费用、人力及时间就比较少,但收集的信息也比较少,从而估计精度比较低。