第五章 抽样分布与参数估计
抽样分布与参数估计
抽样分布与参数估计首先,我们来了解什么是抽样分布。
在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。
假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。
抽样分布的形状和性质取决于总体的分布和样本的大小。
通过分析抽样分布,可以得到有关总体参数的有用信息。
例如,我们想要知道一些城市成年人的平均年收入。
在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。
如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。
这个抽样分布将给我们提供有关总体平均年收入的估计和推断。
接下来,我们将讨论参数估计。
参数估计是指使用样本数据来估计总体参数的过程。
总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。
通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。
常用的参数估计方法有点估计和区间估计。
点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。
点估计给出了一个单一的值,但不能提供关于估计的精度的信息。
因此,我们常常使用区间估计。
区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。
区间估计能够向我们提供关于估计的精确程度的信息。
区间估计依赖于抽样分布的性质。
中心极限定理是制定抽样分布理论的一个重要原则。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。
这使得我们可以使用正态分布的性质来计算置信区间。
构建置信区间的一种常用方法是使用样本均值的标准误差。
标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。
根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。
通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。
统计学课件第5-7章概率分布、抽样分布及参数估计剖析.
概率分布、抽样分布及参数估计
Probability Distributions & Sampling Distributions
& Parameter Estimation
Wednesday, January 16, 2019
Statistical Research Office
1
本部分主要研究的问题有:
● 遵循随机性原则 --- 体现在在每一层抽选中;
● 每一层内应包含足够多的个体;
● 在同等条件下,抽样误差要小于简单随机抽 样和系统抽样的抽样误差。
Wednesday, January 16, 2019 Statistical Research Office 12
Wednesday, January 16, 2019
Statistical Research Office
7
●
常用的随机抽样组织方式
► 简单随机抽样(Simple random sampling)
►分层随机抽样(Stratified sampling)
►系统随机抽样(Systematic sampling)
►整群随机抽样 (Cluster sampling) 常用的随机抽样方法: ►重复抽样 (Sampling with replacement) ►不重复抽样(Sampling without replacement)
8
Wednesday, January 16, 2019
Statistical Research Office
★ 简单随机抽样 -定义:从总体中,按照随机的原则,使得总体 中每个个体都有同等被选中的机会,而先后抽 出的n个个体作为一个容量为n的样本。
统计学导论 第5章
= (1.0 2 × 1 + 1.52 × 2 + 2.0 2 × 3 + 2.52 × 4 + 3.0 2 × 3
+3.5 × 2 + 4.0 × 1) / 16 − 2.5 = 0.625
keyuqin
2
2
2
σx =
V (X ) =
0.625 = 0.791
经济贸易与统计学院
15
二、大数定理与中心极限定理
keyuqin 经济贸易与统计学院 11
样本序 样本中 样本均 样本方 样本序 样本中 样本均 样本方 号 的元素 值 差 号 值 差 的元素 1 2 3 4 5 6 7 8
keyuqin
1,1 1,2 1,3 1,4 2,1 2,2 2,3 2,4
1.0 1.5 2.0 2.5 1.5 2.0 2.5 3.0
一般地, 一般地,样本单位数大于30个的样本称为大样 本,不超过30个的样本称为小样本。 个的样本称为小样本。
• 样本个数: 样本个数:样本个数又称样本可能数目, 样本个数又称样本可能数目,它是指 从一个总体中可能抽取多少个样本。 从一个总体中可能抽取多少个样本。
keyuqin
经济贸易与统计学院
3
(二)总体参数与样本统计量
= 1.25 EX = u = 2.5 1.25 σX = = = 0.625 = 0.791 2 n
比较及结论: 比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n
(一)几个分布 •
χ2分布
设 X ~ N ( µ , σ ) ,则
2
Z=
X −µ
令 Y = Z 2 ,则 Y 服从自由度为1的χ2分布, 分布,即
SPSS第5章 总体分布、样本分布与参数估计(修改)解读
X -7 令Y ,则: 2.2 P(Y 0.2273 )
其中Y ~ N (0,1),查表得 P(Y 0.2273 )?
标准正态分布表
φ ( - x ) = 1 –φ ( x )
x 0 0 0.500 0 0.01 0.504 0 0.02 0.508 0 0.03 0.512 0 0.04 0.516 0 0.05 0.519 9 0.06 0.523 9 0.07 0.527 9 0.08 0.531 9 0.09 0.535 9
X Y n
~ t(n )
其中,X ~ N(0,1),Y ~2(n)分布,且X与Y相互独立。 密度函数为:
n 1 ) 2 n 1 x 2 fn(x ) (1 ) 2 n n (n / 2) x
(
t 分布图
3、F 分布
F
U m V n
~ F (m ,n )
样本(累积)分布函数Fn(x)是对总体的累积分布函数F(x)的近似, n越大, Fn(x)对F(x)的近似越好。
格利文科 ( Glivenko )定理
当样本容量 n 趋于无穷大时,Fn(x)以概率1(关于 x )均匀地收敛于F(x).
P(lim sup
n x
Fn ( x) F ( x) 0) 1
Z X
~N(0, 1) ~2(n-1) ~t(n -1)
n
( n 1) S 2
T
2
X S n
(6)
1
2 ( X ) ~2(n) i 2 i 1
n
定理:若X1,X2,· · · , Xn1 和Y1,Y2,· · · , Yn2 分别是正态总 体N(1, 12)和N(2, 22)的一个随机样本,且它们相互独立 ,则满足如下性质: (1)
曾五一《统计学导论》配套题库【章节题库】第五章 抽样分布与参数估计 【圣才出品】
12.样本均值的抽样标准差 x ,( ).
A.随着样本量的增大而变小 B.随着样本量的增大而变大
5 / 30
圣才电子书 十万种考研考证电子书、题库视频学习平台
C.与样本量的大小无关
D.大于总体标准差
【答案】A
【解析】根据样本均值的抽样分布可知,样本均值抽样分布的标准差 x
D.服从 2 分布
【答案】B
【解析】当 n 比较大时,样本均值的抽样分布近似服从正态分布。题中 n 36 30 为
大样本,因此样本均值的抽样分布近似服从正态分布。
5.估计量的含义是指( )。 A.用来估计总体参数的统计量的名称
2 / 30
圣才电子书 十万种考研考证电子书、题库视频学习平台
圣才电子书 十万种考研考证电子书、题库视频学习平台
第五章 抽样分布与参数估计
一、单项选择题 1.抽样分布是指( )。 A.一个样本各观测值的分布 B.总体中各观测值的分布 C.样本统计量的分布 D.样本数量的分布 【答案】C 【解析】统计量是样本的函数,它是一个随机变量。样本统计量的分布称为抽样分布。
2.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布, 其分布的均值为( )。
A.
B. X C. 2
2 D.
n 【答案】A
【解析】根据中心极限定理,设从均值为 ,方差为 2 的任意一个总体中抽取样本量 为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为 ,方差为 2 n 的正
n
,样本
量越大,样本均值的抽样标准差就越小。
13.在用正态分布进行置信区间估计时,临界值 1.645 所对应的置信水平是( )。 A.85% B.90% C.95% D.99% 【答案】B 【解析】置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在
抽样与参数统计
4
4,1
4,2
4,3
4,4
19 5-
统计学
STATISTICS
样本均值旳抽样分布
(例题分析)
计算出各样本旳均值,如下表。并给出样本均 值旳抽样分布
16个样本旳均值(x)
第一种 第二个观察值
观察值 1
2
3
4
1
1.0 1.5 2.0 2.5
2
1.5 2.0 2.5 3.0
3
2.0 2.5 3.0 3.5
=10
n= 4
x 5
n =16 x 2.5
= 50 X
总体分布
x 50
x
抽样分布
22 5-
统计学
STATISTICS
中心极限定理
(central limit theorem)
中心极限定理:设从均值为 ,方差为 2旳一种任意 总体中抽取容量为n旳样本,当n充分大时,样本均值 旳抽样分布近似服从均值为μ、方差为σ2/n旳正态分布
统计学
STATISTICS
第 5 章 抽样与参数估计
1 5-
统计学 第 5 章 抽样与参数估计
STATISTICS
5.1 抽样及其分布 5.2 抽样方法 5.3 参数估计
5.4 样本容量旳拟定 5.5 Excel旳应用
2 5-
统计学
STATISTICS
学习目的
1. 了解抽样和抽样分布旳基本概
念
2. 了解点估计旳概念和估计量旳
30 5-
统计学
STATISTICS
样本百分比旳抽样分布
(数学期望与方差)
• 样本百分比旳数学期望
E( p)
• 样本百分比旳方差
第五章 参数估计
1
X 2 t n1 n2 2
2
2 Sp
n1
n2
X
1
X 2 z
2
2 S12 S 2 n1 n2
2 Sp
2 2 n1 1S1 n2 1S 2
n1 n2 2
20
例题:
分别在城市1和城市2中随机抽取n1=400, n2=500的职工进行调查,经计算两城市职工的 平均月收入及标准差分别为X1=1650元,
22
思考题:
一个研究机构做了一项调查,以确定稳定的吸 烟者每周在香烟上的消费额。他们抽取49位固 定的吸烟者,发现均值为20元,标准差5元。
1.总体均值的点估计是多少?
2.总体均值μ的95%置信区间是什么?
23
思考题解答:
1.总体均值的点估计是20元。
2.总体均值μ的95%置信区间: 随机变量X表示每周香烟消费额,由题意可知,X=20, S=5,1-α=0.95,α=0.05;n=49 属于大样本,σ 未知以S估计。总体均值μ的95%置信区间为
P z Z z 1 2 2
P L U 1
X P z z 1 2 2 n
Step3:将上面等式进行等价变换即可。
P L U 1
第五章 参数估计
第五章 参数估计
利用样本数据对总体特征进行推断,通常在以下 两种情况下进行:
当总体分布类型已知(如:正态),根据样本数据对 总体分布的未知参数进行估计或检验。参数估 计或参数检验。(如:μ或σ为何?) 当总体分布类型未知或知道很少,根据样本数据 对总体的未知分布的形状或特征进行推断。非参 数检验。(如:是否正态分布?是否随机?)
应用统计学 第五章 参数估计
二、点估计与区间估计
参
数 估
(一)
点估计
计
点估计是指用样本估计量的某个取值直接作为总体参数的估计值。例如,用样本均
值直接作为总体均值的估计,用两个样本均值之差直接作为总体均值之差的估计等。虽
然在重复抽样的情况下,点估计均值的期望等于总体真值,但由于样本是随机的,抽出
一个具体的样本得到的估计值很可能不同于总体真值。一个点估计量的可靠性是用抽样
两个:FDIST用于计算给定F值和自由度时F分布的概率;FINV用于计算给定概率
和自由度时的相应F值。
16
第一节 参数估计的基本原理
第 五 章 参 数 估 计
17
CONTENTS PAGE
参数估计的 基本原理
一个总体参 数的区间估
计
两个总体参 数的区间估
计
样本量的确 定
第一节
第二节
第三节
第四节
目
出的,后来由海尔墨特(Hermert)和卡•皮尔逊(Karl Pearson)分别于1875
年和1900年推导出来。在总体方差的估计和非参数检验中,会用到 2 分布。图
5-2是不同容量样本的 2 分布,从图中可以看出, 2 分布的变量值始终为正,
分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度
n
(5-6)
22
第二节 一个总体参数的区间估计
第 五 章
三、总体方差的区间估计
参
数
估 计
若总体服从正态分布,根据样本方差的抽样分布可知,样本方差服从自由度为 n 1
的 2 分布,因此可用 2 分布构造总体方差的置信区间。若给定一个显著性水平 ,用
2 分布构造的总体方差 2 的置信区间可用图5-5表示。总体方差 2 在1 置信水平
统计学(李荣平)2014-5
P{t>tα(n)}= h(t;n)dt
t (n)
的数tα(n)为t(n)分布的上α分为点。 例:查表求:t0.05(8), t0.95(8)
o
t (n)
第一节 抽样分布
(三)F 分布
设 U ~ 2(n1 ),V ~ 2(n2 ), 且设 U,V 独立,则称随机变量
F U / n1 V / n2
保证质量,规定σ≤0.6mm时,认为生产过程处于良好控制
状态。为此,每隔一定时间抽取20个零件作为一个样本,并
计算样本方差S2。若P{S2≥c } ≤0.01(此时σ=0.6mm),
则认为生产过程失去控制,必须停产检查,问:
(1)C为何值时,S2≥c的概率才小于或等于0.01? (2)若取得的一个样本的标准差S=0.84,生产过程是
第五章 抽样分布与参数估计
主
第一节 抽样分布
要 内
第二节 参数点估计
容
第三节 区间估计
第一节 抽样分布
一、随机样本
总体与个体:试验全部可能的观测值叫总体;试验的 每一个观测值叫个体。
样本容量与样本个数:样本中包含的单位数叫样本容 量;从一个总体中可能抽取多少个样本叫样本个数。
总体容量:总体中所包含的个体数。 有限总体和无限总体:总体容量可数的称有限总体, 不可数的称无限总体。 重置抽样(重复抽样)和无重置抽样(不重复抽样)
X
1 n
n i 1
Xi
为样本均值;称统计量
S 2
1 n1
n i1
(Xi
X )2
为 样本方差 ,称统计量 S
S2
1n
( X X ) 2 为样本标准差 ;统计量
n 1 i1 i
统计学课件05第5章抽样与参数估计
反映样本数据的集中趋势和平均水平。
样本方差
定义
样本方差是每个样本数据与样本均值差的平方和的平均值,即 $s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - overline{x})^2$。
计算方法
先计算每个样本数据与样本均值的差,然后将差平方,最后求和平 均。
作用
反映样本数据的离散程度和波动情况。
样本量的确定
根据调查目的和精度要求确定样 本量:精度要求越高,需要的样
本量越大。
根据总体规模和抽样方法确定样 本量:总体规模越大,需要的样 本量越大;分层或整群抽样较简 单随机抽样需要的样本量更大。
根据调查资源确定样本量:资源 有限时,需要在满足调查目的和 精度要求的前提下,合理确定样
本量。
02 参数估计
大数定律的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布函数F(x),则对于任意正实数ε,有 lim(n->∞)P(|X1+X2+...+Xn/n-E(X))/ε)=0,其中E(X)是随机变量X的期望值。
大数定律的实例
在抛硬币实验中,随着实验次数的增加,正面朝上的频率将趋近于0.5。
中心极限定理
中心极限定理定义
中心极限定理是指在大量独立同分布的随机变量中,不论 这些随机变量的分布是什么,它们的平均值的分布总是趋 近于正态分布。
中心极限定理的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布 函数F(x),则对于任意实数x,有lim(n->∞)P(∑Xi≤x)=∫(∞->x)F(t)dt。
样本分布的性质
无偏性
如果样本统计量的数学期 望等于总体参数,则该统 计量是无偏的。
第5章抽样调查及参数估计(练习题)
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
第五章参数估计
参数估计基础
抽样研究的目的就是要用样本信息来推断相应总 抽样研究的目的就是要用样本信息来推断相应总 体的特征,这一过程称为统计推断。 体的特征,
统计推断包括: 统计推断包括:参数估计和假设检验
在用样本信息来推断相应总体特征 的过程中总是存在误差 误差--的过程中总是存在误差 抽样误差。
抽样误差: 抽样误差: 由个体变异产生的、由于抽样而造成的样 个体变异产生的、由于抽样 抽样而造成的样 产生的 本统计量与样本统计量及样本统计量与总体参 数之间的差异称为抽样误差。 数之间的差异称为抽样误差。
3、置信区间的计算
X ± zα / 2σ X
X± X± Zα / 2SX
X ± tα / 2,ν sX
3、置信区间的计算
(1)σ已知,按标准正态分布原理计算 已知,
通式: 通式: X
± zα / 2σ X
(双侧) 双侧)
为标准正态变量, 相当于按ν=∞时及P ν=∞时及 Zа/2为标准正态变量,Zа/2相当于按ν=∞时及P取α,由附 查的的t界值。 表2查的的t界值。 95%的双侧置信区间: 的双侧置信区间: 的双侧置信区间 99%的双侧置信区间: 的双侧置信区间: 的双侧置信区间
(二)频率的抽样分布
从总体中随机抽取若干样本, 从总体中随机抽取若干样本,计算出样 本频率, 本频率,这些频率的分布即为频率的抽样分 布。也是抽样分布的一种。 也是抽样分布的一种。 频率的抽样分布也有一定的规律。 频率的抽样分布也有一定的规律。 p72:表5-3 :
频率的抽样分布: 频率的抽样分布: 1.样本频率服从正态分布: 样本频率服从正态分布: 样本频率服从正态分布 Nπ,n(1-π)≥5时 ( ) 时
(X −1.96σX, X + 1.96σX ) (X − 2.58σX, X + 2.58σX )
第五抽样分布与参数估计第一第二
类型组的样本单位数。
3、等距抽样(系统抽样、机械抽 样)
概念:将总体各单位标志值按某一标志顺序排
队,然而按一定的间隔抽取样本单位。
排队的方法:①按无关标志 ②按有关标志
抽取样本单位的方法
◦ ①按相等的距离取样 ②对称等距取样
抽取第一个样本单位的方法
◦ ①随机抽取
②居中抽取
4、整群抽样
概念:把总体分为若干群,从总体群中抽取若干样 本群,对抽中的群进行全数登记调查。 如:某水泥厂一昼夜的产量为14400袋,现每隔 144分钟抽取1分钟的水泥(10袋)检查平均每袋 重量和一级品率
例子
根据古典概率定义可算出,抛一枚质地均匀的硬币, 出现正面与出现反面的概率都是0.5。历史上有很
多人都曾经做过抛硬币试验。
试验者
试验次数
正面出现的频率
蒲丰
4040
0.5069
K.皮尔逊
12000
0.5016
K.皮尔逊
24000
0.5005
罗曼诺夫斯基
80640
0.4979
第二节
抽样分布
一、三种分布含义
第五抽样分布与参数估计第一第二
第一节
抽样的基本概念
(二)样本容量与样本个数
1.样本容量
◦ 是一个样本中所包含的单位数。
2.样本个数
◦ 即样本可能数目。是指从一个总体中可能抽取多少个样本。 与抽样方法有关。
(三)抽样方法
1、重复抽样
◦ 从总体的N 个单位中要随机抽取一个容量为n的样本,每次 从总体中抽出一个单位后,经过调查又把它放回到总体中, 重新再参加下一次抽选。
类型组,然后从各类型组中采用简单随机抽样方式或 其它方式抽取样本单位。
第五章参数估计和假设检验PPT课件
抽样
X ~ N(, 2)
n,S2
则 (n 1)S 2 / 2 ~ 2 (n 1)
当 n 30, 2分布趋近于正态分布
若X ~ x2 (n 1) 则 Z 2 2 2(n 1)
两个样本方差之比的抽样分布
从两个正态总体中分别独立抽样所得到的两个样本方 差之比的抽样分布。
抽样
X1
~
N
(
1
,
2 1
极大似然估计是根据样本的似然函数对总体参数进行 估计的一种方法 。
其实质就是根据样本观测值发生的可能性达到最大这 一原则来选取未知参数的估计量θ,其理论依据就是 概率最大的事件最可能出现。
区间估计
估计未知参数所在的可能的区间。 P(ˆL<<ˆU ) 1
评价准则
一般形式
置信度 精确度
(ˆ △)<<(ˆ △) 或 ˆ △
2
2
2
n
Z
2
2
Pq
△
2 pˆ
Z
2
PqN
n
2
N
△
2 pˆ
Z
2
Pq
2
假设检验
基本思想 检验规则 检验步骤 常见的假设检验 方差分析
基本思想
•小概率原理:如果对总体的某种假设是真实的,那么不利于 或不能支持这一假设的事件A(小概率事件) 在一次试验中几乎不可能发生的;要是在一次 试验中A竟然发生了,就有理由怀疑该假设的 真实性,拒绝这一假设。
参数的区间估计
待估计参数
已知条件
置信区间 ˆ △
总体均值 (μ)
正态总体,σ2已知 正态总体,σ2未知
非正态总体,n≥30
X Z / n
2
参数估计
~ N (0,1)
ˆ Z 2 p
ˆ (1 p ˆ) p n
27
总体比例的置信区间:例子
1986年对悉尼995 名青少年的随机调 查发现,有21.7% 的人每天都抽烟。 试估计悉尼青少年 中每天都抽烟的青 少年比例的90%的 置信区间。
ˆ 5, n(1 p ˆ) 5 解:显然有 np 因此可以用正态分布进行估计。 Z/2=1.645
L U
P( ˆ ˆ ) 1
L U
ˆ , ˆ )就称为未知总体参数的置信区间。 成立,则该区间 (
L U
21
二、总体均 值的区间估 计 σ2已知?
是
2
是 总体正态?
否
n≥30? 否 是 否
x Z
n
x t
s
2
n
x Z 2
n
增大n; 非参数 方法等。
实际中总体方差总是未知的, 因而这是应用最多的公式。在 大样本时t值可以用z值来近似。
n 1)s
2
2
~ n 1)
2
总体方差在置信水平1-α下的置信区间为:
n 1)s 2 2 2 n 1)
2
n 1)s 2 1 2 n 1)
2
29
•总体方差的区间估计:例子
检验一批电子元件,共抽取了10件检验,电子元 件使用寿命的样本方差为8175.56,试在95%的 置信概率下对该批产品使用寿命的方差和标准差 进行区间估计。 解:电子元件的使用寿命可看作服从正态分布,根 据正态总体方差置信区间的公式,可得该批电子 元件使用寿命的方差的置信区间为:
(n 1)
19
5.3 区间估计
抽样分布与参数估计
2 x
(5.7)
(5.8)
x
n
(5.9)
【例 5-3】计算例 5-2 中 10 名推销员平均的任职年限 及其标准差, 并与例 5-2 求得的样本平均数的期望值与方差 作比较。 解: (1 2+3+4+5+6+7+8+9+10)/10=5.5
2
正态分布时,所需的样本容量 n 可以较小,反之则需 要较大的样本容量。通常将样本单位数不少于 30 的 称为大样本。
二、样本比例的抽样分布
(一)样本比例的期望值与方差
设随机变量 X 服从二点分布,其总体平均数为 , 又
称为总体比例,总体方差 2 ( ) ( 1 ) 。现对其进行 n 次独立重复观测,得到下列样本:(X1,X 2,…,X n),其中, 观测结果为“成功”的次数是 N1。 我们把样本中“成功”的次数所占比例定义作样本比例 P。
一、样本平均数的抽样分布
(一)样本平均数的期望值与方差
在放回抽样的情形下,设从总体中抽出的 样本为 x1 , x 2 , , x n ,其是相互独立的,并且 为 ,则可推导出样本平均数的期望值与方
2
与总体服从同一分布。设总体均值为 ,方差 差、标准差分别为:
X1 + X 2 + + X n E( X ) E( ) n 1 E ( X 1 ) E ( X 2 ) E ( X n ) n
0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10
第5章抽样与参数估计
❖ 方便抽样是从便利的角度来考虑获取样本的。 样本的选取主要是让调查员来决定。
❖ 判断抽样是指根据调查人员的主观经验从总 体样本中选择那些被判断为最能代表总体的 单位作样本的抽样方法。
❖ 滚雪球抽样是指先对随机选择的一些被调查 者实施访问,然后再请他们推荐属于研究目 标总体特征的调查对象。
合计
单位数
N1 N0
N
变量值 1 0 —
均 值
μ p
X f 1N 10N 0N 1π
f
N
N
标
(Xμ )2f p
1π 2N0π 2N
1
0
准p
f
NN
1
0
差
( 1π )2π π ( 21π ) π (1π )1π π π (1π )
2008-2009
✓样本比例的抽样分布
• 容量相同的所有可能样本的样本比例的概率 分布
• 表示为 (1 - a
a 为是总体参数未在区间内的比例
• 常用的置信水平值有 99%, 95%, 90%
相应的 a 为0.01,0.05,0.10
2008-2009
✓置信区间 (confidence interval)
• 由样本统计量所构造的总体参数的估计区间称 为置信区间
• 统计学家在某种程度上确信这个区间会包含真 正的总体参数,所以给它取名为置信区间
• 估计量:用于估计总体参数的随机变量
如样本均值,样本比例、样本方差等 例如: 样本均值就是总体均值 的一个估计量
• 参数用 表示,估计量用 ˆ 表示 • 估计值:估计参数时计算出来的统计量的具
体值
如果样本均值 x =80,则80就是 的估计值
第五章抽样分布
以下分两种情况来讨论样本均值 的 抽样分布类型。
第二节 几个常见的抽样分布
正态分布:若 的概率密度函数为
f (x)
其中, 和
1
( x )2
e 2 2
(三)样本方差的数字特征 设总体 的方差为 ,采取重复抽样
的方式,从中抽取独立同分布的样本: , …, 。根据数学期望和方差的性质,可 推出样本方差的数学期望、方差与总体的
方差之间的关系为:
E(S2) 2
2 S2
2 4
n1
(5.5)
第一节 抽样分布基本概念
由式(5.5)可知:样本方差的平均数为 ,方差为 ,随着 的增大,其方差 越来越小,从而 的取值越来越向着 靠 拢,故用 去估计 理论依据成立。
服从正态分布
。
实际应用中,一般取 ,此时的样
本称为大样本。若为小样本,且总体分布
不是正态分布,此时不能按照正态分布来
处理,要运用小样本的相关理论来讨论。
第二节 几个常见的抽样分布
总体(, 2) 正态分布 非正态分布
大样本 小样本
正态分布
N (, 2 n)
非正态分布
图5-2 样本均值的抽样分布图
。
这种用商品质量数据的样本平均数 、 样本方差 作为总体平均数 、总体方差
【典型案例6】如何决定是否购买一批苹 果?
的作法,是人们购买商品时常用的有效 估计方法,其理论依据是本章将要学习的 内容。
第一节 抽样分布基本概念
一、样本容量和样本个数 二、参数和统计量 三、抽样分布 四、抽样分布的数字特征
第五章 参数估计
例如:从A、B、C、D四个单位中,抽出两个单位构成 一个样本,问可能组成的样本数目是多少?
AA AB AC AD
重复抽样
Nn = 42 =16 (个样本)
BA
CA DA
BB
CB DB
BC
CC DC
BD
CD DD
不重复抽样
N(N-1)(N-2)……. 4×3 = 12(个样本)
抽样推断的理论基础 大数 定律 如果独立随机变量总体存在有限的平均数和方差,则 大数定律揭示样本容量同推断结果之间的内在联系。随着 对于充分大的样本可以近乎100%的概率,期望样本平均数 样本容量n的增加,抽样平均数有接近于总体平均数的趋势。 与总体平均数的绝对离差为任意小。计和假设检验两 方面。 • 1.参数估计:参数估计是依据所获得的样本 观察资料,对所研究现象总体数量特征进 行估计。 • 2.假设检验:(第六章)
• 统计方法
描述统计
推断统计
参数估计
假设检验
抽样推断的应用
1、对无限总体全面情况的了解,必须采用抽样推断。 2、对破坏性或消耗性检查,必须采用抽样调查。 3、对某些可以但事实上不必或不可能进行全面调查的 现象总体,可以采用抽样推断获取相关资料。 4、抽样调查可以对全面调查得来的资料进行验证,并 据以进行补充和修改。
指样本单位的抽取不受主观因素及
其他系统性因素的影响,每个总体
单位都有均等的被抽中机会
随机抽样的目的
随机抽样的目的是使样本与总体同分布。
抽样推断的特点
(1)抽样推断是由部分推断总体的一种认识 方法。 (2)抽样推断是建立在随机取样的基础上的。 (3)抽样推断运用概率估计的方法。 (4)抽样推断的误差可以事先计算并加以控 制。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于整群抽样: 群内是全面调查 , 群间是抽样调查
4.系统随机抽样
系统随机抽样又称为机械随机抽样或等距随机抽样。 它是先将总体中各单位按一定的标志排队,然后每隔一定 的距离抽取一个总体单位(个体)的抽样方式。
例如:从100人中抽取10人构成样本,先将100人排队编号, 然后在1~10号之间随机抽取一个数字,比如抽到3,那么 编号为 3,13,23,33,43,53,63,73,83,93的10个 人组成样本。
总体
样本均值
样本
样本方差
抽样分布
二、抽样调查的分类
❖ 随机抽样:按照随机原则,完全排除了人为的主观 因素,总体中每个单位都有一定的概率被选入样本。
❖ 非随机抽样:从方便出发或者根据研究者主观的判 断来抽取样本,不遵循随机原则。无法估计和控制 抽样误差,无法用样本的数量特征来推断总体。 (方便抽样、配额抽样、 不等概率PPS抽样等)
具体排队时又分
按无关标志排队 按有关标志排队
5.多阶段随机抽样
多阶段随机抽样是将一次抽样后得到的样本当作总 体再次进行随机抽样,得到第二次抽样样本,然后再如 此进行下去的抽样方式。
例如:我国农产量调查就采用五阶段抽样方式。省抽县、县 抽乡、乡抽村、村抽地块、地块抽样本点,对样本点进行实 割实测的调查方法。
四、抽样调查的应用
对一些社会现象不可能或不必要进行全面调查时, 一种是被调查总体包含有无穷多个单位,第二种是 对破坏性和消耗性产品的检验(如:家用电器检验、 食品卫生检验等)。
企业产品质量的管理。 对一些时效性较强但有来不及采取全面调查的。 可以对大规模的全面调查进行检验,以修正资料。
五、抽样推断中的理论依据
特性个体数目
③总体标准差:
(X X )2
N
P(1 P)
针对数量标志
针对是否标志
2、样本指标:根据样本中各单位的标志值计算出来的用于反
映样本数量特征的指标称为样本指标,也称样本参数。
①样本平均数(样本均值):
n
xi
x i1 n
②样本成数:
p n1 n
n1 —样本中具有某种 特性个体数目
第五章 抽样分布与参数估计
本章主要内容
❖ 一、抽样调查概述 ❖ 二、抽样推断的原理 ❖ 三、抽样分布与误差 ❖ 四、必要样本容量的确定
第一节 抽样调查概述
一、抽样调查的意义
按照一定的程序,从总体中抽取一部分单位 进行调查,根据样本资料的估计值,对总体待 估参数做出具有一定可靠程度的估计和推断, 以反映总体的数量特征或数量表现。
③样本标准差: s
(x x)2
n 1
s p(1 p) n 1
对于某一研究对象,当研究目的确定时,总体指标是确定的,
样本指标是不确定的。
(三)抽样框和抽样单元
抽样框:指供抽样所用的总体清单,是抽样的实际 总体。包括具体的目录以及能够计数的全部抽样单 位,而又不用把它们一一列出来。
抽样单元:把总体划分为有限个互不交叉而又内 容完备的部分,每个部分称为一个抽样单元。
各层抽样比例相同
标志变动度大的组多抽 标志变动度小的组少抽
3.整群随机抽样
整群随机抽样是先将总体按某一标志分成若干组 ,每 一组称为一个群,以群为单位进行简单随机抽样,然后对 抽到的群进行全面调查的抽样方式。
例如:了解某地区职工家庭生活状况时,按居委会分群, 然后对抽到的群(居委会)中,所辖每户职工家庭进行调 查登记。
本章主要讨论随机抽样的原理和方法
三、抽样调查的特点
➢ 按照随机原则抽取样本,完全排除了主观因素的 影响,样本对总体具有代表性。
➢ 可节省人力、物力和财力,提高时效。 ➢ 可以通过分析样本的特性,估计和推断被调查总
体的数量特征。 ➢ 抽样误差可以事先计算并加以控制,抽样调查具
有一定的精确性和可靠性。
布。
在一定条件下,大量独立随机变量的平均数是以正态 分布为极限的。
六、抽样组织的方式
1.简单随机抽样
简单随机抽样是一种对总体的每个单位(个体)都不 加任何限制的抽样。在总体中不作任何分组、划类、排队 等,完全随机地抽取调查单位。
它是抽样调查中最简单组织形式,又叫单纯随机抽样。等
七.样本单位的抽选方法
在组织抽样调查时,根据样本单位是否重复抽取,分 别有重复抽样和不重复抽样两种方法。
1、重复抽样
重复抽样是指每次从总体中抽取一个单位进行观察后, 再把这个单位重新放回总体,使之继续参加下次抽选。这 种抽选法也称为放回抽样。
对于某一研究对象,当研究目的确定时,全及总体是确定的, 样本总体是不确定的。
(二)总体指标与样本指标
1、总体指标:根据总体中各单位的标志值计算出来的用于反
映总体的数量特征的指标。又称为全及指标或母体参数。
①总体平均数(总体均值):
N
Xi
X i1 N
②总体成数:
P N1 N
N1 —总体中具有某种
2.分层随机抽样
分层随机抽样又称为类型随机抽样或分类随机抽样。 它是按照某一标志先将总体分成若干组(类),其中每一 组称为一层,然后在每一层内按照简单随机抽样方式进行 抽样的抽样方式。
例如:将工业企业划分为冶金、电力、石油化工、煤炭、 机械、电子等部门,每个部门中进行抽样调查。
进一步细分
类型比例抽样 类型适宜抽样
另外还有二重抽样法、比估计法、回归估计等
七、抽样调查中的几个基本概念
(一)全及总体与样本总体
1.全及总体是指根据调查目的所确定的研究对象全体.简称 为总体.常用 N 表示总体单位数。 2.样本总体是指根据随机原则从总体中抽取一部分单位所组 成的整体.常用 n 表示样本单位数(样本容量)。
一般 n 30 时,称为大样本;n 30 时,称为小样本
1、大数定律(切贝雪夫大数定律)
设 X1, X2, , Xn 是一列两两相互独立的随机变量,服从
同一分布,且存在有限的数学期望 和方差 2 ,则对于
任意小的正数 0 ,有:
lim P( X ) 1
n
n
对于抽样推断:随着样本容量 n 的增加,样本平均
数将接近于总体平均数。
❖ 2、中心极限定理:设从均值为,方差为 2的一个任 意总体中抽取容量为n的样本,当n充分大时,样本均值 的抽样分布近似服从均值为μ、方差为σ2/n的正态分