第4章 抽样与参数估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

n0 n1 p ,q , p q 1 n n
式中,n代表样本总体单位数,n1表示具有某一 种表现的单位数;n0代表不具有此种表现的单位 数;p、q代表样本成数。
样本比例
例如,从某灯泡厂生产的灯泡中,抽样检查了100 只灯泡,其中有3只不合格,则: 样本灯泡不合格率
n1 3 p 3% n 100
(1)用某种方法构造的所有区间中有95%的区间包含总体参数的真值,则 成为置信水平为95%的置信区间 (2)总体参数的真值是固定的、未知的;样本构造的区间是不固定的。
平均值: X
曲线下的总面积 =100%
回忆一下, 这是什么?
1
-∞ +∞
3
2
1
1
68.26% 95.44%
当总体缺乏包括全体单位的抽样框,无法进行抽 选时,可以采用整群抽样; 一般是不重复抽样;
等距抽样
又称为机械抽样或系统抽样,先将总体各单位按某一标 志排队,然后依固定顺序和间隔来抽取样本单位的一种 抽样组织形式。 等距抽样是不重复抽样,等距抽样的随机性体现在抽取 第一个样本单位,当第一个样本单位确定后,其余的各 个单位也就确定。
主讲人:吴锦桂 管理学院
1. 抽样与抽样分布 2. 参数估计的基本方法 3.总体均值的区间估计 4.总体比例的区间估计 5.样本容量的确定
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
一、参数估计的概念
统计抽样法是统计分析研究中的一种重要方法,包 括统计调查和参数估计两部分。
总体均值的区间估计-例子
【例】某种零件的长度服从正态分布,从某天生产一批零件 中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。 已知总体标准差为=0.15cm。试估计该批零件平均长度的 置信区间,置信水平为95% 解:已知:= 0.15cm,n=9,x=21.4,1-=95%
x z 2
2. 3.
参数用 表示,估计量用
ˆ
表示
估计值:估计参数时计算出来的统计量的具体值
如果随机抽取的一个样本的均值 x =80,则80就 是的估计值
两种估计方法
例:对某厂生产的一批电子元件的使用寿命进行
检测,先从中随机抽取500只进行调查,得知其
样本平均寿命为1950小时,样本的合格率为
95%。用点估计的方法推断总体的平均寿命和
表示为 (1 -
为是总体参数未在区间内的比例,叫显著性 水平。
1.
常用的置信水平值有 99%, 95%, 90%
1. 相应的 为0.01,0.05,0.10
以下哪种说法是正确的?
95%的置信水平得到某班学生考试成绩的置信区间 为60~80.则( )
A. 60~80这个区间以95%的概率包含全班学生平均考试 成绩的真值; B. 全班学生的平均考试以95%的概率落在60~80分之间 – 在多次抽样中有95%的样本得到的区间包含全班学生平 均考试成绩
简单随机抽样主要适用于单位数不多且内部 差异不太大的总体的抽样。
分层抽样
又称为分类抽样,是先对总体各单位按照某一标志加以 分类,再从各类中按随机原则抽取样本单位。 优点: 能提高样本的代表性;
能降低抽样平均误差的总方差;
便于组织工作;
适用于对被调查标志的标志值在各单位间分布差 异大的总体的 3% 97%
抽样方式 重复抽样(有放回的抽样)
例:从ABCDE五个字母中随机抽取两个作为样本, N=5,n=2 考虑顺序时:样本个数=5*5=25 不考虑顺序时,样本个数=15
抽样方式 不重复抽样(无放回抽样)
例如从ABCDE五个字母中随机抽取两个作为样本, N=5,n=2 考虑顺序时:样本个数=20 不考虑顺序时:样本个数=10
=10
n=4 x 5
5 x 2
n =16
= 50
总体分布
X
x 50
抽样分布
x
重要结论
抽样平均数的标准差反映所有的样本平均 数与总体平均数的平均误差,称为抽样平 均误差,用 X 表示:
X
n
重要结论
由概率论知,如果总体是正态分布的,则样本平均 数的抽样分布是如下正态分布:
99.73%
2
3
区间估计的图示
X z 2 X
-1.645 -1.96x
x
X


+1.645x
2.58x
+ 2.58x
X

90%的样本 95% 的样本 99% 的样本
+1.96x
一. 正态总体且方差已知,或非正 态总体,方差未知、大样本 二. 正态总体,方差未知、小样本
在点估计的基础上,给出总体参数估计的一个区间 范围,该区间由样本统计量加减抽样误差而得到的
比如,某班级平均分数在75~85之间,置信水平是95%
置信区间
样本统计量 (点估计)
置信下限
置信上限
基础概念——置信水平
1.
将构造置信区间的步骤重复很多次,置信区间包
含总体参数真值的次数所占的比例称为置信水平
是一种理论分布 随机变量是 样本统计量
样本均值, 样本比例,样本方差等
2.
3.
4.
结果来自容量相同的所有可能样本
抽样分布的形成过程
总体
样 本
计算样本统计量
重复 抽样 分布
如:样本均值、比 例、方差
样本平均数的分布--重复抽样
例:某班组有5个工人的日工资为34、38、42、46、 50元。 总体均值为

ˆ
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
的抽样分布 P(ˆ) 1
B
A

的抽样分布 2
ˆ

一致性:随着样本量的增大,估计量的值越来 越接近被估计的总体参数
P(ˆ)
较大的样本量
B A
较小的样本量

ˆ
两种估计方法
区间估计--基础概念
1.
概念
参数估计的特点
抽取样本单位时,遵循随机原则; 是由部分推断总体的一种研究方法,即以样本的 数量特征去推断总体的数量特征; 抽样推断产生抽样误差,但抽样误差可以事先计 算与控制。
有关参数估计的几组概念(回顾)
总体和样本
总体:又称母体、全及总体,指所需要研究对 象的全体,由许多客观存在的具有某种共同性 质的单位构成。总体单位数用N表示;
态分布近似
(np≥5和n(1-p)≥5时认为样本量足够大

• 一种理论概率分布 推断总体总体比例的理论基础
样本比例的抽样分布-期望与方差
1.
样本比例的数学期望
E ( P)
2.
样本比例的方差
重复抽样

2 P
(1 )
n
1.从均值为200,标准差为50的总体中抽取n=100
总体 样本

参数

统计量 平均数 x

s
标准差
p
样本平均数
代表样本单位数量标志的一般水平; 通常用 x 表示:
x1 x2 xn x x n n
样本比例
在抽样总体中,一个现象有两种表现时,其中具 有某一种表现的单位数占抽样总体单位数的比重 叫做样本成数,用p表示。 计算公式为:
2 f ( X X ) 2( X ) 16(元2 ) f
验证了以下两个结论
E( X )
(X )
2
2
n
即:对于重复抽样分布,样本平均数的期望值等于
总体平均数,而样本平均数的方差等于总体方差除 以样本容量。
重要结论
当总体服从正态分布 N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值 x 也服从正态分布,的数学期 x 望为μ,方差为σ2/n。即 x ~N(μ,σ2/n)
基本原则: 保证实现抽样的随机性原则 保证实现最大的抽样效果原则
常用的抽样组织形式 简单随机抽样
在对总体未做任何处理的情况下,按随机原则直 接从总体的N个单位中抽取n个单位作为样本,使 每个总体单位都有同等机会被抽到。
具体方法:
先对总体每个单位进行编号,然后采用抽签 的方式或根据《随机数表》来抽取样本。
的简单随机样本,样本均值用于估计总体均值。
求:
样本均值的数学期望是多少?
样本均值的标准差是多少?
样本均值的抽样分布是什么?
一. 估计量与估计值 二. 点估计与区间估计
基础概念
1.
估计量:用于估计总体参数的随机变量
如样本均值,样本比例、样本方差等 例如: 样本均值就是总体均值 的一个估计量
总体均值的区间估计-大样本
1. 假定条件
总体服从正态分布,且方差(2) 未知or已知 如果不是正态分布,可由正态分布来近似 (n 30)
使用正态分布统计量z
x z ~ N (0,1) / n
2. 总体均值 在1-置信水平下的置信区间为

2
x z
n
或 x z
2
s ( 未知) n
合格率。
根据点估计推断:总体的平均寿命为1950小时,
总体的合格率为95%。
总结
点估计方法的优点是简便易行,原理直观,而主要 缺点是没有解决参数估计的精确度和可靠性问题;
一般只适用于对推断准确性程度和可靠性要 求不高的情况。
无偏性 有效性 一致性

无偏性:估计量抽样分布的数学期望等于被 估计的总体参数 P(ˆ ) 无偏 A 有偏 B
适用于对单位不多且能进行排序的总体抽样
多阶段抽样
在总体容量很大或分布很广的情况下,很难通过
一次抽样得到一个完整的样本,需要把整个抽样
的程序分成若干个阶段,分阶段的进行抽样; 在抽样中能把多种抽样方式结合起来使用,最大 限度的保证样本的代表性。
分层抽样
随机抽样
抽样分布
1.
在重复选取容量为n的样本时,由每一个样本算 出的该统计量数值的相对频数分布或概率分布

n
21.4 1.96
0.15 9
即:21.4±0.098=(21.302,21.498),该批零件平 均长度的置信区间为21.302cm~21.498cm之间
总体均值的区间估计-例子分析
【例】一家保险公司收集到由36个投保个人组成的随机样本, 得到每个投保人的年龄 ( 周岁 ) 数据如下表。试建立投保人年 龄90%的置信区间
=42
2
总体方差为 =32 现用重复抽样的方式从5个人中随机抽取2个构成样 本,样本总数为5*5=25个。
样本平均数 X 34 36 38 40 42 44 46 48 50 合计
频数 1 2 3 4 5 4 3 2 1 25
抽样分布的形成过程
42
Xf E( X ) X 42(元) f
样本:又称子样,来自总体,是从总体中按随 机原则抽选出来的部分,由抽选单位构成。样 本单位数用n表示; 总体是唯一的、确定的,而样本是不确定的、 可变的、随机的。
总体指标和样本指标
总体参数:反映总体数量特征的指标,数值是 唯一确定的。
样本统计量:根据样本分布计算的指标,是随 机变量。
参数与统计量的区别
特点
直接从总体中抽取所需要调查的单位,无须经过分组、 分类、排队或组群等处理; 必须事先对总体中所有单位进行编码或编号。当总体很 大,编号工作很困难,或对连续生产的产品不可能编号 时,就很难采用这种方法; 抽取样本时不借助有关标志的辅助信息; 当总体各单位标志值之间差异很大时,采用这种抽样方 式不能保证样本的代表性;
如何分组?
方法:等比例分配法
ni Ni n N
即样本单位在各类之间的分配比例与总 体单位在各类之间的分配比例是一致的。
整群抽样
将总体划分为由总体单位所组成的若干群,然后以 群作为抽样单位,从总体中抽取若干群作为样本, 并对中选群内的所有单位进行全面调查的抽样方式。 优点:
无须编制总体单位名单,只需编制总体群名单;
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
抽样分布与总体分布的关系
总体分布
正态分布
大样本
非正态分布
小样本
正态分布
正态分布
非正态分布
样本比例的抽样分布
1. 容量相同的所有可能样本的样本比例的概率分布
2.
当样本容量很大时,样本比例的抽样分布可用正
N ( ,

2
n
)
2
n )
记为: x ~ N ( ,

x z ~ N (0,1) / n
这是一个非常重要的结论,有广泛的应用
中心极限定理
中心极限定理:设从均值为,方差为 2的一个任意总 体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为μ、方差为σ2/n的正态分布
相关文档
最新文档