样本均值一定服从正态分布
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.
常用的置信水平值有 99%, 95%, 90%
总体均值区间的一般表达式
1.
2.
3.
总体均值的置信区间是由样本均值加减估计误差 得到的 估计误差由两部分组成:一是点估计量的标准误 差,它取决于样本统计量的抽样分布。二是估计 时所要求置信水平,统计量分布两侧面积的分位 数值,它取决于事先所要求的可靠程度 总体均值在置信水平下的置信区间可一般性地表 达为 样本均值±分位数值×样本均值的标准误差
3
本讲内容
■有关概念 ■抽样分布 ■参数估计 ♦单一总体均值估计 ♦单一总体比率估计 ♦两个总体均值之差估计 ♦两个总体比率差异估计 ■确定样本容量
4
有关概念
参数与统计量
统计误差
5
参数与统计量
参数:反应总体分布特征的指标统称为
总体参数,简称参数。常用的有
, , 和
2
统计量:反应样本分布特征的指标统称
n
服从标 准正态分布
X n
结论:
X S/ n
服从t 分布
样本均值抽样分布总结
总体分布
正态分布
非正态分布
大样本
小样本
大样本
小样本
正态分布
非正态分布
15
两个样本均值之差的抽样分布
从两个总体中分别独立的抽取样本容量
分别为n1和n2的两个样本,在重复选取 容量为n1和n2的样本时,由两个样本均 值之差的所有可能形式的相对频数构成 它们分布形态,也称为两个样本均值之 差的抽样分布.
N 1
) (不退还抽样)
18
假设一则关于公务旅游的报纸广告的达中率是7%。对单位客户随机
抽取800户,问对样本客户达中率在8.3%以上的概率有多大。 解:已知π=0.07,n=800,
则nπ=800(0.07)=56, n(1-π)=800(1-0.07)=744,
两者都大于5, p 服从以π=0.07为期望值的正态分布。 p的抽样标准误为 p 0.07 0.93 0 。 .01
第五讲 抽样分布与参数估计
1
统计名言 不象其他科学,统计从来不打算使 自己完美无缺,统计意味着你永远 不需要确定无疑。
—— Gudmund R.Iversen
2008年8月
【教学目的和要点】
▼通过本讲学习,学生应该掌握构 建样本平均数和样本比例的抽样分 布以及掌握如何根据样本的信息推 断总体的信息。
置信区间的表述
(confidence interval)
1.
2.
总体参数的真值是固定的,而用样本构造的区 间则是不固定的,因此置信区间是一个随机区 间,它会因样本的不同而变化,而且不是所有 的区间都包含总体参数 实际估计时往往只抽取一个样本,此时所构造 的是与该样本相联系的一定置信水平(比如95%) 下的置信区间。我们只能希望这个区间是大量 包含总体参数真值的区间中的一个,但它也可 能是少数几个不包含参数真值的区间中的一个
正态分布再生定理 中心极限定理 两样本均值差异的Fra bibliotek样分布11
正态分布再生定理
■当总体服从正态分布时,从中抽取样本容 量为n的样本,样本均值一定服从正态分布。 ■样本均值的期望值和方差?它们与总体的 期望值和方差有何关系
样本均值的期望值等于总体均值 方差(有退还抽样、无退还抽样
(退还抽样)
16
两个样本均值之差的抽样分布 (大样本)
两个总体均值之差,即 E ( x1 x2 ) 1 2 其分布的方差为各自的方差之和,即
从而
2 X X
1 2
12
n1
2 2
n2
X 1 X 2 ~ N (1 2 ,
12
n1
2 2
n2
)
17
比率的抽样分布
(不退还抽样)
12
中心极限定理
■设某总体的元素总量为N,期望值为 ,标 准差为 ;若从该总体中随机抽取样本容量为 n的样本,当n很大(n>30)时,则样本平均数 的抽样分布近似为正态分布,即:
(退还抽样) (不退还抽样)
13
抽样分布定理
X
正态分布再生定理 的概率分布
中心极限定理
小样本定理
大前提: 1)X服从正态分布;
n
有95.44%的把握估计区间
包含总体均值
X 2
X
, X 2 X
34
区间估计的图示
x z 2 x
- 2.58x -1.65 x
x
+1.65x +2.58x
x
-1.96 x
+1.96x
90%的样本 95% 的样本 99% 的样本
^
ˆ) P(
无偏 有偏
A
B
ˆ
有效性
(efficiency) 有效性:对同一总体参数的两个无偏点估计
量,有更小标准差的估计量更有效
---考虑估计量的值接近总体参数的程度
ˆ) P(
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
一致性
(consistency)
一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数
设某二项分布总体,总体比率为 ,若从该总体中 随机抽取样本容量为n的样本,当样本容量足够大 (n 5, n(1 ) 5)时, 样本比率p的抽样 分布近似为正态分布,即:
p ~ N ( ,
p ~ N ( ,
(1 )
n
n
)
(退还抽样)
(1 ) N n
800
0.083-0.07
P(p>0.083)= P(z>
0.01
)= P(z> 1.30)=0.0968。
结论:对样本客户达中率在8.3%以上的概率是9.68%。
思考题:
1.什么是统计量,为什么要引进统计量? 2.为什么要求统计量中不含任何未知参数?
20
1.统计量是指不含任何未知参数的样本的函数,样 本均值、样本方差都是统计量。引进统计量的目的 是为了将无规律的样本值整理成便于对所研究问题 进行统计推断、分析的形式。 将样本中所含的有关所研究问题的信息集中 起来,从而更有效地揭示出问题的实质,进而得到 解决问题的办法。例如,为了估计总体的均值,科 将样本中关于总体取值的信息集中起来,这一信息 就集中体现在样本的均值中。因为若总体期望比较 大时,取自总体观测值的均值自然也应有偏大倾向, 反之则将有偏小倾向。
ˆ) P(
较大的样本量
B A
较小的样本量
ˆ
一致性
(consistency)
应用:较大方差的无偏估计量与较小方差的 有偏估计量的比较评价
E ( ) 2 E[ E ( ) E ( ) ]2 2 [ E ( ) ]2
^ ^ ^ ^ ^
42
单一总体平均数的区间估计
当σ已知时μ的置信区间
当σ未知时μ的置信区间
大样本
小样本
43
当
已知时计算μ的置信区间的步骤
•选定置信系数 •抽取一个样本容量为n的样本 •计算 •确定 统计量的概率分布 •求置信区间的临界值 •单一总体平均数的置信区间的临界值为
44
总体均值的区间估计
临界值:置信区间的上限和下限
注意置信系数和区间宽窄的关系
36
置信水平(置信系数)
(confidence level)
1.
2.
将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例,也称置信度 表示为 (1 -
为是总体参数未在区间内的比例
相应的 为0.01,0.05,0.10
置信区间的表述
(confidence interval)
1.
2.
3.
由样本估计量构造出的总体参数在一定置信水平 下的估计区间 统计学家在某种程度上确信这个区间会包含真正 的总体参数,所以给它取名为置信区间 如果用某种方法构造的所有区间中有95%的区间 包含总体参数的真值,5%的区间不包含总体参数 的真值,那么,用该方法构造的区间称为置信水 平为95%的置信区间。同样,其他置信水平的区 间也可以用类似的方式进行表述
2008年8月
区间估计的几个关键概念
置信系数 1 使人相信区间包含总体均值的 概率,一般取 0.95,0.90,0.99.它的大小说明估计的 把握性的大小. 置信区间:在一定概率的保证下,包含总体均值的区 间,区间的宽窄说明估计精度的大小.区间越宽,估计 的精度就小;否则就大.
P(1 2 ) 1 (0 1)
1 为置信度, (1 , 2 ) 为 的置信区间, 1 和 2分别为 置信下限和置信上限
^
^
^
^
^
^
32
区间估计
(interval estimate)
1.
2.
在点估计的基础上,给出总体参数估计的一个估计 区间,该区间由样本统计量加减估计误差而得到 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
为样本统计量,简称统计量。常用
x, s , s, p
6
2
总体参数 平均数 比率 方差
2
样本统计量
X
N
x x n
N1 N
(X )
n1 p n
2
( X )
N
s
2
(x x) ( x) n 1
2
7
抽 样 推 断 流 程
布研 的究 意样 义本 何统 在计 ?量 抽 样 分
统计误差
非抽样误差 统计误差
抽样误差: 随机性误差
9
抽样分布
定义:样本统计量的概率分布称为抽样
分布。用以描述抽样误差的规律性,是 统计推断的理论基础。 有关统计量的抽样分布 单一样本均值的抽样分布 两个样本均值之差的抽样分布 样本比率的抽样分布
10
X 的抽样分布
单一样本均值的抽样分布
2)总体标准差已知。
大前提: (X服从任意分布)
总体标准差已知。
大前提:
1) X服从正态分布; 2)总体标准差未知。
小前提: (样本容量不
限)
小前提:样本容量足够
大( n>30)
小前提:理论上不设定
,实践上n<=30
结论:
X 也服从 正态分布。
X
X 逼近正态分布。 结论:
z
z
服从标 准正态分布
置信区间的表述
(95%的置信区间)
点估计值
我没有抓住参数!
2008年 8月 从均值为 185的总体中抽出n=10的20个样本构造出的20个置信区间
区间估计的程序
• • • • • • 选定置信系数 抽取一个样本容量为n的样本 计算相应的统计量 确定统计量的概率分布 得到置信区间的临界值 得到参数的置信区间
比如,某班级平均分数在75~85之间,置信水平是95%
置信区间
样本统计量 (点估计)
置信下限
置信上限
区间估计的基本原理
X
如果有
那么有
z
X p 2 2 0.9544 n p( X 2 X 2 ) 0.9544 n n
第一项:估计量 的方差; ^ 第二项: 估计 的系统偏差的平方
^
30
区间估计
•区间估计的定义 •区间估计的原理
•区间估计的程序
•单一总体平均数的区间估计 •单一总体比率的区间估计 •两个总体均值之差的区间估计 •两个总体比率差异的区间估计
31
区间估计的定义
♦ 区间估计是在一定的置信系数的 保证下,根据统计量得到的一个 取值范围去估计总体的参数。
22
参数估计
估计方法
点估计 区间估计
单一总体均值估计 单一总体比率估计
两个总体均值之差估计
23
参数估计的方法
●点估计 ●区间估计
24
点估计
(point estimate)
1.
用样本的估计量的某个取值直接作为总体参 数的估计值
例如:用样本均值直接作为总体均值的估计; 用两个样本均值之差直接作为总体均值之差的 估计
由于样本是随机的,抽出一个具体的样本得到 的估计值很可能不同于总体真值
2.
无法给出估计值接近总体参数程度的信息
一个点估计量的可靠性是由它的抽样标准误差 来衡量的,这表明一个具体的点估计值无法给 出估计的可靠性的度量
点估计
估计量优良性的标准
无偏性 有效性 一致性
26
无偏性
(unbiasedness) 无偏性:估计量抽样分布的数学期望等于 被估计的总体参数:E ( ) ---考虑估计量与参数的系统偏差问题
21
2.因为统计量的适用目的在于对所研究的问题 进行统计推断和分析。比如用统计量对未知 参数进行估计时,若统计量本身仍含有未知 参数,那么就无法根据所测得的样本值求得 未知参数的估计值,利用统计量估计未知参 数将失去意义。再如,在假设检验中,若检 验统计量中含有未知参数,那么由样本值就 无法求出相应的检验统计量的值,也就无法 与相应的临界值进行比较,从而使得通过统 计量表示的拒绝域将失去意义。