总体均数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表性越好。
越小,由样本均数估计总体
均数的可靠性越大。
用途 描述个体值的变异程度 描述均数的抽样误差大小
联 系
SX
S n
2. t 分布
t 分布的概念 t 分布的特征 t 界值
t分布的概念
总体
X ~ N(, 2)
中心极限定理
n 100
样本均数 X ~ N(,X2)
变量变换 u X
标准正态分布
总体均数的估计
泸州医学院流行病与统计教研室 杨超
Yangvally@tom.com
思考
某组织欲调查四川省已婚男子私房钱情况。
四川省已婚 成年男子
4000已 婚男性
?
15000元
主要内容
均数的抽样误差和标准误
t 分布
总体均数的估计
1.均数的抽样误差与标准误
抽样误差:由个体变异产生的、随机抽样引 起的样本统计量与总体参数间以及样本统计量 之间的差异称为抽样误差(sampling error)。
总体
样本均数
n n
样本1
X1
样本2
n
X2
n
样本k
Xk
抽样误差
X1 X2
Xk
1.2均数的标准误 (standard error of mean, SEM)
样本均数的标准差称为均数的标准误 用符号 表示
X
说明各样本均数 X 围绕总体均数
的离散程度,可用来描述样本均数的抽样 误差大小
1.3 标准误的计算
均数的抽样误差:抽样引起的样本均数与总 体均数的差异称为均数的抽样误差。
将抽样得到的4000名已婚男性作为总体, 进行研究。现已知其私房钱(OM)服从 正态分布,并算出均数为15000元,标准 差为4000元。
每次从其中抽取5人,计算OM的样本均数 。
n=5
4000已婚男性 N(15000,40002)
以t=0为中心左右对称的单峰分布 分布曲线的形态取决于自由度的大小
✓自由度越小,曲线的峰部越低
✓自由度逐渐增大时,t 分布逐渐逼近标准
正态分布
✓当=∞时百度文库t 分布就是标准正态分布
0.4
0.35
0.3
5
0.25
0.2
0.15
1
0.1
0.05
0
-5 -4 -3 -2 -1
0
1
2
3
4
5
图6.4 自由度分别为1、5、∞的t分布
变量变换 u X
标准正态分布
u ~ N (0,1)
变量变换
X
u
X
未知 X t
s X
3.总体均数的估计
就是用样本统计量来估计总体参数 总体均数估计的两种方法
✓点估计:直接用统计量估计总体参数
✓区间估计:按一定的概率1( ),估计总
体参数的所在范围,这个范围称为参数的
置信区间(confidence interval, CI)
0 .0 4 .2
4 .4
4 .6
4 .8
n=10
0 .2
0 .1
0 .1
0 .0 4 .2 0
4 .4 0
4 .6 0
4 .8 0
n=20
0 .0 4 .2 0
4 .4 0
4 .6 0
4 .8 0
n=50
样本均数的抽样分布特点
各样本均数未必等于总体均数 样本均数之间存在差异 样本均数的分布很有规律,围绕着总体均 数,中间多、两边少,左右对称,基本服 从正态分布 随着样本含量的增加,样本均数的变异范 围逐渐缩小
总体均数置信区间的估计
X t , SX X t , SX
2
2
P(t , t t , ) 1
2
2
P(t , 2
X
sX
t , ) 1 2
X
SX
在 t , 2
到 t , 之间的概率为1- 2
t , 2
X
SX
t , 2
t , SX X t , SX
2
2
X t , SX X t , SX
四川省已婚 成年男子
总体均数有95%的?可能在
(12000,18000)
4000已 婚男性
15000元
区间估计
置信区间(confidence interval, CI)
置信度(confidence level)
置信下限(lower confidence limit) CL 置信上限(upper confidence limit) CU
标准误 的计算
X
n
标准误 的估计值
S
S
X
n
X 的大小与成正比,与样本含量n的平方根成
反比
标准差和均数的标准误的区别和联系
标准差
均数的标准误
计算 公式
(X X )2
S n 1
SX
S n
标准误越小,样本均数的分
统计学 意义
标准差越小,个体值相对 布越集中,样本均数与总体
越集中,均数对数据的代 均数的差别越小,抽样误差
12000
14000
18000
20000
8000
1.均数的抽样误差与标准误
抽样误差:由个体变异产生的、随机抽样引 起的样本统计量与总体参数间以及样本统计量 之间的差异称为抽样误差(sampling error)。
均数的抽样误差:抽样引起的样本均数与总 体均数的差异称为均数的抽样误差。
n=5
4000已婚男性 N(15000,40002)
x 12000
14000
18000
20000
8000
第2000次
将每次抽样计算出的2000个样本均数 12000,14000,18000,20000……绘制 频数分布图。
1.1 样本均数的抽样分布
0 .2
0 .2
0 .1
0 .1
0 .0 4 .2 0
4 .4 0
4 .6 0
4 .8 0
n=5
0 .2
2
2
置信区间的计算
未知,且n小
( X t / 2, SX , X t / 2, SX )
未知,但n足够大 (X Z /2SX , X Z /2SX )
已知
( X Z /2 X , X Z / 2 X )
置信区间的含义
总体均数的95%置信区间的含义是什么
总体均数以95%的概率落入置信区间内 ? 有95%的总体均数在该区间内,而5%的均数
u ~ N (0,1)
变量变换
X
u
X
未知 X t
s X
n = 100
4000已婚男性 N(15000,40002)
x 13000
24000
19000
10000
18000
第2000个样本
X X
t
S X
Sn
n 1
自由度
随机变量能够自由取值的个数
= n - 限制条件的个数
t分布的特征
t界值
t界值表,附表3 由界值表还可看出 同一概率下,自由度越大,t 越小
同一自由度下,t 越大,概率 P 值越小
同一自由度下,双侧概率为单侧概率的2倍时,
所对应的t界值相等
当 时的t界值即为相应概率下的Z值
t分布的概念
总体
X ~ N(, 2)
中心极限定理
n 100
样本均数 X ~ N(,X2)