统计学--第六章-参数估计与假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
值。
t界值表
表上阴影部分,表示t,以外的尾部面积占总面积百分数,即概率P。 表中数据表示 与确定时相应的t界值(critical value),常记为t, 。
t 分布表明,从正态分布总体中随机抽取的样本,由 样本计算的t值接近0的可能性较大,远离0的可能性较 小。 X
t1 t2 t3 t4
样本均数的均数为 μ 样本均数的标准误为 x
n
二、标准误(standard error)
样本统计量的标准差称为标准误。样本均数的标准 差称为均数的标准误。
均数的标准误表示样本均数的变异度
x
n
当总体标准差未知时,用样本标准差代替,
sx
s n
前者称为理论标准误,后者称为样本标准误。
P( z / 2 z z / 2 )=1-
x 此时,均数的(1-)100%的可信区间:
( X z /2 / n , X z /2 / n )
P ( z / 2
X
z / 2 )=1-
未知,则上式中用样本标准差s作为估 计值
单一总体均数的可信区间
1 .9 .8 .7 Fraction .6 .5 .4
.3
.2 .1 0 2.5 2.8 3.1 3.4 3.7 4 4.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.7 7 7.3 7.6 7.9
图
从正态分布N(5.00,0.502)总体中抽样样本均数的分布
.5
.4
Fraction
正常人:n1=12, X 271.89, 1
病人
问题:两组平均相差多少?
均数之差的(1-)100%可信区间 问题:
正常组
1=?
病人组
2=?
1- 2 =?
均 数: 271.89ug/dl 标准差: 10.28ug/dl
z 值的分布:
1-
/2 /2
-z/2
0
z/2
单一总体均数的可信区间
例 随机抽取12名口腔癌患者,检测其发锌含 量,得 X =253.05g/g
s X =27.18g/g
求发锌含量总体均数95%的可信区间。
区间估计:
P ( 2.201 t 2.201) 0.95
253.05 P(2.201 2.201) 0.95 27.18
X 此时 sX
的分布如何?
从正态分布总体中1000次抽样的 X 值的 sX 分布(n=4)
.35 .3
均数为 0.05696 标准差为 1.55827
Fraction
.25
.2
.15 .1 .05 0 -8 -6 -4 -2 0 t 2 4 6 8
用样本方差代替总体方差,此时
记为:
X t ~ t( n 1) sX
t分布图形
f ( t)
=∞(标准正态曲线) =5
0.3
=1
0.2
0.1
-4
-3
-2
-1
0
1
2
3
4
图
自由度分别为1、5、∞时的t分布
t分布的特征
t 分布是一簇曲线,当 ν 不同时,曲线形状
不同;
单峰分布,以0为中心,左右对称;
当ν 逼近∞时,t分布逼近z分布,故标准正 态分布是t分布的特例;
P ( 2.201 27.18 253.05 2.201 27.18) 0.95 P (253.05 2.201 27.18 253.05 2.201 27.18) 0.95
P (193.23 321.87) 0.95
t 值的分布
第六章 参数估计与假设检验
Welcome
第一节 参数估计
了解抽样误差的重要性
总体
同质、个体变异
随机 抽样
样本 代表性、抽样误差
总体参数 未知
样本统计量已知
统计 推断
风 险
抽样误差
sampling error
由抽样引起的样本统计量与总体参数间的差别 原因:个体变异+抽样
表现
样本统计量与总体参数间的差别
单一总体均数的可信区间
P(t /2, t t /2, ) 1
1-
P( t t / 2, )
/2
/2
-t/2, v
0
t /2, v
单一总体均数的可信区间
P(t /2, t t /2, ) 1
X t sX
P( X t /2, sX X t /2, sX ) 1
-t ,v 0
单侧概率
单侧概率
P(t ≤ - t,)=,或P(t ≥ t,)=
t分布
统计学家将t分布曲线下的尾部面积(即概率P) 与横轴t值间的关系编制了不同自由度 下的t界 值表(附表2)。
t界值表:横标目为自由度 ,纵标目为概率P。
t界值:表中数字表示当 和P 确定时,对应的
t分布曲线下面积是有规律的
t分布曲线下面积规律
/2
1-
-t /2,v 0 t /2,v
/2
双侧概率
P(t≤- t/2,)+P(t≥t/2,)=, 即P(-t/2,<t< t/2,)=1-
t分布曲线下面积规律
1-
t ,v -t ,v 0 t ,v
1-
理论基础:t值的抽样分布
v=11
P ( 2.201 t 2.201) 0.95
0.025
-2.201 0
0.025
2.201
可信区间(confidence interval):
区间 193.23 ~ 321.87(g/g) 包含了总体均数,其
可信ห้องสมุดไป่ตู้(confidence level)为95%。
X sX
不服从正态分布,服从t分布
t 分布的概念
1908 年, W.S.Gosset (1876-1937) 以笔名 Student 发表 了著名的t分布,证明了:
设从正态分布 N(, 2) 中随机抽取含量为 n 的样本, 样本均数和标准差分别为 X 和 s,设:
X t , v=n-1 sX 则t值服从自由度(v)为n-1的t分布(t-distribution)
抽样分布规律
μ = 5.0 σ = 0.5
x =5.04
S = 0.44
x =5.19
S =0.42
样本含量n =10 抽样次数m =100
x =5.03
S =0.52
.3
.2 Fraction
.1
0 2.5 2.8 3.1 3.4 3.7 4 4.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.7 7 7.3 7.6 7.9 x
假设检验
(hypothesis test)
参数的估计
点估计 (point estimation) 用随机样本的样本统计量直接作为响应总体参 数估计值的方法,忽略抽样误差
区间估计(interval estimation)
按一定的概率或可信度(1-)用一个区间估计总体参 数所在范围。这个范围称作可信度为1- 的可信区 间(confidence interval, CI),又称置信区间
t
sX
抽样
tn-3 tn-2 tn-1 tn 总体 样本 统计量
-t
0
t
t分布
例如,当 =10 ,单尾概率 =0.05 时,查表 得单尾t0.05,10=1.812,则: P(t≤-1.812)=0.05 或P(t≥1.812)=0.05
0.05 -1.812 0 0.05 1.812
二、标准误
例 在某地随机抽查100名7岁男童,测得 其身高的样本均数124cm,标准差4.6cm , 试估计其标准误
sx s n 4.6 100 0.46( cm )
标准误的用途
反映抽样误差大小 标准误是表示样本均数变异程度
反映均数的可靠性
标准误越大,样本均数抽样误差就越大,用样本 均数推断总体均数的可靠性就越差;
表明:按 t 分布的规律,从正态分布总体中抽取 样本含量为 n=11 的样本,则由该样本计算的 t 值 大 于 等 于 1.812 的 概 率 为 0.05 , 或 者 小 于 等 于 1.812的概率亦为0.05。
统计推断(statistical inference)
总体参数的估计
(parameter estimation)
单一总体均数的可信区间
1. 未知时 用S作为的估计值计算
sX,
x t S X x t S X
其中1-为可信度 即均数的(1-)100%的可信区间为
( X t /2,v sX ,
X t /2,v sX )
单一总体均数的可信区间
已知时,均数(1-)100%的可信区间:
区 别
与标准差的关系
首先,标准差和标准误都是变异指标,说明 个体之间的变异用标准差,说明统计量之间
联 系
的变异用标准误。 其次,当样本含量不变时,标准差大,标准 误亦越大,均数的标准误与标准差成正比。
sx
s n
t 分布
正态分布的标准化变化
若 X ~ N(μ,σ2) , 则
X
~ N (0,1) 。
不同样本统计量间的差别
抽样误差是不可避免的! 控制其大小的最实际的办法是:增大样本量
均数的模拟试验
假设一个已知总体,从该总体中抽样,对每 个样本计算样本统计量(均数、方差等),观察 样本统计量的分布规律--抽样分布规律
正态分布总体 偏三角分布总体 均匀分布总体 指数F分布总体 双峰分布总体
结论:口腔癌患者发锌含量总体均数为 193.23~
321.87(g/g)(可信度为95%)。 或:口腔癌患者发锌含量总体均数的 95 %可信 区间为: 193.23~321.87(g/g)。
均数之差的(1-)100%可信区间
例 转铁蛋白含量
s 10.38 s 14.39
:n2=15, X 2 235.21,
标准误越小,样本均数抽样误差就越小,用样本 均数推断总体均数的可靠性就越好。
标准误可用于计算总体均数的可信区间,可用于 有关总体均数的假设检验。
与样本含量的关系
sx s n
n 越大,均数的均数就越接近总体均数;
n 越大,变异越小,分布越窄;
与标准差的关系
1、意义上 标准差描述个体值之间的变异,即观察值间的离散程度; 而标准误是描述统计量的抽样误差,即样本统计量和总 体参数的接近程度; 2、用途上 标准差常用于表现观察值的波动范围; 标准误常表示抽样误差的大小,误差小,样本均数与总 体均数更接近。 3、与样本含量 标准差是随着样本含量的增多,逐渐趋于稳定。 标准误是随着样本含量的增多,逐渐减少。
(一)从均数为、标准差为 的正态总体中, 独立随机抽取例数为 n 的样本,样本均数 的分布服从正态分布; X ■样本均数的均数为 μ; ■样本均数的标准误 x
n
抽样分布示意图
抽样分布
中心极限定理
(二)从非正态 (non-normal) 分布总体 ( 均数 为μ ,标准差为σ )中随机抽样(每个样本的含 量为n),可得无限多个样本,每个样本计算样 本均数,则只要样本含量足够大 (n>50), 样本 均数也近似服从正态分布。
.3
.2
.1
0 4.1 4.4 4.7 5 5.3 5.6 5.9
x
图
从正态分布N(5.00,0.502)总体中抽样样本均数的分布
结论2
X
的分布很有规律,围绕着 ,中间多,
两边少,左右基本对称;
样本均数的变异范围较之原变量的变异范围 大大缩小;
中心极限定理(central limit theorem)
因 X ~ N ( , X ) ,则 z
2
X
X
~ N (0,1)。
从正态分布总体中1000次抽样的 z 值的分 布(n=4)
.2
均数为 0.007559 标准差为 1.006294
Fraction
.15
.1
.05
0
-4
-3
-2
-1
0 z
1
2
3
4
t 分布的概念
实际工作中,总体方差未知。所以,用样 本方差代替总体方差
图
正态分布N(5.00,0.502)总体分布
) 0 1
(据数的本样机随个 1 1 中体总)
2
0 5
0, 0 0
5(
1、 4表
n =
.
.
N
结论 1
各样本均数未必等于总体均数; 样本均数间存在差异;
由抽样实验所得的100个样本作出其均数分布直 方图如图 。曲线是对抽样得到的100个 X 数据 拟合的分布曲线。