五、均数的抽样误差和假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x
正态总体
S
μ=4.83
σ=0.52
1. 4.58, 0.38 2. 4.90, 0.45 3. 4.76, 0.49 ┆ 99. 4.87, 0.59 100. 4.79, 0.39
将此100个样本均数看成新变量值,则这100 个样本均数构成一新分布,绘制直方图。
30 25 20
频数
15 10 5 0 4.2~ 4.3~ 4.4~ 4.5~ 4.6~ 4.7~ 4.8~ 4.9~ 5.0~ 5.1~ 5.2~ 红细胞数(×1012 /L)
(二)t 分布(t-distribution)
W.S.Gosset于1908年在
《生物统计》杂志上发表
该论文时用的是笔名
“Student”,故t 分布又 称Student t 分布。
“正态总体下t统计量的精确分布,开创了
小样本理论的先河。” ──摘自《中国大百科全书》
戈塞特(William Sealey Gosset), 英国统计学家
t界值表示方法: t ,
ν:[nju],自由度 α:t值相对应的单侧或双侧面积或概率p 例:双侧t0.05,10=2.228,单侧t0.025,10=2.228(见t界值表)
t界值表特征: t分布以0为中心左右对称,故界值表只
列单侧t值
单侧α与双侧2α的t界值相同,如上例 相同自由度, α值越小, , 越大 t 相同 α值,自由度越小, , 越大
t分布为一簇曲线,不是一条曲线, 与自由度有关,自由度不同,曲线形 状不同
n1
(
μ
x1 , x2 , x3 , xk1
x1 , x2 , x3 , xk 2
……
t分布曲线1
,σ2) n2
t分布曲线2
nm
x1 , x2 , x3 , xkm
t分布曲线m
t分布
t分布特征
以0为中心,左右对称的连续 型单峰分布 随自由度变化的一簇曲线 , 自由度越小,t值越分散,曲线 低平,两侧尾部越高;自由度 越大,峰型越接近u分布,两尾 越低;ν=∞,t分布成为u分 布 t分布曲线下面积分布有一定 规律(见P261 t界值表)
第1个样本S X 第2个样本S X 第3个样本S X 第100个样本S X S 0.39 =0.123 n 10 S 0.38 =0.120 n 10 S 0.45 =0.142 n 10 S 0.49 =0.155 n 10
0.52 X 0.1644 n 10
0
频数
100
150
200
250
300
350
400
450
3个抽样实验结果图示
均数
71 92 12 33 54 74 95
n 30
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
均数
5. 5. 5. 5. 5. 6. 15 36 57 77 98 19
准差为0.1×1012 。 /L
2、标准误(standard error, SE)
表示样本统计量抽样误差大小的统计 指标。可用于衡量抽样误差的大小。
均数标准误: 说明均数抽样误差的
大小,总体计算公式
X
n
实质:样本均数的标准差
数理统计证明:
X X ; X X 。
标准误的特点:
n=10
标准误的用途
衡量抽样误差的大小(标准误越小,抽样误
差越小,用样本均数估计总体均数的可靠性越大)
;
估计总体均数的置信区间; 用于假设检验。
标准误与标准差的区别与联系
区别:
标准误 标准差
定义 反映抽样误差 用途 总体均数可信区间
进行统计学检验
反映个体变异
医学参考值范围 计算标准误、CV
式中 为自由度(degree of freedom, df)
X X t , n 1 SX S n
t 分布(t-distribution)
X
随机变量X
u
标准正态分布
N (,2)
u变换
N(0,12)
均数 X
N (u, n)
2
X u / n
标准正态分布
1、均数的抽样误差
(sampling error of mean)
由个体变异产生的、抽样造成的样本统计量与总 体参数的差别 均数的抽样误差:由于抽样造成的样本均数与总 体均数的差别
两种表现形式
–样本统计量与总体参数间的差异 –样本统计量与样本统计量之间的差异
抽样误差产生的条件
抽样研究 个体变异
0.10 0.20 3.078 1.886 1.638 1.533 1.476 1.290 1.286 1.283 1.282 1.2816
0.05 0.10 6.314 2.920 2.353 2.132 2.015 1.660 1.653 1.648 1.646 1.6449
(三)、总体均数置信区间的估计
N(0,12)
X X t , v n 1 SX S n
Student t 分布 自由度:n-1
t转换公式:
x x t sx s/ n
从同一总体中,抽取样本含量
相同的多个样本,每个样本均数都 可计算出一个t值,故得到若干个t 值,形成一条t分布曲线 如抽取许多样本含量不同(严 格说是自由度不同)的样本群,则 可以分别组合成许多不同形状的t分 布曲线,这就形成了t分布
频数
100
150
200
250
300
350
400
450
3.
50
0
71 92 12 33 54 74 95 15 36 57 77
3. 4. 4. 4. 4. 4.
n=5
均数
频数
5. 5. 5. 5. 5. 6.
100
98 19
150
200
250
300
350
400
450
50
50 0
3. 3. 4. 4. 4. 4. 4.
简写为:X u s x
例 7-15 由例7-1中102名健康女大学生口腔温度均
数为 X =37.06℃,标准差S=0.198℃,标准误 S X
图9-1
随机抽样所得100个样本均数的分布
100个样本均数的抽样分布特点:
① 各样本均数未必等于总体均数; X
② 各样本均数间存在差异; x
对称。近似服从正态分布。
③ 样本均数的分布为中间多,两边少,左右基本
源自文库
i
xj
④ 样本均数的变异范围较之原变量的变异范围大 大缩小。
可算得这100个样本均数的均数为4.827×1012 、标 /L
(2)u分布法
可信区间计算方法: 1、当σ已知时,总体均数的1-α 可信区间为:
X u
x
, X u x 简写为: X u x
2、当σ未知,但样本含量n足够大时,用s代替σ计 算总体均数的1-α可信区间
X u s
x
, X u s x
按一定的概率或可信度(1- )(常取95%或99%)
用一个区间估计总体参数所在范围,这个范围
称作可信度为1- 的可信区间(confidence
interval, CI),又称置信区间 。这种估计方 法称为区间估计。
总体均数可信区间的计算
需考虑: (1)总体标准差是否已知, (2)样本含量n的大小 通常有两类方法: (1)t分布法
t
-t
0
t
附表2
自由度
t 界值表
概 率,P 0.025 0.01 0.05 0.02 12.706 31.821 4.303 6.965 3.182 4.541 2.776 3.747 2.571 3.365 1.984 1.972 1.965 1.962 1.9600 2.364 2.345 2.334 2.330 2.3264 0.005 0.01 63.657 9.925 5.841 4.604 4.032 2.626 2.601 2.586 2.581 2.5758 0.0025 0.005 127.321 14.089 7.453 5.598 4.773 2.871 2.839 2.820 2.813 2.8070 0.001 0.002 318.309 22.327 10.215 7.173 5.893 3.174 3.131 3.107 3.098 3.0902 0.0005 0.001 636.619 31.599 12.924 8.610 6.869 3.390 3.340 3.310 3.300 3.2905
1 2 3 4 5 100 200 500 1000
单侧 双侧
0.25 0.50 1.000 0.816 0.765 0.741 0.727 0.677 0.676 0.675 0.675 0.6745
0.20 0.40 1.376 1.061 0.978 0.941 0.920 0.845 0.843 0.842 0.842 0.8416
即 u 分布;
X 2.若样本均数 服从总体均数为 、
2 X 的正态分布 N ( , X ) ,则通 总体标准差为
过同样方式的 u 变换( X
X
)也可将其转换为
标准正态分布 N(0, 12),即 u 分布。
3.实际工作中,由于 X 未知,用 S X 代 替,则 ( X ) / SX 不再服从标准正态分 布,而服从t 分布。
1.点估计 (point estimation)
直接用样本统计量作为总体参数的估计值
–方法简单,但未考虑抽样误差的大小 –在实际问题中,总体参数往往是未知的, 但它们是固定的值,并不是随机变量值。而
样本统计量随样本的不同而不同,属随机的。
2.区间估计(interval estimation)
样本
推断
总体 (2)假设检验
(1)参数估计
参数估计(parameter estimation)
由样本信息估计总体参数
–点估计(point estimation)
–区间估计(interval estimation)
点估计:由样本统计量 X、S、p
直接估计总体参数
、、
参数的估计
区间估计:在一定置信度( Confidence level)下,估计总体 参数可能存在的范围
指标描述
统计描述 图表描述 统计分析 参数估计 统计推断 假设检验
回顾上一节内容:
集中趋势指标:
算术均数、中位数、几何均数
离散趋势指标:
全距、四分位数间距、
方差、标准差、变异系数
正态分布:概念、特征、面积规律、应用
医学参考值估计:步骤、估计方法
五、均数的抽样误差与总体均数的估计
(一)均数的抽样误差与标准误
联系:当n一定时标准差大,标准误也大
抽样实验小结
样本的均数围绕总体均数上下波动。 均数的标准差即标准误 样本均数的标准误(Standard Error) 计算公式为:样本标准差/
样本含量=S n
从正态总体N(μ,σ2)中抽取样本,获得均数
的分布仍近似呈正态分布N(μ,σ2/n) 。
当样本例数n一定时,标准
误与标准差呈正比;
当标准差一定时,标准误与
样本含量n的平方根呈反比。
X n
通过增加样本含量n来降低抽样误差。
实际工作中, 往往是未知的,一般可用样本
标准差S代替
,
SX
S n
降低抽样误差的途径有:
①通过增加样本含量n;
②通过设计减少S。
计算了100个样本的标准差 S ,由此 可计算样本的标准误大小。
抽样研究:从总体到样本 实际工作:由样本推断总体 统计推断(statistical inference)就是根据样本所
提供的信息,以一定的概率推断总体的性质。
统计推断:由样本信息推断总体特征。
样本统计指标 (统计量) 总体统计指标 (参数)
统计推断(statistical inference):
例如,从总体均数μ为4.83× 12 10 /L、标准差 为 0.52× 12 10 /L的正态分布总体N(4.83,0.522)中,随机 抽取10 人为一个样本 (n=10),并计算该样本的均数、 标准差。
如此重复抽取100次(g=100),可得到100份 样本,可得
到100对均数 x和标准差S 。
t 分布概述
抽样误差的分布规律 ↓ 样本 → 总体 ↑ 手段
t分布 理论
(桥梁)
↑ 目的
t 分布的概念
1.若某一随机变量 X 服从总体均数为 、总体
2 标准差为 的正态分布 N ( , ) ,则可通过 u 变换
X
(
)将一般正态分布转化为标准正态分布 N(0,12),