2-5均数的抽样误差和总体均数的估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
标准误与标准差是常用的统计指标,两者均为变异指标,但两者之 间既有区别又有联系 标准差 反映个体观察值的离散程度 对一个变量值是否在在正常 值范围作出估计 ±1.96S X 用来估计正态分布 用以计算标准误和变异系数 标准误 反映样本均数的离散程度 用来描述样本均数的可靠程 度 ± 可估计总体均数的可信区间 SX X 用来进行假设检验
n=100
X
μ
n=100 n=100
X X
全校女 生身高 n=800
n=100
n=100
X 1.59 X 1.62 X 1.57 X 1.61
1.6 m
n=100 n=100
2、均数的标准误
n=100
X X
μቤተ መጻሕፍቲ ባይዱ
• 抽样误差在抽样研究中不可 避免,但有规律可循。从一 个正态总体中,随机抽取许 多含量相等的样本,这些样 本均数的频数服从以总体均 数为中心的正态分布。即使 总体不呈正态分布,只要样本 含量足够大样本均数仍近似 于正态分布。若把样本均数 看成是变量值,就可用样本均 数的标准差来说明各样本均 数的变异程度,样本均数的 标准差称为均数的标准误, 用 σ表示。 X
3、标准误的应用
(1)表示样本均数的离散程度:
标准误小,表示抽样误差小,说明样本均数与总体均数越接近, 用样本均数代表总体均数的可靠性大。反之,标准误大,说明 抽样误差大,用样本均数推断总体均数的可靠性小。医学文献 S表示样本均数的可靠程度。如本例可写成: X 上常用 ± X 37.06± 0.0196℃ (2)估计总体均数的可信区间:结合样本均数可对总体均数做 区间估计 (3)用以进行假设检验(t检验)
五、均数的抽样误差和总体均数的估计
(一)均数的抽样误差和标准误
1、均数的抽样误差
• 概念 在一个总体均数为μ ,总 体标准差为σ的总体中,随机抽 取一个样本含量为n的样本,计 算其均数,由于总体中个体间存 在变异,则X不一定等于μ,这 种由于抽样引起样本均数与总体 均数的差异,称为均数的抽样误 差。
岁婴儿的血红蛋白平均值95%的可信区间。
• 95%的可信区间 • 为 123.7±2.064×2.38 , 即 ( 118.79, 128.61)。故该地1岁婴儿血红蛋白平均值95 %的可信区间为118.7~128.61(g/L)。
例3.2 上述某市120名12岁健康男孩身高均数为 143.07cm,标准误为0.52cm,试估计该市12岁康 男孩身高均数95%和99%的可信区间。
中心极限定理
总体 N(μσ2)
X -μ 变量变换 u = σ
n = 100
样本均数
N(μσ×2)
变量变换
标准正态分布 u ~ N (0,1)
X-μ u= σX
未知
X -μ =t sX
从总体N(4.83,0.522)中抽出100个样本的 X
、S、t 值与的95%的可信区间
样本号 1 2 3 4 5 6 7 8 9 ……
(confidence interval,缩写为CI)。 1-α称为可信度,常取1-α为0.95和0.99,即总体均数的95% 可信区间和99%可信区间。 1-α(如95%)可信区间的含义是:总体均数被包含在该区间 内的可能性是1-α,即(95%),没有被包含的可能性为α, 即(5%)。
▲ 方法: (1) u 分布 法 (2) t 分布法
t分布曲线下面积规律
• t分布曲线下总面积仍为1或100%
• t分布曲线下面积以0为中心左右对称。
• 由于t分布是一簇曲线,故t分布曲线下面积固定 面积(如95%或99%)的界值不是一个常量,而是 随自由度的大小而变化,如P261页附表9。
附表2,t分布表的特点
• • • •
,
附表2的横标目为自由度υ,纵标目为概率P,表中数值为其相应 的t界值,记作tα υ 。 附表2只列出正值,若计算的t值为负值时,可用其绝对值查表 附表2右上附图的阴影部分表示tα υ以外尾部面积的概率(p)
标准差、标准误与样本含量的关系:当样本含量不变时,标准差 与标准误成正比,标准差大,标准误也大,反之。当样本含量达200以 上时,标准差基本趋于稳定,而标准误随样本含量增多而减少。在标 准差不变时,标准误与样本含量平方根成反比。
(二)t分布
• t分布的由来
• t分布的特征
• t分布曲线下的面积
t分布的由来
(三)总体均数的估计
•
•
用样本指标估计总体指标称为参数估计,是统 计推断的一个重要方面。
总体均数估计的两种方法
点估计:是直接用统计量估计总体参数.
此法计算简便,但由于存在抽样误差,通过样本均数 不可能准确地估计出总体均数大小,也无法确知总体 均数的可靠程度 。 区间估计:由于抽样误差的客观存在,因而按一定的 概率(100(1-α)%)估计总体均数所在的范围(亦称可信 区间)。
2.计算总体均数的可信区间,如: ( X 1.96 S X )。 3.可对总体均数的大小作出初步的判断。 4.用于进行假设检验。
正常值范围估计与可信区间估计
正常值范围
概念:绝大多数正常人的某指标 范围。(95%,99%, 指绝大多 数正常人)
可信区间
概念:总体均数所在的数值 范围( 95%,99% 指可信度)
σX = σ n
实际工作中总体标准差是未知的,常用样本标准差代替,求得标准 误的估计值,于是公式可写成:
n 用102名女大学生体温值来说明, X =37.06,S=0.198,求标准误, 代入公式: SX = S
S=
s
n
=
0.198 102
= 0.0196℃
• 即102名女大学生体温的标准误为标准误0.0196℃。
,
自 由度(υ)一定时,p 与 t 成反比; 概率(p) 一定时, υ 与 t 成反比
t 值表(附表2 )
横坐标:自由度, υ 纵坐标:概率, p, 即曲线下阴影部分的面积; 表中的数值:相应的 |t | 界值。记作tα,υ
0.4
0.3
0.2
0.1
0 -4
-2
0
2
4
单侧t0.05,30=1.697
• 95%的可信区间为 143.07±1.96×0.52, 即(142.05,144.09)。 • 99%的可信区间为 143.07±2.58×0.52, 即(141.73,144.41)。
注 意 点
标准误愈小,估计总体均数可信区间的范围也愈 窄,说明样本均数与总体均数愈接近,对总体均 数的估计也愈精确; 反之,标准误愈大,估计总体均数可信区间的范 围也愈宽,说明样本均数距总体均数愈远,对总 体均数的估计也愈差。
100个样本均数的均数为4.828,与总体均数4.83接近; 样本均数的标准差为0.18 。 将上述100个样本均数看成新变量值,则构成一新分布,
样本均数的抽样分布有如下特点
• 1、各样本均数未必等于总体均数 • 2、各样本均数间存在差异 • 3、样本均数的分布很有规律 • 从正态分布N( μ,σ 2 )中,以固定n抽取样本,样本均数的分布 仍服从正态分布; • 即使是从偏态分布总体抽样,只要n足够大,样本均数的分布 也近似正态分布;
总体均数的可信区间的计算
• 1.未知σ且n较小(n<100) 按t分布 的原理
X t , S X
2.已知σ或n较大(n≥100)
按u分布的原理
X u S X
例3.1 为了了解某地1岁婴儿的血红蛋白浓度,从 该地随机抽取了1岁婴儿25人,测得其血红蛋白的 平均数为123.7g/L,标准差为11.9g/L。试求该地1
• 4、样本均数的总体均数仍为,样本均数的标准差比原个体变 量值的标准差要小。
• 如果抽取例数n=5的样本k个,每个样本又都可 以按公式(7-21)计算出一个t值,可将k个t值 编制成频数表,作出直方图,当k无限增大时, 则可得到一条光滑的曲线。
X -μ X -μ t= = sX s n
(式7-21)
表3-1 标准差和标准误的区别
标 准 差(S) 标 准 误( S X )
1.表示个体变量值的变异度大小,即原始变量值的 离散程度。公式为: S
1.表示样本均数抽样误差的大小, 即样本均数的离散程 度。公式为: S X
( X X ) n 1
2
S n
2.计算变量值的频数分布范围,如: ( X 1.96S )。 3.可对某一个变量值是否在正常值范围内作出初步 判断。 4.用于计算标准误。
•
υ
= n-限制条件的个数
t分布的特征
•
• •
t分布是一簇单峰分布曲线。
t分布以0为中心,左右对称且均匀下降。 其形态变化与自由度 的大小有关。自由度 越 小,则t值越分散,曲线越低平;自由度逐渐增 大时,t分布逐渐逼近u分布(标准正态分布);当 =∞时,t分布即为u分布,单侧α和双侧2α的t 值相同;在相同自由度下α越小, tα , υ 值越大, 反之相反;而当α相同,自由度越小,则 t α , υ 值越大,反之相反。
1.点估计
例1:11名18岁男大学生身高均数资料得, X =172.25cm,s=3.31cm,试估计该地18岁 男大学生身高总体均数 ? 答:该地18岁男大学生身高总体均数为 172.25cm
2、区间估计
▲ 概念:根据样本均数,是按一定的概率(1-α)估计包含总体
均数可能的范围,该范围亦称总体均数的可信区间
计算公式:正态时95%正常 计算公式:见前述 值范围双侧界值为 X ±1.96S 用途:判断观察对象的某项 用途:估计总体均数 指标是否正常.
X 4.58 4.90 4.76 4.66 4.90 4.92 4.63 4.96 4.83
S 0.38 0.45 0.49 0.49 0.39 0.30 0.43 0.65 0.45
t值 -2.01 0.59 -0.39 -1.00 0.62 1.05 -1.37 0.66 0.05
95%可信区间 4.31~4.85 4.58~5.22 4.41~5.11 4.31~5.02 4.62~5.17 4.71~5.13 4.32~4.94 4.49~5.42 4.50~5.15
σX
n=100 n=100 n=100
X X
全校女 生身高 n=800
n=100
X = 1.59
n=100 n=100
μ 1.6 m
X = 1.62 X = 1.57
n=100
X = 1.61
标准误
标准误是表示抽样误差大小的指标,数理统计已证明,标准误的大 小与标准差呈正比,与样本含量的平方根成反比,即:
同理,如果抽取例数n=15时,仍能得到一 条t分布曲线,因此,当n变化时,就可以得到不 同的t分布曲线,如图7-5:
0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5
γ=∞
γ=5
γ=1
-4
-3
-2
-1
0
1
2
3
4
5
图7.5 自由度分别为1、5、∞的t分布
自由度 υ
• 随机变量能够自由取值的个数