正态分布参考值抽样误差
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如:总体均数的可信区间
即按一定的概率估计未知总体均数的所在范 围。 习惯上用总体均数的95%(或99%)可信 区间,表示该区间包含总体均数的概率为 95%(或99%),用此范围估计总体平均数, 表示100次抽样中,有 95(99)次包含总体均 数。
总体均数可信区间的计算
(1)未知,但样本例数n足够大(如n ﹥50),总体均数的1-α双侧可信区间 为
频 数 35 30 25 20 15 10 5 0 169 170 171 172 173 174 175 176 177
40
100个样本均数频数分布直方图
样本均数的抽样分布具有以下特点: 1. 各样本均数未必等于总体均数;
2. 样本均数之间存在差异;
3. 样本均数的分布很有规律,围绕着总体 均数,中间多、两边少,左右基本对称, 也服从正态分布;
f(x)=(fi/n)
0.25
以频率为纵坐标
相 对 频 率
0.20
0.15
0.10
0.05
0.00
3.8
4
4.2 4.4 4.6 4.8
5
12
5.2 5.4 5.6 5.8
红细胞计数(10 /L) 140名正常男子红细胞计数直方图
随着组段不断分细和观察人数的增多,直条顶端将逐渐接近于 一条光滑的曲线,如下图。这条曲线称为频率密度曲线,呈中 间高、两边低、左右对称,形状似座钟。类似于数学上的正态 分布曲线。 因为频率的总和等于1,故横轴上曲线下的面积等于1。
本例n=90,可按正态分布近似法计算
X u / 2 s X 4 .5 172 .2 1.96 171 .3,173 .1cm 90
故该市2000年19岁健康男大学生平均身高 的95%可信区间为(171.3,173.1)cm。
t分布
前面讲过,通过u变换,可将正态 分布N(μ, 2)转换成标准正态分布 N(0,1)。同样,若从正态分布N(μ, 2)总体中随机抽样并算得多个样本 均数 X j ,它们仍服从总体均数为μ, 总体标准差为 x 的正态分布 2 N(μ, ),则 X 服从
样本均数 X :N(μ, )
2
x
均数的标准误及计算
反映均数抽样误差大小的指标是样本 均数 X 的标准差简称标准误(理论值), 用 X 表示,或SE、SEM。 4.09 x 1.29(cm)
n 10
由于在实际抽样研究中 往往未知,通 常用某一样本标准差 s 来替代 ,得标准误 的估计值 s X (通常也简称为标准误),其计 算公式为: s s
一、正态分布的密度函数
1 f ( x) e 2 3.14159 ( x )2 2 2
e 2.71828
式中μ为总体均数,σ为总体标准差,π为圆周 率,e为自然对数的底,x为变量,当μ、σ已知, 以x为横轴,f(x)为纵轴,即可给出正态分布曲线 的图形。
二、 正态分布的特征
– 确定研究总体,例如 “正常人”。 – 选择足够数量的观察对象。
– 统一测ቤተ መጻሕፍቲ ባይዱ方法,控制实验误差,保证数据的可靠性。
– 决定取单侧范围还是双侧范围值 – 选择恰当的百分范围
医学参考值范围的估计
3. 医学参考值范围的计算方法 正态分布法
X us
百分位数法
正态分布法 适用于正态或近似分布资料 公式为:
4. 样本均数的变异较之原变量的变异大大 缩小。
抽样,样 本量为n 样本1( x1 ,s)
总体均数为μ,标准差σ
样本2( x2 ,s)
样本3( x3 ,s)
…
样本m(xm ,s)
x
n
u
x
x
根据正态分布原理,若随机变量X服 从正态分布,则样本均数X也服从正 态分布。
随机变量 X:N(μ, 2)
一般情况下未知,常用 S X 估计抽样误差的大小,也即 X 的估 计值。
例:已知 s=6.85, n=100 则样本均数的抽样误差 S X 为多 少?
S SX 0.685 n
标准误的应用 1.反映样本均数的可靠性;
标准误反映抽样误差的大小。标准误大,表 示抽样误差大,则样本均数估计总体均数的可靠性 差。反之,标准误小,抽样误差小,样本均数估计 总体均数的可靠性好。
f1 X 1 f 2 X 2 ...... f m X m X f1 f 2 ...... f m 19000 172.73(cm) 110
fX f
110名20岁健康男大学生的身高均数为172.73cm。
已知Σf=110,ΣfX=19000,需要在该表中增加 fx2栏,由第(3)、(4)栏相乘,再将该栏数据相加, 将ΣfX2=3283646代入公式
因为红细胞数过高或过低均为异常,故按双侧 估计95%参考值 x 1.96s 5.38 1.96 0.44 (4.52,6.24) 1012 / L 故该地成年男子红细胞数的95%参考值范围为 4.52 1012-6.24 1012 / L
百分位数法: 适用于偏态分布资料
例如白细胞数的95%参考值范围:因为白细胞数 无论过高或过低均属异常,则分别计算P2.5和 P97.5,这是双侧95%参考值范围。
X1=173.22cm
s1=4.05cm
X 1 X 2 ...... X n X i X n n
S
X
2
X
n
2
n1
重复100次刚才的抽样,得到100个样本(每个样本 含量均为10个),可算得100个样本均数X。
各样本均数的均数X=172.66 cm
μ=172.73cm
0.14 0.12 0.1 0.08 0.06 0.04 0.02 0
4 8 2 4 6 8 5 2 4 6 5. 3. 4. 4. 4. 4. 5. 5. 5. 8
频率密度 f(x)=(fi/n)/i
(i=0.1)
这条所描述的分布,便近似于我们通常所说 的正态概率分布,简称正态分布。
正态分布是自然界最常见的一 种分布,例如,测量的误差、 人体的身高、体重、许多生化 指标的值(例如血压、血红蛋 白含量、红细胞数等等)等都 属于正态分布或近似正态分布。 还有些偏态资料可经数据转换 成正态或近似正态分布,例如 抗体滴度、血铅值等。
1.正态分布在横轴上方,均数处最高,以均数μ 为中心,左右对称。 2.正态分布的X取值范围理论上没有边界,X离μ 越远,f(X)值越接近0,但不会等于0。 3.正态分布曲线下的面积分布有一定的规律。 所有的正态分布曲 线,在μ左右任意 个标准差范围内面 积相同。
4.正态分布完全由两个参数即均数μ与标准差 σ决定,其中μ是位置参数,σ是变异参数。 常用N(μ,σ2 )来表示。
正态分布
Normal distribution
正态分布和医学参考值范围
例 某地用随机抽样方法检查了140名成年男子的红 细胞数,检测结果如表2-1
5.95
3.82
某地140名正常男子红细胞数频数表
红细胞数 3.80 ~ 4.00 ~ 4.20 ~ 4.40 ~ 4.60 ~ 4.80 ~ 5.00 ~ 组中值 3.90 4.10 4.30 4.50 4.70 4.90 5.10 频数 2 6 11 25 32 27 17 频率(%) 1.4 4.3 7.9 17.9 22.9 19.3 12.1
5.20 ~ 5.40 ~ 5.60 ~ 5.80~6.00
5.30 5.50 5.70 5.90
13 4 2 1
9.3 2.9 1.4 0.7
频 数 30 25 20 15 10 5 0 3.8 4 4.2 4.4 4.6 4.8 5
12
35
直方图
5.2
5.4
5.6
5.8
红细胞计数(10 /L) 140名正常男子红细胞计数直方图
百分范围 ( %) 单侧 下限 上限 下限 双侧 上限
95
99
P5
P1
P95
P99
P2.5
P0.5
P97.5
P99.5
例 某年某市调查了200例正常成人血铅含量 (μg/100g)如下,试估计该市成人血铅含量95 %医学参考值范围(用百分位数法计算)。
练习1:
调查某地120名健康女性血红蛋白,直方图 显示,其分布近似于正态分布,其血红蛋白 平均值为117.4(g/L),标准差为10.2 (g/L),试估计该地健康女性血红蛋白的 95%医学参考值范围。
X
n
均数的标准误及计算
以1号样本 X 1 =173.22cm,s1=4.05cm为例:
s 4.05 sX 1.28(cm) n 10
例 2000年某研究者随机调查某地健康成年男 子27人,得到血红蛋白量的均数为125g/L, 标准差为15g/L。试估计该样本均数的抽样误 差。 将X=125g/L,s= 15g/L,n=27代入 S 15 SX 2.89 g / L n 27
2.估计总体均数的可信区间; 3.用于均数的假设检验。
二、总体均数的可信区间估计
即用样本指标(统计量)估计总体指标(参数)
有两种常用方法: 点估计和区间估计
(一)点估计:样本均数( X )就是总体均数 的点估计值(μ) 该法简单,但未考虑抽样误差,而抽样误差 在抽样研究中是不可忽视的。
(二)区间估计: 结合样本统计量和标准误可以确定一个具有 一定可信度的包含总体参数的区间,该区间 称为总体参数的1-α可信区间(confidence interval,CI)
u
x
μ=0、σ=1的标准正态分布
标准正态分布曲线及其面积分布
三、正态分布的应用
– 不少医学现象服从正态分布或近似正态分布 确定医学参考值范围 质量控制图 – 正态分布是很多统计方法的理论基础
医学参考值范围的估计
1. 医学参考值范围的概念 指特定的“正常”人群的解剖、生理、生化指 标及组织代谢产物含量等数据中大多数个体的 取值所在的范围。 2. 医学参考值范围的确定要求
血红蛋白过高、过低均为异常,应按双侧计算:
x 1.96s 117.4 1.96 10.2 (97.41,137.39) g / L 故该地健康女性血红蛋白的95%参考值范围为 97.41-137.39 g / L
数值变量的参数估计 一、均数的抽样分布与抽样误差
抽样研究的目的就是要用样本信息来推断 总体特征。由于存在个体变异,样本均数 (X)往往不等于总体均数(),因此抽 样后各个样本均数也往往不等于总体均数, 且各个样本均数间也不一定都相等。这种 由抽样造成的样本均数与总体均数的差异 或各样本均数之间的差异称为抽样误差, 抽样误差是不可避免的。
x
x
标准正态分布N(0,1)。在实际工作 中,往往是未知,常用 s X 替代 ,即 X
X
t
Sx
这时,对正态变量 X 采取的不 是u变换而是t变换了,t值的分布 称为t分布。
t分布的特征:
1.单峰分布,以0为中心,左右对称;
2.t 分布是一簇曲线,其形态变化与自由度 s X 与 X 的差别 的大小有关 n-1。越小, 越大,t值越分散,曲线的峰部越矮,尾部越 粗。越大,t分布越接近于标准正态分布。
X us
式中 X 为均数,s为标准差,u值 可根据要求查表。
常用的u界值
参考值范围(%) 单侧 双侧
90 95 99
1.282 1.645 2.326
1.645 1.960 2.576
例
某地调查正常成年男子144人的红细胞数近似 正态分布,得均数为5.38(1012/L),标准差 为0.44(1012/L),试估计该地成年男子红细 胞数的95%参考值范围。
S
19000 3283646
110 110 1
2
4.09(cm)
110名20岁男大学生的平均身高X=172.73cm,标准差s=4.09cm。
假设该110个身高数值作为假设的有限总体,即: μ=172.73cm, σ=4.09cm
现在从该总体 中随机抽10个 学生身高为1号 样本。 计算得:
X u / 2 s X
X 1.96S x
总体均数95%的双侧可信区间为:
总体均数99%的双侧可信区间为:
X 2.58S x
例 某市2000年随机测量了90名19岁健康男大 学生的身高,其均数为172.2cm,标准差为 4.5cm,试估计该市2000年19岁健康男大学生 平均身高的95%可信区间。