4、正态分布及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、t 分布
(三)t 分布的应用 1、估计总体均数的可信区间; 2、作 t 检验。
本节要求掌握的重点内容
• • • • •
•
正态分布、标准正态分布的概念。 正态分布图形的特点。 正态曲线下面积分布的规律。 医学参考值及其范围的概念。 估计参考值范围的原则及方法。
该部分需要65~70分钟,可以把抽样误差补到这一部分,减轻后面的压力)
第四章
抽样误差与假设检验
第一节 均数抽样误差与标准误
(2)从均数为μ,标准差为σ的正态总体抽 取例数为n的样本,样本均数的均数也为μ ,样本均数的标准差称标准误,用 x表示, 理论上 x可按公式计算。
理论值
x n
估计值
sx
s n
标准误大小与标准差呈正比,与样本例 数的平方根呈反比。
二、标准误的概念
• 标准误:是用于描述抽样误差大小的指标。
(c)肺活量参考值范围
(四)选择适当的百分范围
根据资料的性质和研究目的选择适当的百分范围。 百分范围的不同将导致不同的假阳性率和假阴性率。 若主要目的为减少假阳性(如确诊病人)→大(99%) 减少假阴性(如初筛病人)→小(95%)
图3-6 正常人和病人数据分布重叠
(五来自百度文库估计参考值范围的界限
参考值范围估计主要有百分位数法和正态分布法。
数间距、方差、标准差和变异系数。其中应用最多的
是标准差和变异系数。 3.标准差与均数结合能够完整地描述一个正态分布。 对任何参数的正态分布,都可以通过一个简单的变量 变换化成标准正态分布。利用正态分布可以很容易地
确定其数值出现在任意指定范围内的概率。
4.医学参考值范围指“正常参照人群”的解剖、生理、生
630 95% 580 P95 1.90 0.3 2.10(mmol / L) 28
• 即某地630名50岁~60岁正常女性血清甘油 三酯95%的参考值上限为2.10 (mmol/L)
小 结
1.描述一组观察值,除需要表示其平均水平外,还
要说明它的离散或变异的情况。
2. 衡量变异程度大小的指标有多种 : 极差、四分位
u1
u2
例:u1= - 1.50,u2= - 0.31
Φ(u1 ) = 0.0668
Φ( u2 ) = 0.3783
则(-1.50,- 0.31)范围内的面积
D = Φ(u2 ) - Φ(u1 ) = 0.3115
(2) u >0:利用正态分布的对称性求曲线 下从-∞到u范围的面积。 例:从-∞ 到u=1.76范围内的面积。
(1) 标准正态分布变换: 116.5 - 121.95 u1 = = - 1.15 4.72 119.0 - 121.95 u2 = = - 0.63 4.72 (2) 查表得:
Φ(u1 ) = Φ(- 1.15) = 0.1251
Φ(u2 ) = Φ(- 0.63) = 0.2643
D = Φ(u2 ) - Φ(u1 ) = 0.2643 - 0.1251 = 0.1392 110×13.92%=15
(Reference Value Range)
确定95%参考值范围示意图
二、医学参考值范围的制定方法
(一)选择足够数量的正常人作为参照样本
选择参照样本必须要考虑可能影响所要制定参
考值范围指标的各种疾病及干扰因素,将这些人排 除在外。样本含量一般要较大,如n>120。 例如在制定血清谷-丙转氨酶活性正常值时, 选取“正常人”的条件为肝、肾、心、脑、肌肉等
0.0392 1-0.0392=0.9608
-1.76 1.76
0.0392
2. 非标准正态分布:求曲线下任意 (x1,x2)范围内的面积。
(1)先作标准正态变换; (2)再查标准正态分布表求得面积。 例:已知某年某地110名7岁男童身高 x = 121.95cm , s = 4.72cm 现欲估计该 地身高界于116.5cm到119.0cm范围内7岁 男童比例及110名7岁男童中身高界于此值 范围内的人数。
f (X )1.2 1 0.8 0.6 0.4 0.2 0 3.6 4 4.4 4.8 5.2 5.6 6 X
图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图
正态分布曲线: 高峰位于中央,两侧逐渐下降、低平,左右完全对 称、两端不与横轴相交的钟型曲线。
正态分布的函数f(x)为:
1 f (X ) e 2 ( X )2 2
化、免疫及组织代谢产物的含量等各种数据的波动范围。主
要用作划分正常人与异常人的界线。 5.医学参考值范围的制定需要按照一定步骤进行。实际中
最好结合正常人和病人的数据分布特点,权衡假阳性和假阴
性的比例,选择一个适当的百分范围,最常用的百分界限是 95%。 6.参考值范围估计的方法有多种,其中最基本的有百分位 数法和正态分布法。正态法的优点是结果较稳定,但对资料 要求严格;百分位数法适合于任何分布类型的资料,但要求 大样本。
表3-2 参考值范围所对应的百分位数
百分范围 (% ) 95 99 单 侧 下限 上限 双 侧 下限 上限
P5 P1
P95 P99
P2.5 P0.5
P97.5 P99.5
正态分布计算参考值范围公式
百分范围 ( %)
95 99
单 侧 下限 上限
X 1.65 S X 1.65 S
双 侧 下限 上限
单侧95%的范围:P5或P95
某地630名50岁~60岁正常女性血清甘油三酯含量 (mmol/L)
甘油三酯 0.10~ 0.40 ~ 0.70 ~ 1.00 ~ 1.30 ~
1.60 ~ 1.90 ~ 2.20 ~ 2.50 ~ 2.80 ~ 3.10 ~3.40 合计
频数 27 169 167 94 81
12
X 1.96 S 4.78 1.96 0.38 5.52(1012 / L)
该地成年男子红细胞数的95%参考值范围为: 4.04~5.52 (×1012/L)
2、百分位数法:适用于任何分布的资料, 主要用于偏态分布资料。常用的估计公式 有:
双侧95%的范围:P2.5~P97.5
X -μ u= σ
u为标准正态变量 或标准正态离差 u变换的特点:若X服从正态分布,则u服从 标准正态分布 标准正态分布:均数为0、标准差为1 。 记为 N(0,1)
表中曲线下面积为 - ~ u 的面积;即 P ( u)
可以利用标准正态分布表求出与原始变量X 有关的概率值。
1. 标准正态分布:求曲线下(u1,u2)范围 内的面积。 (1) u ≤0:①查表,分别求从-∞到u2与 从-∞到u1的面积; ② 两者之差为所求面积。
(三)决定取单侧范围还是双侧范围值
有些指标如白细胞数过高或过低均属异常 (a) ,
故其参考值范围需要分别确定下限和上限,称作双侧。
有些指标如 24 小时尿糖含量仅在过高 (b) 、肺活
量仅在过低时为异常(c),只需确定其上限或下限,称
作单侧参考值范围。
(a)白细胞数参考值范围
(b)24小时尿糖参考值范围
1 .9 6 -3 -2 -1
0
1 .9 6 2 1 3
4 2 .58 5
68 .3% 95 .0% 99 .0%
图3-2 正态分布曲线下的面积
二、标准正态分布 (Standard 标准正态变换(u变换)
Normal Distribution)
第二节 正态分布及其应用
三峡大学医学院公共卫生系 王南平
一、正态分布(Normal Distribution)
f ( X ) 1.2
1 0.8 0.6 0.4 0.2 0 3.8 4.2 4.6 5.0 5.4 5.8 X
f ( X ) 1.2
1 0.8 0.6 0.4 0.2 0 3.8 4.2 4.6 5 5.4 5.8 X
无器质性疾患,近期无特殊用药史等。同时可能需
要考虑性别、年龄、民族、地理位置等因素。
(二)对选定的参照样本进行准确的测定
1. 严格控制检测误差,包括分析仪器的灵敏度、
试剂的纯度、操作技术及标准的掌握等;
2.必须对测量条件做出统一的规定和说明。
如:收集样本时的环境和生理条件(温度、体 育活动强度、饮食、妊娠等),收集、转运和储藏 样品的方法及时间有明确的规定。
四、t 分布
(一)t 分布的概念: t 分布即 t 值的分布。
x t sx
四、t 分布
(二)t 分布的特点: 1、 t 分布以0为中心的对称分布; 2、 t 分布是一簇曲线,其形态变化与样 本含量n有关(与自由度有关); 3、随自由度的增加t值越来越小,且逐 渐稳定,当自由度趋于无穷时,t=u。 4、相同自由度下t值越大,对应的尾侧 面积越小,即p值越小,反之亦然。
350
2. 制定医学参考值范围 (Reference Value Range) 3. 质量控制 为了控制实验中的误 差,实验室的质量控制中,常以 x ±2s 作为上、下警戒限;以 x ±3s 作 为上、下控制限。 (2s和3s是1.96s与2.58s的近似值)。
第三节 医学参考值范围
一、基本概念 通常指“大多数”“正常人” 的解剖、生理、生 化、免疫及组织代谢产物的含量等各种数据的波动 范围。主要目的:用于临床疾病诊断。最常用的是 95%参考值范围。
一、抽样误差的概念
由于抽样的偶然性导致的样本均数与总 体均数或各样本均数之间的差异。造成抽 样误差的本质是个体差异。
• 数理统计推理和中心极限定理:
(1)从正态总体N(μ,σ2)中,随机抽取 例数为n的样本,样本均数也服从正态分布 ;即使从偏态分布的总体中随机抽样,当 样本含量n足够大时(n>50)也服从近似 正态分布。
X 1.96 S X 1.96 S
X 2.33 S
X 2.33 S
X 2.58 S
X 2.58 S
例3.4 某年某地正常成年男子红细胞数的均数 为4.78×1012/L,标准差为0.38×1012/L,试估计
该地成年男子红细胞数的95%参考值范围。
下限: 上限:
X 1.96 S 4.78 1.96 0.38 4.04(10 / L)
2
X
由上式可见,正态分布的图形由 和 所决定, X~N( , 2)
正态分布曲线主要特征: 1.以
为中心的单峰对称分布
2.两个参数( , )分别决定其位置和形状 3.曲线下面的面积分布有规律
1
2
3
-4
-3
-2
-1
01
1
2 2
2
3
3 4
3
5
6
7
-5
-4
估计该地身高界于116.5~119.0cm范围 内的7岁男童比例为13.92%; 估计110名7岁男童中有15名男童的身高 界于116.5~119.0cm范围内。
(3) 求D:
三、正态分布的应用
1. 估计频数分布 例:出生体重低于2500g为低体重儿。 若由某项研究得某地婴儿出生体重均数为 3200g,标准差为350g,估计该地当年低 体重儿所占的比例。u 2500 - 3200 - 2 查表 Φ(- 2) = 0.0228,即从-∞到2500的比例 为2.28%,故估计该地当年低体重儿所占 的比例为2.28%。
例:某地抽查成年男子140名,测得红细 胞的标准差为0.38(×1012/L),则标准误为:
sx 0.38 140 0.032(10 /L)
12
三、标准误的作用
1、反映抽样误差的大小,说明样本均 数的可靠性。通常用 x s x 表示。 2、利用标准误作总体均数的区间估计。 3、用标准误作假设检验。
42 28 14 4 3 1 630
累积频数 27 196 363 457 538
580 608 622 626 629 630 -
累积频率(%) 4.3 31.1 57.6 72.5 85.4
92.1 96.5 98.7 99.4 99.8 100.0 -
• 用百分位数法,求单侧95%的上限界值。 • 由表可知:L=1.90,i=0.3,f=28,n=630 ,∑fL=580,代入公式计算:
-3
-2
1
-1
1
0
1
2
2
3
3
4
5
图3-3 三种不同均值的正态分布
图3-4 三种不同标准差的正态分布
正态曲线下的面积的计算:
1 ( 1 / 2 )[ X ] f X e , x 2
2
曲线下面积分布有规律
.58 -5 2 -4