4-正态分布及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 2
3
-5 -4 -3 -2 -1 0 1 2 3 4 5
1 2 3 图3-4 三种不同标准差的正态分布
• 正态分布是一个分布族,对应于不同的参数 和 会产生不同位置、不同形状的正态分布。
为了应用方便, 令: u X
二、标准正态分布 (Standard Normal Distribution)
P1
单侧 上限 P95
P99
下限 P2.5
P0.5
双侧 上限 P97.5
P99.5
为该地区50岁~60岁女性高血脂诊断与治疗提供参考依据,试估计血清甘 油三脂含量的95%单侧参考值范围。
甘油三脂
0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~ 合计
求X取值在相应区间内的概率,首先要确定区间两端 点所对应的Z值
z1
(
1.96
)
1.96
查表,得φ(-1z.196)=(0.0215.9,6则) Z取值 在1.(96-1.96,1.96)
的概率为0.95,即X取值在区间μ±1.96σ内的概率为 0.95。
95%
99%
例3-1:正常成年男子的红细胞计数近似服从正态分布,假设均值 为4.78×1012/L,标准差为0.38×1012/L,试估计红细胞数在 4×1012/L以下所占的比例。
先将4(×1012/L)变换为相应的μ值,即
Z 4 4.78 2.05 0.38
于是问题就转化成为求标准正态分布Z值小于-2.05概率。 查附表1得φ(-2.05)=0.202,表明成年男子的红细胞数 低于4 ×1012/L的人约占总体的2%。
求出在4 ×1012/L~5.5 ×1012/L范围内所占的 比例
X 2.33S X 2.33S
双侧
下限
上限
X 1.96S
X 1.96S
X 2.58S X 2.58S
Z界值表
参考值范围(%) 80 90 95 99
单侧 0.84 1.28 1.64 2.33
双侧 1.28 1.64 1.96 2.58
若已算得某地正常成年男子红细胞数的均数为 4.78×1012/L,标准差为0.38×1012/L, 试估计该地 成年男子红细胞数的95%参考值范围。
第三节 医学参考值范围
(Reference Value Range)
一、基本概念 医学参考值:通常指包括绝大多数正常人的解剖、生理、生化、免疫
及组织代谢产物的含量等各种生理生化指标常数。 医学参考值范围:由于存在个体差异,生物医学数据并非常数而在一
定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标 准。 主要目的:用于临床疾病诊断。
通常使用的医学参考值范畴有:90%,95%和99%。 最常用的是95%参考值范围。
确定95%参考值范围示意图
二、医学参考值范围的制定方法
(一)选择一定数量的参照样本
选择参照样本必须要考虑可能影响所要制定参考 值范围指标的各种疾病及干扰因素,将这些人排除在 外。例如在制定血清谷-丙转氨酶活性正常值时,选 取正常人的条件为肝、肾、心、脑、肌肉等无器质性 疾患,近期无特殊用药史等。同时可能需要考虑性别、 年龄、民族、地理位置等因素。样本含量一般要较大, 如n>120。
5.参考值范围估计的方法有多种,其中最基本的有百分位数法 和正态分布法。正态法的优点是结果较稳定,但对资料要求严格; 百分位数法适合于任何分布类型的资料,但要求大样本。
2.利用正态分布可以很容易地确定其数值出现 在任意指定范围内的概率。
3.医学参考值范围指“正常参照人群”的解剖、生理、生化、 免疫及组织代谢产物的含量等各种数据的波动范围。主要用作划分 正常人与异常人的界线。
4.医学参考值范围的制定需要按照一定步骤进行。实际中最好 结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例, 选择一个适当的百分范围,最常用的百分界限是95%。
医学统计学
正态分布及其应用
Normal distribution
王友洁 email wangyoujie@mails.tjmu.edu.cn
主要内容
正态分布的概念及其特征 标准正态分布 医学参考值范围及其制定
一 正态分布 (normal distribution)
某地140名正常男子红细胞数的频数表
0 3.6 4 4.4 4.8 5.2 5.6 6 X
某地成年男子红细胞数的分布逐渐接近正态分布示意图
正态分布的概念
又称为Gauss分布(Gaussian distribution)。当原始数据的频数 分布图的观察人数逐渐增加且组段 不断分细时,图中的直条就不断变 窄,其顶端则逐渐接近于一条光滑 的曲线。这条曲线形态呈钟形,两 头低、中间高,左右对称,近似于 数学上的正态分布。在处理资料时, 我们就把它看成是正态分布。
2
即将X~N(μ,σ2)的正态分布转化为Z~ N(0,12)的标 准正态分布,Z称为标准正态变量,其分布函数为
u2
(Z) 1
u
e
2
dz
2
根据上述公式制成附表1,欲求一定区间标准 正态分布曲线下的面积只需查表即可,且
φ(z)=1- φ(-z)
φ(z)
例:已知X服从均数为μ标准差为σ的正态分布,试估计: (1)X取值在区间μ±1.96σ内的概率; (2)X取值在区间μ±2.58σ内的概率。
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
4.3 31.1 57.6 72.5 85.4 92.1 96.5 98.7 99.4 99.8 100.0
-
PX
LX
2.9 1.4 0.7
-
累积频率(%)
1.4 5.7 13.6 31.5 54.4 73.7 85.8 95.1
98.0 99.4 100.0 100.0
140名正常男子红细胞计数的直方图
频 数 f
频 频率/组距 率
密 度
红细胞数X 直方图形状相同,使各直方的面积相应于频率,其和为1(100%)
计算公式: 双侧1-α参考值范围:Pα/2 ~P100-α/2 单侧1-α参考值范围: >Pα 或<P100-α
双侧95%医学参考值范围是( P2.5 ,P97.5 ),单侧范围是P95以下 (如人体有害物质如血铅)或P5以上(如肺活量)
参考值范围所对应的百分位数
百分范围(%) 下限
95
P5
99
首先要对资料进行正态性检验,且要求样本含量足够大 (n≥100)。计算公式如下:
双侧1-α参考值范围: 单侧1-α参考值范围:
X u / 2S X u S或 X u S 其中X为均数, S为标准差, u值可查表
参考值范围所对应的正态分布区间
百分范围(%) 95 99
单侧
下限
上限
X 1.65S X 1.65S
对任何参数的正态分布,都可以通过一个简单的 变量变换 Z X 化成 0和 1 的标准正态分布。
通常,可以利用标准正态分布表求出与原始变量X 有
关的概率值。此变换也称为标准化变换,或称 Z或u变 换
图3-5 标准正态分布及曲线下面积
标准正态分布Z的概率密度函数为
f (Z)
1
z2
e 2 , u
由于此例样本含量较大,可用样本均数、标准差代替总
体均数和标准差
z1
4.00 4.03 0.659
0.05
5.00 4.03 z2 0.659 1.47
查附表1得φ(-0. 05)=?,如何求φ(1.47)?
三、正态分布的应用
正态分布除了可估计频数分布外,还是 许多统计方法的基础,并可应用于质量 控制及制定医学参考值范围。
68.3% 95.0% 99.0%
图3-2 正态分布曲线下的面积
两个参数决定位置和变异:μ和σ
两个参数决定位置和变异
是位置(即平均水平)
参数,决定分布曲线在横
轴的偏倚位置
-4 -3 -2 -1 01 1 22 3 43 5 6 7
1 2 3
图3-3 三种不同均值的正态分布
σ是变异参数,决定分 布曲线的形态
iX fX
(nX %
fL)
(630 0.95 580)
P 1.90
0.30 2.098(mmol/L)
95
28
即95%单侧参考值范围为小于2.098mmol/L。
百分范围(%) 95 99
下限 P5
单侧 上限 P95
P1
P99
下限 P2.5
双侧 上限 P97.5
P0.5
P99.5
2.正态分布法
一、正态分布(Normal Distribution)
频率密度 f ( X )
f (X) 1.2 1
0.8
f (X) 1.2 1
0.8
0.6
0.6
0.4 0.2
0 3.8 4.2 4.6 5.0 5.4 5.8 X
0.4
0.2
0 3.8 4.2 4.6
f (X )1.2
1
0.8
0.6
0.4
0.2
5 5.4 5.8 X
正态分布曲线的数学函数表达式
如果随机变量X的分布服从概率密度函数
f (X)
1
e
(
X 2 2
)
2
2
X
则称X服从正态分布,记作X~N(μ,σ2), μ为X的总 体均数,σ2为总体方差
正态分布有两个参数: 和 , 分别表示均数和标准差。
二、正态分布的特征
钟型曲线,以μ为中心,左右完全对称, 两端与X轴永不相交
(三)决定取单侧范围还是双侧范围值
有些指标如白细胞数过高或过低均属异常(a) ,故 其参考值范围需要分别确定下限和上限,称作双侧。有 些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过 低时为异常(c),只需确定其上限或下限,称作单侧参 考值范围。
(a)白细胞数参考值范围 (b)24小时尿糖参考值范围 (c)肺活量参考值范围
(二)对选定的参照样本进行准确的测定
为保证原始数据可靠,要严格控制检测误差,包括 分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌 握等,同时必须对测量条件做出统一的规定和说明,如 临床化验参考值范围的制定,应对收集样本时的环境和 生理条件(温度、季节、体育活动强度、饮食、妊娠 等),收集、转运和储藏样品的方法及时间有明确的规 定。
下限: X 1.96S 4.78 1.96 0.38 4.04(1012 / L) 上限: X 1.96S 4.78 1.96 0.38 5.52(1012 / L)
小结
1.标准差与均数结合能够完整地描述一个正态 分布。对任何参数的正态分布,都可以通过一个简 单的变量变换化成标准正态分布。
即求P(4.0≤X≤5.5)
(5.5 4.78 ) (4 4.78 ) (1.89) (2.05)
0.38
0.38
[1 (1.89)] (2.05) 0.9504
例3-2 上节课的例题中已计算出101名正常成年女 子的血清总胆固醇均数为4.03mmol/L,标准差为 0.659mmol/L。试估计该单位:正常成年女子血清 总胆固醇在4.00mmol/L以下者占正常女子总人数的 百分比;在4.00~5.00mmol/L之间者占正常女子总 人数的百分比;在5.00mmol/L以上者占正常女子总 人数的百分比。
(四)选择适当的百分范围
参考值的百分范围应根据资料的性质和研究目的 选择,它与诊断阈值有确定的关系。百分范围的不同 将导致不同的假阳性率和假阴性率。
正常人和病人数据分布重叠
(五)估计参考值范围的界限
参考值范围估计主要有百分位数法和正态分布法。
1.百分位数法:适用于任何分布类型的资料,尤其是偏态分布资料,要 求样本含量比正态分布法要多(不低于100)。
红细胞数
3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~
5.40~源自文库5.60~ 5.80~ 6.00 合计
频数
2 6 11 25 32 27 17 13 4 2 1 140
频 率(%)
1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3
在X=μ处,f(X)取最大值,X越远离μ, f(X)越小。
曲线下面积分布有规律
X轴与正态曲线所夹面积恒等于1 或100%;
区间μ±σ的面积为68.3%,区间 μ±1.96σ的面积为95%,区间 μ±2.58σ的面积为99%.
-5 2-.548 -3 1.96-2 -1 0 1 2 1.936 4 2.585