经典:医学统计学.-正态分布及其应用
正态分布及其应用医本
表9-1 某地140名正常成年男性血清尿素氮浓度(mmol/L)
6.00
5.28
3.90
5.30
4.20
3.90
5.60
5.66
4.10
4.00
4.50
3.77
4.34
4.30
4.22
5.30
5.13
3.79
4.80
5.20
4.70
2.94
5.90
4.50
2.10
5.60
5.90
5.90
2.85
4.90
4.22
5.63
3.21
4.66
3.00
5.96
3.45
3.50
4.23
3.90
3.88
4.24
4.53
4.88
2.48
3.40
3.26
3.21
3.60
2.73
4.15
4.60
4.35
4.96
5.61
5.87
5.01
4.33
5.74
4.87
3.96
3.00
3.93
3.15
5.00
3、标准正态分布
正态分布的图形由 和 所决定,即N( , 2) 对上式进行 u 代换,即: 可使一般的正态分布转换为标准正态分布(u 分布),此时 N(0,1)。 x = 0 = 1
问题:为什么一般的正态分布要转换成标准正态分布?
01
表中曲线下面积为 - ~ u 的面积;即 P ( u) P299
第九章 数值变量资料的统计分析 第二节 正态分布及其应用
单击此处添加副标题
温医环境公卫学院黄陈平
正态分布在医学统计学中的应用
正态分布在医学统计学中的应用
正态分布在医学统计学中的应用
正态分布,也称为高斯分布,是一种概率分布,它可以用来描述一些经典情况下随机变量的分布特征。
它被广泛应用于各种科学和工程领域,尤其是在统计学和数理金融中。
正态分布在统计学中的特殊地位使它成为医学统计学的重要概念。
在医学统计学中,正态分布被用来描述和分析人群特征,包括身高、体重、血压等生理指标。
此外,正态分布还被广泛用于评估治疗前后对病人的影响,以及分析疾病发病率和患病风险。
正态分布在医学研究中的应用可以帮助临床医生和科学家更准确地识别疾病或隐性疾病,以及更有效地采取治疗措施。
正态分布在医学统计学中的应用主要有三个方面:
一是诊断试验。
通过正态分布的概率分布,可以更准确地判断一个患者是否感染某种疾病,以及分析不同病人对治疗方案的反应情况。
比如,在肿瘤治疗中,可以通过正态分布模型来估计患者肿瘤标志物浓度的变化,便于评价患者的疗效。
二是疾病预测。
在医学研究中,正态分布可以用来评估一个疾病的发生率,以及病人对某种治疗方案的反应情
况。
比如,对某种疾病的风险因素可以用正态分布模型来分析,从而帮助临床医生精确预测患病的可能性。
三是病因分析。
正态分布也可以用来分析疾病的发病原因,以及特定病因对患病风险的影响程度。
比如,可以通过正态分布模型来分析肥胖对心血管疾病发病率的影响,从而提供准确的诊断和治疗方案。
正态分布在医学统计学中的应用可以更准确地评估疾病发生率、患病风险、治疗效果以及疾病发病原因,为临床医生和科学家提供准确的诊断和治疗措施,从而提高治疗效果和患病风险。
医学统计学 常用概率分布-正态分布
N (123.02,4.792)
(2)身高在120~128者占该地8岁男孩总数的百分比;
解析:
58.65%
58.65%
120cm 128cm N (123.02,4.792)
-0.63 1.46 N (0,1)
(3)该地80%男孩的身高集中在哪个范围?
解析:
80%
10%
10%
10% Z1
80%
10% Z2
任意正态分布曲线 X~N(μ,σ2)
标准正态分布曲线 X~N(0,1)
采用定积分的办法,对函数式 (1) 或 (2) 定积分, 算得从 -∞ 到 x累计面积,从而推算出该区间事件发 生的概率值。 .
j(Z )
1 2
Z
e
Z
2
/ 2
dZ
图 6 正态分布(左)及标准正态曲线下(右)的累计面积
1.2 正态概率密度曲线下的面积 1.3 正态分布的应用
1.4 正态分布的判断
一、正态分布的概念
正态分布(normal distribution)
德莫佛最早发现了二项概率
的一个近似公式,这一公式被 认为是正态分布的首次露面。
德莫佛
正态分布在十九世纪前叶由
高斯加以推广,所以通常称为 高斯分布(Gauss distribution)。
单侧临界值:标准正态分布单侧尾部面积等于α 时所对应 的正侧变量值,记作Zα 。
若按左单侧算,则是 97.5% 参考值范围
按左单侧算,是 95% 参考值范围
举例2: 某地调查120名健康成年男性的第一秒肺通 气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估 计其第一秒肺通气量的95%参考值范围。 解析: 分布近似正态 1. 2. 仅过低为异常 3. 求下界值
医学统计学 正态分布及其应用
26/43
为什么要确定一个范围? 既然同属正常人,就不能以甲的数据为标准, 认为乙异常,亦不能以甲此时的数据为标准, 认为彼时的异常。所以必须确定一个波动范 围。如WBC:4000~10000个/mm3 “正常”是一个相对的概念 “正常人”是指排除了影响所研究指标的疾 病和有关因素的人。
27/43
同质 正常 “足够数量” 例数过少,代表性差;例数过多增加成本, 且易导致正常标准把握不严,影响数据的可 靠性。 一般认为每组100例以上 ;有人认为确定临 床生化指标的正常值应取300~500例。
30/43
控制检测误差
通过人员培训、控制检测条件、重复测 定等措施,严格控制检测误差。
(二)主要特征:
1、正态分布以均值μ为中心,左右对称。 2、正态分布中,曲线下面积集中在以均值μ为中心 的中心部分,越远离中心,曲线越接近 X 轴,曲线 下面积越小,超过一定范围以外的面积可以忽略。
8/43
3、正态分布曲线完全由参数μ和σ决定。
μ是位置参数,决定分布曲线在横轴的偏
移位置。
σ是变异参数,决定分布曲线的形态。
71.67
95.00 98.33
68.27
95.00 99.00
25/43
参考值范围
(reference interval)
又称正常值范围(normal range) 正常人的形态、功能、生化等各种指标的波 动范围。简称正常值。 为什么波动? “个体变异” 同一指标的数据因人而异 同一个体的数据随环境、时间等改变而变
9/43
方差相等、均数不等的正态分布图示
2 1 3
3
1
2
10/43
均数相等、方差不等的正态分布图示
医学统计3-正态分布及其应用
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
4.3 31.1 57.6 72.5 85.4 92.1 96.5 98.7 99.4 99.8 100.0
-
PX
LX
求出在4 ×1012/L~5.5 ×1012/L范围内所占的比 例
即求P(4.0≤X≤5.5)
(5.5 4.78 ) ( 4 4.78 ) (1.89) (2.05)
0.38
0.38
[1 (1.89)] (2.05) 0.9504
例3-2 上节课的例题中已计算出101名正常成年 女子的血清总胆固醇均数为4.03mmol/L,标准 差为0.659mmol/L。试估计该单位:正常成年女 子血清总胆固醇在4.00mmol/L以下者占正常女 子总人数的百分比;在4.00~5.00mmol/L之间者 占正常女子总人数的百分比;在5.00mmol/L以 上者占正常女子总人数的百分比。
样本含量一般要较大,如n>120。
(二)对选定的参照样本进行准确的测定
为保证原始数据可靠,要严格控制检测误差, 包括分析仪器的灵敏度、试剂的纯度、操作技术及 标准的掌握等,同时必须对测量条件做出统一的规 定和说明,如临床化验参考值范围的制定,应对收 集样本时的环境和生理条件(温度、季节、体育活 动强度、饮食、妊娠等),收集、转运和储藏样品 的方法及时间有明确的规定。
f (z)
1
z2
e 2 , z
2
即将X~N(μ,σ2)的正态分布转化为z~ N(0,12)的标准 正态分布,z称为标准正态变量,其分布函数为
医学统计学.正态分布及其应用63页PPT
6、最大的骄傲于最大的自卑都表示心灵的最软弱无力。——斯宾诺莎 7、自知之明是最难得的知识。——西班牙 8、勇气通往天堂,怯懦通往地狱。——塞内加 9、有时候读书是一种巧妙地避开思考的方法。——赫尔普斯 10、阅读一切好书如同和过去最杰出的人谈话。——笛卡儿
医学统计学.正态分布及其应用
1、合法而稳定的权力在使用得当时很 少遇到 抵抗。 ——塞 ·约翰 逊 2、权力会使人渐渐失去温厚善良的美 德。— —伯克
3、最大限度地行使权力总是令人反感 ;权力 不易确 定之处 始终存佗
5、虽然权力是一头固执的熊,可是金 子可以 拉着它 的鼻子 走。— —莎士 比
Thank you
医学统计学-4-正太分布及应用
1 2 e
u 2 2
,(-∞< u <+∞)
对其定积分:
(u )
1 2
u
e
u 2 2
du
式中 (u)为标准正态变量u的累计分布函数, 反映了横轴自-∞到u的正态曲线下面积,也 就是下侧累计面积(概率)。 引入标准化变换后,对于其他任何正态分 N ( , 2 ) 都可以借助标准正态分布表估计 布 任意(X1,X2)范围内的频数比例。
1、参考值范围确定的注意点
“正常人” 的概念 样本数据大小的问题 检测误差的问题 判断是否分组 单、双侧的问题 “绝大多数”的含义 是否需要确定可疑范围 变量转换的问题
不管将正常界值定在什么位置,都可能出现假 阳性或假阴性,产生这两种误判的根本原因是 正常人的分布与病人的分布有重叠 。
(一)估计频率分布
例、若由某项研究得某地婴儿出生体重为 3100g,标准差为300g,试估计该地区当年出 生低体重儿(出生体重≤2500g)所占比例。 认为当年该地区婴儿出生体重近似服从正态分 布N(3100,3002),作标准化变换:
u X
2500 3100 2.00 300
注意点二
对于非标准正态分布,求曲线下任意(X1, X2)范围内的面积,可先作标准化变换, 再借助标准正态分布表求得。
例、某市120名12岁男童身高的例子中已求得均 数为 143.05cm,标准差s=5.82cm。设该资料服 从正态分布,试求① 该地12岁男童身高在132cm 以下者占该地12岁男童总数的比例,② 分别求 X ±1s、 X ±1.96s和 X ±2.58s范围内12岁男童占 该组儿童总数的实际百分数,并与理论百分数比 较。
医学统计学. 正态分布及其应用
表4.6 参考值范围的制定
45
例4.24 某地调查正常成年男子200人的红 细胞数,得均数 X =55.26×1012/L,标准 差S=0.38×1012/L,试估计该地正常成年 男子红细胞数的95%参考值范围。
46
解:该地正常成年男子红细胞数的95%参考值范围为
下限:
X-1.96S =55.26 - 1.96×0.38=54.52(×1012/L)
生不同位置、不同形状正态分布, (x1,x2)范围内的面积也不同, 计算起来很麻烦。
22
三、标准正态分布 为了计算方便,对于正态或近似正态 分布的资料,只要得出均数和标准 差,可通过标准转化,转化成求标 准正态曲线下横轴自-∞到z的面积。 为了便于应用,统计学家按Φ(z)编 制了标准正态分布曲线下的面积表, 由此表可查出曲线下某区间的面积, 这样就可对符合正态分布资料的频 数分布作出估计。
曲线下在区间(μ-2.58σ,μ+2.58σ)的面积为99%。
16
■μ士σ范围内的面积占正态曲线下面积的68.27%,也
就是说有68.27%的变量值分布在此范围内。
68.27%
-
+
17
μ士1.64σ范围内的面积占正态曲线下面积的90%,也就是 说有90%的变量值分布在此范围内。
90%
5%
线,近似于数学上的正态分布曲线。
7
一.正态分布的概念和特征
1.正态分布的概念
在医学卫生领域中,许多变量的频 数分布是中间(靠近均数处)频数多,两边 频数少,且左右对称。如人体的许多生 理、生化指标等。这种变量的频数分布 规律可用概率论中的一种重要的随机变 量分布—正态分布(Normal distribution)加 以描述。
正态分布在医学研究中的应用
正态分布在医学研究中的应用# 正态分布在医学研究中的应用## 引言正态分布是统计学中一种常见的概率分布,其在医学研究中广泛应用。
正态分布的特征使得它成为描述自然界中许多现象的理想工具,包括生物学和医学领域。
本文将探讨正态分布在医学研究中的应用,以及它在疾病研究、药物试验和流行病学等方面的重要性。
## 正态分布的基本概念正态分布,又称高斯分布,是一种对称的概率分布,其图形呈钟形曲线。
正态分布的均值、方差和标准差是分布的关键参数,它们决定了曲线的形状和分布的特性。
在医学研究中,正态分布常常用来描述一群人群中的某种生理指标,如血压、体重等。
## 正态分布在疾病研究中的应用### 1. 遗传疾病的研究正态分布在遗传疾病研究中起着关键作用。
通过对家系和群体进行遗传分析,研究者可以利用正态分布来描述某一遗传性状的分布情况。
例如,身高是一个受多基因遗传影响的生理特征,其在人群中呈现出正态分布。
这种分布模式有助于确定遗传因素在疾病发生中的贡献程度,为家族遗传性疾病的研究提供了重要参考。
### 2. 疾病诊断标准的制定在制定疾病诊断标准时,正态分布可以用来建立正常参考范围。
通过对大规模人群进行测量,得到某项生理指标的分布情况,可以确定正常范围的均值和标准差。
这样的标准化过程有助于医生更准确地判断患者是否存在异常。
例如,血糖水平的正态分布可用于确立糖尿病的诊断标准,提高了疾病诊断的客观性和科学性。
## 正态分布在药物试验中的应用### 1. 药效评价在药物试验中,正态分布常被用来评估药物的疗效。
研究者通常通过对患者进行观察和测量,收集与药物治疗相关的生理指标数据,如血压、血糖等。
这些数据往往呈现正态分布,使得研究者能够运用统计学方法来分析和解释结果。
通过比较药物组和安慰剂组的数据分布,可以更准确地评价药物的治疗效果,并制定科学的治疗方案。
### 2. 不良反应监测药物试验不仅关注治疗效果,还需要监测药物的不良反应。
医学统计学之正态分布
第23页
举例 说明 通 过正 态分 布 求随 机 变量的
频数分布范围。
例:某地 13 岁女孩 118 人的身高(cm)
资料,估计该地 13 岁正常女孩身高在 135
厘米以下及 155 厘米以上者各占正常女孩
N(μ1 ,σ2)、N(μ2 ,σ2)
N(μ,0.52)、N(μ,12)、N(μ,22)
max
σ=0.5
f(x)
f(x)
σ=1 σ=2
0 医学统计学之正态分布
µ1
µ2
0
µ
第13页
➢ 正态曲线下面积分布有一定规律性。
✓ 对于服从正态分布随机变量(X),随机变量值出现在某 一区区间间所(围成x1,区x2)域概面率积与大正小态相分对布应概(率相密等度)曲。线与横轴在该
医学统计学之正态分布
第26页
✓ 制定医学参考值范围时,应从正常人群中抽样,且样本含量应 较大(n>100),根据资料的分布类型采用正态分布法或百分位 数法。 正态分布法: 适用于资料服从正态分布或近似正态分布时。 公式;
双侧 1-α参考值范围: X U 2 S
单侧 1-α参考值范围: X U S或 X U S
式中σ为总体标准差;μ为总体均数;π
为圆周率,即3.14159···;e为自然对数底,
即2.71828···。
医学统计学之正态分布
第9页
✓ 若某一随机变量概率密度函数(频率曲线方程) 为上式,则称该变量X服从参数为μ和σ正态分布, 记为:X~N(μ,σ2)。
✓ 函数方程中μ为位置参数,σ为形状参数。
本资料起源
医学统计学3. 正态分布及应用
例习题3-1题
130名健康成年男子脉搏资料的均数、标准差分 别为:71.32与5.80 (次/分);问在正态分布假定下, 脉搏在65~75(次/分)之间有多少人?
Z1
65
71.32 5.80
1.09,该界值左侧面积为0.1379
Z2
75
71.32 5.80
0.63,该界值左侧面积为0.7357
肺活量参考 值范围
白细胞数参 血铅参考值范
考值范围
围
5. 选择适当的百分数范围 结合专业知识,根据研究目的、研究指标的性质、 数据分布特征等情况综合考虑。百分数范围的不同 将导致不同的假阳性率和假阴性率。
6. 选择计算参考值范围的方法 根据资料的分布类型,样本含量的多少和研究目 的等,选用适当的方法确定参考值范围。
过低异常 过高异常
过低异常过高异常
表 3-1 医学参考值范围的正态分布法和百分位数法计算公式
概率 (%) 双侧
正态分布法
单侧
下限
上限
百分位数法
双侧
单侧 下限 上限
90 X 1.64S X 1.28S X 1.28S
P5 ~ P95
P10
P90
95 X 1.96S X 1.64S X 1.64S
P2.5~P97.5 P5
Z=0.43,所对应左侧的面积 P=1-0.3336
Standard normal distribution 图3-7
0.07
f(X)
0.06
0.05
0.04
0.03
0.02
0.01
0 57 60 63 66 69 X 72 75 78 81 84
P(65 x 75) (0.43) (1)
医学统计学第3讲正态分布
正态分布的标准化
1
Z-分数
2
通过计算标准差的倍数来表示某个观测
值相对于均值的位置。
3
标准化公式
将非标准正态分布转化为标准正态分布, 使得均值为0,标准差为1。
标准正态分布表
通过查表可以得到标准正态分布下的累 积概率、百分位数等信息态分布用于描述人群中的身高 分布,帮助我们了解平均身高、 身高偏差等统计特征。
考试成绩
正态分布可以帮助我们分析考试 成绩,确定合理的分数划分和评 估标准。
药物疗效
正态分布在医药领域中应用广泛, 如药物疗效的评估和剂量的确定。
正态分布与置信区间
置信区间的计算
使用正态分布的特性来估计样本均值的真实范围,提供统计推断的依据。
置信水平
置信区间的可信程度,常用的置信水平有95%和99%。
医学统计学第3讲:正态分布
探索正态分布的特征、应用和优缺点以及在医学研究中的重要性。让我们一 起开始这个令人兴奋的主题!
什么是正态分布?
正态分布是一种连续概率分布,常用于描述自然界中的许多现象,如身高、 体重等。其特征是钟形曲线,均值和标准差能够完全定义分布。
正态分布的形状和密度曲线
正态分布的密度曲线呈现出典型的钟形形状,其峰值出现在均值处。均值、标准差和曲线的形态密切相关,构 成了正态分布的基本特征。
标准误差是测量样本均值与总体均值之间的差异的指标,用于衡量样本均值的精确性。
正态分布在线性回归中的应用
正态分布在线性回归模型中的误差项满足正态分布的假设,确保回归结果的 准确性和可信度。
样本大小
影响置信区间的宽度,样本大小越大,置信区间越窄。
正态分布与假设检验
1
零假设与备择假设
石大医学统计学讲义04正态分布及其应用
第四讲正态分布及其应用一、正态分布的概念和特征根据频数表资料绘制成直方图,可以设想,如果将观察人数逐渐增多,线段不断分细,图中直条将逐渐变窄,其顶端将逐渐接近一条光滑的曲线,这条曲线称为频数曲线或频率曲线,略呈钟型,两头低,中间高,左右对称,近似于数学上的正态分布(normaldistribution)o由于频率的总和等于100%或1,故横轴上曲线下的面积等于100%或1。
正态分布是一种横重要的连续型分布,在生物统计学中,占有极其重要的地位。
许多生物学现象所产生的数据,都服从正态分布。
1、正态分布的图形有了正态分布的密度函数f(X),即正态分布的方程,就可给出图形上式中右μ为均数,o为标准差,X为自变量。
当X确定后,就可由此式求得其密度函数f(X),也就是相应的纵坐标的高度。
所以,已知μ和o,就能绘出正态曲线的图形。
2、正态分布的特征(1)正态分布以μ为中心,左右对称。
(2)正态分布有两个参数,即μ和o。
μ是位置参数,当o恒定后,μ越大,则曲线沿横轴越向右移动;μ越小,则曲线沿横轴越向左移动。
σ是变异参数,当μ恒定时,σ越大,表示数据越分散,曲线越“胖”;σ越小,表示数据越分散,曲线越“瘦二(3)正态分布的偏斜度γι=0,峭度γ2=0为了应用方便,常将上式作如下变换,也就是将原点学到μ的位置,使横轴尺度以σ为单位,使μ=0,σ=l,则正态分布变换为标准正态分布。
(standardnormaldistribution),U 称为标准正态离差(standardnormaldeviate)标准正态分布的密度函数为:1 -Vφ(u)=-f=e 2 √2^^一般用N(μ,σ2)表示均方为μ,方差为M 的正态分布。
于是标准正态分布用N(0,1)表示。
标准正态分布有以下特征:(1)在U=O 时,φ(u)达到最大值。
(2)当U 无论向哪个方向远离。
时,φ(u)的值都减小。
(3)曲线关于Y 轴对称,即φ(u)=φ(-u)0(4)曲线和横轴所夹的面积等于1。
医学统计学正态分布及其应用
0.00 -0.02 -0.04 -0.06 -0.08 0.0013 0.0013 0.0012 0.0011 0.0010 0.0062 0.0059 0.0055 0.0052 0.0049 0.0228 0.0217 0.0207 0.0197 0.0188 0.0287 0.0274 0.0262 0.0250 0.0239 0.0548 0.0526 0.0505 0.0485 0.0465 0.1587 0.1539 0.1492 0.1446 0.1401 0.3085 0.3015 0.2946 0.2877 0.2810 0.5000 0.4920 0.4840 0.4761 0.4681
35
估计频数分布
首先计算标准离差:
u 132.00 142.67 1.78 6.00
查标准正态分布表: (-1.78)=0.0375(3.75%)
结果:该地12岁男童身高在132cm以下者, 估计约占3.75%。
36
估计频数分布
X us
X ±1.00s X ±1.96s X ±2.58s
表 2.7 120 名 12 岁男童身高的分布比较
身高范围(cm)
实际分布
人数
百分数(%)
136.67~148.67
86
71.67
130.91~154.43
114
95.00
127.19~158.15
118
98.33
理论分布(%)
68.27 95.00 99.00
37
质量控制
质量控制的意义
监控日常工作、科研过程、生产过程中误差的 变化,分析变化的趋势是否出现异常,从而引 起警觉和注意,以便分析原因,并及时采取措 施。
[医学]第三章 统计学正态分布及其应用(医学统计学)
范围)是指正常人的解剖、生理、生 化等各种指标的波动范围。它主要用 于划分正常与异常的界限。
(二)医学参考值范围制定的一般原则:
1、抽取足够数量的“正常人”作为调查对象
2、对选定的正常人进行统一而准确的测定
3、考虑是否应按性别、年龄、职业等因素分组确定 医学参考值范围 4、确定取单侧还是双侧医学参考值范围 5、选定适当的百分界限 6、选择适当制定方法
=0.1392=13.92%
即身高界于116.5-119.0cm范围内 的7岁男童比例为13.92%,其人数 为110×13.92%=15(人)。
第三节 正态分布的应用
一、估计频数分布 二、制定参考值范围 三、质量控制 四、统计处理方法的基础
一、估计频数分布
例3.3 例3.4 (略)
二、制定参考值范围
第三章 统计学正
态分布及其应用 (医学统计学)
卫生统计学
第三章 正态分布及其应用
第一节、正态分布的概念及特征
一、正态分布图形 两头低,中间高,左右对称,呈钟
型的单峰曲线。
正态分布特征
1、曲线在横轴上方均数处最高; 2、以均数为中心,左右对称; 3、正态分布有两个参数:
位置参数μ 、形状参数σ 4、正态分布曲线下的面积有一定的分布 规律。
正态分布是一个分布族。对应于不 同的参数μ和σ会产生不同位置不同形状 的正态分布。
为了应用方便,令
ux
u变换
标准正态 分布
u服从均数为0、标准差为1的正态分布
-1.0 2.5%
-1.96
68.27%
+1.0 95.00% 2.5%
+1.96
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布曲线呈对称的钟形, 在均数处最高,两侧逐渐低下,两 端在无穷远处与横轴无限接近。
若变量 x 的频率曲线对应于数 学上的正态分布曲线,则称该变量 服从正态分布。
10
2.正态分布的特征
正态分布曲线的密度函数为:
f (X)
1
(X)2
e 22
-∞<X<+∞
2
则称X服从正态1.正态分布的概念
在医学卫生领域中,许多变量的频 数分布是中间(靠近均数处)频数多,两边 频数少,且左右对称。如人体的许多生 理、生化指标等。这种变量的频数分布 规律可用概率论中的一种重要的随机变 量分布—正态分布(Normal distribution)加 以描述。
8
医学资料中有许多指标的频数分布都呈正态分布: 身高 体重 脉搏 血红蛋白 血清总胆固醇 ……
f(x)
F
x
P(a
x
b)
b
a
f
(x)dx
?
x ab
21
实际工作中,常需要了解正态曲
线下横轴上某一区间的面积占总
面积的百分数,以便估计该区间
的例数占总例数的百分数(频数
分布)或观察值落在该区间的概
率。对于不同的参数μ和σ会产
生不同位置、不同形状正态分布,
(x1,x2)范围内的面积也不同,
计算起来很麻烦。
-X X
X轴
正态分布对称性 15
二.正态密度函数曲线下的面积规律
③曲线下在区间(μ-σ,μ+σ)的面积为68.27%, 曲线下在区间(μ-1.64σ,μ+1.64σ)的面积为90%, 曲线下在区间(μ-1.96σ,μ+1.96σ)的面积为95%, 曲线下在区间(μ-2.58σ,μ+2.58σ)的面积为99%。
正态分布的参数 :μ为总体均数,σ为总体标准差, 固定常数: π为圆周率,e为自然对数的底变量:X
11
2.正态分布的特征
图形特点:
f(X)
1. 钟型、均数处最高
2. 均数为中心的左右对称
3. 正态分布有两个参数
4. 曲线下面积分布有规律
X
2相等, 不等的正态分布图示
1 2
3
1< 2 < 3
13
-3.0 0.0013 0.0013 0.0012 0.0011 0.0010
-2.5 0.0062 0.0059 0.0055 0.0052 0.0049
相等, 2不等的正态分布图示
1
2 3
1 < 2 < 3 14
二.正态密度函数曲线下的面积规律
①正态密度函数曲线与横轴间的面积恒等于1或100%; ②正态分布是一种对称分布,其对称轴为直线X=μ,X>μ与
X<μ范围内曲线下的面积相等,各占50%;
S(X,)=S(-,-X)
S(-,-X)
S(X,)
由此可知:如果一个区间由若干组段构成,计算肺活量落在 某个区间的概率等于计算这个区间的中各个直方条图的面 积之和. 只能计算给定区间概率,不能计算任意区间概率. 对于上述直方图,组距越小,组段越多,能够计算的概率区 间就越多,当组距逐渐减小,上述计算方法仍然成立.
5
随人数逐渐增多,组段不断分 细,则频数分布图中的直条逐渐变 窄,就会逐渐形成一条高峰位于中 央(均数所在处)、两侧逐渐降低且 左右对称、不与横轴相交的光滑曲 线,近似于数学上的正态分布曲线。
23
1. 标准化变换
Z x
若 x 服从正态分布 N (,2) ,则 z就
服从均数为0、标准差为1的正态分布, 这种正态分布称为标准正态分布或 z 分
布,记为 N (0,12),这一变换也称为标
准化变换。
24
N(μ,σ2)
N(0,1)
从一般的正态分布转变为标准的正态分布
标准正态分布的密度函数为
16
■μ士σ范围内的面积占正态曲线下面积的68.27%,也 就是说有68.27%的变量值分布在此范围内。
68.27%
- +
17
μ士1.64σ范围内的面积占正态曲线下面积的90%,也就是 说有90%的变量值分布在此范围内。
90%
5%
5%
-1.64
+1.64
18
■μ士1.96σ范围内的面积占正态曲线下面积的95%, 也就是说有95%的变量值分布在此范围内。
2.5%
95%
2.5%
-1.96
+1.96
19
■μ士2.58σ范围内的面积占正态曲线下面积的99%, 也就是说有99%的变量值分布在此范围内。
0.5%
-2.58
99%
0.5%
+2.58
20
曲线下的面积的计算
对于任意一个区间的曲线下面积,在知道变 量值x对应的概率密度函数f (x)后,都可以根 据微积分的方法求出其面积的大小
(X ) 1 eZ2 2 2
26
➢ 对上式求积分可得到标准正态变量Z的分布函 数。
➢ 由于积分计算繁琐,统计学家按标准正态分布
的累积概率分布函数(-Z)编制了附表2
(P315),标准正态分布曲线下的面积,由 表可查出曲线下某区间的面积。
27
标准正态分布曲线下面积(Z)
Z
0.00 -0.02 -0.04 -0.06 -0.08
数值变量统计描述小结
原始资料
对称
算术均数与标准差
分组划计
对数转换
频数分布表、图
分布 类型
不对称
几何均数与对数值 标准差的反对数
中位数与四分位数间距 1
第四章 第四节 正态分布及其应用
流行病与卫生统计学系 何保昌
正态分布及其应用
(Normal distribution)
一. 正态分布的概念和特征 二. 正态曲线下面积的分布规律 三. 标准正态分布的性质 四. 正态分布的应用
22
三、标准正态分布
为了计算方便,对于正态或近似正态 分布的资料,只要得出均数和标准 差,可通过标准转化,转化成求标 准正态曲线下横轴自-∞到z的面积。 为了便于应用,统计学家按Φ(z)编 制了标准正态分布曲线下的面积表, 由此表可查出曲线下某区间的面积, 这样就可对符合正态分布资料的频 数分布作出估计。
3
此图的纵坐标为频率,横坐标为肺活量,称此图为频率直方图 每一个直方条的面积=频率,各组段的频率之和=1,所以这个直方 图的面积为1 如果样本量越大,每个组段的频率就越稳定,也就趋向概率。 由此我们可得到:随机抽一个9岁男孩,其肺活量落在各个组段的概率
4
假定各组段的概率如下
P(0.98 L肺活 1 量 .1L 1)0.0417 P(肺活 2 量 .15 L)0.033 0 3.033 3 0.0666 P(1.89 L肺活 2 量 .15 L)0.10 0.05 0.15