医学统计学 常用概率分布-正态分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布N (μ, σ2)下:
μ -1.96σ
μ +1.96σ
X= μ -1.96σ时,所对应的左侧累积概率是多少?
X= μ +1.96σ时,所对应的右侧累积概率是多少? X在(μ -1.96σ ,μ +1.96σ )间对应概率是多少?
常用的正态分布、标准正态分布曲线下面积规律
正态分布 µ ±1.64σ µ ±1.96σ µ ±2.58σ 标准正态分布 0±1.64 0±1.96 0±2.58 面积规律 90.00% 95.00% 99.00%
X1 X 2) 2 N (123.02,4.79
N (0,1)
三、正态分布的应用
1. 确定医学参考值范围
参考值范围(reference range):指特定“正常”人群的解 剖、生理、生化指标及组织代谢含量等数据中大多数个
体取值所在的范围。
举例:制定成年健康女性血红蛋白的参考值范围
制定步骤:
首先要确定一批样本含量足够大的“正常人”
5. 对频率密度分布图,横轴上曲线下面积为1;其面积与
概率分布有对应关系,可通过求面积确定其概率值。
由μ, σ决定的正态分布曲线 N (μ, σ2)具有多样性..
为了应用方便,常将正态概率函数中的 x 作如 下变量代换,令:
u
x
u称为标准正态变量。把u代入概率密度函数 , 得标准正态分布的概率密度函数:
2
)
, X
正态分布的密度函数,即正态曲线的函数表达式
⑴ 位置参数: μ
当σ固定不变时,μ越大,曲线沿横轴越向右移动;反 之, μ越小,则曲线沿横轴越向左移动,所以μ叫正态曲 线N(μ, σ2)的位置参数, 。
图5-4 正态分布位置随参数μ变换示意图
⑵ 形状参数:σ
当μ固定不变时,σ越大,曲线越平阔;σ越小,曲 线越尖峭,σ 叫正态曲线N(μ, σ2)的形状参数。
去势P-P图:分布的残差图
理 论 累 积 概 率
实际累积概率
若残差的绝对值≤0.05,基本认为服从N(0,1)
Q-Q图:根据变量的实际分位数和与理论分布进行绘 图,并据此判断变量是否服从 特定的分布。
1. 所谓“正常人”不是指“健康人”,而是指排除 了对所研究的指标有影响的疾病和有关因素的特 定人群,必须是随机选择的。 2.样本含量足够大:300-500例
进行样本相关指标测量,整理数据,进行资料
分布类型的诊断。
⑵ 正态分布法:适用于正态或近似正态分布资料
根据研究目的和使用要求选定适当的百分界值,
X 3S
X 2S
X
控制线 警戒线
中心线
X 2S
警戒线 控制线
X 3S
质量控制图
质量控制图1
质量控制图2
目前推崇的接近零不合格过程的有效控制:
实现六西格玛质量控制
3. 正态分布是许多统计方法的理论基础
t 分布、F 分布、 x 分布都是在正态分布的
2
基础上推导出来的,u 检验也是以正态分 布为基础的。
处理。
举例:
随机抽取某医院1402例待分娩孕妇, 测得她们的体重值 ,试述其体重频数分布 的特征。
表5-1 某医院1402例待分娩孕妇体重频数分布
①
体重组 段
48525660646872768084合计
②
频数
6 54 162 293 359 298 140 70 17 3 1402
③
频率 (频数/总频数)
0.9 0.8 0.7 0.6
σ=1
f(X)
0.5 0.4 0.3 0.2 0.1 0 -6 -5 -4 -3 -2 -1 0 1 2
σ=1.5 σ=2
3 4 5 6
X
图5-6 正态分布形态随参数σ变换示意图
(二)正态曲线下的面积
-∞
a
b
1 F ( x) 2
x
e
( x ) 2 /( 2 2 )
体重频率密度
图5-1 体重频率密度图
图5-2 概率密度曲线示意图
0.08 0.06 0.04 0.02 0.00 4856647280体重(kg)
体重频率密度
图5-1 体重频率密度图
由于频率的总和为1,所以该曲线下横轴上的面积为1 面积=频率
正态分布( normal distribution):是描述连续型
最常用的是95%。
而后根据指标的实际用途确定单侧或双侧界值。
Z X1 - u
µ -1.96σ
µ +1.96σ
N (0,1 )
N (μ, σ2 )
举例1 调查某地120名健康女性血红蛋白,直方图显示 其分布近似正态, X 117.4(g/L), S 10.2(g/L) 试估计该地健康女性血红蛋白的95%参考值范围。 解析: 分布近似正态 1. 2. 过高过低均为异常 正态分布法求参考值范围 设定双侧界值
0.004 3 0.038 5 0.115 5 0.209 0 0.256 1 0.212 6 0.099 9 0.049 9 0.012 1 0.002 1 1.000 0
④
累积频率
0.004 3 0.042 8 0.158 3 0.367 3 0.623 4 0.835 9 0.935 8 0.985 7 0.997 9 1.000 0
j(u )
1 u 2 / 2 e , u 2
相对于正态变量 x,Z 没有度量单位。根据 u 的不同取值,可绘出标准正态分布的图形。
将一般正态分布曲线的 μ 的位置平移到原点, 再以标准差σ为横轴单位,这样就把原来个别的正态 分布转换为一般的标准正态分布 N(0,1),亦称为 Z分布。
第五章:
常用概率分布
正态分布
1.1 正态分布的概念
1.2 正态概率密度曲线下的面积 1.3 正态分布的应用
1.4 正态分布的判断
一、正态分布的概念
正态分布(normal distribution)
德莫佛最早发现了二项概率
的一个近似公式,这一公式被 认为是正态分布的首次露面。
德莫佛
正态分布在十九世纪前叶由
N (123.02,4.792)
(2)身高在120~128者占该地8岁男孩总数的百分比;
解析:
58.65%
58.65%
120cm 128cm N (123.02,4.792)
-0.63 1.46 N (0,1)
(3)该地80%男孩的身高集中在哪个范围?
解析:
80%
10%
10%
10% Z1
80%
10% Z2
举例:已知 120 名 8 岁男孩身高均数为 123.02 cm,
标准差为 4.79 cm,试估计: (1)身高在130以上者占该地8岁男孩总数的百分比; (2)身高在120~128者占该地8岁男孩总数的百分比; (3)该地80%男孩的身高集中在哪个范围?
解析:
7.21% 130cm
7.21%
1.46 N (0,1)
故:求一般正态分布N(μ,σ2)曲线下的面积: ⑴ 先求 u 值:
, 已知: Z
x
x x , 未知: Z s
当总体均数和总体标准差未知时,就用样本均数 和样本标准差来代替计算。
⑵ 根据 Z 值在表中查出相应的面积值
所以对正态分布或近似正态分布资料,只要求出 均数和标准差,便可就其频数分布作出概略估计了。
⑤
频率密度 (频率/组距)
0.001 1 0.009 6 0.028 9 0.052 2 0.064 0 0.053 1 0.025 0 0.012 5 0.003 0 0.000 5
作图:以体重测量值为横轴,频率密度为纵轴作出 直方图,此图即称为频率密度图;纵轴表示的是每个 组段内单位长度所占有的频率。
dx
采用定积分的办法,对函数式进行定积分,算得从 -∞ 到 a累计面积,再推算出该区间事件发生的概率值
正态曲线下的面积分布有一定的规律性:
因正态曲线下累计频数的总和等于 100% 或 1,则:
横轴上曲线下的面积(概率)就等于 100% 均数两侧的面积(概率)各占 50%。
或 1;
㈡ 正态分布图形的特征:
不完全一样;
某些指标有必要按性别、年龄或其它因素分别制
定参考值。
(二)进行质量控制
基本原理:
许多临床检验指标,当影响某一指标的随机因
素很多,而每个因素所起的作用均不太大时, 这个指标的随机波动属于随机误差,则往往服 从正态分布。
如果某一差异仅是由个体差异和随机误差导致
的,那么观察结果服从正态分布。
下界: X 1.64 S 4.2 1.64 0.7 3.05L
正态分布法求参考值范围 单侧下限
所以,该地健康成年男子第一秒肺通气量的95%参 考值范围为不低于3.05(L)。
正确地理解参考值范围:
没有绝对的正常和异常,正常中含有“异常”,
异常中含有“正常”;
不同实验环境、不同仪器检测的灵敏度和精确度
0.08 0.06 0.04 0.02 0.00 4856647280体重(kg)
体重频率密度
图5-1 体重频率密度图
若将各直条顶端的中点顺次连接起来,得一条折线。当样 本量n越来越大时,折线就越来越接近一条光滑的曲线。
0.08 0.06 0.04 0.02 0.00 4856647280体重(kg)
二项分布、Poisson分布的极限为正态分布,
在一定条件下,可以按正态分布原理来处 理。
四、正态分布的判断
如何判断一组数据是否符合正态分布:
1. 根据文献报道
例如:文献报道中学生的体重、肺活量服从正态 分布,则可沿用文献的作法对数据进行处理。 2. 根据经验或专业知识判断:
例如:根据专业知识,同性别健康成人的红细胞 数、血红蛋白含量、脉搏数都近似正态分布,而正 常人的血铅含量近似对数正态分布。
随机变量最重要的分布。其分布曲线叫正态分布
曲线,呈中间高,两边低,左右基本对称的“钟
型”曲线,近似于数学上的正态分布,又称高斯
分布(Gauss distribution)。
正态分布曲线:高峰位于中间,两侧逐渐下降并完全
对称,曲线两端永远不与横轴相交的“钟型”曲线。
μ
( 1 f (X ) exp 2 ( X )2 2
高斯加以推广,所以通常称为 高斯分布(Gauss distribution)。
高 斯
10马克的钱币
引子:
医学研究中许多生理、生化指标;测量误差等
多呈正态分布或近似正态分布。
许多非正态分布资料,当样本含量足够大时,
也可以用正态分布作为它的极限分布形式。
有时也可将非正态分布资料转化为正态分布来
任意正态分布曲线 X~N(μ,σ2)
标准正态分布曲线 X~N(0,1)
采用定积分的办法,对函数式 (1) 或 (2) 定积分, 算得从 -∞ 到 x累计面积,从而推算出该区间事件发 生的概率值。 .
j(Z )
1 2
Z
e
Z
2
/ 2
dZ
图 6 正态分布(左)及标准正态曲线下(右)的累计面积
1. 对称性:关于x=μ对称
2. 集中性: 正态曲线在横轴上方, 当x=μ时, f (x)取最大值,即均数位于曲线的最高处。
3. μ是正态曲线的位置参数,决定曲线在横轴上的位置; μ 增大曲线沿横轴向右移, μ 减小曲线沿横轴向左移。 4.σ是正态曲线的形状参数,σ越大数据越分散,曲线越
“矮胖”,σ越小数据越集中,曲线越“瘦高” 。
3. 求上、下界值
下界: x 1.96 s 117 .4 1.96 10.2 97.41( g / l ) 上界: x 1.96 s 117 .4 1.96 10.2 137 .39( g / l )
所以,该地健康女性血红蛋白的95%参考值范围是 (97.41,137.39)g/l。
3. 用统计软件进行正态性检验: SPSS、SAS、EXCEL等
1.“直方图”或“茎叶 绘制图形直接观察 方法 专门检验方法考察 图” 2.“P-P图”或“Q-Q图”
“直方图”或“茎叶图”:
可直接地进行观察, 但不能直观地给出数据分布与正 态分布相关多少的信息
2. “P-P图”或“Q-Q图”地:直观地表示数据是否符合 所考察的正态分布: P-P图:比较变量的实际累积概率和正态分布的理论累 积概率的符合程度。
单侧临界值:标准正态分布单侧尾部面积等于α 时所对应 的正侧变量值,记作Zα 。
若按左单侧算,则是 97.5% 参考值范围
按左单侧算,是 95% 参考值范围
举例2: 某地调查120名健康成年男性的第一秒肺通 气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估 计其第一秒肺通气量的95%参考值范围。 解析: 分布近似正态 1. 2. 仅过低为异常 3. 求下界值