05-概率分布-正态分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计面积,并制成专用的 Z 值表(见附表);这样对
于其它任意的正态分布N(μ, σ2) ,都可以通过变量 代换转化为标准正态分布,通过查表就完成其概率 计算问题。
1. 左半侧 Z 值对应面积的查法:
标准正态分布曲线下面积规律
1. 标准正态分布区间(-1, 1 )的面积占总面积的68.26% 2. 标准正态分布区间(-1.96,1.96)的面积占总面积的95%
正态分布法求参考值范围 单侧下限
所以,该地健康成年男子第一秒肺通气量的95%参 考值范围为不低于3.05(L)。
(二)估计频数分布
举例:定出生体重低于2500g的婴儿为低体重儿,若 由某项研究得某地婴儿出生体重均数为3200g ,标 准差为350g,估计当年出生低体重儿所占的比例。 解析:1. 分布近似正态, X= 3200g ,S=350g。 2. 转化为标准正态分布,求u 值
双侧界值
X ±Za /2 s
(1)正态分布法:适用于正态或近似正态分布资料
单侧下限
X Za s
单侧上限
X Za s
表5-2
参考值范 围(%) 90 95 99 双侧
常用参考值范围的制定
正态分布法 单侧 下限 上限 双侧 下限 P5~ P95 P2.5 ~P97. 5 P0.5 ~P99. 5 P10 P5 P1 百分位数法 单侧 上限 P90 P95 P99
随机变量最重要的分布。其分布曲线叫正态分布
曲线,呈中间高,两边低,左右基本对称的“钟
型”曲线,近似于数学上的正态分布,又称高斯
分布(Gauss distribution)。
正态分布(normal distribution)
德莫佛最早发现了二项概率
的一个近似公式,这一公式被 认为是正态分布的首次露面。
(一) 制定医学参考值范围
参考值范围(reference range):指所谓“正常人”的解剖、 生理、生化等指标的波动范围。 制定方法:
制定参考值范围时,首先要确定一批样本含量足够
大的“正常人”。所谓“正常人”不是指“健康 人”,而是指排除了影响所研究指标的疾病和有关 因素的同质人群,必须是随机选择的大样本。
1. 位置参数: μ
当σ固定不变时,μ越大,曲线沿横轴 越向右移动;反之, μ越小,则曲线沿横轴越向左移 动,所以μ叫正态曲线N(μ, σ2)的位置参数, 。
图5-4 正态分布位置随参数μ变换示意图
2. 形状参数:σ
当μ固定不变时,σ越大,曲线越平阔; σ越小,曲线越尖峭,σ 叫正态曲线N(μ, σ2)的形 状参数。
1 F ( x) 2
x
e
( x ) 2 /( 2 2 )
dx
j(Z )
1 2
Z
e
Z
2
/ 2
dZ
x
Z
图 6 正态分布(左)及标准正态曲线下(右)的累计面积
由于引入了标准正态变量 Z 值,只需对标准正 态公式求定积分,求其曲线下从 -∞到任意Z 值的累
而后根据指标的实际用途确定单侧或双侧界值,根
据研究目的和使用要求选定适当的百分界值,常用 95%。 .
双侧临界值:标准正态分布双侧尾部面积之和等于α 时所 对应的正侧变量值,记作Zα /2。
单侧临界值:标准正态分布单侧尾部面积等于α 时所对应 的正侧变量值,记作Zα 。
以不同的方法计算参考值范围:
③
频率 (频数/总频数) 0.004 3 0.038 5 0.115 5 0.209 0 0.256 1 0.212 6 0.099 9 0.049 9Fra Baidu bibliotek0.012 1 0.002 1 1.000 0
④
累积频率 0.004 3 0.042 8 0.158 3 0.367 3 0.623 4 0.835 9 0.935 8 0.985 7 0.997 9 1.000 0
x
Z称为标准正态变量。把u代入概率密度函数 , 得标准正态分布的概率密度函数:
j (Z )
1 u 2 / 2 e , u 2
相对于正态变量 x,Z 没有度量单位。根据 u 的不同取值,可绘出标准正态分布的图形。
将一般正态分布曲线的 μ 的位置平移到原点,再 以标准差σ为横轴单位,这样就把原来个别的正态分布 转换为一般的标准正态分布 N(0,1),亦称为Z分布 (或 u分布)。
当x确定后, f(x)为X相应的纵坐标高度,则X服从参数 为μ和σ2的正态分布( normal distribution),记作X~N( μ, σ2 )。
当给定不同的 x 值后,就可以根据此方程求得相应的 纵坐标高度(频数),并可绘制出正态曲线的图形,记 作X~N(μ,σ2) :
正态分布曲线:高峰位于中间,两侧逐渐下降并完全对 称,曲线两端永远不与横轴相交的“钟型”曲线。
体重频率密度
图5-1 体重频率密度图
图5-2 概率密度曲线示意图
故对连续性随机变量而言:
变量某区间取值的概率 = 正态曲线该变量区间的面 积
推 断:
测得一个孕妇体重在54-68kg的概率有多大? 孕妇体重在哪个范围内算是正常的呢?
一、正态分布的概念和 密度函数
正态分布( normal distribution):是描述连续型
4. μ是正态曲线的位置参数,决定曲线在横轴上的位置; μ 增大曲线沿横轴向右移, μ 减小曲线沿横轴向左移。 5.σ是正态曲线的形状参数,σ越大数据越分散,曲线越 “矮胖”,σ越小数据越集中,曲线越“瘦高” 。
三、正态曲线的标准化
为了应用方便,常将正态概率函数中的 x 作如 下变量代换,令:
Z
3. 查任意两个 Z 值间的面积:
举例:求 Z = - 0.5 ~-1.5之间的面积。 查表找出 Z = -0.5 时的对应面积为 0.3085,再 查出 Z = -1.5 时的对应面积 0.0668,相减即可。 即:P(Z = - 0.5 ~-1.5)= P(Z = - 0.5) - P(Z = -1.5) = 0.3085- 0.0668 = 0.2417
小结:
对标准正态分布曲线 (1)曲线下横轴上的总面积为100% u 的面积 (2)表中曲线下面积为 (-到 , Z ) (3)标准正态曲线下的面积以0为对称,即
F(Z)1F(Z)
如区间(-,-1.96)与区间(1.96,+) 的面积相等。
4. 求一般正态分布N(μ,σ2)曲线下的面积: ⑴ 先求 u 值:
3. 据概率计算人数: 身高在 135 cm 以下者有:120×8.38% =10人
常用的正态分布、标准正态分布曲线下面积规律
正态分布 µ ±1.64σ µ ±1.96σ µ ±2.58σ 标准正态分布 0±1.64 0±1.96 0±2.58 面积规律 90.00% 95.00% 99.00%
四、正态分布在医学中 的应用
查u值表
说明标准正态曲线下 (-∞,-2)的面积为2.28%,故本 题正态曲线(-∞,2500g)的比例为2.28% ,即X<2500g的 为2.28%,故估计当年出生低体重儿的比例为2.28%。
3. 标准正态分布区间(-2.58,2.58)的面积占总面积的99%
2.左半侧Z 值对应面积的查法:标准正态分布是以 0 为中 心左右对称,所以该表只计算曲线下一半的面积即可 。
举例:
当 Z = -1.96时,左侧的累计面积= 0.025(该区间累
计频数占总例数的 2.5%),记作 P(Z≤-1.96) = 0.025 。 当 Z = 1.96时, 左侧累计面积为 0.975,可记作 P(Z≤1.96)=0.975, 此时P(Z≥1.96)=0.025 。
任意正态分布曲线 X~N(μ,σ2)
标准正态分布曲线 X~N(0,1)
四、正态曲线下面积的 分布规律
正态曲线下的面积分布有一定的规律性:
因正态曲线下累计频数的总和等于 100% 或 1,则:
横轴上曲线下的面积(概率)就等于 100% 均数两侧的面积(概率)各占 50%。
或 1;
实际工作中常需了解横轴上某一区间曲线下面积占 总面积的百分比,以便估计该区间的频数占总频数的百 分比(即频数分布情况)。这就需要采用定积分的办法, 对函数式 (1) 或 (2) 定积分,算得从 -∞ 到 x,或从 -∞ 到 Z 的累计面积(概率)。 .
第五讲 概率分布—正态分布
引子: 【典型案例分析】
举例: 随机调查某医院1402例待分娩孕
妇,测得她们的体重,试述其体重频数分 布的特征。
表5-1 某医院1402例分娩孕妇体重频数分布
①
体重组段 48525660646872768084合计
②
频数 6 54 162 293 359 298 140 70 17 3 1402
X 1.64S X 1.96S
X 2.58S
X-1.28S
X 1.28S X 1.64S
X 2.33S
X-1.64S X-2.33S
举例1:调查某地120名健康女性血红蛋白,直方图显 示其分布近似正态,试估计该地健康女性血红蛋白 的95%参考值范围。 解析: 1. 分布近似正态 2. 过高过低均为异常 正态分布法求参考值范围 设定双侧界值
也可以用正态分布作为它的极限分布形式。
有时也可将非正态分布资料转化为正态分布来
处理。
正态分布的密度函数,即正态曲线的函数表达式:
1
( X ) 2 / 2 2
f (X )
2
e
, X
式中,μ为总体均数,σ为总体标准差,π为圆周率,e为 自然对数的底,仅x为变量。
德莫佛
正态分布在十九世纪前叶由
高斯加以推广,所以通常称为 高斯分布(Gauss distribution)。
高 斯
10马克的钱币
正态分布在医学研究中的重要作用: 医学研究中:
医学研究中许多正常人的生理,生化指标、测
量误差等多呈正态分布或近似正态分布。
许多非正态分布资料,当样本含量足够大时,
, 已知: Z
x
x x , 未知: Z s
当总体均数和总体标准差未知时,就用样本均数 和样本标准差来代替计算。
⑵ 根据 Z 值在表中查出相应的面积值
所以对正态分布或近似正态分布资料,只要求出 均数和标准差,便可就其频数分布作出概略估计了。
举例:已知 120 名 12 岁男孩身高均数为 143 cm,标
⑤
频率密度 (频率/组距) 0.001 1 0.009 6 0.028 9 0.052 2 0.064 0 0.053 1 0.025 0 0.012 5 0.003 0 0.000 5
若将各直条顶端的中点顺次连接起来,得一条折线。当样 本量n越来越大时,折线就越来越接近一条光滑的曲线。
0.08 0.06 0.04 0.02 0.00 4856647280体重(kg)
举例2: 某地调查120名健康成年男性的第一秒肺通 气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估 计其第一秒肺通气量的95%参考值范围。 解析: 1. 分布近似正态 2. 仅过低为异常 3. 求下界值
下界: X 1.64S 4.2 1.64 0.7 3.05L
3. 求上、下界值
下界: x 1.96s 117.4 1.9610.2 97.41( g / l ) 上界: x 1.96s 117.4 1.9610.2 137.39( g / l )
所以,该地健康女性血红蛋白的95%参考值范围是 (97.41,137.39)g/l。
0.9 0.8 0.7 0.6
σ=1
f(X)
0.5 0.4 0.3 0.2 0.1 0 -6 -5 -4 -3 -2 -1 0 1 2
σ=1.5
σ=2
3 4 5 6
X
图5-6 正态分布形态随参数σ变换示意图
(二)正态分布图形的特征:
1. 对称性:关于x=μ对称 2. 集中性: 正态曲线在横轴上方, 当x=μ时, f (x)取最大值,即均数位于曲线的最高处。 3. 对频率密度正态分布图,横轴上曲线下的面积为1。
准差为 5.8 cm,试估计该地 12 岁男孩身高在 135 cm 以下者有多少人?
答:1. 首先计算 Z 值:
x x 135 143 1. 38 Z s 5.8
2. 查 Z 值表: 当 u = -1.38 时,左侧尾部面积 0.0838,即身高 在 135cm 以下者占总人数的 8.38%。