医学统计学-第三章-概率分布
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图5-4 正态分布位置随参数μ变换示意图
⑵ 形状参数:σ
当μ固定不变时,σ越大,曲线越平阔;σ越小,曲 线越尖峭,σ 叫正态曲线N(μ, σ2)的形状参数。
f(X)
0.9
0.8
σ=1
0.7
0.6
0.5
0.4 0.3
σ=1.5
0.2 0.1
σ=2
0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
累积频率
0.004 3 0.042 8 0.158 3 0.367 3 0.623 4 0.835 9 0.935 8 0.985 7 0.997 9 1.000 0
频率密度 (频率/组距)
0.001 1 0.009 6 0.028 9 0.052 2 0.064 0 0.053 1 0.025 0 0.012 5 0.003 0 0.000 5
医学研究中许多正常人的生理、生化指标 的变量分布呈正态分布或近似正态分布。
体重频率密度
0.08
0.06
0.04
0.02
0.00 48- 56- 64- 72- 80体重(kg)
图5-1 体重频率密度图
由于频率的总和为1,所以该曲线下横轴上的面积为1 面积=频率
正态分布曲线:两个参数 μ和σ决定了x的概率分布,习
3 概率分布
教学内容:
变量
定量资料
集中趋势:算术均数、 中位数等
极差、 四分位数间距、方差、
离散趋势:标准差、变异系数
统计 描述
定性资料:频率型指标、强度型指标、比 统计表和统计图 概率分布:正态分布、二项分布、Possion分布
统计 推断
抽样分布—参数估计:点估计、区间估计
假设
定量资料
实验设计
差异性 定性资料
3. 当 x=μ时, f (x)取最大值,即 均数位于曲线的最高处。峰值为:
f () 1 2
4. x 取值从- ∞至+∞ ,相应的概率密度函数f (x) 对应的 曲线位于X轴的上方,与X轴永不相交,正态变量在 x=μ时,概率 f (x)取值最大,两边逐渐减少。
(5)正态分布曲线下面积的规律
X
图5-6 正态分布形态随参数σ变换示意图
1. 单峰、对称分布,对称轴 x=μ
2. 正态分布N (μ, σ2) 中的两个参数: μ : 位置参数,决定曲线在横轴上的位置;μ 增大曲线
沿横轴向右移, μ 减小曲线沿横轴向左移。
σ : 形状参数,σ越大数据越分散,曲线越“矮胖”,σ
越小数据越集中,曲线越“瘦高” 。
制定步骤:
首先要确定一批样本含量足够大的“正常人”
1. 所谓“正常人”不是指“健康人”,而是指排除 了对所研究的指标有影响的疾病和有关因素的特 定人群,必须是随机选择的。
2.样本含量足够大:100例以上
进行样本相关指标测量,整理数据,进行资料
分布类型的诊断。
以不同的方法计算参考值范围:
⑴ 百分位法:适用于任何分布类型资料,特别是偏 态分布资料以及一端或两端无确切数值的资料。
异常中含有“正常”;
不同实验环境、不同仪器检测的灵敏度和精确度
不完全一样;
某些指标有必要按性别、年龄或其它因素分别制
定参考值。
4. 正态分布是许多统计方法的理论基础
惯上用 N (μ, σ2)表示均数μ ,标准差σ的正态分布。
μ
f (X)
1
(( X )2 )
exp 2 2 , X
2
正态分布的密度函数,即正态曲线的函数表达式
⑴ 位置参数: μ
当σ固定不变时,μ越大,曲线沿横轴越向右移动;反 之, μ越小,则曲线沿横轴越向左移动,所以μ叫正态曲 线N(μ, σ2)的位置参数, 。
为了应用方便,常将正态概率函数中的 x 作如 下变量代换,令:
Z
x
Z称叫对应于观测值x的标准得分(standard score)。把Z代入概率密度函数 ,得标准正态分布 的概率密度函数:
j ( Z ) 1 e Z 2 / 2 , Z 2
相对于正态变量 x,Z 没有度量单位。根据 u 的不同取值,可绘出标准正态分布的图形。
解析:
7.21%
130cm N (123.02,4.792)
7.21%
1.46 N (0,1)
(2)身高在120~128者占该地8岁男孩总数的百分比;
解析:
58.65%
58.65%
120cm 128cm N (123.02,4.792)
-0.63
1.46
N (0,1)
(3)该地80%男孩的身高集中在哪个范围?
常用的正态分布、标准正态分布曲线下面积规律
正态分布
µ±1.64σ µ±1.96σ µ±2.58σ
标准正态分布
0±1.64 0±1.96 0±2.58
面积规律
90.00% 95.00% 99.00%
3.1.3 正态分布的应用
1. 概率计算:120 名 8 岁男孩身高均数 123.02 cm,
标准差为 4.79 cm,试估计: (1)身高在130以上者占该地8岁男孩总数的百分比; (2)身高在120~128者占该地8岁男孩总数的百分比; (3)该地80%男孩的身高集中在哪个范围?
连续型变量 离散型变量
3.1 正 态 分 布
3.1.1 正态分布概念和特征 3.1.2 标准正态分布 . 3.1.3 正态分布的应用 . 3.1.4 正态分布的判断 .
3.1.1 正态分布的概念和特征
举例:
某妇产科医生观察1402例临产母亲体重资料 (kg),试述其体重频数分布的特征。
76.0 60.0 64.0 68.0 68.0 66.5 68.0 70.5 71.5 70.0 57.0 68.0 65.5 58.0 63.0 65.0 71.5 74.0 56.5 64.0 60.0 64.5 68.0 65.0 68.0 65.0 63.0 62.0 61.0 66.0 70.0 68.0 68.0 65.0 58.0 70.0 68.0 74.3 73.0 60.0 67.0 71.0 … 59.5 62.0 76.5 61.0 75.0 56.0 73.0 69.0 53.5 65.0 60.0 69.0 65.0 66.0 72.0 55.0
解析:
10%
80%
10%
X1 N
(123.02,4.792) X2
10%
80%
Z1 N (0,1)
10% Z2
2. 确定医学参考值范围
参考值范围(reference range):指特定“正常”人群的解 剖、生理、生化指标及组织代谢含量等数据中大多数个 体取值所在的范围。
举例:制定成年健康女性血红蛋白的参考值范围
分组数
参数检验:t 检验、
方差分析等
非参数检验—秩和
检验 相关 两变量:简单线性相关、回归分析
回归 多变量:多重线性回归、logistic回归、
生存分析
实验设计:三要素、四原则、实验设计方案、样本含量估算
应了解具有普遍意义的、样本所在总体分布的情 况,随机变量的分布常见的有三种类型:
正态分布(normal distribution) 二项分布(binominal distribution) Poisson 分布( Poisson distribution)
-∞ aa b
F (x) 1
e dx x ( x )2 /( 2 2 )
2
1.正态曲线下累计频数的总和等于 1,则:
横轴上曲线下的面积(概率)就等于 或 1; 均数两侧的面积(概率)各占 50%。
3.1.2 标准正态分布
由μ, σ决定的正态分布曲线 N (μ, σ2)具有多样性..
近一条光滑的曲线。
0.08
0.06
体重频率密度
0.04
0.02
0.00 48- 56- 64- 72- 80体重(kg)
图5-1 体重频率密度图
图5-2 概率密度曲线示意图
正态分布( normal distribution):
是描述连续型随机变量最重要的分布,又 称高斯分布(Gauss distribution)。
表5-1 某医院1402例待分娩孕妇体重频数分布
①
②
③
④
⑤
体重组 段
48525660646872768084-88 合计
频数
6 54 162 293 359 298 140 70 17
3 1402
频率 (频数/总频数)
0.004 3 0.038 5 0.115 5 0.209 0 0.256 1 0.212 6 0.099 9 0.049 9 0.012 1 0.002 1 1.000 0
将一般正态分布曲线的 μ 的位置平移到原点, 再以标准差σ为横轴单位,这样就把原来个别的正态 分布转换为一般的标准正态分布 N(0,1),亦称为 Z分布。
任意正态分布曲线 X~N(μ,σ2)
标准正态分布曲线 X~N(0,1)
采用定积分的办法,对函数式 (1) 或 (2) 定积分,
算得从 -∞ 到 x 累计面积,从而推算出该区间事件发
3. 求上、下界值
下界: x 1.96s 117 .4 1.96 10.2 97.41(g / l)
上界: x 1.96s 117 .4 1.96 10.2 137 .39(g / l)
所以,该地健康女性血红蛋白的95%参考值范围是 (97.41,137.39)g/l。
体重频率密度
作图:以体重测量值为横轴,频率密度为纵轴作出 直方图,此图即称为频率密度图;纵轴表示的是每个 组段内单位长度所占有的频率。
0.08
0.06
0.04
0.02
0.00 48- 56- 64- 72- 80体重(kg)
图5-1 体重频率密度图
若将各直条顶端的中点顺次连接起来,得一条折线。 当样本量 n 越来越大时,组距越来越小,折线就越来越接
解析:1. 分布近似正态
正态分布法求参考值范围
2. 仅过低为异常 单侧下限
3. 求下界值
下界: X 1.64S 4.2 1.640.7 3.05L
所以,该地健康成年男子第一秒肺通气量的95%参 考值范围为不低于3.05(L)。
正确地理解参考值范围:
没有绝对的正常和异常,正常中含有“异常”,
所以对正态分布或近似正态分布资料,只要求出 均数和标准差,便可就其频数分布作出概略估计了。
正态分布N (μ, σ2)下:
2.5%
95%
2.5%
2.5%
95%
2.5%
μ -1.96σ
μ +1.96σ
N (μ, σ2)
-1.96
+1.96
Z~N (0,1)
X= μ -1.96σ时,所对应的左侧累积概率是多少? X= μ +1.96σ时,所对应的右侧累积概率是多少? X在(μ -1.96σ ,μ +1.96σ )间对应概率是多少?
解析:
2.5%
95%
2.5%
-1.96
+1.96
Z~N (0,1)
故:求一般正态分布N(μ,σ2)曲线下的面积:
⑴ 先求 Z 值:
,
已知:
Z
x
, 未知: Z x x
s
当总体均数和总体标准差未知时,就用样本均数 和样本标准差来代替计算。
⑵ 根据 Z 值在表中查出相应的面积值
0 P2.5
如95%参考值范围:
双侧界值 P 2.5和P 97.5
单侧下限 P5
100 P97.5
单侧上限 P 95
⑵ 正态分布法:适用于正态或近似正态分布资料
根据研究目的和使用要求选定适当的百分界值,
最常用的是95%。
而后根据指标的实际用途确定单侧或双侧界值。
Z X1 -u
N (0,1 )
单侧临界值:标准正态分布单侧尾部面积等于α 时所对应 的正侧变量值,记作Zα 。
若按左单侧算,则是 97.5% 参考值范围
按左单侧算,是 95% 参考值范围
举例2: 某地调查120名健康成年男性的第一秒肺通 气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估 计其第一秒肺通气量的95%参考值范围。
µ-1.96σ
µ+1.96σ
N (μ, σ2 )
举例1 调查某地120名健康女性血红蛋白,直方图显示 其分布近似正态, X 117.4(g/L), S 10.2(g/L) 试估计该地健康女性血红蛋白的95%参考值范围。
解析:1. 分布近似正态
正态分布法求参考值范围
2. 过高过低均为异常 设定双侧界值
生的概率值。
.
j(Z)
1
Z e Z 2 / 2 dZ
2
图 6 正态分布(左)及标准正态曲线下(右)的累计面积
例3-1:设Z~N(0,1),试计算:
(1)Z 取值区间在(-∞ , - 1.96) 内的概率P ? (2)Z 取值区间在(+1.96 ,+ ∞ ) 内的概率P ? (3)Z 取值区间在(- 1.96 ,+1.96)内的概率P ?
⑵ 形状参数:σ
当μ固定不变时,σ越大,曲线越平阔;σ越小,曲 线越尖峭,σ 叫正态曲线N(μ, σ2)的形状参数。
f(X)
0.9
0.8
σ=1
0.7
0.6
0.5
0.4 0.3
σ=1.5
0.2 0.1
σ=2
0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
累积频率
0.004 3 0.042 8 0.158 3 0.367 3 0.623 4 0.835 9 0.935 8 0.985 7 0.997 9 1.000 0
频率密度 (频率/组距)
0.001 1 0.009 6 0.028 9 0.052 2 0.064 0 0.053 1 0.025 0 0.012 5 0.003 0 0.000 5
医学研究中许多正常人的生理、生化指标 的变量分布呈正态分布或近似正态分布。
体重频率密度
0.08
0.06
0.04
0.02
0.00 48- 56- 64- 72- 80体重(kg)
图5-1 体重频率密度图
由于频率的总和为1,所以该曲线下横轴上的面积为1 面积=频率
正态分布曲线:两个参数 μ和σ决定了x的概率分布,习
3 概率分布
教学内容:
变量
定量资料
集中趋势:算术均数、 中位数等
极差、 四分位数间距、方差、
离散趋势:标准差、变异系数
统计 描述
定性资料:频率型指标、强度型指标、比 统计表和统计图 概率分布:正态分布、二项分布、Possion分布
统计 推断
抽样分布—参数估计:点估计、区间估计
假设
定量资料
实验设计
差异性 定性资料
3. 当 x=μ时, f (x)取最大值,即 均数位于曲线的最高处。峰值为:
f () 1 2
4. x 取值从- ∞至+∞ ,相应的概率密度函数f (x) 对应的 曲线位于X轴的上方,与X轴永不相交,正态变量在 x=μ时,概率 f (x)取值最大,两边逐渐减少。
(5)正态分布曲线下面积的规律
X
图5-6 正态分布形态随参数σ变换示意图
1. 单峰、对称分布,对称轴 x=μ
2. 正态分布N (μ, σ2) 中的两个参数: μ : 位置参数,决定曲线在横轴上的位置;μ 增大曲线
沿横轴向右移, μ 减小曲线沿横轴向左移。
σ : 形状参数,σ越大数据越分散,曲线越“矮胖”,σ
越小数据越集中,曲线越“瘦高” 。
制定步骤:
首先要确定一批样本含量足够大的“正常人”
1. 所谓“正常人”不是指“健康人”,而是指排除 了对所研究的指标有影响的疾病和有关因素的特 定人群,必须是随机选择的。
2.样本含量足够大:100例以上
进行样本相关指标测量,整理数据,进行资料
分布类型的诊断。
以不同的方法计算参考值范围:
⑴ 百分位法:适用于任何分布类型资料,特别是偏 态分布资料以及一端或两端无确切数值的资料。
异常中含有“正常”;
不同实验环境、不同仪器检测的灵敏度和精确度
不完全一样;
某些指标有必要按性别、年龄或其它因素分别制
定参考值。
4. 正态分布是许多统计方法的理论基础
惯上用 N (μ, σ2)表示均数μ ,标准差σ的正态分布。
μ
f (X)
1
(( X )2 )
exp 2 2 , X
2
正态分布的密度函数,即正态曲线的函数表达式
⑴ 位置参数: μ
当σ固定不变时,μ越大,曲线沿横轴越向右移动;反 之, μ越小,则曲线沿横轴越向左移动,所以μ叫正态曲 线N(μ, σ2)的位置参数, 。
为了应用方便,常将正态概率函数中的 x 作如 下变量代换,令:
Z
x
Z称叫对应于观测值x的标准得分(standard score)。把Z代入概率密度函数 ,得标准正态分布 的概率密度函数:
j ( Z ) 1 e Z 2 / 2 , Z 2
相对于正态变量 x,Z 没有度量单位。根据 u 的不同取值,可绘出标准正态分布的图形。
解析:
7.21%
130cm N (123.02,4.792)
7.21%
1.46 N (0,1)
(2)身高在120~128者占该地8岁男孩总数的百分比;
解析:
58.65%
58.65%
120cm 128cm N (123.02,4.792)
-0.63
1.46
N (0,1)
(3)该地80%男孩的身高集中在哪个范围?
常用的正态分布、标准正态分布曲线下面积规律
正态分布
µ±1.64σ µ±1.96σ µ±2.58σ
标准正态分布
0±1.64 0±1.96 0±2.58
面积规律
90.00% 95.00% 99.00%
3.1.3 正态分布的应用
1. 概率计算:120 名 8 岁男孩身高均数 123.02 cm,
标准差为 4.79 cm,试估计: (1)身高在130以上者占该地8岁男孩总数的百分比; (2)身高在120~128者占该地8岁男孩总数的百分比; (3)该地80%男孩的身高集中在哪个范围?
连续型变量 离散型变量
3.1 正 态 分 布
3.1.1 正态分布概念和特征 3.1.2 标准正态分布 . 3.1.3 正态分布的应用 . 3.1.4 正态分布的判断 .
3.1.1 正态分布的概念和特征
举例:
某妇产科医生观察1402例临产母亲体重资料 (kg),试述其体重频数分布的特征。
76.0 60.0 64.0 68.0 68.0 66.5 68.0 70.5 71.5 70.0 57.0 68.0 65.5 58.0 63.0 65.0 71.5 74.0 56.5 64.0 60.0 64.5 68.0 65.0 68.0 65.0 63.0 62.0 61.0 66.0 70.0 68.0 68.0 65.0 58.0 70.0 68.0 74.3 73.0 60.0 67.0 71.0 … 59.5 62.0 76.5 61.0 75.0 56.0 73.0 69.0 53.5 65.0 60.0 69.0 65.0 66.0 72.0 55.0
解析:
10%
80%
10%
X1 N
(123.02,4.792) X2
10%
80%
Z1 N (0,1)
10% Z2
2. 确定医学参考值范围
参考值范围(reference range):指特定“正常”人群的解 剖、生理、生化指标及组织代谢含量等数据中大多数个 体取值所在的范围。
举例:制定成年健康女性血红蛋白的参考值范围
分组数
参数检验:t 检验、
方差分析等
非参数检验—秩和
检验 相关 两变量:简单线性相关、回归分析
回归 多变量:多重线性回归、logistic回归、
生存分析
实验设计:三要素、四原则、实验设计方案、样本含量估算
应了解具有普遍意义的、样本所在总体分布的情 况,随机变量的分布常见的有三种类型:
正态分布(normal distribution) 二项分布(binominal distribution) Poisson 分布( Poisson distribution)
-∞ aa b
F (x) 1
e dx x ( x )2 /( 2 2 )
2
1.正态曲线下累计频数的总和等于 1,则:
横轴上曲线下的面积(概率)就等于 或 1; 均数两侧的面积(概率)各占 50%。
3.1.2 标准正态分布
由μ, σ决定的正态分布曲线 N (μ, σ2)具有多样性..
近一条光滑的曲线。
0.08
0.06
体重频率密度
0.04
0.02
0.00 48- 56- 64- 72- 80体重(kg)
图5-1 体重频率密度图
图5-2 概率密度曲线示意图
正态分布( normal distribution):
是描述连续型随机变量最重要的分布,又 称高斯分布(Gauss distribution)。
表5-1 某医院1402例待分娩孕妇体重频数分布
①
②
③
④
⑤
体重组 段
48525660646872768084-88 合计
频数
6 54 162 293 359 298 140 70 17
3 1402
频率 (频数/总频数)
0.004 3 0.038 5 0.115 5 0.209 0 0.256 1 0.212 6 0.099 9 0.049 9 0.012 1 0.002 1 1.000 0
将一般正态分布曲线的 μ 的位置平移到原点, 再以标准差σ为横轴单位,这样就把原来个别的正态 分布转换为一般的标准正态分布 N(0,1),亦称为 Z分布。
任意正态分布曲线 X~N(μ,σ2)
标准正态分布曲线 X~N(0,1)
采用定积分的办法,对函数式 (1) 或 (2) 定积分,
算得从 -∞ 到 x 累计面积,从而推算出该区间事件发
3. 求上、下界值
下界: x 1.96s 117 .4 1.96 10.2 97.41(g / l)
上界: x 1.96s 117 .4 1.96 10.2 137 .39(g / l)
所以,该地健康女性血红蛋白的95%参考值范围是 (97.41,137.39)g/l。
体重频率密度
作图:以体重测量值为横轴,频率密度为纵轴作出 直方图,此图即称为频率密度图;纵轴表示的是每个 组段内单位长度所占有的频率。
0.08
0.06
0.04
0.02
0.00 48- 56- 64- 72- 80体重(kg)
图5-1 体重频率密度图
若将各直条顶端的中点顺次连接起来,得一条折线。 当样本量 n 越来越大时,组距越来越小,折线就越来越接
解析:1. 分布近似正态
正态分布法求参考值范围
2. 仅过低为异常 单侧下限
3. 求下界值
下界: X 1.64S 4.2 1.640.7 3.05L
所以,该地健康成年男子第一秒肺通气量的95%参 考值范围为不低于3.05(L)。
正确地理解参考值范围:
没有绝对的正常和异常,正常中含有“异常”,
所以对正态分布或近似正态分布资料,只要求出 均数和标准差,便可就其频数分布作出概略估计了。
正态分布N (μ, σ2)下:
2.5%
95%
2.5%
2.5%
95%
2.5%
μ -1.96σ
μ +1.96σ
N (μ, σ2)
-1.96
+1.96
Z~N (0,1)
X= μ -1.96σ时,所对应的左侧累积概率是多少? X= μ +1.96σ时,所对应的右侧累积概率是多少? X在(μ -1.96σ ,μ +1.96σ )间对应概率是多少?
解析:
2.5%
95%
2.5%
-1.96
+1.96
Z~N (0,1)
故:求一般正态分布N(μ,σ2)曲线下的面积:
⑴ 先求 Z 值:
,
已知:
Z
x
, 未知: Z x x
s
当总体均数和总体标准差未知时,就用样本均数 和样本标准差来代替计算。
⑵ 根据 Z 值在表中查出相应的面积值
0 P2.5
如95%参考值范围:
双侧界值 P 2.5和P 97.5
单侧下限 P5
100 P97.5
单侧上限 P 95
⑵ 正态分布法:适用于正态或近似正态分布资料
根据研究目的和使用要求选定适当的百分界值,
最常用的是95%。
而后根据指标的实际用途确定单侧或双侧界值。
Z X1 -u
N (0,1 )
单侧临界值:标准正态分布单侧尾部面积等于α 时所对应 的正侧变量值,记作Zα 。
若按左单侧算,则是 97.5% 参考值范围
按左单侧算,是 95% 参考值范围
举例2: 某地调查120名健康成年男性的第一秒肺通 气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估 计其第一秒肺通气量的95%参考值范围。
µ-1.96σ
µ+1.96σ
N (μ, σ2 )
举例1 调查某地120名健康女性血红蛋白,直方图显示 其分布近似正态, X 117.4(g/L), S 10.2(g/L) 试估计该地健康女性血红蛋白的95%参考值范围。
解析:1. 分布近似正态
正态分布法求参考值范围
2. 过高过低均为异常 设定双侧界值
生的概率值。
.
j(Z)
1
Z e Z 2 / 2 dZ
2
图 6 正态分布(左)及标准正态曲线下(右)的累计面积
例3-1:设Z~N(0,1),试计算:
(1)Z 取值区间在(-∞ , - 1.96) 内的概率P ? (2)Z 取值区间在(+1.96 ,+ ∞ ) 内的概率P ? (3)Z 取值区间在(- 1.96 ,+1.96)内的概率P ?