概率分布PPT课件
合集下载
概率论二维随机变量及其分布 ppt课件
二维随机变量的分布函数
F ( x , y ) P { X x , Y y } 就是随机点 (X,Y)落入区域
{t,s ( )|t x ,s y }
的概率(如图1).
由概率的加法法则,随机点(X,Y)落入矩形域
{ x 1 x x 2 ,y 1 y y 2 }
的概率
P { x 1 x x 2 ,y 1 y y 2 } F ( x 2 ,y 2 ) F ( x 2 ,y 1 )
F (x ,y)1 2 2arc 2 x t 2a anrc 3 y .ta
(2)由 (1)式得
P { 2 X , 0 Y 3 } F ( , 3 ) F ( , 0 ) F ( 2 , 3 ) F ( 2 , 0 ) 1/1.6
完 21
三、二维离散型随机变量及其概率分布
Pi1
i
Pi 2
Pij
i
27
联合概率分布表
对离散型随机变量而言,联合概率分布不仅比联合
分布函数更加直观,而且能够更加方便地确定(X,Y)
取值于任何区域 D上的概率. 设二维离散型随机变
量的概率分布为
P { X x i , Y y j } p i ( i j , j 1 , 2 , )
二维离散型随机变量及其概率分布
分布:
p i ( i 1 , 2 , )p , j( j 1 , 2 ).
p i P {X x i} p i,ji 1 ,2 , j
p j P { Y y j}p i,jj 1 ,2 ,25 i
二维离散型随机变量及其概率分布
分布: p i ( i 1 , 2 , )p , j( j 1 , 2 ).
F X ( x ) P { X x } P { X x , Y } F(x, )
概率论与数理统计连续型随机变量及其概率分布ppt课件
0 x
则t , dt d
1-(x)
x1
2
3
F(x) 1
(t )2
1 x e
2 2
dt
x
2
e 2 d
( x )
2
2
4. P{a X b} (b ) ( a )
P{X b} (b ) P{X a} 1 (a )
例6
设 X ~ N(1,4) , 求 P (0 X 1.6)
解:X 的密度函数为
f
x
1 10
e
x 10
0
x0 x0
令:B={ 等待时间为10-20分钟 }
则 PB P10 X 20
20
1
x
e 10 dx
10 10
x
e 10
20
e 1
e 2
0.2325
10
例5 假定一大型设备在任何长为 t 的时间内发生
故障的次数 N( t ) 服从参数为t 的Poisson分布,
P(2
X
4)
4
2
2
2
2
(0)
0.3
2
0.8
P( X 0) 0.2
解二 图解法
0.2 0.15
0.1 0.05
0.3 0.2
-2
2
4
6
由图 P( X 0) 0.2
例 3 原理
设 X ~ N ( , 2), 求 P(| X | 3 )
解 P(| X | 3 ) P( 3 X 3 )
应用场合:
若随机变量X在区间(a,b)内等可能的取值,则
X ~ U a,b
例3 秒表的最小刻度差为0.01秒. 若计时精度 是取最近的刻度值, 求使用该秒表计时产生的 随机误差X 的概率密度, 并计算误差的绝对值 不超过0.004秒的概率.
随机事件与概率随机变量与概率分布PPT教学课件
天气系统,如高压、冷锋等
⑵锋是影响天气的重要天气系统,
冷暖空气的交界面叫锋面。
向 东 南 移 动
大风 降温 降雨
向东北移动
升温 降雨
如何从锋的图例 上知道它是向哪 个方向移动呢?
三角形或半圆凸 所指的方向
过境前 过境时 过境后
冷锋
气温高,气压低
出现较大风 雨雪天气
气温下降,气压 上升,天气转好
问题的引伸
随机事件的数量化—随机变量 多个事件的概率描述—概率分布
随机变量及其概率分布
随机变量的分类
离散变量(疗效分级、受教育程度) 计数变量(如单位时间或空间内检出细菌的
数量、发生某事件的数量)
连续变量 如血压、血脂、血糖等
判断:白色的程度越浓,表明云层越厚, 这种云区下面下雨往往就越大。
问题:
古代劳动人民并没有现代科技手段, 他们是如何预知未来的天气形势呢?
燕子低飞要下雨
天气谚语
一场秋雨凉一阵 •东虹日头西虹雨1
暖锋 气温低气压高
多连续性降水
气温上升,气压 下降,天气转晴
常见天气系统
高压 低压 冷锋 暖锋 台风
探 1、请分析当天的天气形势,并说明理由。 究 2、预测北京、上海、广州未来24小时天气形势,并说明理由
活
动
1012.5
1017.5
1007.5
低
1017.5
高
1007.5 1002.5
低
* *
1017.5 1012.5
定小概率事件选择大概率事件
多个随机事件的关系
任一事件发生:和事件 几个事件同时发生:积事件 一事件发生则另一事件不发生:互斥 当只有两种事件时,互斥即对立
⑵锋是影响天气的重要天气系统,
冷暖空气的交界面叫锋面。
向 东 南 移 动
大风 降温 降雨
向东北移动
升温 降雨
如何从锋的图例 上知道它是向哪 个方向移动呢?
三角形或半圆凸 所指的方向
过境前 过境时 过境后
冷锋
气温高,气压低
出现较大风 雨雪天气
气温下降,气压 上升,天气转好
问题的引伸
随机事件的数量化—随机变量 多个事件的概率描述—概率分布
随机变量及其概率分布
随机变量的分类
离散变量(疗效分级、受教育程度) 计数变量(如单位时间或空间内检出细菌的
数量、发生某事件的数量)
连续变量 如血压、血脂、血糖等
判断:白色的程度越浓,表明云层越厚, 这种云区下面下雨往往就越大。
问题:
古代劳动人民并没有现代科技手段, 他们是如何预知未来的天气形势呢?
燕子低飞要下雨
天气谚语
一场秋雨凉一阵 •东虹日头西虹雨1
暖锋 气温低气压高
多连续性降水
气温上升,气压 下降,天气转晴
常见天气系统
高压 低压 冷锋 暖锋 台风
探 1、请分析当天的天气形势,并说明理由。 究 2、预测北京、上海、广州未来24小时天气形势,并说明理由
活
动
1012.5
1017.5
1007.5
低
1017.5
高
1007.5 1002.5
低
* *
1017.5 1012.5
定小概率事件选择大概率事件
多个随机事件的关系
任一事件发生:和事件 几个事件同时发生:积事件 一事件发生则另一事件不发生:互斥 当只有两种事件时,互斥即对立
概率与概率分布PPT课件
其概率分布见下表
0
1
P
0.05
0.95
一、案例 [投篮命中次数的概率分布] 某人投篮的命中率为0.7,现投篮20次,则投篮命中
的次数 是随机变量,可能取值为0,1,2,…,20,
其概率分布为
P( k) C2k0 (0.7)k (0.3)20k (k 1,2,,20)
二项分布
如果随机变量 取值为0,1,2,…,n,其概率
分布为
P( k) Cnk pk (1 p)nk (k 1,2,, n) 则称 服从参数为n,p的二项分布,记作
~B(n, p)
三、进一步练习 练习[摸球] 练习 [使用寿命] 按规定,某种型号电子元件的使用 寿命超过1500小时的为一级品.已知某大批产品的一 级品率为0.2,现从中随机地抽查10只,设10只元件
从有3件废品的一批产品中任取5件,观察出现废品 的件数.我们发现这个随机试验的所有可能结果可 以用0,1,2,3这4个数字来表示.
案例3 [抛硬币] 抛一枚硬币,结果只有“出现正面”和“出现反面” 两种情况,若用数0表示出现正面,数1表示出现反 面,那么,抛一枚硬币的结果也可以用0,1这2个数 字来表示.
二、 概念和公式的引出
伯努利试验
如果一次随机试验只出现两种结果,用随机变量 取0或1来表示,那么称 服从两点(或0-1)分布. 设 取0时的概率为p,则 的概率分布见下表
0
1
P
p
1 p
三、进一步练习
练习[产品抽样]
某厂生产的产品合格率为0.95,今抽取一件产品进行
检验,则抽出合格品的件数 服从两点分布.
一定顺序列出.如掷一枚骰子,可用
取值1,2,…,6来表示所有结果.
二、 概念和公式的引出
0
1
P
0.05
0.95
一、案例 [投篮命中次数的概率分布] 某人投篮的命中率为0.7,现投篮20次,则投篮命中
的次数 是随机变量,可能取值为0,1,2,…,20,
其概率分布为
P( k) C2k0 (0.7)k (0.3)20k (k 1,2,,20)
二项分布
如果随机变量 取值为0,1,2,…,n,其概率
分布为
P( k) Cnk pk (1 p)nk (k 1,2,, n) 则称 服从参数为n,p的二项分布,记作
~B(n, p)
三、进一步练习 练习[摸球] 练习 [使用寿命] 按规定,某种型号电子元件的使用 寿命超过1500小时的为一级品.已知某大批产品的一 级品率为0.2,现从中随机地抽查10只,设10只元件
从有3件废品的一批产品中任取5件,观察出现废品 的件数.我们发现这个随机试验的所有可能结果可 以用0,1,2,3这4个数字来表示.
案例3 [抛硬币] 抛一枚硬币,结果只有“出现正面”和“出现反面” 两种情况,若用数0表示出现正面,数1表示出现反 面,那么,抛一枚硬币的结果也可以用0,1这2个数 字来表示.
二、 概念和公式的引出
伯努利试验
如果一次随机试验只出现两种结果,用随机变量 取0或1来表示,那么称 服从两点(或0-1)分布. 设 取0时的概率为p,则 的概率分布见下表
0
1
P
p
1 p
三、进一步练习
练习[产品抽样]
某厂生产的产品合格率为0.95,今抽取一件产品进行
检验,则抽出合格品的件数 服从两点分布.
一定顺序列出.如掷一枚骰子,可用
取值1,2,…,6来表示所有结果.
二、 概念和公式的引出
连续型概率分布课件
1.4
0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5
0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6
0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
• 随机变量在从 x1到x2间的某一给定区间取值的概率被定 义为概率密度函数在 x1与x2间的图形的面积。
均匀连续型概率分布的期望值和方差
练习
• 已知随机变量x在10和20间服从均匀分布 – 计算P(x<15); – 计算P(12≤x≤18); – 计算E(x); – 计算Var(x)。
6 连续型概率分布
1.1
0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2
0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3
0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
横轴相交。
正态概率分布的性质
• 标准差决定曲线的宽度 • 正态概率分布曲线下的
总面积是 1,对所有的连 续型概率分布都是如此。 • 正态随机变量的概率由曲 线下面积给出。一些常用 区间的概率是68.26%, 95.44%,99.72%
概率论中三个重要分布 ppt课件
三个重要分布
χ2分布 t分布 F分布
PPT课件
1
χ2分布
PPT课件
2
χ2分布的定义
设X为正态分布总体的随机变量,其平均数及
方差分别为μ和σ2,即X~N(μ,σ2), 为X来自该
总体的n个样本值x1, x2, …, xn的样本平均数,则 样本统计量
n
(xi X )2
i 1
PPT课件
15
t分布的α分为点
对于给定的α(0<α<1),称满足条件
P{t t (n)}
的点tα(n)为t分布上的α分为点 由t分布概率密度函数的对称性有
t1 (n) t (n)
PPT课件
16
t分布α分为点的求法
t分布α分为点的求法:
对于n≤45的α分为点可查表求得; 当n充分大(n>45)时,近似地有
χ2分布的期望为:E(χ2(n))=n,方差为: D(χ2(n))=2n
χV2~分χ2布(n具2),有则可U加+性V~。χ若2(nU1~+χn22()n1),
PPT课件
6
χ2分布的α分为点
对于给定的α(0<α<1) ,称满足条件
P( 2 (n) 2 (n))
的点2 (n)为χ2(n)分布的α分为点
知时,以样本方差s2替代,则
X
s
t
~
t(n
1)
n
是自由度为n-1的t分配,记为t(n-1)
PPT课件
11
t分布的概率密度
t(n-1)的概率密度函数为
f (t)
Γ(n) 2
(1
t2
χ2分布 t分布 F分布
PPT课件
1
χ2分布
PPT课件
2
χ2分布的定义
设X为正态分布总体的随机变量,其平均数及
方差分别为μ和σ2,即X~N(μ,σ2), 为X来自该
总体的n个样本值x1, x2, …, xn的样本平均数,则 样本统计量
n
(xi X )2
i 1
PPT课件
15
t分布的α分为点
对于给定的α(0<α<1),称满足条件
P{t t (n)}
的点tα(n)为t分布上的α分为点 由t分布概率密度函数的对称性有
t1 (n) t (n)
PPT课件
16
t分布α分为点的求法
t分布α分为点的求法:
对于n≤45的α分为点可查表求得; 当n充分大(n>45)时,近似地有
χ2分布的期望为:E(χ2(n))=n,方差为: D(χ2(n))=2n
χV2~分χ2布(n具2),有则可U加+性V~。χ若2(nU1~+χn22()n1),
PPT课件
6
χ2分布的α分为点
对于给定的α(0<α<1) ,称满足条件
P( 2 (n) 2 (n))
的点2 (n)为χ2(n)分布的α分为点
知时,以样本方差s2替代,则
X
s
t
~
t(n
1)
n
是自由度为n-1的t分配,记为t(n-1)
PPT课件
11
t分布的概率密度
t(n-1)的概率密度函数为
f (t)
Γ(n) 2
(1
t2
条件概率分布.ppt
1. 统 计 平 均 math expectation
定义:
n
E[ X ] xi p(x xi ) i 1
E[ X ] xf (x)dx
(x)
离散变量 连续变量
性 质 : ① 线性性 E[a1X1 a2 X2 ] a1E[X1] a2E[X2 ]
② 单调性 若 X1 X2 , 则 E[X1] E[ X2 ]
ex1 : 已知 X 在 [ -1 , +1 ] 均匀分布 , 且 Y X 2 .
证明 Y 与 X 正交 , 且互不相关 .
证 : E[ X ] 1 1 0 2
Cov[ X ,Y ] E[( X E( X ))(Y E(Y ))]
E{X[Y E(Y )]} E[XY XE( y)]
(3) 联 合 矩 j + k 阶联合原点矩 :
mjk E[X1j X2k ]
j + k 阶联合中心矩 : jk E[(X1 1) j (X2 2)k ]
相 关 矩 : RX1X2 E[ X1X2 ] m11 二阶联合原点矩
协 方 差 : Cov[X1X2 ] E[(X1 1)(X2 2 )] 11
● 中心矩与原点矩的关系 :
x 2
k
k Ckr (m1)r mkr r0
● 方差不等式 : E[(X a)2] E[(X )2] Var[X ]
最小二 乘法
● 统计独立 :
n
n
Var[ Xi ] Var[ Xi ]
i 1
i 1
● 随机变量线性函数的方差 :
Var[aX b] Var[aX ]Var[b] a2 Var[X ]
f
(x,
y)
1
2
概率分布-说课稿公开课一等奖课件省赛课获奖课件
(2) P() 1(必然事件); P() 0 (不可能事件)
(3) o1,o2,,ok
P(o1) P(o2 ) P(ok ) 1 例如: 掷骰子
6
P(oi
i1
)
1 6
1 6
1 6
1 6
1 6
1 6
1
(4) 对立事件 P( A) 1 P( A)
A={1, 2} P( A) 2 / 6 1/ 3 P( A) 1 P( A) 2 / 3
n=10 个球, x1=绿色: P(x2 | x1=绿色) = ? (1)放回抽样
红黄 蓝
绿
44
1
1
4/10 4/10 1/10 1/10
(2) 不放回抽样
红黄 蓝 绿
44
1
0
4/9 4/9 1/9
0
3.2 随机变量(Random Variable X )
为了方便研究随机现象,能够把随机事件与一种 变量联系起来。用随机变量的不同取值来表达不 同的基本领件。
Distribution)
Antoine de Moivre (1733)
X 服从正态分布: X ~ N (, 2 )
• 密度函数
f (x)
1
( x )2
e 2 2
2 2
F(x)
P( X
x)
x
f
( x)dx
E(X )
Var( X ) 2
正态分布的性质
(1) 有关 X= 对称,钟形曲线(见第
n=10, p = 1/5, k = 5,6,7,8,9,10
二项分布的数学盼望值与方差
问题:手上有一枚均匀硬币,持续抛掷100次, 有多少次正面朝上?
概率及概率密度分布函数ppt课件
出现A1和单独P出A 现AP2A的i 概率。
i1
假设A为假设干个互不相容随机事件的“或
3.根本随机事件组中各事件的概率归一 . (概率的归一化条件 )
假设A1至An构成一随机根身手件组,亦即 包含了某随机景象一切能够独立出现的 全部根本随机事件n,那么A便是必然事件:
PA PAi 1
i1
[例1-2-2] 硬币的一面刻着国徽,另一面刻着币 值。抛掷一枚硬币,它落地时哪一面朝上是随 机的。我们可以事先商定,令刻着国徽的一面 朝上对应着随机变量X=1,而刻有币值的一面 朝上对应着随机变量X=0。这样,对于并不显 现为某某数量如何的随机事件,也照样能用随 机变量把它们标识出来。
[例1-2-3]气体分子处于不停的、无规那么的热 运动之中,任何单个分子所在的空间位置及运 动速度都在随机地瞬息万变。可以把单个分子 的速率取做随机变量,或者把它的速度分量取 做随机变量组,还可以把它的空间位置坐标取 做随机变量组。
计规律可循 .
伽尔顿板实验 :
如图,一个带有玻璃面板的大盒内用竖直隔板分成许多等宽 的小格,另有一斜放着的、底板面钉有许多小铁钉的木 槽,其开口处与大盒口的一边相接。常叫这种安装为伽 尔顿板。
令小球从钉板上方滚下,它要与板上铁钉进展 无规那么的碰撞,在下滚途中受力的复杂细节 是失去人为控制的,尤其在把不止一个小球乃 至大量小球同时或延续沿钉板撒下时,我们不 能够一一控制它们落下的初始形状,而且它们 除与铁钉碰撞还要彼此碰撞,更使得每个小球 的运动呈现随机形状。虽然各个小球的运动都 服从牛顿力学定律,但它们分开钉槽时的速度 无论在大小还是方向上都具有偶尔性,以致, 就单个小球来说,它滚下后终究会落在大木盒 中的哪一个格子里,是不能预知的。
4.乘法定理
i1
假设A为假设干个互不相容随机事件的“或
3.根本随机事件组中各事件的概率归一 . (概率的归一化条件 )
假设A1至An构成一随机根身手件组,亦即 包含了某随机景象一切能够独立出现的 全部根本随机事件n,那么A便是必然事件:
PA PAi 1
i1
[例1-2-2] 硬币的一面刻着国徽,另一面刻着币 值。抛掷一枚硬币,它落地时哪一面朝上是随 机的。我们可以事先商定,令刻着国徽的一面 朝上对应着随机变量X=1,而刻有币值的一面 朝上对应着随机变量X=0。这样,对于并不显 现为某某数量如何的随机事件,也照样能用随 机变量把它们标识出来。
[例1-2-3]气体分子处于不停的、无规那么的热 运动之中,任何单个分子所在的空间位置及运 动速度都在随机地瞬息万变。可以把单个分子 的速率取做随机变量,或者把它的速度分量取 做随机变量组,还可以把它的空间位置坐标取 做随机变量组。
计规律可循 .
伽尔顿板实验 :
如图,一个带有玻璃面板的大盒内用竖直隔板分成许多等宽 的小格,另有一斜放着的、底板面钉有许多小铁钉的木 槽,其开口处与大盒口的一边相接。常叫这种安装为伽 尔顿板。
令小球从钉板上方滚下,它要与板上铁钉进展 无规那么的碰撞,在下滚途中受力的复杂细节 是失去人为控制的,尤其在把不止一个小球乃 至大量小球同时或延续沿钉板撒下时,我们不 能够一一控制它们落下的初始形状,而且它们 除与铁钉碰撞还要彼此碰撞,更使得每个小球 的运动呈现随机形状。虽然各个小球的运动都 服从牛顿力学定律,但它们分开钉槽时的速度 无论在大小还是方向上都具有偶尔性,以致, 就单个小球来说,它滚下后终究会落在大木盒 中的哪一个格子里,是不能预知的。
4.乘法定理
概率论第四版课件3.4正态分布
D(X)=σ2
34
正态分布的数学期望与方差
定理3.5说明正态分布中的两个参数μ与σ分别是服从
正态分布的连续型随机变量的数学期望与标准差.因
而若已知数学期望与方差,则完全确定正态分布.
推论 如果连续型随机变量X服从标准正态分布,即
连续型随机变量X~N(0,1),则其数学期望E(X)=0,方
差D(X)=1
导数
Φ0'(x)=φ0(x)
说明函数Φ0(x)为φ0(x)的一个原函数
9
标准正态分布概率计算
➢由于连续型随机变量在任一区间上取值的概率等
于它的概率密度在该区间上的积分,因而概率
P{a<X<b}=P{a≤X<b}
=P{a<X≤b}=P{a≤X≤b}
b
=a φ0(x)dx
=Φ0(x)| ba
=Φ0(b)-Φ0(a)
43
例9
某批零件长度Xcm是一个连续型随机变量,它服从数
学期望为50cm、方差为0.5625cm2的正态分布,规定
长度在50±1.2cm之间的零件为合格品,从中随机抽
取1个零件,求这个零件为合格品的概率.(函数值
Φ0(1.6)=0.945 2)
解:由题意得到参数
μ=E(X)=50
σ= D(X)= 0.5625=0.75
Φ0(1.16)=0.877 0,则概率P{|X-μ|≤1.16σ}=
.
解:由于连续型随机变量X~N(μ,σ2),从而连续型随机
X−μ
变量Y=
~N(0,1)
σ
38
例6
根据标准正态分布概率的计算公式,并注意到参数
σ>0,因此概率
P{|X-μ|≤1.16σ}
34
正态分布的数学期望与方差
定理3.5说明正态分布中的两个参数μ与σ分别是服从
正态分布的连续型随机变量的数学期望与标准差.因
而若已知数学期望与方差,则完全确定正态分布.
推论 如果连续型随机变量X服从标准正态分布,即
连续型随机变量X~N(0,1),则其数学期望E(X)=0,方
差D(X)=1
导数
Φ0'(x)=φ0(x)
说明函数Φ0(x)为φ0(x)的一个原函数
9
标准正态分布概率计算
➢由于连续型随机变量在任一区间上取值的概率等
于它的概率密度在该区间上的积分,因而概率
P{a<X<b}=P{a≤X<b}
=P{a<X≤b}=P{a≤X≤b}
b
=a φ0(x)dx
=Φ0(x)| ba
=Φ0(b)-Φ0(a)
43
例9
某批零件长度Xcm是一个连续型随机变量,它服从数
学期望为50cm、方差为0.5625cm2的正态分布,规定
长度在50±1.2cm之间的零件为合格品,从中随机抽
取1个零件,求这个零件为合格品的概率.(函数值
Φ0(1.6)=0.945 2)
解:由题意得到参数
μ=E(X)=50
σ= D(X)= 0.5625=0.75
Φ0(1.16)=0.877 0,则概率P{|X-μ|≤1.16σ}=
.
解:由于连续型随机变量X~N(μ,σ2),从而连续型随机
X−μ
变量Y=
~N(0,1)
σ
38
例6
根据标准正态分布概率的计算公式,并注意到参数
σ>0,因此概率
P{|X-μ|≤1.16σ}
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率分布
The subject of probability theory is the foundation upon which all of statistics is built.
频数分布与概率分布Probability Distribution
各种各样的概率分布
正态分布Normal Distribution(高斯分 布Gaussian distribution)
0.5 0.4 1.60E-01 1.40E-01 1.20E-01 1.00E-01 8.00E-02 6.00E-02 4.00E-02 2.00E-02 0.00E+00
0 10Biblioteka 30.2 0.1 0 2 3 4 5 6 7 8 9
0
2
4
6
8
10 12 14 16 18
10人中B型血人数的概率分布图
观测频数分布与理论频数分布
血清白蛋白(g/l) 观测频数 理论频数 <20 20222426283032343638404244460 2 6 7 9 21 20 28 39 28 22 12 11 4 3 1.4 2.1 4.4 8.0 13.1 19.1 24.7 28.5 29.2 26.7 21.8 15.8 10.2 5.9 3.0 血清白蛋白(g/l) 观测频数 理论频数 48505254561 1 1 0 1 1.4 0.6 0.2 0.1 0.0
数据转换data transformation
图示法检视数据正态性
35 6
n 1000
可能值、取值范围、逻辑、局外值outliers、 缺损值:为什么缺损?
分析前的数据准备(2)
数据的正态性检视
图示法—正态曲线normal plot 偏度skewness峰度kurtosis判断 正态性检验Shapiro-Wilk W test 正态性转换transforming to normality Logit转换
100人中B型血人数的概率分布图
N! NX X Pr(X ) 1 n n 1 X ! N X !
散发病例的概率分布—Poisson分布
3.00E-01 2.50E-01 2.00E-01 1.50E-01 1.00E-01
2.2
e y P r(y ) y!
Mean=2.2
5.00E-02
0.00E+00
0 1 2 3 4 5 6 7 8 9 10
分析前的数据准备(1)
目的:获得尽可能正确的数据
数据出错机制:系统、测量、转载、录入等
数据编码 数据核查data checking/data cleaning
正态分布的应用
范围 范围之内的 概率 范围之外的 概率
mean1SD
0.683
0.317
mean2SD
mean3SD
0.954
0.9975
0.046
0.0027
应用例
一个原发性胆石症患者的血清白蛋白水平高于42g/l 的概率是多少?(假设原发性胆石症患者的血清 白蛋白服从均数34.46g/l,标准差5.84g/l的正态分 布) 42 34 .46 1.29 5.84 从正态分布表可知大于1.29的概率为0.0985,所以 一个原发性胆石症患者的血清白蛋白水平高于 42g/l的概率大约为10%
抽样变异Sampling Variation
对数正态分布Lognormal distribution
Mean=3.547 SD=1.03 1.528 5.566 exp(1.528)=4.61 exp(5.566)=261.4 exp(3.547)=34.7
二项分布Binomial distribution
2名癌症患者3个月后尚存人数X的概率分布
结果 1 2 3 4 病人1 死亡 死亡 生存 生存 病人2 死亡 生存 死亡 生存 X 0 1 1 2 概率 0.25 0.25 0.25 0.25
2人中B型血人数的概率分布
O: 0.46; A: 0.43; B:0.08; AB: 0.03 B: 0.08; 非B: 0.92
利用正态分布 一个例子 抽样变异
对数正态分布 二项分布 泊松分布 均匀分布
正态分布与正态曲线
f x
1 2
2
exp x 2 2 , x
2
标准正态分布/曲线
Standard Normal Distribution
0 2 1
结果
2人均为B 第一个人B第二个人非B 第一个人非B第二个人B
B型血的人数
2 1 1
概率
0.0064 0.0736 0.0736
2人都不是B
合计
0
0.8464
1.0000
2人中B型血人数的概率分布(图)
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
0
1
2
N人中B型血人数X的概率分布图
应用例(续)
中心范围Central Range
CSD
1.645SD 1.96SD 2.576SD
中心范围
90% 95% 99%
血清白蛋白范围
24.85 – 44.07 23.01 – 45.91 19.39 – 49.53
任意范围的频数(26g/l到28g/l之间的人数) 26 34.46 28 34.46 1.45 1.11 5.84 5.84 0.1335 0.0735 0.06 216 0.06 13
The subject of probability theory is the foundation upon which all of statistics is built.
频数分布与概率分布Probability Distribution
各种各样的概率分布
正态分布Normal Distribution(高斯分 布Gaussian distribution)
0.5 0.4 1.60E-01 1.40E-01 1.20E-01 1.00E-01 8.00E-02 6.00E-02 4.00E-02 2.00E-02 0.00E+00
0 10Biblioteka 30.2 0.1 0 2 3 4 5 6 7 8 9
0
2
4
6
8
10 12 14 16 18
10人中B型血人数的概率分布图
观测频数分布与理论频数分布
血清白蛋白(g/l) 观测频数 理论频数 <20 20222426283032343638404244460 2 6 7 9 21 20 28 39 28 22 12 11 4 3 1.4 2.1 4.4 8.0 13.1 19.1 24.7 28.5 29.2 26.7 21.8 15.8 10.2 5.9 3.0 血清白蛋白(g/l) 观测频数 理论频数 48505254561 1 1 0 1 1.4 0.6 0.2 0.1 0.0
数据转换data transformation
图示法检视数据正态性
35 6
n 1000
可能值、取值范围、逻辑、局外值outliers、 缺损值:为什么缺损?
分析前的数据准备(2)
数据的正态性检视
图示法—正态曲线normal plot 偏度skewness峰度kurtosis判断 正态性检验Shapiro-Wilk W test 正态性转换transforming to normality Logit转换
100人中B型血人数的概率分布图
N! NX X Pr(X ) 1 n n 1 X ! N X !
散发病例的概率分布—Poisson分布
3.00E-01 2.50E-01 2.00E-01 1.50E-01 1.00E-01
2.2
e y P r(y ) y!
Mean=2.2
5.00E-02
0.00E+00
0 1 2 3 4 5 6 7 8 9 10
分析前的数据准备(1)
目的:获得尽可能正确的数据
数据出错机制:系统、测量、转载、录入等
数据编码 数据核查data checking/data cleaning
正态分布的应用
范围 范围之内的 概率 范围之外的 概率
mean1SD
0.683
0.317
mean2SD
mean3SD
0.954
0.9975
0.046
0.0027
应用例
一个原发性胆石症患者的血清白蛋白水平高于42g/l 的概率是多少?(假设原发性胆石症患者的血清 白蛋白服从均数34.46g/l,标准差5.84g/l的正态分 布) 42 34 .46 1.29 5.84 从正态分布表可知大于1.29的概率为0.0985,所以 一个原发性胆石症患者的血清白蛋白水平高于 42g/l的概率大约为10%
抽样变异Sampling Variation
对数正态分布Lognormal distribution
Mean=3.547 SD=1.03 1.528 5.566 exp(1.528)=4.61 exp(5.566)=261.4 exp(3.547)=34.7
二项分布Binomial distribution
2名癌症患者3个月后尚存人数X的概率分布
结果 1 2 3 4 病人1 死亡 死亡 生存 生存 病人2 死亡 生存 死亡 生存 X 0 1 1 2 概率 0.25 0.25 0.25 0.25
2人中B型血人数的概率分布
O: 0.46; A: 0.43; B:0.08; AB: 0.03 B: 0.08; 非B: 0.92
利用正态分布 一个例子 抽样变异
对数正态分布 二项分布 泊松分布 均匀分布
正态分布与正态曲线
f x
1 2
2
exp x 2 2 , x
2
标准正态分布/曲线
Standard Normal Distribution
0 2 1
结果
2人均为B 第一个人B第二个人非B 第一个人非B第二个人B
B型血的人数
2 1 1
概率
0.0064 0.0736 0.0736
2人都不是B
合计
0
0.8464
1.0000
2人中B型血人数的概率分布(图)
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
0
1
2
N人中B型血人数X的概率分布图
应用例(续)
中心范围Central Range
CSD
1.645SD 1.96SD 2.576SD
中心范围
90% 95% 99%
血清白蛋白范围
24.85 – 44.07 23.01 – 45.91 19.39 – 49.53
任意范围的频数(26g/l到28g/l之间的人数) 26 34.46 28 34.46 1.45 1.11 5.84 5.84 0.1335 0.0735 0.06 216 0.06 13