第四章 生物信息学常用概率统计方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
若u=-1.96,那么Ф(-1.96)则表示从-∞移到-1.96所对 应区域的面积,通过查标准正态分布曲线面积分布表 得到Ф(-1.96)=0.025
双尾概率u
单尾概率u/2
① X 轴与正态曲线所夹面积恒等于 1 或 100%; ② 区间 的面积为 68.27%; ③ 区间 1.96 的面积为 95.00%; ④ 区间 2.58 的面积为 99.00%。
160.5
身高(cm)
某地13岁女孩118人身高(cm)频数分布图
正态分布:
通俗地讲: 如果把变量资料编制频数表后绘制 频数分布图(又称直方图,它用矩形面积表示 数值变量资料的频数分布,每条直条的宽表示 组距,直条的面积表示频数(或频率)大小, 直条与直条之间不留空隙),若频数分布呈现 中间为最多,左右两侧基本对称,越靠近中间 频数越多,离中间越远,频数越少,形成一个 中间频数多,两侧频数逐渐减少且基本对称的 分布,那我们一般认为该数值变量服从或近似 服从数学上的正态分布。
U
X
标准正态分布曲线特征
标准正态分布曲线下对称于0的区间,面积相等,各占 50%,即左右各为0.5 标准正态分布曲线的纵坐标与面积关系图
纵坐标从-∞移到u所对应区域的面积为上图红色区域 面积的大小,该区域面积用Ф(u)表示,可通过查标准 正态分布曲线面积分布表得到Ф(u)大小 u值查表所对应的面积是区间(-∞,u)所对应的面积,即 Ф(u)
正态分布的数理统计学概念
如果随机变量(X)的概率密度函数为:
1 f x e 2
x 2
2 2
-∞<x<+∞
则该随机变量服从正态分布。 式中σ 为总体标准差;μ 为总体均数; π =3.14159· · · ;
e=2.71828· · · 。
正态分布曲线特性
a
频数分布:用来统计每个变量值所处的区域,从而将资料 进行收集整理
频数分布直方图
30
20
从频数表及频数分布图上 可得知:该数值变量资料 频数分布呈现中间频数多, 左右两侧基本对称的分布。 所以我们通俗地认为该资 料服从正态分布。
频数
10 0 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5
N(μ,0.52)、N(μ,12)、N(μ,22)
正态曲线下面积分布规律
对于服从正态分布的随机变量X,随机变量值出现在某一 区间(x1,x2)的概率与正态分布概率密度曲线与横轴在该 区间所围成的区域的面积大小相对应(相等) 正态分布概率密度曲线与横轴围成的区域的总面积等于1 正态分布概率密度曲线下横轴上一定区间的面积可用数学 知识求出 实际应用中,由于所有正态分布都可通过变量变换为标准 正态分布,为省去积分计算不同正态分布曲线下横轴上一 定区间面积的繁琐过程,专门编制了标准正态分布曲线下 横轴上一定区间面积分布表,可求正态分布曲线下一定区 间面积
其中0< p <1, 则称X服从参数为 n, p 的二项分布(也称 Bernoulli 分布),记为X~B( n, p)
泊松分布(Poisson distribution)
若随机变量 X 的分布律为:
P( X k )
k
k!
e , k 0,1,2...
其中 >0, 则称X服从参数为的泊松分布,记为X~ P()
在σ不变的情况下,函数曲线形状不变,若μ变大时, 曲线位置向右移;若变小时,曲线位置向左移,故称 μ为位置参数 在μ不变的情况下,函数曲线位置不变,若σ变大时, 曲线形状变的越来越“胖”和“矮”;若σ变小时, 曲线形状变的越来越“瘦”和“高”,故称σ为形态 参数或变异度参数
N(μ1 ,σ2)、N(μ2 ,σ2)
„
„
„
„
随机变量的分类
离散型变量(discrete variable),相当于计数资 料,变量的所有取值是有限个,如性别、年龄、 血型等 连续性变量( continuous variable),相当于计 量资料,变量的取值有无穷多个,如身高、体 重、血压、体温等 有序变量( ordinal variable),相当于等级资料, 如尿糖等级( +、++、+++、++++)、脉搏等 级(速脉、正常、缓脉)等
抽样分布(sampling distribution):从同一个 总体中随机抽出容量相同的各种样本,从 这些样本计算出的某统计量所有可能值的 概率分布,称为这个统计量的抽样分布
抽样分布是从n次样本抽样得出的某个统计量的 概率分布 ,目的是为了消除抽样中的随机误差 抽样分布属于概率分布的范畴,常见的描述抽 样分布的参数有:均值、方差、标准差、置信 区间等
连续型随机变量的概率分布
连续型随机变量的取值为一个范围,当变量在 该范围内取值时,概率是固定的,而当变量取 某一个具体固定值则是无意义的,因为在连续 尺度上,某一点的概率=0 对这种类型的随机变量不能象离散型的那样用 分布律描述,而是用概率密度描述
连续型随机变量概率密度的定义及性质
定义:设X是一个随机变量,其分布函数为F(x).若存 在非负函数 f(x) , 使对任意实数x,有
若某一随机变量的概率密度函数(频率曲线方 程)为上式,则称该变量X服从参数为μ和σ的 正态分布,记为:X~N(μ,σ2),其中μ为位 置参数,σ为形状参数 曲线位于横轴上方,呈钟形,以均数所在处最 高,且以均数为中心左右对称
max
f(x)
0
µ
正态分布曲线由两个参数决定,即总体均数μ和 总体标准差σ
f1 X 1 fX 2 fX 3 f k X k fX i X f1 f 2 f 3 f k f i
Σ为求和符号,读成sigma 适用条件:资料呈正态或近似正态
源自文库
频率 frequency
样本的实际发生率称为频率。设在相同条件下,
独立重复进行n次试验,事件A出现f 次,则事
件A出现的频率为f / n
频率与概率间的关系:
样本频率总是围绕概率上下波动 样本含量n越大,波动幅度越小,频率越接近概率
概率计算的基本法则
加法法则
乘法法则
互补原则 完全事件系的概率
总体与抽样分布
总体(population):根据研究目的确定的同质研 究对象的全体(集合)
总体分为有限总体与无限总体
样本(sample) :从总体中随机抽取的部分观察 单位
随机抽样 (sampling):为了 保证样本的可靠性 和代表性,需要采 用随机的抽样方法 (在总体中每个个 体具有相同的机会 被抽到)。
则称X为连续型随机变量,f(x)称为X的概率密度函数, 简称概率密度
F ( x) f (t )dt
x
概率密度f(x)的性质
f ( x ) 0 f ( x )dx 1
连续型随机变量X的值落入区间 [ a , b ]内的概率 为 P(a X b) F (b) F (a) b f ( x)dx
随机变量概率分布(probability distribution)
事件概率表示了一次试验中某个结果发生可能 性的大小 要想全面了解试验中某种变量的变化趋势,必 须知道该变量在试验中全部可能的结果以及各 种可能结果发生的概率—随机变量的概率分布 概率分布通常用表格、图形、函数来表示 根据随机变量的不同,可分为离散变量的概率 分布与连续变量的概率分布
概率统计学基础
确定性现象:在一定条件下,一定会发生或一定 不会发生的现象。其表现结果为两种事件:肯定 发生某种结果的叫必然事件;肯定不发生某种结 果的叫不可能事件。 随机现象:在同样条件下可能会出现两种或多种 结果,究竟会发生哪种结果,事先不能确定。其 表现结果称为随机事件。 随机事件的特征:①随 机性;②规律性:每次发生的可能性的大小是确 定的。 概率(probability):随机事件发生的可能性大小, 用大写的P 表示;取值[0,1]。
标准正态分布
若某一随机变量X,其总体均数μ=0,总体标准 差σ=1,即X~N(0,1),则称变量X服从标准正 态分布。习惯把服从标准正态分布的变量用字 母U或Z表示,此时,我们把 U 或 Z 称为标准 正态变量
标准正态分布是正态分布中的一个典型分布,数 理统计上证明:对一服从正态分布的随机变量 (X),若进行特定的变量变换,可将任何一服 从正态分布的随机变量(X)转变成服从标准正 态分布的随机变量(U或Z),这种变量变换过 程称为变量的标准化,也称为U或Z变换
小概率事件
必然事件 不可能事件 随机事件
P= 1 P=0
0<P<1
将P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小 概率事件(习惯),统计学上认为不大可能发生
随机变量及其分布
随机变量(random variable)
简称变量(variable),统计上习惯用大写拉 丁字母表示 ,如X、Y 、Z、„ 变量值习惯用小写拉丁字母表示 ,如性别x1= 1(男)、x2 =1(男)、x3 =0(女) 、„
平均数(average)反映了资料的集中趋势 ( central tendency )
算术均数(arithmetic mean),简称均数 (mean) 几何均数(geometric mean) 中位数 (median) 众数(mode)
均数(mean) X 1 X 2 X n X X n n
在随机抽样过程中,不可避免会产生一定的随机 误差(random error):排除系统误差后尚存的误 差,受多种无法控制的因素的影响
特点:大小方向不一的随机变化 随机测量误差(random measurement error) ——提 高操作者熟练程度可以减少这种误差 随机抽样误差( random sampling error):由抽样造 成的样本统计量和总体参数间的差异——不可避免, 但有一定的分布规律,可估计
PX xk pk
X
x1, x2, …
xk, …
p1 , p2 ,…
pK …
随机变量X的概率分布全面表达了X的所有可能取值 以及取各个值的概率情况 1) pk 0 k 1, 2, 性质
2)
p
k 1
k
1
分布律确定概率
例
设X的分布律为
X
P
-1
1/3
1
1/2
2
1/6
求 P(0<X≤2) 解 P(0<X≤2)=P(X=1)+P(X=2) =1/2+1/6=2/3
第四章
生物信息学常用概率统 计方法简介
统计生物信息学解决问题步骤
在掌握基本资料分布的基础上,提出检验假设
将数据资料进行合理的分类和整理,建立数据文
件
借助于相关统计软件,根据研究者的实验设计和 研究目的,对数据文件中的数据进行统计分析 (可能需要建立统计模型) 对统计结果做出合理的解释
最最关键!
离散随机变量的概率分布
设离散型随机变量 X 的所有可能取值是 x1, x2 ,, xn , , 而取值 xk 的概率为 pk
即
PX xk pk
称此式为X的分布律(列)或概率分布
(Probability distribution)
离散随机变量分布律的表示方法
公式法 表格法
随机变量特征
是一个变量 取值随试验结果而改变
本例中,性别、体重、 疗效分别为三个随机变 编号 性别 体重 疗效 量,分别用X, Y, Z表示 (ID) (X) (kg) (Y) (Z) 其中,性别变量有若 1 66 0 张1 干取值:x1=1, x2=1; 1 78 1 李2 体重变量也有若干取值: 0 57 2 王3 y1=66, y2=78;
几种常见的离散型分布
二项分布(Binomial distribution) △定义:在n重贝努利试验中,若以X表示事件A发生的
次数, 则X可能的取值为0,1,2,3,…,n 若随机变量X的分布律满足:
k P{ X k} Cn p k (1 p)nk
k 0,1, 2..., n;
双尾概率u
单尾概率u/2
① X 轴与正态曲线所夹面积恒等于 1 或 100%; ② 区间 的面积为 68.27%; ③ 区间 1.96 的面积为 95.00%; ④ 区间 2.58 的面积为 99.00%。
160.5
身高(cm)
某地13岁女孩118人身高(cm)频数分布图
正态分布:
通俗地讲: 如果把变量资料编制频数表后绘制 频数分布图(又称直方图,它用矩形面积表示 数值变量资料的频数分布,每条直条的宽表示 组距,直条的面积表示频数(或频率)大小, 直条与直条之间不留空隙),若频数分布呈现 中间为最多,左右两侧基本对称,越靠近中间 频数越多,离中间越远,频数越少,形成一个 中间频数多,两侧频数逐渐减少且基本对称的 分布,那我们一般认为该数值变量服从或近似 服从数学上的正态分布。
U
X
标准正态分布曲线特征
标准正态分布曲线下对称于0的区间,面积相等,各占 50%,即左右各为0.5 标准正态分布曲线的纵坐标与面积关系图
纵坐标从-∞移到u所对应区域的面积为上图红色区域 面积的大小,该区域面积用Ф(u)表示,可通过查标准 正态分布曲线面积分布表得到Ф(u)大小 u值查表所对应的面积是区间(-∞,u)所对应的面积,即 Ф(u)
正态分布的数理统计学概念
如果随机变量(X)的概率密度函数为:
1 f x e 2
x 2
2 2
-∞<x<+∞
则该随机变量服从正态分布。 式中σ 为总体标准差;μ 为总体均数; π =3.14159· · · ;
e=2.71828· · · 。
正态分布曲线特性
a
频数分布:用来统计每个变量值所处的区域,从而将资料 进行收集整理
频数分布直方图
30
20
从频数表及频数分布图上 可得知:该数值变量资料 频数分布呈现中间频数多, 左右两侧基本对称的分布。 所以我们通俗地认为该资 料服从正态分布。
频数
10 0 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5
N(μ,0.52)、N(μ,12)、N(μ,22)
正态曲线下面积分布规律
对于服从正态分布的随机变量X,随机变量值出现在某一 区间(x1,x2)的概率与正态分布概率密度曲线与横轴在该 区间所围成的区域的面积大小相对应(相等) 正态分布概率密度曲线与横轴围成的区域的总面积等于1 正态分布概率密度曲线下横轴上一定区间的面积可用数学 知识求出 实际应用中,由于所有正态分布都可通过变量变换为标准 正态分布,为省去积分计算不同正态分布曲线下横轴上一 定区间面积的繁琐过程,专门编制了标准正态分布曲线下 横轴上一定区间面积分布表,可求正态分布曲线下一定区 间面积
其中0< p <1, 则称X服从参数为 n, p 的二项分布(也称 Bernoulli 分布),记为X~B( n, p)
泊松分布(Poisson distribution)
若随机变量 X 的分布律为:
P( X k )
k
k!
e , k 0,1,2...
其中 >0, 则称X服从参数为的泊松分布,记为X~ P()
在σ不变的情况下,函数曲线形状不变,若μ变大时, 曲线位置向右移;若变小时,曲线位置向左移,故称 μ为位置参数 在μ不变的情况下,函数曲线位置不变,若σ变大时, 曲线形状变的越来越“胖”和“矮”;若σ变小时, 曲线形状变的越来越“瘦”和“高”,故称σ为形态 参数或变异度参数
N(μ1 ,σ2)、N(μ2 ,σ2)
„
„
„
„
随机变量的分类
离散型变量(discrete variable),相当于计数资 料,变量的所有取值是有限个,如性别、年龄、 血型等 连续性变量( continuous variable),相当于计 量资料,变量的取值有无穷多个,如身高、体 重、血压、体温等 有序变量( ordinal variable),相当于等级资料, 如尿糖等级( +、++、+++、++++)、脉搏等 级(速脉、正常、缓脉)等
抽样分布(sampling distribution):从同一个 总体中随机抽出容量相同的各种样本,从 这些样本计算出的某统计量所有可能值的 概率分布,称为这个统计量的抽样分布
抽样分布是从n次样本抽样得出的某个统计量的 概率分布 ,目的是为了消除抽样中的随机误差 抽样分布属于概率分布的范畴,常见的描述抽 样分布的参数有:均值、方差、标准差、置信 区间等
连续型随机变量的概率分布
连续型随机变量的取值为一个范围,当变量在 该范围内取值时,概率是固定的,而当变量取 某一个具体固定值则是无意义的,因为在连续 尺度上,某一点的概率=0 对这种类型的随机变量不能象离散型的那样用 分布律描述,而是用概率密度描述
连续型随机变量概率密度的定义及性质
定义:设X是一个随机变量,其分布函数为F(x).若存 在非负函数 f(x) , 使对任意实数x,有
若某一随机变量的概率密度函数(频率曲线方 程)为上式,则称该变量X服从参数为μ和σ的 正态分布,记为:X~N(μ,σ2),其中μ为位 置参数,σ为形状参数 曲线位于横轴上方,呈钟形,以均数所在处最 高,且以均数为中心左右对称
max
f(x)
0
µ
正态分布曲线由两个参数决定,即总体均数μ和 总体标准差σ
f1 X 1 fX 2 fX 3 f k X k fX i X f1 f 2 f 3 f k f i
Σ为求和符号,读成sigma 适用条件:资料呈正态或近似正态
源自文库
频率 frequency
样本的实际发生率称为频率。设在相同条件下,
独立重复进行n次试验,事件A出现f 次,则事
件A出现的频率为f / n
频率与概率间的关系:
样本频率总是围绕概率上下波动 样本含量n越大,波动幅度越小,频率越接近概率
概率计算的基本法则
加法法则
乘法法则
互补原则 完全事件系的概率
总体与抽样分布
总体(population):根据研究目的确定的同质研 究对象的全体(集合)
总体分为有限总体与无限总体
样本(sample) :从总体中随机抽取的部分观察 单位
随机抽样 (sampling):为了 保证样本的可靠性 和代表性,需要采 用随机的抽样方法 (在总体中每个个 体具有相同的机会 被抽到)。
则称X为连续型随机变量,f(x)称为X的概率密度函数, 简称概率密度
F ( x) f (t )dt
x
概率密度f(x)的性质
f ( x ) 0 f ( x )dx 1
连续型随机变量X的值落入区间 [ a , b ]内的概率 为 P(a X b) F (b) F (a) b f ( x)dx
随机变量概率分布(probability distribution)
事件概率表示了一次试验中某个结果发生可能 性的大小 要想全面了解试验中某种变量的变化趋势,必 须知道该变量在试验中全部可能的结果以及各 种可能结果发生的概率—随机变量的概率分布 概率分布通常用表格、图形、函数来表示 根据随机变量的不同,可分为离散变量的概率 分布与连续变量的概率分布
概率统计学基础
确定性现象:在一定条件下,一定会发生或一定 不会发生的现象。其表现结果为两种事件:肯定 发生某种结果的叫必然事件;肯定不发生某种结 果的叫不可能事件。 随机现象:在同样条件下可能会出现两种或多种 结果,究竟会发生哪种结果,事先不能确定。其 表现结果称为随机事件。 随机事件的特征:①随 机性;②规律性:每次发生的可能性的大小是确 定的。 概率(probability):随机事件发生的可能性大小, 用大写的P 表示;取值[0,1]。
标准正态分布
若某一随机变量X,其总体均数μ=0,总体标准 差σ=1,即X~N(0,1),则称变量X服从标准正 态分布。习惯把服从标准正态分布的变量用字 母U或Z表示,此时,我们把 U 或 Z 称为标准 正态变量
标准正态分布是正态分布中的一个典型分布,数 理统计上证明:对一服从正态分布的随机变量 (X),若进行特定的变量变换,可将任何一服 从正态分布的随机变量(X)转变成服从标准正 态分布的随机变量(U或Z),这种变量变换过 程称为变量的标准化,也称为U或Z变换
小概率事件
必然事件 不可能事件 随机事件
P= 1 P=0
0<P<1
将P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小 概率事件(习惯),统计学上认为不大可能发生
随机变量及其分布
随机变量(random variable)
简称变量(variable),统计上习惯用大写拉 丁字母表示 ,如X、Y 、Z、„ 变量值习惯用小写拉丁字母表示 ,如性别x1= 1(男)、x2 =1(男)、x3 =0(女) 、„
平均数(average)反映了资料的集中趋势 ( central tendency )
算术均数(arithmetic mean),简称均数 (mean) 几何均数(geometric mean) 中位数 (median) 众数(mode)
均数(mean) X 1 X 2 X n X X n n
在随机抽样过程中,不可避免会产生一定的随机 误差(random error):排除系统误差后尚存的误 差,受多种无法控制的因素的影响
特点:大小方向不一的随机变化 随机测量误差(random measurement error) ——提 高操作者熟练程度可以减少这种误差 随机抽样误差( random sampling error):由抽样造 成的样本统计量和总体参数间的差异——不可避免, 但有一定的分布规律,可估计
PX xk pk
X
x1, x2, …
xk, …
p1 , p2 ,…
pK …
随机变量X的概率分布全面表达了X的所有可能取值 以及取各个值的概率情况 1) pk 0 k 1, 2, 性质
2)
p
k 1
k
1
分布律确定概率
例
设X的分布律为
X
P
-1
1/3
1
1/2
2
1/6
求 P(0<X≤2) 解 P(0<X≤2)=P(X=1)+P(X=2) =1/2+1/6=2/3
第四章
生物信息学常用概率统 计方法简介
统计生物信息学解决问题步骤
在掌握基本资料分布的基础上,提出检验假设
将数据资料进行合理的分类和整理,建立数据文
件
借助于相关统计软件,根据研究者的实验设计和 研究目的,对数据文件中的数据进行统计分析 (可能需要建立统计模型) 对统计结果做出合理的解释
最最关键!
离散随机变量的概率分布
设离散型随机变量 X 的所有可能取值是 x1, x2 ,, xn , , 而取值 xk 的概率为 pk
即
PX xk pk
称此式为X的分布律(列)或概率分布
(Probability distribution)
离散随机变量分布律的表示方法
公式法 表格法
随机变量特征
是一个变量 取值随试验结果而改变
本例中,性别、体重、 疗效分别为三个随机变 编号 性别 体重 疗效 量,分别用X, Y, Z表示 (ID) (X) (kg) (Y) (Z) 其中,性别变量有若 1 66 0 张1 干取值:x1=1, x2=1; 1 78 1 李2 体重变量也有若干取值: 0 57 2 王3 y1=66, y2=78;
几种常见的离散型分布
二项分布(Binomial distribution) △定义:在n重贝努利试验中,若以X表示事件A发生的
次数, 则X可能的取值为0,1,2,3,…,n 若随机变量X的分布律满足:
k P{ X k} Cn p k (1 p)nk
k 0,1, 2..., n;