第四章 生物信息学常用概率统计方法分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
几种常见的离散型分布
二项分布(Binomial distribution) △定义:在n重贝努利试验中,若以X表示事件A发生的
次数, 则X可能的取值为0,1,2,3,…,n 若随机变量X的分布律满足:
k P{ X k} Cn p k (1 p)nk
k 0,1, 2..., n;
Hale Waihona Puke Baidu
随机变量概率分布(probability distribution)
事件概率表示了一次试验中某个结果发生可能 性的大小 要想全面了解试验中某种变量的变化趋势,必 须知道该变量在试验中全部可能的结果以及各 种可能结果发生的概率—随机变量的概率分布 概率分布通常用表格、图形、函数来表示 根据随机变量的不同,可分为离散变量的概率 分布与连续变量的概率分布
连续型随机变量的概率分布
连续型随机变量的取值为一个范围,当变量在 该范围内取值时,概率是固定的,而当变量取 某一个具体固定值则是无意义的,因为在连续 尺度上,某一点的概率=0 对这种类型的随机变量不能象离散型的那样用 分布律描述,而是用概率密度描述
连续型随机变量概率密度的定义及性质
定义:设X是一个随机变量,其分布函数为F(x).若存 在非负函数 f(x) , 使对任意实数x,有
其中0< p <1, 则称X服从参数为 n, p 的二项分布(也称 Bernoulli 分布),记为X~B( n, p)
泊松分布(Poisson distribution)
若随机变量 X 的分布律为:
P( X k )
k
k!
e , k 0,1,2...
其中 >0, 则称X服从参数为的泊松分布,记为X~ P()
小概率事件
必然事件 不可能事件 随机事件
P= 1 P=0
0<P<1
将P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小 概率事件(习惯),统计学上认为不大可能发生
随机变量及其分布
随机变量(random variable)
简称变量(variable),统计上习惯用大写拉 丁字母表示 ,如X、Y 、Z、… 变量值习惯用小写拉丁字母表示 ,如性别x1= 1(男)、x2 =1(男)、x3 =0(女) 、…
则称X为连续型随机变量,f(x)称为X的概率密度函数, 简称概率密度
F ( x) f (t )dt
x
概率密度f(x)的性质
f ( x ) 0 f ( x )dx 1
连续型随机变量X的值落入区间 [ a , b ]内的概率 为 P(a X b) F (b) F (a) b f ( x)dx
离散随机变量的概率分布
设离散型随机变量 X 的所有可能取值是 x1, x2 , , xn , , 而取值 xk 的概率为 pk
即
PX xk pk
称此式为X的分布律(列)或概率分布
(Probability distribution)
离散随机变量分布律的表示方法
公式法 表格法
频率 frequency
样本的实际发生率称为频率。设在相同条件下,
独立重复进行n次试验,事件A出现f 次,则事
件A出现的频率为f / n
频率与概率间的关系:
样本频率总是围绕概率上下波动 样本含量n越大,波动幅度越小,频率越接近概率
概率计算的基本法则
加法法则
乘法法则
互补原则 完全事件系的概率
PX xk pk
X
x1, x2, …
xk, …
p1 , p2 ,…
pK …
随机变量X的概率分布全面表达了X的所有可能取值 以及取各个值的概率情况 1) pk 0 k 1, 2, 性质
2)
p
k 1
k
1
分布律确定概率
例
设X的分布律为
X
P
-1
1/3
1
1/2
2
1/6
求 P(0<X≤2) 解 P(0<X≤2)=P(X=1)+P(X=2) =1/2+1/6=2/3
概率统计学基础
确定性现象:在一定条件下,一定会发生或一定 不会发生的现象。其表现结果为两种事件:肯定 发生某种结果的叫必然事件;肯定不发生某种结 果的叫不可能事件。 随机现象:在同样条件下可能会出现两种或多种 结果,究竟会发生哪种结果,事先不能确定。其 表现结果称为随机事件。 随机事件的特征:①随 机性;②规律性:每次发生的可能性的大小是确 定的。 概率(probability):随机事件发生的可能性大小, 用大写的P 表示;取值[0,1]。
…
…
…
…
随机变量的分类
离散型变量(discrete variable),相当于计数资 料,变量的所有取值是有限个,如性别、年龄、 血型等 连续性变量( continuous variable),相当于计 量资料,变量的取值有无穷多个,如身高、体 重、血压、体温等 有序变量( ordinal variable),相当于等级资料, 如尿糖等级( +、++、+++、++++)、脉搏等 级(速脉、正常、缓脉)等
a
频数分布:用来统计每个变量值所处的区域,从而将资料 进行收集整理
频数分布直方图
30
20
从频数表及频数分布图上 可得知:该数值变量资料 频数分布呈现中间频数多, 左右两侧基本对称的分布。 所以我们通俗地认为该资 料服从正态分布。
频数
10 0 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5
第四章
生物信息学常用概率统 计方法简介
统计生物信息学解决问题步骤
在掌握基本资料分布的基础上,提出检验假设
将数据资料进行合理的分类和整理,建立数据文
件
借助于相关统计软件,根据研究者的实验设计和 研究目的,对数据文件中的数据进行统计分析 (可能需要建立统计模型) 对统计结果做出合理的解释
最最关键!
随机变量特征
是一个变量 取值随试验结果而改变
本例中,性别、体重、 疗效分别为三个随机变 编号 性别 体重 疗效 量,分别用X, Y, Z表示 (ID) (X) (kg) (Y) (Z) 其中,性别变量有若 1 66 0 张1 干取值:x1=1, x2=1; 1 78 1 李2 体重变量也有若干取值: 0 57 2 王3 y1=66, y2=78;