生物信息学算法介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 概率论基础
1.1 概率论的基本概念 1.2 生物学中的概率问题
1.1 概率论的基本概念
概率论是研究随机性或不确定性等现象的 数学。模拟实验在同一环境下会产生不同 结果的情况,如掷骰子、扔硬币、抽扑克 牌、轮盘游戏等。
1.1 概率论的基本概念
概率与轮盘赌博
轮盘上均匀刻着数字0~36,游戏赔率是 1:35,如果赢了,1 元可以变成 36 元。
住院时间 5 10 6 11 5 4 3 11 17 3
不使用抗生素患者 平均住院7.5天
编号 11 12 13 14 15 16 17 18 19 20
性别 女 女 男 男 男 女 女 男 男 男
年龄 59 20 32 36 47 22 33 19 82 60
使用抗生素 是 是 是 是 是 是 是 是 是 是
第3章 生物信息学算法 介绍
主讲人:刘 伟
算法是生物信息的核心
从数据到知识, 如何应用生物信 息学算法去伪存 真,发现奥秘?
算法
内容提要
1 患病的比例?患者的死亡比例? ——概率论基础
2 服用某种药物后,是否有显著效果? ——假设检验方法
3 该疾病与哪些因素有关? ——相关与回归
4 如何区分不同的疾病? ——分类器设计
住院时间 9 5 5 7 3 8 8 11 14 30
平均住院7.5天
平均住院10天
T检验P值=0.42,不具有显著差异
2.3 超几何假设检验
基因本体论(Gene Ontology ): 描述基因/蛋 白质的功能
三类术语(Term):
Cellular component: 在哪里? Biological process: 干什么? Molecular function:我是谁?
1.1 概率论的基本概念
概率:度量随机事件发生的可能性
如果某事情发生的概率是1/n,那么n次事件里 一定会发生一次该事件吗?
条件概率与条件独立
掷硬币连续99次出现正面,第100次出现正面 的概率是多少?
前天下雨,昨天下雨,今天会不会下雨呢?
1.1 概率论的基本概念
法庭上的数学证据——洛杉矶抢劫案 1964年某天,一个老妇人被推倒并遭抢劫,现
2.2 T检验方法
1)单个样本的T检验
基因x在N次重复实验中的M值
为 X M1,
M2,
,
M N ,均值为 x
1 N
N
Mi
i 1
T统计量定义为:T x SEX
SE(X) 标准差为:SEX
1
N
N i 1
Mi x
2
2.2 T检验方法
2)配对样本的T检验
Tg
xg1 xg2
s
2 g1
使用抗生素 否 否 否 否 否 否 否 否 否 否
住院时间 5 10 6 11 5 4 3 11 17 3
编号 11 12 13 14 15 16 17 18 19 20
性别 女 女 男 男 男 女 女 男 男 男
年龄 59 20 32 36 47 22 33 19 82 60
使用抗生素 是 是 是 是 是 是 是 是 是 是
住院时间 9 5 5 7 3 8 8 11 14 30
使用抗生素患者 平均住院10天
2.1 假设检验的基本原理
1)假设检验的原因
因存在个体差异,抽样误差不可避免,不能仅 凭个别样本的值来下结论。对于两组样本,其 均值差异有两种可能:
无显著差别,仅由于抽样误差造成;
有显著差别,主要由实验因素不同引起。
2 假设检验方法
2.1 假设检验的基本原理 2.2 T检验方法 2.3 超几何假设检验
2.1 假设检验的基本原理
比较两组病人平均住院时间
编号 1 2 3 4 5 6 7 8 9 10
性别 女 女 女 女 女 男 男 女 女 男
年龄 30 73 40 47 25 69 4 56 43 50
使用抗生素 否 否 否 否 否 否 否 否 否 否
2.1 假设检验的基本原理
4)假设检验的一般步骤
建立假设 原假设(H0) :两均数相等; 备择假设(H1):与 H0 相反;
确定显著性水平 计算统计量:选择统计方法,
如T检验 确定概率值P
做出推论
2.2 T检验方法
基本原理:对于同一事件的重复观测数据,如
果数据分散程度比较小,均值就更接近真实值。
n1
s
2 g
2
n2
ni
xgi xgij ni j 1
sg2i
1 ni 1
ni j 1
xgij
xgi
2
2.2 T检验方法
比较两组病人平均住院时间
编号 1 2 3 4 5 6 7 8 9 10
性别 女 Leabharlann Baidu 女 女 女 男 男 女 女 男
年龄 30 73 40 47 25 69 4 56 43 50
2.3 超几何假设检验
功能显著性分析:超几何分布
3 分类器设计
3.1 分类的一般流程 3.2 特征提取与数据压缩 3.3 常用分类算法 3.4 分类器的评估
3.1 分类的一般流程
3.1 分类的一般流程
分类的三个步骤
3.2 特征提取与数据压缩
1. 过滤法
使用评价准则来增强特征与类的相关性,削减特征之间 的相关性。评价函数分为四类:距离度量,如欧氏距离、 S阶Minkowski测度等;信息度量,如信息增益或互信息; 依赖性度量,如Pearson相关系数、Fisher分数、t-test等 统计性相关系数;一致性度量。
1.2 生物学中的概率问题
4)医学研究 患病率、死亡率 检测手段的敏感度与特异性 肺癌与抽烟 高血压与家族遗传史 糖尿病与肥胖、饮食习惯 细菌感染与体温、白细胞数量、淋巴细胞
数量的关系
2 假设检验方法
某事发生了:是由于碰巧? 还是由于必然的原因?
统计学家运用显著性假设检 验来处理这类问题。
场目击者看到了一对乘车的男女,很快警方逮捕 了一对夫妻。下面列出罪犯的主要特征及其在洛 杉矶地区的出现概率: 黄色的汽车:1/10 有八字胡的男性:1/4 黑人男性:1/10 马尾辫女孩:1/10 金发女孩:1/3 汽车中有肤色不同的夫妻俩:1/1000
1.2 生物学中的概率问题
1)微观方面 ——分子的布朗运动 2)遗传学 ——基因的交叉与变异 3)种群研究 ——种群的数量 ——生物多样性
2.1 假设检验的基本原理
2)假设检验的目的
判断是由于何种原因造成的不同,以做出决策。
3)假设检验的原理/思想
反证法:当一件事情的发生只有两种可能A和B, 为了肯定其中的一种情况A,但又不能直接证实A, 这时否定另一种可能B,则间接的肯定了A。
基于概率论:事件的发生不是绝对的,只是可能 性大小而已。