生物信息学复习小结(中科大)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章:序列的采集和存储

2. 序列数据的存储

核酸序列数据库

国际三大核酸序列数据库:

GenBank, EBML, DDBJ

dbEST: Expressed Sequences Tags数据库

UniGene等

RefSeq: The Reference Sequence Database

蛋白质序列数据库

UniProt

Swiss-prot&TrEMBL, PIR

基因组数据库: Ensembl

第三章序列比对I

序列间比对的对应关系:匹配、替代、缺失、插入

双序列比对算法:

Dot matrix(点阵法)

动态规划算法

Needleman-Wunsch算法

Sij = max of Si-1,j-1 + σ(xi , yj )

Si-1,j -d ( 从左到右)

Si,j-1 -d ( 从上到下)

Smith-Waterman 算法

Sij = max of 0

Si-1,j-1 + σ(xi , yj )

Si-1,j -d ( 从左到右)

Si,j-1 -d ( 从上到下)

FASTA和BLAST算法

PSI-BLAST(位点特异性迭代BLAST):

1. 使用普通的blast算法进行搜索;

2. 将搜索得到的序列,包括输入的序列放在一起,构建位点特异性的矩阵(Position Specific Matrix);

3. 利用上面得到的矩阵谱(profile) ,再次在数据库中进行搜索;

4. 重复2 ,3 步,直到不再有新的序列出现;

PHI-BLAST : 模式发现迭代BLAST

第三章序列比对Ⅱ

打分矩阵及其含义

1,计分方法

2,PAM系列矩阵

3,BLOSUM 系列矩阵

多序列比对:方法改进

1.渐进方法:代表:ClustalW/X, T-Coffee

(1)ClustalW/X:计算过程

1. 将所有序列两两比对,计算距离矩阵;

2. 构建邻接进化树(neighbor-joining tree)/指导树(guide tree) ;

3. 将距离最近的两条序列用动态规划的算法进行比对;

4. “渐进”的加上其他的序列。

(2) T- Coffee

采用Clustal程序计算两两序列之间的全局最优比对结果;

采用LALIGN 程序计算两两序列之间的局部最优比对的结果;

设计加权系统,综合考虑以上两类结果的因素,构建指导库;

最后,采用渐进式比对算法,得到最终的结果。

2. 迭代方法:代表: PRRP, DIALIGN

3. 部分有向图算法:(POA)

4. 全局多序列比对的隐马尔科夫模型profile HMM

5. 整合算法:MUSCLE

性能比较

ProbCons:目前综合性能最好;

T-Coffee:序列相似性高时最准确;

DIALIGN: 序列相似性低时最准确;

POA:性能接近T-Coffee和DIALIGN,速度最快;

ClustalW/X: 最经典、被广泛接受的工具;

MUSCLE: 目前最流行的多序列比对工具;

第四章分子进化与系统发育分析

Ortholog ( 直系同源物):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。

Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制事件产生。常常具有不同功能。

相似性(Similarity)序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例;

同源性(Homology)两个基因或蛋白质序列具有共同祖先的结论;

RSCU 相对同义密码子使用度CAI :密码子适应指数(该值越小表示偏性越强)

P –distance:两条蛋白质序列之间的氨基酸差异数为nd,序列的氨基酸数目均为n,则P 距

离:

泊松距离:d=-ln(1-p)

分子系统发育分析:

建树方法:

A. 最大简约法

B. 距离法

C. 最大似然性法

D. 贝叶斯(Bayesian)推断

系统发育树:三种类型分支图进化树时间度量树

系统发育树重建的基本方法:

1. 最大简约法(maximum parsimony, MP) 适用序列有很高相似性时

2. 距离法(distance) 适用序列有较高相似性时

3. 最大似然法(maximum likelihood, ML) 可用于任何相关序列集合

系统发育分析软件:PHYLIPMEGAPAUP

第五章:生物序列的数据库信息检索

序列家族分类及功能数据库:

蛋白质序列分类数据库-Pfam

蛋白质序列功能位点数据库PROSITE

Gene Ontology (GO)

相互作用的蛋白质数据库DIP

转录调控区数据库TRRD

33 ,检索系统

NCBI:Entrez

EBI :SRS

ExPASy

E - Value

Expect value:在一个特定大小的数据库中碰巧搜索到打分值约为Score 的不同序列

的个数。 E 值随Score 增加,呈指数减少

第六章:序列模式识别

常用的检验指标:. 敏感性特异性选择性

PSSM2种

Gibbs Sampler算法:

1. 从每条序列上随机的抽取一段序列,序列长度固定

2. 构建PSSM/权重矩阵

3. 随机挑选一条序列

4. 用构建好的PSSM 对该序列上所有可能的motif进行打分( 窗口滑动,每次1个氨基酸或者碱基

5. 根据似然性的计算,得到似然值最大的模体,即新的motif

6. .更新PSSM 矩阵

7. 反复迭代计算,直到似然性结果与PSSM不再发生变化

贝叶斯公式:

马尔可夫及隐马尔可夫模型

利用TMpred分析蛋白质的跨膜区

生物统计与概率分析基础

相关文档
最新文档