生物信息学复习小结(中科大)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章:序列的采集和存储
2. 序列数据的存储
核酸序列数据库
国际三大核酸序列数据库:
GenBank, EBML, DDBJ
dbEST: Expressed Sequences Tags数据库
UniGene等
RefSeq: The Reference Sequence Database
蛋白质序列数据库
UniProt
Swiss-prot&TrEMBL, PIR
基因组数据库: Ensembl
第三章序列比对I
序列间比对的对应关系:匹配、替代、缺失、插入
双序列比对算法:
Dot matrix(点阵法)
动态规划算法
Needleman-Wunsch算法
Sij = max of Si-1,j-1 + σ(xi , yj )
Si-1,j -d ( 从左到右)
Si,j-1 -d ( 从上到下)
Smith-Waterman 算法
Sij = max of 0
Si-1,j-1 + σ(xi , yj )
Si-1,j -d ( 从左到右)
Si,j-1 -d ( 从上到下)
FASTA和BLAST算法
PSI-BLAST(位点特异性迭代BLAST):
1. 使用普通的blast算法进行搜索;
2. 将搜索得到的序列,包括输入的序列放在一起,构建位点特异性的矩阵(Position Specific Matrix);
3. 利用上面得到的矩阵谱(profile) ,再次在数据库中进行搜索;
4. 重复2 ,3 步,直到不再有新的序列出现;
PHI-BLAST : 模式发现迭代BLAST
第三章序列比对Ⅱ
打分矩阵及其含义
1,计分方法
2,PAM系列矩阵
3,BLOSUM 系列矩阵
多序列比对:方法改进
1.渐进方法:代表:ClustalW/X, T-Coffee
(1)ClustalW/X:计算过程
1. 将所有序列两两比对,计算距离矩阵;
2. 构建邻接进化树(neighbor-joining tree)/指导树(guide tree) ;
3. 将距离最近的两条序列用动态规划的算法进行比对;
4. “渐进”的加上其他的序列。
(2) T- Coffee
采用Clustal程序计算两两序列之间的全局最优比对结果;
采用LALIGN 程序计算两两序列之间的局部最优比对的结果;
设计加权系统,综合考虑以上两类结果的因素,构建指导库;
最后,采用渐进式比对算法,得到最终的结果。
2. 迭代方法:代表: PRRP, DIALIGN
3. 部分有向图算法:(POA)
4. 全局多序列比对的隐马尔科夫模型profile HMM
5. 整合算法:MUSCLE
性能比较
ProbCons:目前综合性能最好;
T-Coffee:序列相似性高时最准确;
DIALIGN: 序列相似性低时最准确;
POA:性能接近T-Coffee和DIALIGN,速度最快;
ClustalW/X: 最经典、被广泛接受的工具;
MUSCLE: 目前最流行的多序列比对工具;
第四章分子进化与系统发育分析
Ortholog ( 直系同源物):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。
Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制事件产生。常常具有不同功能。
相似性(Similarity)序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例;
同源性(Homology)两个基因或蛋白质序列具有共同祖先的结论;
RSCU 相对同义密码子使用度CAI :密码子适应指数(该值越小表示偏性越强)
P –distance:两条蛋白质序列之间的氨基酸差异数为nd,序列的氨基酸数目均为n,则P 距
离:
泊松距离:d=-ln(1-p)
分子系统发育分析:
建树方法:
A. 最大简约法
B. 距离法
C. 最大似然性法
D. 贝叶斯(Bayesian)推断
系统发育树:三种类型分支图进化树时间度量树
系统发育树重建的基本方法:
1. 最大简约法(maximum parsimony, MP) 适用序列有很高相似性时
2. 距离法(distance) 适用序列有较高相似性时
3. 最大似然法(maximum likelihood, ML) 可用于任何相关序列集合
系统发育分析软件:PHYLIPMEGAPAUP
第五章:生物序列的数据库信息检索
序列家族分类及功能数据库:
蛋白质序列分类数据库-Pfam
蛋白质序列功能位点数据库PROSITE
Gene Ontology (GO)
相互作用的蛋白质数据库DIP
转录调控区数据库TRRD
33 ,检索系统
NCBI:Entrez
EBI :SRS
ExPASy
E - Value
Expect value:在一个特定大小的数据库中碰巧搜索到打分值约为Score 的不同序列
的个数。 E 值随Score 增加,呈指数减少
第六章:序列模式识别
常用的检验指标:. 敏感性特异性选择性
PSSM2种
Gibbs Sampler算法:
1. 从每条序列上随机的抽取一段序列,序列长度固定
2. 构建PSSM/权重矩阵
3. 随机挑选一条序列
4. 用构建好的PSSM 对该序列上所有可能的motif进行打分( 窗口滑动,每次1个氨基酸或者碱基
5. 根据似然性的计算,得到似然值最大的模体,即新的motif
6. .更新PSSM 矩阵
7. 反复迭代计算,直到似然性结果与PSSM不再发生变化
贝叶斯公式:
马尔可夫及隐马尔可夫模型
利用TMpred分析蛋白质的跨膜区
生物统计与概率分析基础