多序列联配和系统进化树组织构建

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
度最快(As sequences varied considerably in length, POA (Lee et al. 2002), which treats long indels very accurately, was the ) alignment program of choice. • 5. ProbCons:目前综合性能比较好 • 6. T-Coffee:序列相似性高时最准确 • 7. MAFFT:综合性能比较好
Baidu Nhomakorabea
自动多序列比对的算法
1. 同步法 将序列两两比对时的二维动态规划矩阵扩展到三维矩 阵。即用矩阵的维数来反映比对的序列数目。这种方 法的计算量很大,对于计算机系统的资源要求比较高, 一般只有在进行少数的较短的序列的比对的时候才会 用到这个方法。
2. 步进法 最常见的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有进化相关性的这 一假设。
多序列比对的意义
用于分析同一基因或蛋白质在不同物种中 的进化
通过分析多个基因或蛋白质序列之间的同 源性确定它们在进化上的关系
分析基因或蛋白质的功能
70 Mya 200 Mya
WGD 14 and 42 Mya
~67.7 Mya 72 Mya
Eo, 棕榈; Ma, 香蕉; Zo, 姜; Cl, 姜黄
1. Clustal W/ Clustal X 2. MUSCLE 3. MAFFT 4. T-Coffee 5. ProbCons 6. POA 7. DIALIGN
性能比较
• 1. ClustalW/X: 最经典、最被广泛接受的工具 • 2. MUSCLE: 目前最流行的多序列比对工具 • 3. DIALIGN: 序列相似性低时最准确 • 4. POA:性能接近T-Coffee和DIALIGN,速
相同或相似的氨基酸残基排在同一列上,这些对齐的残基在 进化意义上是同源的:来自共同的祖先。并且还可假定从结构角 度看,这些残基也是同源的:在三维结构中,对齐的残基也倾向 于占据对应的位置。
对于关系很近的一组序列,很容易产生多序列比对,甚至可 以直接观察得到。但当序列间出现一些分歧时,多序列比对过 程中出现的问题就很难解决了,如gap数量和位置的估计就比较 困难。
3. 在检查某次数据库搜索结果时,多重比对形式的结果能更容 易显示保守残基与基序;
4. 如果研究cDNA克隆,按照惯例我们会对相应序列进行测序。 多序列比对可以显示结果中是否有矛盾之处;
5. 分析物种数据可以揭示很多生物学问题(如进化、结构和功 能等方面)。Entrez的PopSet部分包含了核酸和蛋白质的 物种数据集,可以多重比对的形式显示。
8. 很多基因的调节区含有转录因子结合的共有序列。
9. 功能分歧分析、分子进化分析等。
10.其他应用,如构建profile,打分矩阵等。HMMER就是利用 已知同源序列的多序列比对结果构建profile,然后再利用该 profile去搜索蛋白数据库查找相应蛋白的同源序列。
多序列比对的方法
• 同源性分析中常常要通过多序列比对来找出序列 之间的相互关系,和blast的局部匹配搜索不同, 多序列比对大多都是采用全局比对的算法。这样 对于采用计算机程序的自动多序列比对是一个非 常复杂且耗时的过程,特别是序列数目多,且序 列长的情况下。
Phylogenetic analysis
多序列比对的典型应用和实际策略
——什么时候使用和为什么使用多重比对
1. 若所研究的蛋白质或基因与另一组蛋白质有联系,那么这些 蛋白质可以提供可能的功能、结构、进化方面的信息;
2. 大多数蛋白质家族中有远缘的成员。与两两比对相比,多序 列比对能够更敏感地发现同源关系;
由于同源序列通常保持了相似的结构和功能,因而多序列比对就 显得很有意义。
尽管可以对蛋白质、DNA序列进行多重比对,但是很多数据库 的比对只针对蛋白质家族。
实际应用中常进行氨基酸序列的多序列比对,然后转化成相应的DNA比对
多序列比对的定义
蛋白家族的特征是用存在一组同源序列的多重比对来定义的。 一个多重比对就是一组可以部分或整体对齐的蛋白质或核苷酸序 列(3个或3个以上)。
多序列比对的定义
那么如何确定某些氨基酸残基是否对齐了呢? 可根据下面4个特征来判断相应氨基酸残基是否已经对齐: (1)一些高度保守的残基(如参与形成二硫键的半胱氨酸); (2)形成保守基序或结构域,如跨膜结构域和免疫球蛋白结构域 等。 (3)蛋白质二级结构的保守特征,如参与形成α-螺旋、β-折叠和 可变区的残基; (4)显示出一致插入或缺失模式的区域。
多序列联配和 系统进化树组织构建
序列同源性分析
当我们在研究一个蛋白质或基因时,经常会考虑这样一个很基本 的问题:它与其他蛋白质的同源性关系如何?
序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中
进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这 是理论分析方法中最关键的一步。
多序列比对的方法
基本上多序列比对可以分为: 1. 手工比对(辅助编辑软件如 Se-Al bioedit,seaview, Genedoc等)
通过辅助软件的不同颜色显示不同残基,靠分析者的观 察来改变比对的状态。
2. 计算机程序自动比对 通过特定的算法(如同步法,渐进法等),由计算机程
序自动搜索最佳的多序列比对状态。
Clustal的渐进比对过程
在比对过程中,先对所有的序列进行两两比对并计算 它们相似性分值,然后根据相似性分值将它们分成若干 组,并在每组之间进行比对,计算相似性分值。根据相 似性分值继续分组比对,直到得到最终比对结果。在比 对过程中,相似性程度较高的序列先进行比对而距离较 远的序列添加在后面。
多序列比对常用软件
多序列比对的典型应用和实际策略
——什么时候使用和为什么使用多重比对
6. 当一个物种的基因组被完整测序,数据分析的一个主要部分 是定义所有基于产物所归属的蛋白家族。数据库搜索进行高效 的多重比对,将每一个新蛋白或基因与其他所有家族的蛋白质 进行比较。
7. 利用多序列比对数据构建系统发生树。建树的一个最关键的 步骤就是产生最佳的多序列比对。
相关文档
最新文档