第四章(1)生物信息学详细讲义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Clustalx的工作界面 (多序列比对模式)
Clustalx的工作界面 (多序列比对模式)
Clustalx的工作界面 (剖面(profile)比对模式)
Clustalx的工作界面 (剖面(profile)比对模式)
Clustal的工作原理
Clustal输入多个序列 快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵 邻接法(NJ)构建一个树(引导树) 根据引导树,渐进比对多个序列
基因调节因子预测
基因表达的主要调节环节是转录的控制,重要的一步是 确定每一个基因序列中的调节因子,也就是基因序列中用 于与转录因子或其他调节因子结合的区域,这些区域往往 具有一定的序列特征或称基序,而且具有一定的保守性. 传统预测方法:通过烦琐的重组DNA技术辅之以报告基因在 体外或体内进行功能评估. 现在预测方法:用一种称为进化遗传印记(phylogenetic fingerprinting)的计算方法来寻找比较的序列中的高度保守 的基因组区域.
序列同源性分析: 是将待研究序列加入到一组与之同源,但 来自不同物种的序列中进行多序列同时比 较,以确定该序列与其它序列间的同源性 大小。这是理论分析方法中最关键的一步。 完成这一工作必须使用多序列比较算法。 常用的程序包有CLUSTAL等.
相似性与同源性关系
相似性不说明任何的历史过程,而是对两个 序列间用一定方法进行比较.尽管同源和相 似的定义不同,但这两个术语相互关联,因为 显著的相似性通常意味着同源. 两个基因间只有同源或不同源的关系.同源 的序列被假设起源于一个我们并不知道的 共同的祖先序列,通过反复的分子变化而互 相有差异.
Clustal的应用
1.输入输出格式。
输入序列的格式比较灵活,可以是前面介 绍过的FASTA格式,还可以是PIR、 SWISS-PROT、GDE、Clustal、 GCG/MSF、RSF等格式. 输出格式也可以选择,有ALN、GCG、 PHYLIP和NEXUS等,用户可以根据自己 的需要选择合适的输出格式.

成对序列比对的应用
成对序列比对(pairwise alignment):是比较 两个序列之间的异同点,允许序列间有一定 的错配,是计算机在解决生物学问题中 的一 个经典应用. 关键问题: 1.用来评估比度的记分系统 2.用来找到最佳比对的运算法则 3.不同的比对方式包括局部比对(local alignment)和整体比对(global alignment)
具体有以下几方面的应用: 1.序列结构域和基序的寻找 2.基因调节因子预测 3.基因组组装 4.系统发生遗传学分析

序列结构域和基序的寻找
序列基序(motif):指的是一组序列所共有的一 段局部保守区域或短的序列模式.长度范围 几个到几百乃至数千核苷酸或氨基酸不等. 结构域:指的是一组序列中保守的一段较长的 序列,绝大多数用于蛋白质序列.可以是一部 分也可以是整个分子. 它们都通过多序列比对产生,可以是固定的序 列或是可变的序列.基序通常可以用来预测 分子功能或结构特征或分子亲缘关系.
多序列比对工具-clustalX

Clustal是一个单机版的基于渐进比对的多 序列比对工具,由Higgins D.G. 等开发。有 应用于多种操作系统平台的版本,包括 linux版,DOS版的clustalw,windows版本 的clustalx等.
Clustal简介

CLUSTAL是一种渐进的比对方法,先将 多个序列两两比对构建距离矩阵,反应序 列之间两两关系;然后根据距离矩阵计算 产生系统进化指导树,对关系密切的序列 进行加权;然后从最紧密的两条序列开始, 逐步引入临近的序列并不断重新构建比对, 直到所有序列都被加入为止.
Clustal的渐进比对过程
在比对过程中,先对所有的序列进行两 两比对并计算它们相似性分值,然后根据 相似性分值将它们分成若干组,并在每组 之间进行比对,计算相似性分值。根据相 似性分值继续分组比对,直到得到最终比 对结果。在比对过程中,相似性程度较高 的序列先进行比对而距离较远的序列添加 在后面.
1.同步法 将序列两两比对时的二维动态规划矩阵扩 展到三维矩阵。即用矩阵的维数来反映比 对的序列数目。这种方法的计算量很大, 对于计算机系统的资源要求比较高,一般 只有在进行少数的较短的序列的比对的时 候才会用到这个方法.
自动多序列比对的算法
2.步进法 最常见的就是clustal所采用的方法. 其基本思想就是基于相似序列通常具有进 化相关性的这一假设.
Clustal的应用
2.两种工作模式 a.多序列比对模式 b.剖面(profile)比对模式 3.一个实际的例子
多序列比对实例



输入文件的格式(fasta):
>L21-_1_5_7_8_10_12_13_14_19_(HapD) TCCAATAGGGGACAGCACACCCCCCACTTCAAGCGCACCTCTGTATCGACTGAATAACTGGAAGAGTATAGTCGGTGGAACCGGTGAACCACGCAT TCTGAGCTGGTTGGATGCGTGGGGCAGAGGGCTCGTAGTACACTCAACTATTGATCGATCCCCCTCTTTTTCTACTTACTTT---------AATAGGGGGGGCGGATCAGCGGGAAGGAAGAAGGGGCCCAAGCAGATGCCGTACACTTACTTTACTTGAGTGGCAAAGGAAAGCGATAACGAATG GCGCCTTTCTTTACTGATTCACTTTGGTAGGTTATAACACGCGCGAGGGGAAGGTCCTGAAAGGTAAACCCAGTAAGGTCCTGTCCTGATCAACCCT TCTAACTCTTTGAGGGGAATAAATTATAGTAAAAACCCTATAGAAGGGGAAGGGGGGATCCTGTTCGGACATACGGTGGTTTTTACCCTTAAGAACC ATAATATCAAGTTGGTGAGCCGTGTGATGGGAAACCTCCCCGCACGGTTCGGAGAGCACTTAATTAGAATGTTCCTGGGGGTACCACATCATTGCAA GGGTAACAGAGCTCGATTCGCAGATTGGTTCGACCCGGAATTCACTTCCGACCCTGTGTTTGATAGCCCGACCGTAGTTATGCCAATTGTGGTTACA TTCGTAAGTAGCTTGGTCCATCCTCATCCCATTTCATATATGTCCGAGGATCCACATAGCCCTCGATTTATGTGTCATTCATCCATTCCTACTTTTTTT >L20-_2_3_5_6_7_9_10_11_13_14_1(HapC) TCCAATAGGGGACAGCACACCCCCCACTTCAAGCGCACCTCTGTATCGACTGAATAACTGGAAGAGTATAGTCGGTGGAACCGGTGAACCACGCAT TCTGAGCTGGTTGGATGCGTGGGGCAGAGGGCTCGTAGTACACTCAACTATTGATCGATCCCCCTCTTTTTCTACTTACTTTACTTT----AATAGGGGGGGCGGATCAGCGGGAAGGAAGAAGGGGCCCAAGCAGATGCCGTACACTTACTTTACTTGAGTGGCAAAGGAAAGCGATAACGAATG GCGCCTTTCTTTACTGATTCACTTTGGTAGGTTATAACACGCGCGAGGGGAAGGTCCTGAAAGGTAAACCCAGTAAGGTCCTGTCCTGATCAACCCT TCTAACTCTTTGAGGGGAATAAATTCTAGTAAAAACCCTATAGAAGGGGAAGGGGGGATCCTGTTCGGACATACGGTGGTTTTTACCCTTAAGAACC ATAATATCAAGTTGGTGAGCCGTGTGATGGGAAACCTCCCCGCACGGTTCGGAGAGCACTTAATTAGAATGTTCCTGGGGGTACCACATCATTGCAA GGGTAACAGAGCTCGATTCGCAGATTGGTTCGACCCGGAATTCACTTCCGACCCTGTGTTTGATAGCCCGACCGTAGTTATGCCAATTGTGGTTACA TTCGTAAGTAGCTTGGTCCATCCTCATCCCATTTCATATATGTCCGAGGATCCACATAGCCCTCGATTTATGTGTCATTCATCCATTCCTACTTTTTTT >L16-_3_5_7_8_10_11_13_14_15_16(HapA) TCCAATAGGGGACAGCACACCCCCCACTTCAAGCGCACCTCTGTATCGACTGAATAACTGGAAGAGTATAGTCGGTGGAACCGGTGAACCACGCAT TCTGAGCTGGTTGGATGCGTGGGGCAGAGGGCTCGTAGTACACTCAACTATTGATCGATCCCCCTCTTTTTCTACTTACTTT---------AATAGGGGGGGCGGATCAGCGGGAAGGAAGAAGGGGCCCAAGCAGATGCCGTACACTTACTTTACTTGAGTGGCAAAGGAAAGCGATAACGAATG GCGCCTTTCTTTACTGATTCACTTTGGTAGGTTATAACACGCGCGAGGGGAAGGTCCTGAAAGGTAAACCCAGTAAGGTCCTGTCCTGATCAACCCT TCTAACTCTTTGAGGGGAATAAATTCTAGTAAAAACCCTATAGAAGGGGAAGGGGGGATCCTGTTCGGACATACGGTGGTTTTTACCCTTAAGAACC ATAATATCAAGTTGGTGAGCCGTGTGATGGGAAACCTCCCCGCACGGTTCGGAGAGCACTTAATTAGAATGTTCCTGGGGGTACCACATCATTGCAA GGGTAACAGAGCTCGATTCGCAGATTGGTTCGACCCGGAATTCACTTCCGACCCTGTGTTTGATAGCCCGACCGTAGTTATGCCAATTGTGGTTACA TTCGTAAGTAGCTTGGTCCATCCTCATCCCATTTCATATATGTCCGAGGATCCACATAGCCCTCGATTTATGTGTCATTCATCCATTCCTACTTTTTTT
多序列比对的方法
基本上多序列比对可以分为 1.手工比对(辅助编辑软件如Mega, seaview,Genedoc等)
通过辅助软件的不同颜色显示不同残基,靠分析 者的观察来改变比对的状态.
2.计算机程序自动比对
通过特定的算法(如同步法,渐进法等),由计 算机程序自动搜索最佳的多序列比对状态.
自动多序列比对的算法

多序列对比的应用
多序列比对(multiple sequence alignment,MSA): 将已有的大量相似序列放 在一起同时进行比对,并且把比对的结果放 在一起. 通过同源性和相似性位点来推测有关比对 序列的进化历史 通过对相似功能蛋白质比对分析可以找到 哪一部分序列对于功能最重要

多序列对比的应用
第四讲 DNA和蛋白 质生物信息学
CLUSTALX多序列对比的应用
内容提要
成对序列对比的应用 多序列对比的应用
多序列比对的方法
自动多序列比对的算法
Clustalx的使用(clustal法)
实例分析
生物序列的同源性
同源性(homology): 指从一些数据中推断出的两个基因或蛋白 质序列具而共同祖先的结论,属于质的判 断。就是说A和B的关系上,只有是同源序 列,或者非同源序列两种关系。而说A和B 的同源性为80%都是不科学的.
PNYLSC
PNKYLSC +K
PNFSC -L
பைடு நூலகம்
PNFLSC
A PN-FLSC
B PN-F-SC
C PNKYLSC D PN-YLSC MSA 用于系统发生遗传学分析
多序列比对的方法

同源性分析中常常要通过多序列比对来找 出序列之间的相互关系,和blast的局部匹 配搜索不同,多序列比对大多都是采用全 局比对的算法。这样对于采用计算机程序 的自动多序列比对是一个非常复杂且耗时 的过程,特别是序列数目多,且序列长的 情况下.
基因组组装
MSA有三个特点: 1.重叠区域所涉及的序列理论上属于相同序 列,但由于测序错误可能造成插入或删除. 2.所涉及序列有可能是正向或反向,因而包括 对互补序列的比对. 3.序列间关系经常是长度未知的重叠或是较 大的序列包含较小的序列.
系统发生遗传学分析
MSA中序列间的变化可以以来推测所代表物种间的 亲缘关系.此外,MSA和由其衍生的关系树可以用 来探讨同一基因组中同系基因(paralogus genes) 间的进化关系或较大蛋白家族内的分类. 用于系统发生遗传学的基因应具备: 基因普遍存在于绝大多数物种而且容易通过其序 列的保守性被识别.与此同时,这些基因序列应当有 足够的变异来区分亲缘相近的物种.
相关文档
最新文档