多序列比对

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

>SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAIS AAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC >TIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIA AAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC >WIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW TELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVN AASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ >CzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW PELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVT AAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL >CIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASIS RAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFT TPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQ FHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQ TAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHH TTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTAS PAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL
Clustal的应用
2.两种工作模式。
a.多序列比对模式。
b.剖面(profile)比对模式。
3.一个实际的例子。
多序列比对实例
输入文件的格式(fasta): >KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… >DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. >KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… >DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… >1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……
多序列比对的方法
基本上多序列比对可以分为 1.手工比对(辅助编辑软件如bioedit, seaview,Genedoc等)
通过辅助软件的不同颜色显示不同残基,靠分 析者的观察来改变比对的状态。
2.计算机程序自动比对
通过特定的算法(如同步法,渐进法等),由 计算机程序自动搜索最佳的多序列比对状态。
自动多序列比对的算法
Clustal的渐进比对过程
在比对过程中,先对所有的序列进行 两两比对并计算它们相似性分值,然后 根据相似性分值将它们分成若干组,并 在每组之间进行比对,计算相似性分值。 根据相似性分值继续分组比对,直到得 到最终比对结果。在比对过程中,相似 性程度较高的序列先进行比对而距离较 远的序列添加在后面。
1.同步法 将序列两两比对时的二维动态规划矩 阵扩展到三维矩阵。即用矩阵的维数来 反映比对的序列数目。这种方法的计算 量很大,对于计算机系统的资源要求比 较高,一般只有在进行少数的较短的序 列的比对的时候才会用到这个方法。
自动多序列比对的算法
2.步进法 最常见的就是clustal所采用的方法。
其基本思想就是基于相似序列通常具 有进化相关性的这一假设。
Hale Waihona Puke Baidu
多序列比对工具 -clustal
Clustal是一个单机版的基于渐进比对的 多序列比对工具,由Higgins D.G. 等开发。 有应用于多种操作系统平台的版本,包括 linux版,DOS版的clustlw,clustalx等。
Clustal简介
• CLUSTAL是一种渐进的比对方法,先将 多个序列两两比对构建距离矩阵,反应 序列之间两两关系;然后根据距离矩阵 计算产生系统进化指导树,对关系密切 的序列进行加权;然后从最紧密的两条 序列开始,逐步引入临近的序列并不断 重新构建比对,直到所有序列都被加入 为止。
在线的clustalw分析
EBI提供的在线clustalw服务
http://www.ebi.ac.uk/clustalw/
EBI提供
的在线
Clustalw
服务
更为详细的教程
可以在这里得到更多关于clustal的帮助:
http://www-igbmc.ustrasbg.fr/BioInfo/ClustalX/Top.html
多序列比对及Clustal的使用
序列相似性比较和序列 同源性分析
序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较, 用于确定该序列的生物属性,也就是找出与此序列相似 的已知序列是什么。完成这一工作只需要使用两两序列 比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物 种的序列中进行多序列同时比较,以确定该序列与其它 序列间的同源性大小。这是理论分析方法中最关键的一 步。完成这一工作必须使用多序列比较算法。常用的程 序包有CLUSTAL等;
Clustalx的工作界面 (多序列比对模式)
Clustal的工作原理
Clustal输入多个序列 快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。 邻接法(NJ)构建一个树(引导树) 根据引导树,渐进比对多个序列。
Clustal的应用
1.输入输出格式。
输入序列的格式比较灵活,可以是前面介绍过的 FASTA格式,还可以是PIR、SWISS-PROT、 GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、PHYLIP 和NEXUS等,用户可以根据自己的需要选择合 适的输出格式。
Clustalw的使用(一)
Clustalw的使用(二)
Clustalw还提供了命令调用形式的使用方 式,方便于批处理过程,下面是一个典 型的执行多序列比对的clustalw命令:
$ ./clustalw –infile=dna.fa –type=dna – gapopen=10 –gapext=2 –output=gcg – outfile=align.gcg -align
练习序列
实际操作(练习)
• 使用clustalx程序,对给定的多序列, 选择合适的参数,进行多序列比对,输 出结果文件维phylip格式。 • 相同的文件,使用ebi和我们提供的在线 服务,进行多序列比对。
• 对上述计算机程序比对的结果进行手工 改动(bioedit,seaview),使得多序 列比对结果跟符合要求。
多序列比对的意义
• 用于描述一组序列之间的相似性关系, 以便了解一个基因家族的基本特征,寻 找motif,保守区域等。 • 用于描述一组同源基因之间的亲缘关系 的远近,应用到分子进化分析中。 • 其他应用,如构建profile,打分矩阵等。
多序列比对的方法
• 同源性分析中常常要通过多序列比对来 找出序列之间的相互关系,和blast的局 部匹配搜索不同,多序列比对大多都是 采用全局比对的算法。这样对于采用计 算机程序的自动多序列比对是一个非常 复杂且耗时的过程,特别是序列数目多, 且序列长的情况下。
相关文档
最新文档