多序列比对与以及各类常见的序列分析工具介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
EBI提供
的在线
Clustalw
服务
更为详细的教程
可以在这里得到更多关于clustal的帮助:
trasbg.fr/BioInfo/ClustalX/Top.html
实际操作(练习)
• 使用clustalx程序,对给定的多序列, 选择合适的参数,进行多序列比对,输 出结果文件维phylip格式。 • 相同的文件,使用ebi和我们提供的在线 服务,进行多序列比对。
2.两种工作模式。
a.多序列比对模式。
b.剖面(profile)比对模式。
3.一个实际的例子。
多序列比对实例
输入文件的格式(fasta): >KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN…… >DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK……. >KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN…… >DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD…… >1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……
序列相似性比较和序列 同源性分析
序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较, 用于确定该序列的生物属性,也就是找出与此序列相似 的已知序列是什么。完成这一工作只需要使用两两序列 比较算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物 种的序列中进行多序列同时比较,以确定该序列与其它 序列间的同源性大小。这是理论分析方法中最关键的一 步。完成这一工作必须使用多序列比较算法。常用的程 序包有CLUSTAL等;
多序列比对的意义
• 用于描述一组序列之间的相似性关系, 以便了解一个基因家族的基本特征,寻 找motif,保守区域等。 • 用于描述一个同源基因之间的亲缘关系 的远近,应用到分子进化分析中。 • 其他应用,如构建profile,打分矩阵等。
多序列比对的方法
• 同源性分析中常常要通过多序列比对来 找出序列之间的相互关系,和blast的局 部匹配搜索不同,多序列比对大多都是 采用全局比对的算法。这样对于采用计 算机程序的自动多序列比对是一个非常 复杂且耗时的过程,特别是序列数目多, 且序列长的情况下。
多序列比对工具 -clustal
Clustal是一个单机版的基于渐进比对的 多序列比对工具,由Higgins D.G. 等开发。 有应用于多种操作系统平台的版本,包括 linux版,DOS版的clustlw,clustalx等。
Clustal简介
• CLUSTAL是一种渐进的比对方法,先将 多个序列两两比对构建距离矩阵,反应 序列之间两两关系;然后根据距离矩阵 计算产生系统进化指导树,对关系密切 的序列进行加权;然后从最紧密的两条 序列开始,逐步引入临近的序列并不断 重新构建比对,直到所有序列都被加入 为止。
Clustal的渐进比对过程
在比对过程中,先对所有的序列进行 两两比对并计算它们相似性分值,然后 根据相似性分值将它们分成若干组,并 在每组之间进行比对,计算相似性分值。 根据相似性分值继续分组比对,直到得 到最终比对结果。在比对过程中,相似 性程度较高的序列先进行比对而距离较 远的序列添加在后面。
第一步:输入序列文件。
第二步:设定比对的一些参数。
参数设定窗口。
第三步:开始序列比对。
第四步:比对完成,选择保存结果文件的格式
Clustalw的使用(一)
Clustalw的使用(二)
Clustalw还提供了命令调用形式的使用方 式,方便于批处理过程,下面是一个典 型的执行多序列比对的clustalw命令:
1.输入输出格式。
输入序列的格式比较灵活,可以是前面介绍过的 FASTA格式,还可以是PIR、SWISS-PROT、 GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、PHYLIP 和NEXUS等,用户可以根据自己的需要选择合 适的输出格式。
Clustal的应用
多序列比对的方法
基本上多序列比对可以分为 1.手工比对(辅助编辑软件如bioedit, seaview,Genedoc等)
通过辅助软件的不同颜色显示不同残基,靠分 析者的观察来改变比对的状态。
2.计算机程序自动比对
通过特定的算法(如同步法,渐进法等),由 计算机程序自动搜索最佳的多序列比对状态。
自动多序列比对的算法
1.同步法 将序列两两比对时的二维动态规划矩 阵扩展到三维矩阵。即用矩阵的维数来 反映比对的序列数目。这种方法的计算 量很大,对于计算机系统的资源要求比 较高,一般只有在进行少数的较短的序 列的比对的时候才会用到这个方法。
自动多序列比对的算法
2.步进法 最常见的就是clustal所采用的方法。
其基本思想就是基于相似序列通常具 有进化相关性的这一假设。
• 对上述计算机程序比对的结果进行手工 改动(bioedit,seaview),使得多序 列比对结果跟符合要求。
>SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAIS AAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC >TIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIA AAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC >WIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW TELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVN AASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ >CzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW PELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVT AAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL >CIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASIS RAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFT TPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQ FHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQ TAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHH TTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTAS PAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL
$ ./clustalw –infile=dna.fa –type=dna – gapopen=10 –gapext=2 –output=gcg – outfile=align线clustalw服务
/clustalw/
Clustalx的工作界面 (多序列比对模式)
Clustalx的工作界面 (剖面(profile)比对模式)
Clustal的工作原理
Clustal输入多个序列 快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。 邻接法(NJ)构建一个树(引导树) 根据引导树,渐进比对多个序列。
Clustal的应用
多序列比对与Clustal的使用, 以及各类常见的序列分析工具 介绍
中山大学生科院
2004年10月
内容提要
第一部分:多序列比对 • 意义、方法、算法 • Clustal的使用 1.Clustalx 2.Clustalw
第二部分:常见的序列分析软 件分类简介
第一部分: 多序列比对及Clustal的使用
练习序列
第二部分: 常见的序列分析软件分类简介