实习四:多序列比对(Multiple alignment)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实习四:多序列比对(Multiple alignment)
学号姓名专业年级
实验时间提交报告时间
实验目的:
1. 学会利用MegAlign进行多条序列比对
2. 学会使用ClustalX、MUSCLE 和T-COFFEE进行多条序列比对分析
3. 学会使用HMMER进行HMM模型构建,数据库搜索和序列比对
实验内容:
多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。

多序列比对的目标是发现多条序列的共性。

如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。

例如,某些在生物学上有重要意义的相似区域只能通过将多个序列同时比对才能识别。

只有在多序列比之后,才能发现与结构域或功能相关的保守序列片段,而两两序列比对是无法满足这样的要求的。

多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻以及PCR引物设计等具有非常重要的作用。

作业:
1.Align the orthologous nucleotide and protein sequences from 5 organisms you found from first practice with MegAlign. Describe the sequences you used (the title of each sequence), explain whether the phylogenetic tree is consistent with the species tree from NCBI taxonomy database. Set the alignment report to show consensus strength and decorate the residues different from consensus with green shade.
(Hint: use the taxonomy common tree from NCBI to get the evolutionary relationship among the organisms. Save your organism name in a text file with each organism name in a line, and upload the file, choose Add from file, and you will see the relationship among the specified organisms) /Taxonomy/CommonTree/wwwcmt.cgi
Hint 2:Change the accession number in your fasta or genPept format sequence file to organism name, so that the phylogenetic tree can be easily understood.
方法与结果:
打开Megalign,选择FILE下的Enter sequence ,打开之前保存的来自于五个物种的蛋白(或核酸)序列;
首先选择打分矩阵,点击“Align”,选择Set residue Weight Table 选择矩阵:PAM100(核酸则设为weighted),通过“method parameters”查看参数,使用Clustal V的默认值;
其次进行序列的比对,选择Align下的“by Clustal V Method”开始比对,
再次待其结束后,进行比对结果的显示,选择view下的“Phylogenetic Tree”,显示出树形图;(图)与NCBI上找到的树形图进行对比(图);
接下来点击View 下的“Alignment reports ”,选择OPTIONS下的“Alignment report contents”勾中“show consensus strength”,即在序列中显示出相似性条块;在OPTIONS下选择“New decorations”对decoration parameters 下选“shade—residues differing from—the consensus”把字符选择现实的颜色为绿色,结果显示如下:(图)
同法可以得到核酸的树形图:(图)
分析:
系统发育树与NCBI上的物种树有很大的差异,因为可能这些物种间含有很多同源序列,我们不能单凭几条相似序列的同源关系来判断物种的亲缘关系,而应该考虑到物种更多相似序列的同源关系。

2.Search the Pfam database for GP120 family, download the alignment of the seed sequences in MSF format as a reference. Extract the 24 seed sequences from the file containing all sequences of this family in fasta format (in download options section). Paste the 24 seed sequences in a text file. Then align the 24 sequences with ClustalX, MUSCLE, and T-COFFEE respectively, compare the alignment from different software and analyze which one is more reliable
(Hint: use the MSF file as the true alignment or use HMM logo from Pfam database to locate the conserved residues).
得到标准数据:
进入pfam 选择key word搜索“GP120”,结果选择含“pfam”的一项,进入界面Family: GP120 (PF00516),在左侧选择“Alignments”,再在右侧窗口中找到“Format an alignment”中,点上“seed(24)”,“format”下拉选择“MSF”,点击“generate”创建24条子序列比对结果作为比对结果的标准。

同时下载其24条子序列的FASTA的全长用于ClustalX, MUSCLE, T-COFFEE三种方法的比对;
具体方法参照教程:
以下为三种方法比对结果结果的分析:以ENV_SIVGB为例:
先根据HMMLOGO查看分布,显示如下(图):
我们根据图形化显示可以找到一些位点只有单一的氨基酸分布,我选择的保守位置在第4位的T,第8位的G,第10位的P,第21位的C;需要注意的是,这里的位号是针对标准比对的pfam数据库中的标准比对文件的输出结果的序列的位置,而不是各序列FASTA格式下的标准位置。

换言之,这个位置会因比对算法不同而改变,我们也可得出结论:HMMLOGO 显示出的氨基酸分布是来源于HMM的局部比对,而其他三种算法ClustalX, MUSCLE, and T-COFFEE此次得出的结果为全局比对,因而可以预见到,其他三种方法得到的结果与“标准”算法相比必然有很大不同。

打开pfam中下载的标准比对,以msf为后缀的文件中可以发现关于此序列是如下显示的:ENV_SIVGB/47-569 QYVTVFYGVP VWKEAKTHLI CATDNS.... ...SLWVTTN CIPSLPDYDE
这条序列的第4、8、10、21位分别为T、G、P、C;在上下对比其23条子序列,可以发现标准算法的结果中输出的这些位置均分别为T、G、P、C;(这四点在ENV_SIVGB fasta序列的格式中分别占位为第50、54、56、67位);
clustalx的结果中:
gi|119495|sp|P22380.1|ENV_SIVG T(T为比对结果的第50位) VFYGV PVWKE AKTHL ICATD N---- ---SS LWVTT NCIPS LPDYD EVEIP
这种算法与标准结果比较,HMMLOGO中的第4、8、10、21位在此分别对应ENV_SIVG的50、54、56及67位(为T、G、P、C)。

再与其他23条序列对比这些位点也仍为T、G、P、C,完全匹配并带有“*”号;
MUSCLE中HMMLOGO中的第4、8、10、21位在此分别对应ENV_SIVG的56、60、62及73位(为T、G、P、C),与其他23条序列的比对位置也完全相同;T-coffee算法中则对应58、62、64及75位,也与其23条子序列完全匹配;
从整体上看,在三种方法比对结果的前100位中,不难发现T-coffee与clustalx得到的保守位点较多,均为11个。

MUSCLE较少,得到了9个。

pfam标准比对(前53位,因为局部比对从47位开始)中含有9个完全匹配(图形化界面)。

不难看出,虽然T-coffee与clustalx,找到的结果较多,MUSCLE结果较少,但与标准比对结果相比较,MUSCLE特异性好,找到的位点较为准确。

3.Search the Pfam database for nac family, and download the alignment of seed sequences in Stockholm format, use hmmbuild to build a HMM from those sequences, then use this HMM model to search (hmmsearch)the maize protein sequences (rar file named maize protein sequence in the practice 4 folder) for possible member of the family in maize. Next make a multiple sequence alignment of the maize members of the nac family you have just found with hmmalign. Align the same set of sequences with MUSCLE, is there any difference between the hmmalign result and MUSCLE result? Which one is more reliable?
过程:
1.nac famiily子序列比对结果的获得:"pfam"中"keywoerd search"输入nac,在结果中选择“PF01849”,进入页面的左侧选择“alignment”,右侧在“Format an alignment”一表中的“fomat”下拉选中stockholm,选择Generate,输出页面中的文字复制并保存(seed(91)),记为“nac.sto”;
2.安装hmmer:直接将hmmer
3.0_windows.zip解压至D:\hmmer下。

解压“maize protein sequence.gz”至D:\hmmer\test(新建),并命名为“maize_pr.fasta”将“nac.sto”拷至D:\hmmer\test下;
3.hmmbuild:开始——运行——cmd——切换至D:\hmmer——运行命令hmmbuild nac.hmm test/nac.sto ,输出nac.hmm文件;
4.hmmsearch:输入hmmsearch nac.hmm test/maize_pr.fasta > hmmsearch.out ,输出hmmsearch的结果hmmsearch.out文件;
5.hmmalign:写字板打开hmmsearch.out文件,找到其搜索到的18条序列,分别根据其检索号在maize_pr.fasta文件中找到FASTA格式序列,并粘贴18条FASTA序列于一个新文本中,另存为“seed.fasta”于D:\hmmer\test 。

再输入命令hmmalign nac.hmm test/seed.fasta > hmmalign.sto ,输出hmmalign的结果为hmmalign.sto;
6.将文件seed.fasta上传到MUSCLE中进行多序列对比,保存其clustalx格式输出结果。

结果与分析:(图)
hmmeralign是由HMM来识别不同基因之间的结构的相似程度的工具,可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构。

因此,在其结果#=GR XXX PP一行得到的“*”所指的后验概率也是建立在之前的nac家族的hmm的保守或突变矩阵的基础上,不是单纯的hmmsearch中得到的这18条序列直接相似性的比对。

但从结果来看,无疑HMM的方法找到的结果是灵敏的,因为这种方法找到了大量的保守区域;HMM 进行多序列比对的优点在于: 它可以结合入更多的生物信息, 比如二级结构。

这些信息通过影响HMM中的参数(转移概率和发射概率)来影响多序列比对的结果,此外,hmmeralign进行了局部比对,可以用于寻找局部相似保守区域。

然而单从这18条序列的匹配来讲,我认为此次HMM结果并不如MUSCLE准确,这大概是由于HMMER的结果是来源于对进化事件的模拟,而不是单纯的序列间的比对,这导致了虽然比对的结果不如MUSCLE准确,但过程更为接近真正的历史进化事件,而结果也更为详细。

对于单纯的序列比对,我认为基于序列本身的MUSCLE方法更可靠,但是从真正的序列产生过程来寻找保守结构,肯定是hmmeralign方法准确。

相关文档
最新文档