实验六蛋白质家族序列模式及多序列比对

合集下载

相关主题

序列模式挖掘综述

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验六、多序列比对及进化树的构建（3学时）
目的：
1、了解蛋白质序列模式二级数据库的结构、内容及基本使用方法。

2、了解多序列比对工具ClustalW/X的使用方法并学习对比对结果进行编辑与分析。

3、学习如何构建系统进化树。

内容：
一、蛋白质功能位点数据库PROSITE、蛋白质序列指纹图谱数据库Prints的内容、结构及
使用。

1、熟悉PROSITE数据库的数据结构。

从生物学院-国家生物学理科基地-课件下载处下载最新的课程相关内容.rar,解包后打开实验数据-实验二中的CBI EMBL format_P02753，找到Database cross-references项中的PROSITE，点击PS00213的链接。

则显示PROSITE数据库中Lipocalin 模式（AC号为PS00213）的记录信息。

利用网上的PROSITE user manual
（/prosite/prosuser.html#convent36）理解每一个字段及内容的含义。

回答问题：
A、L ipocalin pattern的长度是多少？
B、请解释/TAXO-RANGE=??EP?的含义。

C、分别解释NR字段中三行数据的含义。

D、Q28133蛋白（ALL2_BOVIN）是否符合此pattern？
E、Is this a good pattern? Why?
2、PROSITE数据库的检索。

ExPaSy(/prosite/) 及SRS（，）都提供了对PROSITE数据库的检索服务。

可以通过AC、ID、description、author等信息进行数据库检索，你还可以通过各序列数据库中的交叉引用链接（cross-references or xref等）找到相应的PROSITE pattern, profile or rules 信息。

ScanProsite工具（/tools/scanprosite/）则可以分析查询序列中可能包含的序列模式或序列谱，以作为进一步鉴定的基础。

同时，ScanProsite还可以利用特定的序列模式进行对SWISS-PROT、TrEMBL及PDB数据库的搜索以获得相应数据库中所有具有此模式的序列。

利用ScanProsite的help页面了解有关的使用方法。

回答问题：
F、如果查找PLEK_HUMAN序列中所包含的序列模式或序列谱？
G、如何利用ScanProsite在SWISSPROT中查找有多少个人类（homo sapiens）
序列包含有与PLEK_HUMAN相同的序列谱？请写明过程。

此查询执行的过程很慢，预先作过的结果可从实验六-prosite-ScanProsite Results Viewer of PLEK_HUMAN PROFILE.html文件中查看。

3、蛋白质序列指纹图谱数据库Prints的数据内容及查询工具。

利用课程相关内容-实验数据-实验二中的CBI EMBL format_P02753，找到Database cross-references项中的PRINTS，点击PR00179的链接，即显示PRINTS数据库中Lipocalin 蛋白序列指纹信息。

利用PRINTS数据库的用户指南（/dbbrowser/PRINTS/printsman.html）熟悉其中的内容与含义。

利用FingerPrintScan
（/fingerPRINTScan/）进行查询序列中的序列指纹鉴别（以实验五中的蛋白质查询序列为例）：
MSTA VLENPGLGRKLSDFGQETSYIEDNCNQNGAISLIFSLKEEVGALAKVLRLFEEN DVNLTHIESRPSRLKKDEYEFFTHLDKRSLPALTNIIKILRHDIGATVHELSRDKKKDTV PWFPRTIQELDRFANQILSYGAELDADHPGFKDPVYRARRKQFADIAYNYRHGQPIPR VEYMEEEKKTWGTVFKTLKSL YKTHACYEYNHIFPLLEKYCGFHEDNIPQLEDVSQF LQTCTGFRLRPV AGLLSSRDFLGGLAFRVFHCTQYIRHGSKPMYTPEPDICHELLGHVP LFSDRSFAQFSQEIGLASLGAPDEYIEKLATIYWFTVEFGLCKQGDSIKAYGAGLLSSFG ELQYCLSEKPKLLPLELEKTAIQNYTVTEFQPL YYV AESFNDAKEKVRNFAA TIPRPFS VRYDPYTQRIEVLDNTQQLKILADSINSEIGILCSALQKIK
回答问题：
H、此序列包含了哪种序列指纹？
I、此序列指纹包含了几个motif?
二、利用网上或下载的ClustalX/W进行多序列比对，并对结果进行编辑与分析。

1、多序列比对。

1）利用BLAST进行比对序列的收集。

（当然，你也可以利用SRS系统进行某家族序列的收集，并通过SRS整合的clustalW进行多序列比对。

）在你的多序列比对中，可能希望包含两种类型的序列：已经过鉴定的具有良好注释及实验信息的序列，以及你感兴趣的未鉴定的序列（但必须属于此序列家族）。

将后者加入多序列比对的主要目的是确定序列中不会发生突变的保守位点，同时确定重要性相对小一些的那些区域。

进入ExPASy的BLAST server (/tools/blast/),在检索框内输入P20472（如果在检索框内输入的是蛋白质序列，使用blastp程序，如果输入的是CDS序列，则选择tblastn程序）, 从options选项中的Number of best scoring sequences to sho w以及Number of best alignments to show的下拉菜单中选择1000。

点击RUN BLAST。

2）从结果中选择少于10条序列进行第一次的多序列比对。

注意选择的序列要在具有
良好的E值（10-40）与不太好的E值（10-5）之间平均分配，同时查看具体的alignment 以确定选择的目标序列与查询序列（P20472）之间具有全序列范围内的相似性。

在选择的序列前打勾，如P20472，P80079，P02626，P02619，P43305，P32930，P91482，P02620，P02622。

在Send selected sequences to项目的下拉菜单中选择合适的序列输出选项，如clustalW是将序列发送到EMBnet的ClustalW服务器上，点击提交查询内容，则将所选序列装填入ClustalW服务器的检索框内，利用默认参数，点击RUN ClustalW，则可以得到以不同格式保存的多序列比对结果以及.dnd格式的向导树（guide tree）或称dendogram，它并不是真正的系统进化树。

T-coffee也是一个多序列比对工具，采用的是与ClustalW相类似的渐进式比对算法，它产生的比对结果准确度要比ClustalW高，但运行速度要比ClustalW慢。

利用默认参数，我们可以看到T-coffee产生的结果不仅包含了各种格式的多序列比对情况以及向导树，还有用颜色标记比对质量的html文件及相应的PDF文件。

在这些文件中，红色表示高质量的片段，而兰色则表明比对的区域不可信。

3）将上步所选的序列以FASTA格式进行保存，并将多序列比对结果中的aln格式结果及.dnd文件进行保存。

4）接入EBI的clustalW服务器（/clustalw/index.html），将另一个蛋白质P19132的FASTA格式加入到刚才下载的FASTA格式序列文件中。

如果查看刚才利用P20472序列进行对库搜索的结果中，这个蛋白的E值为4.4！而且其与查询序列的同一性仅为在33个连续残基中的39%，因此进化关系上与P20472很远。

将这些序列进行多序列比对分析，必要时进行相关参数的设置。

在Phylogenetic tree 选项中的tree type选择phylip或dist，使用帮助参见课程相关内容-实验数据-实验六中的EBI Help-clustalW.html，将比对结果进行保存，并与前一步骤得到的结果进。

实验六 蛋白质家族序列模式及多序列比对

实验六蛋白质家族序列模式及多序列比对