蛋白质三级结构预测(swiss-model同源建模)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用同源建模预测蛋白质的三级结构
首先声明一下,以下纯属个人观点,方法步骤仅供参考,不可作为规范标准,结果出来之后请自行分析结果。
我用的是SWISS-MODEL同源建模的方法进行的蛋白质高级结构预测,其实这个方法是有限制条件的,不过作为一个选修课作业,我们不用深入探究,所以有时不够严谨,大家知道就行!
对于一个未知结构的蛋白质,
白质建立结构模型。
那么,我们首先要做的就是找到和我们
空格和“—”的氨基酸序列,例如:【字母大小写没有影响】vlqdsigyirilsmmdpvvdefdrayqqvkdfpdlmvdvrengggnsgngkkiceylihkpqphcvspdweiiprkd)同源的、相似度最高的、已知三级结构的蛋白质作为模版。
打开SWISS-MODEL网站:/,选择“Template Identification,提交蛋白质序列进行模板识别,如图所示,注意:邮箱必填,名称随便填写,序列粘贴过去就行,下面会有很多选项,建议不知道的不要乱动,直接提交(Sbumit)吧。
这个东东跟BLAST差不多,你等它自动刷新吧,它会返回结果的,在结果页面,你会看到跟BLAST差不多的结果,选择相似度最高的那个蛋白作为下一步的三维模版(一般是第一个蛋白就是),如图:大家看红线标出的部分(是我标的),那个就是我们要找的模版,大家也可以在结果页面的下面仔细看看,找到最匹配的蛋白。
这里还有一点要作说明,就是上图标出的代码是PDB编号,前四个表示PDB- Code,最后一位表示Chain-ID,具体什么意思,大家有兴趣就去了解一些吧。
接下来,去NCBI串串门吧,在NCBI中搜索上面查到的蛋白的PDB号,一般输入前四位就行啦,注意:搜索蛋白库(Protein)。
找到以后,以FASTA格式显示。
接下来,我们再回到SWISS-MODEL,接下来就是重点和难点啦,在线提交序列进行同源建模分析,这个在线提交不是大家想象的那么容易,这个耗费了我
大部分的时间,说到这里我就想画个圈圈诅咒它,大家注意啦~~~~~~~~~~~
SWISS-MODEL 是一个自动化的蛋白质比较建模服务器,该服务器提供用户三种模式可选择:
Automatic mode(简捷模式): 用于建模的氨基酸序列或是Swiss-Prot/TrEMBL (/sprot )编目号(accession)可以直接通过web界面提交。
服务器会完全自动地为目标序列建立模型。
用户可以选择指定模板结构,模板可以来自由PDB数据库( )抽取得到的内建模板库,也可以上传PDB格式的坐标文件。
Alignment mode(联配模式): 这个模式需要多序列联配的结果,序列中至少包括目标序列和模板(最多可输入5条序列)。
服务器会基于比对结果建模。
与模板的联配结果。
这个结果也要上传到服务器。
这种方式提供对建模过程中细
节的控制,例如选择不同的模板,手工编辑目标序列和模板的联配结果,以便正确地定下插入和删除的位置。
项目模式还能够用于重复改进Automatic mode的结果。
我选择的是Alignment mode(联配模式),其他两种模式大家也可以试试,谁愿意试谁试,我是不尝试啦o(╯□╰)o
进去后,把邮箱填上,项目名称随便填,Alignment Input Format,虽然给出了很多格式,但是还就对FASTA格式比较熟悉,就选FASTA吧,接下来,就是见证奇迹的时刻,成败在此一举,我们要在一个框里写入两个FASTA格式的氨基酸序列,首先,把你要查询的氨基酸序列粘贴进去,接下来我们要开始创造标准FASTA格式了,在序列前面加上“>”,FASTA 格式里都是以此开头的,然后在“>”后面紧接着写上“Query”(其实写什么都可以,主要起识别作用),然后按下回车键,序列在第二行,名称在第一行,这才正确;另外,我们见到的FASTA格式每行好像都是70个字母组成的序列吧,给序列排排版吧,一行70个,满了就换行(这一步不知道是不是必须的??)。
紧接着,回车一下,在下一行粘贴上我们在NCBI上查询到的那个模版的FASTA格式,直接粘贴就可以啦(*^__^*) ……
如图所示:
然后提交。
然后,又出来一个界面-_-|||,大家选择一下Target Sequence和Template Sequence 就行了,它会自动识别我们提交的两条序列的,如果没有下拉框选项可以选择,那么恭喜你,返回重做,肯定某个环节出问题啦。
后面还有两个要填写的框框,PDB-Code和Chain-ID,这个给大家说过了,前四位和最后一位,不懂就百度吧。
如图所示:
终于,我们可以提交了,耐心的等待它出结果吧,不要关闭网页等它回复邮件,貌似它没有给我发邮件,还是乖乖的等待它自动刷新吧……………………
其实,关闭网页应该也可以,这个网站给我邮件发送了一个登陆密码,用邮箱做用户名可以登陆SWISS-MODEL,在[ myWorkspace ] 中可以看到已提交的序列。
结果出来~\(≧▽≦)/~啦啦啦,可是我看不懂%>_<%,我能告诉大家的是,这个结果页面可以以PDF格式输出,结果自己慢慢分析吧,如图所示:
在结果输出的PDF中,我们可以看到一些打分,我(ˇˍˇ) 想~,我们能给老师的也就是这些数据吧,也许他能看懂呢,嘿嘿
感言:生物信息学是博大精深的,我们必须花费大量时间,才能触及其皮毛,怪不得伟大的生物学家往往都是搞计算机和软件的。
生物信息学的作业也许就这样可以告一段落啦,究竟作业怎么写呢,大家自己感觉吧,不要问我啦,我已经神经错乱了。
生物信息学就是生命科学的一朵奇葩,当你不了解它时,感觉它很神秘;当你想去了解它时,发现它很深奥;到最后,你会发现,你了解的越多,你就越不了解它。
它是我们用来解决问题的工具,但是却在此过程中给我们带来了如此多的困难和问题,蓦然回首,我仍一无所知、望尘莫及,但是,大家努力吧,生物信息学和基因工程将会是生命科学的核心!
郭广兴
2013年4月25日星期四。