密码子数据库及密码子偏好性分析软件
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
密码子数据库及密码子偏好性分析软件
题记:转基因研究中经常要进行基因的异源表达,在翻译过程中,受体物种对外源基因密码子的翻译效率对表达有非常大的制约。因此,利用相应的生物信息学数据库及软件对目标序列进行受体物种的密码子偏好性分析将有助于完成对转基因效率的评价,适当选择合适的受体物种进行高效、可行的表达。
人物,阅读前,让我们感谢下列科学家,是他们为基因异源高效表达提供有价值参考。Yasukazu Nakamura博士:
The First Laboratory for Plant Gene Research,Kazusa DNA Research Institute 开发Codon Usage Database(生物密码子表的利用情况统计)。
PrimerX:编写了Codon Usage Analyzer在线密码子统计表处理软件(/cgi-bin/codon.cgi),它使得对密码子的统计用图表的形式显示出来,更加的直观可读。
Morris Maduro博士:针对E. coli开发了E. coli Codon Usage Analyze 。目前的版本为2.1。Thomas Schödl:开发设计的以图形形式对异源基因表达的密码子使用分析软件
(Graphical codon usage analyser),用以帮助异源基因表达时对异源基因进行改造,以适应受体物种,避免由于翻译时密码子使用情况的限制使受体物种对外源基因表达产生负面影响。内容:
一:密码子使用统计数据库
Codon Usage Database(.jp/codon/ 是由植物基因研究第一实验室(The First Laboratory for Plant Gene Research)Kazusa DNA Research Institute的Yasukazu Nakamura博士开发的生物密码子表的利用情况统计。数据来源于GenBank 的DNA 序列数据库,是GenBank 的Codon Usage Tabulated 数据库在WWW模式下的扩展和整合。每个物种的密码子使用情况都可以通过WWW方式以网页的形式进行分析查询。
在该数据库中29,311个物种的不同形式的密码子使用情况被统计,包含1,756,171 个全长编码区序列。该数据库的数据来源于NCBI GenBank 的Flat File[December 19 2005]. 在数据库的编写过程中,GenBank中的pri (primate sequence entries), rod (rodent sequence entries), mam (other mammalian sequence entries), rt (other ertebrate sequence entries), in (inertebrate sequence entries), pln (plant sequence entries), bct (bacterial sequence entries), rl (iral sequence entries) and phg (phage sequence entries) 文件类型所代表的数据被采用,而EST,pat (patent sequence entries), rna (Structural RNA sequence entries), sts (STS: sequence tagged site sequence entries), syn (synthetic and chimeric sequence entries) and una (unanotated sequence entries)文件类型所代表的数据被舍弃。另外,编码区序列(complete sequenced protein coding genes)被采用,但测序数据中包含的不明确碱基所代表的密码子被排除。
数据库的使用方法:
该数据库可以对物种的拉丁名进行密码子使用情况的搜索,但数据库的搜索是不支持英文别名的。比如对于酵母密码子的搜索,要用其拉丁名Saccharomyces cereisiae,而“yeast”的搜索结果显示为零。另外,数据库对物种也进行了字母排序的统计,同样对酵母,进入S起始的“字典”里可以找到。对于线粒体、叶绿体的密码子使用情况,数据库同样给出了汇总整理。
二:密码子偏好性分析
对于密码子偏好性的分析,有Correspondence Analysis of Codon Usage软件分析程序(/)和graphical codon usage analyser在线分析软件(/faq.php?on=cut)。而对于E. coli,由于其作为发酵工程表达蛋白的最主要的手段,因此Morris Maduro博士针对E. coli开发了 E. coli Codon Usage Analyzer(.edu/~mmaduro/codonusage/usage.htm),目前的版本为2.1,它对于在
E. coli中异源蛋白的表达效率给出了很好的建议。而由于graphical codon usage analyser的直观性和方便性,在密码子偏好性分析中得到了广泛的应用。下面就重点介绍以图形形式进行密码子偏好性分析的graphical codon usage analyser系统。
Graphical codon usage analyser 是由科学家Thomas Schödl开发设计的以图形形式对异源基因表达的密码子使用分析,用以帮助异源基因表达时对异源基因进行改造,以适应受体物种,避免由于翻译时密码子使用情况的限制使受体物种对外源基因表达产生负面影响。Graphical codon usage analyser 有三大方面的功能。它们完成了对特定序列的异源表达密码子使用情况的统计以及不同物种密码子使用情况间的比较。它与Codon Usage Database 联合使用,可以完成对Codon Usage Database 中已存在的所有物种的密码子偏好性的分析。
1. each triplet position s. usage table的功能是针对输入的特定序列进行异源表达分析的。在交互式的选择界面中输入你分析序列的名称、其来源物种以及DNA 序列,然后选择要进行异源表达的物种,系统即返回表达时针对每一个密码子进行翻译的效率。以GFP蛋白为例,其在A. ictoria 的表达情况的部分图示如图一。
我们看到其翻译时密码子的使用效率非常的低,所以可以通过序列改造的方式对序列进行编辑。或者通过在高效表达受体中表达。上图即是该基因在C. reinhardtii中的表达情况,我们看到通过选用C. reinhardtii进行表达,其翻译的效率得到明显的提高。
2. each codon s. usage table 的功能是针对输入的特定序列,其不同的氨基酸所对应的密码子在来源物种及异源物种中出现的情况的比较。操作方式同上。同样对GFP蛋白来说,部分比较图如图三所示,可以看到针对Ala和Arg其在来源物种A. ictoria及异源物种C. reinhardtii 中不同密码子的使用频率统计。经统计分析,两物种密码子使用的差异为32.56。
3. compare two usage tables 的功能则不是针对特定基因序列的,而是把两个不同物种的密码子使用频率进行对比,估计其总体翻译效率的差异。在交互式的选择中,只要指定两种想要比较的物种,即可得到其数据。例如对H. sapiens 和 E. coli之间的比较(见图四)我们看到其效果如each codon s. usage table 的结果。Ala的GCA密码子使用频率在H. sapiens为23%,而E. coli为21%。但与each codon s. usage table 不同的是这时对大量基因的统计的总体效果。
另外,Graphical codon usage analyser所提供的物种仅是最常用的物种,对于其他物种,可以利用Codon Usage Database进行其密码子使用情况统计的及时生成进行http添加。具体方式是利用Codon Usage Database找到你想用的物种的密码子表(例如Saccharomyces cereisiae 为.jp/codon/cgi-bin/showcodon.cgi?species=Saccharomyces+cereisiae+[gbpln] 然后在Format:中选择1. Standard 并选择A style like CodonFrequency output in GCG Wisconsin PackageTM 进行提交,对于得到的网页的链接
(.jp/codon/cgi-bin/showcodon.cgi?species=Saccharomyces+cereisiae
+%5Bgbpln%5D&aa=1&style=GCG)复制到Graphical codon usage analyser的分析系统里originating organism的Not listed的空白框里即可。