密码子偏好性与异源蛋白表达
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
密码子偏性与异源蛋白表达
原文:Claes Gustafsson, et al. TRENDS in Biotechnology, 2004,22(7): 346-353.
/corp/images/MS102504CG.pdf
翻译:zhxm409511
在1977年,当Genetech的科学家和他们的科研合作伙伴首次利用细菌生产出人类蛋白(生长激素释放抑制因子)时[1],蛋白的异源表达在整个生物技术产业中发挥着关键的角色。那时,仅知道生长激素释放抑制因子的氨基酸序列,还不知如何从人的基因组中克隆该基因,因此,Genetech小组采用数条寡核苷酸合成了14个密码子长的生长激素释放抑制因子基因。Itakura和同事们设计这些寡核苷酸时遵循了三条标准[1]。首先,优先使用MS2噬菌体偏爱的密码子——尽管当时对大肠杆菌的基因组DNA序列还知之甚少,却已刚刚完成了MS2噬菌体的测序,并认为该噬菌体的序列能够代表大肠杆菌高表达基因所使用的密码子。其次,消除寡核苷酸不必要的分子内和分子间配对,因为这可能影响基因合成。第三,避免那些先是富含GC随后是富含AT的序列,当时认为这种序列可能会导致转录终止。结果,利用这条合成的基因首次制生产出来了具有功能活性的多肽。
25年后的今天,大多数基因克隆自cDNA文库或直接利用聚合酶链反应(PCR)从相应的基因组中扩增获得。要尽量避免从头合成基因,因为这样做需要消耗大量的财力和人力[2]。尽管基于PCR的克隆被广泛使用,但很多情况下它还是不及所描述的那样快捷和容易。它经常需要一些不易得到的模板(对于具有内含子的生物,需要cDNA模板),此外还需要进行PCR条件的优化,需要对PCR产物进行测序,如果PCR引入了任何的配对错误,还经常需要通过定点突变进行修复。然而,当扩增出的基因克隆入表达载体后,真正有趣的事情就发生了:经常是没有蛋白表达或表达水平很低。人们已经进行了大量的研究,以提高克隆基因的表达水平,包括优化宿主的生长条件,建立新的宿主系,改用新的宿主,和无细胞系统[3]。尽管这些方法都取得了一些进展,但它们都是围绕一个最根本问题进行的:一种生物所采用的编码蛋白的DNA序列经常不同于另外一种生物在编码该蛋白时所采用的DNA序列。
为什么不同的生物会偏爱不同的密码子?
遗传密码采用61组三连核苷酸(密码子)编码20种氨基酸,采用3个密码子终止翻译。因此每个氨基酸利用1个(Met和Trp)至6个(Arg,Leu,和Ser)同义密码子编码。这些密码子在核糖体中被互补的tRNAs阅读,而这些tRNAs已经事先携带了相应的氨基酸。密码子的兼并性使得同一蛋白可采用多种不同的核苷酸序列编码。对于两种不同的生物,或对于同一生物的高表达和低表达基因,有时甚至在同一个操纵子内部,对不同密码
子的使用频率差别可能很大[4]。
迄今,科学家仍在思索是什么进化压力导致了密码子使用偏性[5]。每种生物内同义密码子之间的突变-选择平衡至少可部分解释基因组GC含量对密码子分布的影响及密码子使用形式的改变[6]。一些研究者推断,旨在减少同工tRNAs多样性的密码子偏性能够降低新陈代谢负荷,因此,有利于生物在快速生长条件下节约部分能量[7]。不管是什么原因导致了密码子偏性,已日益清楚的是密码子偏性对异源蛋白表达有深远的影响[8]。
密码子偏性的观察
一个基因的密码子偏性及其表达水平之间的关联被用来定义密码子适用指数(CAI)[9]。这种衡量密码子使用的方法源自由众多高表达基因组成的引用集(reference set),而这些高表达基因通常被用于衡量一种生物对特定密码子的偏爱程度。根据基因组序列数据,这一指数可被用于预测内源基因的表达水平[10]。然而因为该指数衡量的是偏爱程度,而非偏爱的性质,因此不能用于评价一个基因和一个候选宿主之间的兼容性。基因可能具有更高的偏性,以至导致很高的CAI,但基因偏爱的密码子可能与宿主细胞偏爱的密码子截然不同。
主成分分析法能够将多维的信息压缩成一个两维图形。它提供了一个非常方便的方法去观察不同生物间密码子偏性的差别。图1展示了8个经广泛研究的生物基因组的平均密码子偏性。图中显示,Streptomyces coelicolor具有非常极端的密码子使用图形。该生物的每一个摆动位置(每个密码子的第三个碱基,遗传密码子的兼并性就产生于此)都是G或C,以至S. coelicolor具有很高的GC含量(71%)。图中还显示,Saccharomyces cerevisiae,Caenorhabditis elegans和Arabidopsis thaliana聚集成群,指示它们具有相似密码子偏性,提示在表达C. elegans和A. thaliana的天然基因时,S. cerevisiae可能是一个很合适的宿主。图1还明确的显示,E. coli和人之间的密码子偏性具有明显的不同。这证实了很多研究者通过大量研究获得的结果:在按人的密码子使用方式表达蛋白时,E. coli不是最佳的宿主。利用图中的密码子分布,可以帮助观察每种生物对密码子的使用与其他生物有何不同。例如,哺乳动物细胞通常使用AGG和AGA编码Arg(分别占人基因Arg密码子的11.2%),然而,它们却很少在E. coli中使用(分别为2.1%和2.4%)。因此,在图1中,从人的整体密码子偏性可以看出,AGG和AGA有助于主成分2(PC2)的正偏离。相比之下,E. coli 偏爱的Arg密码子为CGT(16.4%的情况下使用,在人基因的使用频率为4.5%),因此,CGT有助于PC2的负偏离。因此,“密码子使用间距”图非常有用,它能够快速鉴别出每种生物基因不经常使用的密码子,而这些密码子可能会给异源表达带来麻烦。
密码子偏性是如何影响蛋白表达的?
密码子偏性被确定为原核基因表达中一个最重要的因素[11]。其理由很明显,因为原核细胞偏爱的密码子与相应的tRNAs 浓度成正相关。这种关联有助于优化翻译系统,平衡密码子含量和同工tRNA 的浓度[12]。例如,在E. coli 中,tRNA 4Arg 阅读不经常使用的AGG 和AGA 两个Arg 密码子,在细胞中tRNA 4Arg 只具有很低的水平。看起来,密码子使用和同工tRNA 浓度好象是共同进化的结果,与低表达基因相比,这一共同进化的选择压力对高表达基因的影响更加显著[13]。
同工tRNAs 与密码子频率的共同进化有时甚至会偏离规范的遗传密码子[14]。比较基因组学研究为遗传密码子的进化带来了曙光[15,16],不同生物间的轻微的密码子差别是异源蛋白表达的重要阻碍。的确,有些生物,尤其是纤毛虫在阐明端粒生物学方面发挥了重要的作用,它拥有tRNAs 能够将规范的终止密码子TAA 和TAG 识别为Glu ,使得这些图1. 以图形表示“密码子使用间距”。主成分分析(PCA )所采用的算法能够将
几个相关变量(在此指密码子使用频率)转换成少数的被称为主成分的不相关变量。第
一个主成分尽可能多的代表数据中的变异,每个随后的变量尽可能多的代表剩余的变
异。八种生物(http://www.kazusa.or.jp/codon/)所有蛋白对每种密码子的使用频率被列
成表格(8行/生物×62列/密码子),再通过PCA 生成一个“密码子使用间隔”图。Met
和Trp 分别由密码子ATG 和TGG 编码,在此这两个密码子被忽略。总密码子变异信息
的70%由PC1代表,12%由PC2代表。黑色方块表示负荷量(例如,每个密码子对两
个主成分的贡献;举例来说GAT 和CAG 对PC2没有什么贡献,但对PC1具有几乎相
等的负性和正性贡献)。The values of the codon loads have been normalized to that of the
organism distribution. 红色正方形表示该间距中每种生物的偏爱。该图形是采用
Mathworks 的MatLab (/)绘制的。