密码子偏好性分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(六)蛋白的疏水性水平以及氨基酸
保守性不同的基因编码序列其氨基酸含量有可能不同,一 方 面 ,稀有 氨基酸由于本身出现几率小,一旦使用某种密码子而其他密码子出现几 率更小;另 一 方 ,面对 于 比 较 保 守 的氨基酸不容易发生突变则其密 码子使用模式固定为序列本身组成。
研究方法

(一)研究指标
密码子在蛋白翻译过程中需要和携带对应反密码子的tRNA相互识别作用, 才能把游离的氨基酸残基转移到多肽链上因 此这 些对应的的 tRNA丰度 就决定了蛋白质合成的资源。密码子使用的偏性与细胞内tRNA 的含量 呈正相关。 基因长度越长,能够容纳的密码子越多。在没有其他压力的情况下,则 同义密码子被选择的概率不会受样本容量限制而出现统计上的误差;相 反基因长度越短,可以编码的密码子数量和种类越少,甚至有的密码子 根本不会出现 。

同义密码子相对使用度(Relative synonymous codon usage, RSCU):它是 指对于某一特定的密码子,在编码对应氨基酸的同义密码子间的相对概率,去除 了氨基酸组成对密码子使用的影响。该值的计算方法为某一密码子所使用的频率 与其在无偏使用时预期频率之间的比值,如果密码子的使用没有偏好性,该密码 子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相 对较多的密码子,反之亦然 。
计算公式:

其中p,表示密码子i的使用频率,n是所有密码子的数目
GC 和 GC3s G C 测量的是基因中 G 和 C 的含量 。G C 3s 则计算密码子第三个碱基 中出现 G 或 C 的频率 。一般认为这两个因素对基因的密码子选择有重 要影响。 GC content 不同物种GC含量变化很大 识别基因水平转移,判断外源基因 GC skew (G-C)/(G+C)% 预测细菌或古细菌复制起点
(一)基因序列碱基组成的偏好性
在不存在自然选择压力 的 情 况 下, 一定方向的突变压会影响序列本 身的碱基组成 ,而这一效应同时也会反映在同义密码子的第 3位上。这 样 的偏好性仅仅是反映了序列组成的特征,而与蛋白功能或表达水平无 关。
(二)弱的自然选择效应

对于所有密码子家族来讲,即使存在密码子偏好性,由于同义密码子并 不改变最终的蛋白产 物。所以对于那些频繁被使用的密码子的选择性被 认为是很弱的。但是这种弱的选择会体现在基因表达水平上。在高表达 的基因中,密码子使用偏好性要强过一 般表达的基因。
研究方法
基因样本的选择
来自百度文库


GeneBank ( http: / /www.ncbi.nlm.nih.gov / ) 中获得,样本选择原 则: ①样本为全长蛋白质编码基因序列( CodonDNA sequence,CDS) ; ②CDS 长度大于 300bp; ③对于基因家族成员仍包含于分析样本内; ④不包括非研究类别基因序列;

进行查询
如只需要基因序列而不需要详细信息,则需点击TASTA

如需进行图文分析,则点击Graphics
计算同义密码子相对使用度(Relative synonymous codon
usage, RSCU) 在genebank中取出序列后,用codonw进行在线分析
结果如下:
利用cusp计算密码子Franction和Frequency。 Franction:各个密码子在编码该氨基酸的密码子中所占的比例。 Frequency:该密码子在编码总基因密码子中出现的频率。

由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现 得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993) 和最优密码子使用频率 FOp(LavnerandKotlar2005),弥补了密码子的 相对嫡值的加Ew(Suzukietal.2004)等。多种多样的技术和方法促进了密 码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致, 特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在 使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才 能确保结果的正确性。
密码子偏好性分析
陈永红 孟如月

密码子是核酸携带信息和蛋白质携带信息间
对应的基本原则, 是生物体内信息传递的基本 环节。在 生物的遗传密码中, 除色氨酸和甲硫氨酸只有 一个密码子外, 其余氨基酸都有一个以上的简 并密码子。对 同一物种, 不同蛋白编码密码子在基因中出现 的频率不同; 就同一种氨基酸而言, 编码该氨 基酸的不同密 码子的比率在不同的蛋白中也有差异, 因此生 物体基因对简并密码子的选择具有一定的偏 爱性。



最有密码子鉴定原则: 1,密码子的可变位点 (wobblebase)与细胞内浓度最高的tRNA的反义密 码子第一位互补; 2,tRNA的反密码子的可变位点为或5一梭甲基尿啼陡时相对于G更偏好 结尾为A的密码子; 3,反义密码子的可变位点为l(Inosine)时,更偏好结尾为U或C的密码子; 4,密码子若第一、二位均为A或U,则第三位更加偏好C。
如何在genebank中查找一基因的序列

(1)如果拥有基因accession号即可,在下拉按钮中选中Nucleotide, Search前输入accession号,直接会输出所需的基因序列。 (2)如果拥有基因ID号,也可以用ID号来查询,例如我们要查询一个ID 号为16151096 的基因
反映的是在样本总数中各个密码子的使用频率,即某一密码子在样本中 的实际观察值与该密码子对应的氨基酸在样本中的实际观察值的比值。 用软件codonw(http://codonw.sourceforge.net/)来计算。


如图
分析结果如下:
结果如下:
同样,可计算出密码子适应指数:
Sequence: AY047586.1 CAI: 0.109
用chips计算出有效密码字数: # CHIPS codon usage statistics Nc = 48.082
计算同义密码子相对使用频率(relative frequency of synonymous codon,RFSC)
有效密码子数 ( Effective Number of Codon ,Nc)

C AI 测量的是某个基因所用的密码子与高表达基因所用密码子的接近程 度 。 和 C AI 不同 ,Nc测量的是某个基因的密码子偏好程度 , 如果一个 基因平均使用每一个密码子 ,则其 Nc 为 61 ,如果一个基因只使用每组同 义密码子中的一个 ,则其 Nc 为 20 。理论上讲 ,一个具有低 C AI 的基因 也可以同时具有低 Nc 值 ,换句话说 , 该基因具有较强的密码子偏好性 , 只不过其偏向的并不是高表达基因所用的密码子 。

其中RSCUmax、是高表达参照基因中,每一个氨基酸里使用频率最高的密码子的相对同义密码子使用频率,L是基因中 密码子的个数
高 频 密 码 子与最优密码子
某一密码子相对同义密码子使用频率单值超过60% 或者超过该组同义密 码子平均占有频率的1.5 倍的密码子即为高频码子。 最后采用高表达优越密码子分析方法先,计算每个基因的密码子有效数 和相对同义密码子用法, 然后再根据各 Nc值确 定高表达和低表达样本 组,计算出这两个样本组中各个密码子各自的值,最后通过卡方检验确 定出高表达基因的优越密码子确定最优密码子。
(三)tRNA丰度

(四)基因长度

(五)蛋白质的结构功能

基因密码子的使用与基因编码的蛋白的结构和功能有关 ,蛋白质的折叠 方式与序列之间存在一定的相关性 ,蛋白质的三级结构与密码子使用概 率有密切的关系。在不同物种中类型相同的基因具有相近的密码子使用 模式 。对于同一类型的基因由物种引起的同义密码子使用偏性的差异较 小。
同义密码子(Synonymous Codons):编码同一氨基酸
的密码子。
在蛋白质编码过程中, 某一物种或某一基因通常倾向
于使用一种或几种特定的同义密码子, 这种现象称为 同义密码子的使用偏性(Synony mous Codon Usage Bias)
研究密码子使用偏性的意义: (一)作为预测真核生物核糖体在细胞内定位的一种
手段 ,通过比较核基因编码的核糖体蛋白和线粒体基 因编码的核糖体蛋白上密码子使用模式的差异来预测 未知蛋白的基因所在基因组位置。
(二)通过密码子使用偏好性的研究, 可以判定一些最优
密码子,针对这些密码子设计基因工程表达载体可以提高目 的基因的表达量 。 (三)利用密码子使用偏好性和某种功能的关联程度对某些 未知功能基因进行预测利用已知的密码子偏好知识对未知表 达水平 的 基 因 进行 判 定 初步判断该基因的表达水平高或 低。 (四)利用编码区和非编码区的基因组特征差异进行全基因 组扫描,发现新基因。 密码子使用偏性的影响因素:

其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1<n6), 戈代表第i个密码子的出现次数。RSCU是衡量密码子偏性较直观的一个参数。
密码子适应指数( Codon adaption index , CAI ) 该指数以一组具高表达水平的基因为参考 , 测量某一个基因的密码子偏 好情况和这些高表达基因密码子偏好情况的接近程度 , 如果一个基因完 全使用高表达基因中所用的密码子 , 则其 C AI 值为 1 。目前这个指数已 被广泛用来预测基 因 的 表 达 水平。
相关文档
最新文档