生物信息学概论第三章替换模式

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 与DNA序列一样,回复突变会导致严重地低估替换数目 – 一个氨基酸转变为另一个氨基酸的替换路径的长度也不总是一致的, 比如CCU->CUC只要经历一个突变过程,而CCU->AUC要经历两个 – 氨基酸替换对蛋白质功能的作用各有不同,而且会随着周围氨基酸的 不同而变化,这会令问题更加复杂
– 解决这个问题的一个方法就是利用经验数据来衡量每一种核苷酸序列每一 百万年只发生0.35%的改变,对于人类来说这种改变 是非常缓慢的,但是比之分子的进化又是相当迅速的
3.1.3 同义和异义替换
同义替换:改变核苷酸编码序列,但不影响蛋白质 的氨基酸序列的替换 甘氨酸(GGG,GGA,GGU,GGC)
异义替换:改变核苷酸编码序列,同时影响蛋白质 的氨基酸序列的替换
替换前
A
T
C
G
各列总计
3.2.5 蛋白质序列间的替换
• 两个蛋白质序列间的不同氨基酸的比例(p)可根据下式简单 推算: p = n/L n代表各种氨基酸在两个序列间相差的数量,L是在序列比对 中能够观测到位点的个数 • 要精确的计算两个或更多的蛋白质氨基酸序列间发生替换的 数目,一般来讲比估算非编码DNA序列的替换数目要困难。
同义(和伪基因)的替换速率Ks,通常被认为能较好反 映出基因突变时实际速率;而异义替换速率Ka则不然, 因为他们逃脱不了自然选择
3.1.6 等位基因与固定
绝大多数自然界现存的生物种群包含着大量的基因变异, 从而形成等位基因。一个物种某个基因的不同版本被称 之为等位基因。
- 举个例子,人平均每200个碱基对中就有一个不同于其他人。
PCC(1)=1/4 + (1/4)e-4β + (1/2)e-2(α+β)
• Jukes-Cantor模型和Kimura的双参数模型的对称性说明四个核苷 酸在t0和任何时刻都以一样的概率存在( PGG(t) =PAA(t) =PTT(t) =PCC (t) ) • 就像Jukes-Cantor单参数模型,展开后的方程以及换成另外3个 核苷酸得到的方程,是当两个序列间的不同核苷酸个数已知的 时候估算替换的真实数目的一个很有用的公式,如下所示: K = 1/2ln[1/(1-2P-Q)] + 1/4ln[1/(1-2Q)] P是序列中转换的核苷酸的分数,Q是颠换的核苷酸的分数。
– 有利的
– 中性的 – 不利的
• 有利的变化实际上只占少数 • 核苷酸序列的某些变化对一个生物体的影响比其他因素更 大
3.1.1 突变率 r = K/(2T)
r:替换速率(突变率)
K: 来源于同一祖先的两个序列之间的替换数量 T:分叉时间 如果不同物种间的进化率是相似的,在没有其他证 据的情况下,通过替换速率(突变率),可以推测进 化事件发生的时间。 比较基因内和基因间的替换速率(突变率)常用来 确定不同基因组区域的作用
300
50 131 132 300
96.0
9.0 41.8 33.0 76.3
19.6
3.0 8.1 11.5 14.3
3.39
1.86 3.48 3.00 3.60
5’UT
内含子 3’UT 3’端侧翼序列
由上表中,可以揭示的一个普遍规律:
内含子和两端侧翼序列的替换积累速度最快 其次是能转录而不能翻译的序列 最慢的是编码序列
0.8
0.6
K= p
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
p
3.2.2 转换和颠换
嘌呤:含氮碱基有两个环状结构 嘧啶:含氮碱基有一个环状结构
转换
(transition) 嘌呤 嘌呤 嘧啶 嘧啶
胞嘧啶
C

胸腺嘧啶
T
颠换
(transvertion) 嘌呤 嘧啶 嘧啶 嘌呤 在大多数DNA片段中,转换出 现的概率高于颠换出现的概率
如果不区分转换和颠换(也就是说p = P + Q),这个方程就简化成 了Jukes-Cantor公式
3.2.4 多参数模型
• 20世纪80年代以来,已经产生出大量的序列数据,对这些 数据的分析结果表明:Kimua关于核苷酸以两种速度变异 的假设,与Jukes-Cantor关于所有的核苷酸转变为其他3种 的概率都是相同的假设一样,都过于简单
甘氨酸(GGG)->丙氨酸(GCG) 经过详细分析可以发现,基因的编码序列发生同义替 换的概率几乎是异义替换的3倍
并非三联密码子上的所有位置都会发生异义替换。事实 上,三联密码子中的核苷酸可分为3类: 非简并位点:该位点的变异都是导致替换 双重简并位点:该位点有两种不同的核苷酸翻译成 同一种氨基酸,另外两种不同的核苷酸则翻译成不同 的氨基酸 四重简并位点:这一位点上无论是什么,都不会影 响该密码子的翻译
例:
分类 例子
非简并位点
苯丙氨酸(UUU) 亮氨酸(CUU) 异亮氨酸(AUU) 缬氨酸(GUU) 天冬氨酸(GAU,GAC) 谷氨酸(GAA,GAG) 甘氨酸(GGG,GGA,GGU,GGC)
双重简并位点 四重简并位点
如果自然选择在出现改变蛋白质功能的变异的时候就起作用,那么 很显然,处于四重简并位点的核苷酸替换的积累最为迅速,而处于 非简并位点的替换积累最为缓慢
对,就可能会严重地低估序列在最近的共同祖先之后发生的
替换数目
3.2.1 Jukes-Cantor模型
• 在替换经常出现的地方,某些位点就可能会发生多 次替换 • Juke-Cantor假设每个核苷酸都有可能转变成其他任 何一个核苷酸,基于这一假设,他们建立了一个数 学模型
– 假设每个核苷酸都有可能转变成其他任何一个核苷酸,概 率为α。 – 如果基因中某个位点在时刻t0为C,那么在时刻t1仍然是C的 概率就是PC(1)=1-3α
替换后 A 3.3 (1.2) 7.2 (5.0) 23.6 (37.7) 34.1 (44.0) T 4.0 (1.5) 17.0 (33.2) 4.6 (3.2) 26.3 (37.8) C 4.6 (1.7) 10.4 (3.8) 6.0 (3.7) 21.0 (9.2) G 9.8 (3.6) 2.7 (1.0) 6.2 (4.5) 9.0 (18.7) 各行总计 18.4 (6.7) 16.4 (6.0) 31.1 (42.6) 34.2 (44.7)





A
腺嘌呤

G
鸟嘌呤
3.2.3 Kimura的双参数模型
• 该模型考虑了转换和颠换的不同速率。 • 假定转换一律以α速率进行,颠换一律以β速率进行。 • 如果基因中某个位点在时刻t0为C,那么在时刻t1该位点保 持C的概率是PCC(1)=1-α-2β
• 类似Jukes-Cantor模型,将上式展开后,得到,
3.3 基因间进化率的变化
• 基因内不同部分的进化率有着很明显的差异,同样,我们 发现基因间的进化率也是各不相同的。如果排除统计因素 ,进化率的差别应归咎于两个因素
– 突变频率的差异 – 自然选择对位置的影响程度
• 同义替换率的差异远远不及异义替换率的差异
– 尽管基因内某些部位比其他区域更容易发生偶然的突变,但同义 替换率的差别很少超过两倍,而异义替换率却有将近200倍的差异 。
等位基因的差异变化很广,从不会产生影响到产生严重 后果。各种等位基因相对频率的改变就是进化的基础 新的等位基因以非常低的频率出现:q = 1/2N
N是这个种群中具有繁殖活性的二倍体的数量
危及生物体生存和繁殖的突变,会在自然选择中,从 基因库里扫地出门,这种突变频率最终降为0
如果等位基因优势突出,其频率就渐渐接近于1,即 该等位基因被固定
3.1.2 功能约束
自然选择能够杜绝导致生物体生存和繁衍能力下降 的基因变化
那些能够引起蛋白质催化性能及结构特征变化的基因变 化,会更加受制于自然选择。十分重要的基因部分被认 为受功能约束控制,它们在进化过程中趋向于非常缓慢 的变化 另外一些不会对氨基酸序列或表达方式造成影响的基因 变化,很少受到自然选择的纠正,因此这种类型的变化 速度相对较快
– 在t2时刻是C的概率为: PC(2)=(1-3α) PC(1)+ α [1-PC(1)]。
– 在tk时刻是C的概率为: PC(k)=(1-3α) PC(k-1)+ α [1-PC(k-1)]
= α +(1-4α)PC(k-1)。 – … – 任意时间t时刻,位点为C的概率为(即非替换位点概率) PC(t) = 1/4+(3/4e-4αt) – 估计替换数目的公式为: K = -3/4ln[1-(4/3(p))]
• 既然存在4种核苷酸,每一个都可以转变为另外3个之一, 因此就应该有12种可能的替换
• 每种突变类型的概率如下表所示,有了这些参数,就可以 建立更复杂的12参数模型 • 由于GC含量会引起替换速率的差异,于是引进第13个参数 来弥补这个偏差
人类基因组的Alu-Y(Sb)序列的核苷酸替换的相对频率
3.1.5 替换和突变
虽然一个基因核苷酸序列的每一位都可能发生变化,然 而人们没有观察到所有可能的变异,但这个问题却使人 们发现了分子进化研究中突变和替换这两个词在使用上 有趣的数字差异。 突变:是指DNA的复制和修复过程中出现错误而导致 的核苷酸序列的改变
替换:是指了某个层次上经过自然选择过滤后的突变
大量分析证实,基因不同部分的变化速度确实千差万别, 而这些速度正反映了不同部分受功能约束的程度
人、鼠、兔、牛的类β球蛋白基因各部分的差异
基因区域类别 所有非编码序列 所有编码序列 5’端侧翼序列 人类/基因区域 替换的平均数量 长度 913 441 67.9 69.2 标准方差 14.1 16.7 替换速率(个替换/ 位点/10亿年) 3.33 1.58
人、兔类β球蛋白基因编码序列里各种位点的替换率
位点类型 位点数目/bp 302 60 85 替换数目 17 10 20 替换速率(个替换/位 点/10亿年) 0.56 1.67 2.35
非简并位点
二重简并位点 四重简并位点
3.1.4 插入删除情况和伪基因
在有转录活性的基因中,插入删除很难发生。原因 在于插入删除会改变阅读框。DNA和修复酶经过亿万 年的进化,已形成合理的机制,一般会使插入删除比 简单的碱基替换发生的概率小10倍
3.2 估算替换数目
一般来讲,从两个序列的比对中获得的替换数目(K)是任 何分子进化分析中最重要的一个变量(信息)。 如果一种最优的比对表明两个序列之间只有相对较少的替换,
那么只有简单地数一下替换个数就可以确定K值。
然而,在核苷酸序列被用来做分析研究之前,T.Jukes和 C.Cantor就认识到如果序列之间的差异很大,那么用序列比
第三章 替换模式
分析已经发生的替换数目和性质,对于分子进化 的研究有很重要的意义.
这种分析也为生物信息学的研究人员致力于识别 和刻画具有重要功能的基因部分提供了强有力的 线索。
本章内容
基因内的替换模式 估算替换数目 基因间进化率的变化
分子时钟
细胞器的进化
3.1 基因内的替换模式
• 基因突变:一种核苷酸替换成另一种,以及插入/删除事件
复制一条完整的基因可能形成很多复制品,其中一 个提供原基因的必要功能,而其他的复制则积累了不 受自然选择的替换
某个不断变化的复制品会出现一些新的重要功能,于是 这个基因就变得对生物体的适应性非常重要 更多时候复制出来的基因会成为伪基因,因为变异使得 这样的基因丧失了功能,失去了转录的活性。这些基因序列 的替换积累速率相当高,略高于同一物种的基因的3’端侧翼 序列
个体之间发现的许多变异的优势或劣势都不明显,
在本质上是选择中性的。
基因任何中性变异被固定的概率是q
这里q为该等位基因的相对频率
基因任何中性变异最终从种群中消失的可能性为1-q, 尽管基因新变异的固定概率可能很小,中性突变却能 在种群中维持很长的时间,固定新的中性突变的平均时 间实际上相当于繁衍4N代所经历的时间
这里p就是数出来的两个序列间的不同核苷酸的分数(错配位点与所 有位点之间的比值,p < 1)。该方程完全符合以下观点:
– 当两序列间只有少数错配时,p就会很小,且任意一位点上发生多 重替换的概率也很小
– 当两序列间错配数目很大时,实际替换数目将大于直接计数得到 的结果
1
K
K = -3/4ln[1-(4/3(p))]
相关文档
最新文档