生物信息学概论第三章替换模式

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

– 与DNA序列一样，回复突变会导致严重地低估替换数目 – 一个氨基酸转变为另一个氨基酸的替换路径的长度也不总是一致的，比如CCU->CUC只要经历一个突变过程，而CCU->AUC要经历两个 – 氨基酸替换对蛋白质功能的作用各有不同，而且会随着周围氨基酸的不同而变化，这会令问题更加复杂
– 解决这个问题的一个方法就是利用经验数据来衡量每一种核苷酸序列每一百万年只发生0.35%的改变，对于人类来说这种改变是非常缓慢的，但是比之分子的进化又是相当迅速的
3.1.3 同义和异义替换
同义替换：改变核苷酸编码序列，但不影响蛋白质的氨基酸序列的替换甘氨酸（GGG，GGA，GGU，GGC）
异义替换：改变核苷酸编码序列，同时影响蛋白质的氨基酸序列的替换
替换前
A
T
C
G
各列总计
3.2.5 蛋白质序列间的替换
• 两个蛋白质序列间的不同氨基酸的比例（p）可根据下式简单推算： p = n/L n代表各种氨基酸在两个序列间相差的数量，L是在序列比对中能够观测到位点的个数 • 要精确的计算两个或更多的蛋白质氨基酸序列间发生替换的数目，一般来讲比估算非编码DNA序列的替换数目要困难。
同义（和伪基因）的替换速率Ks，通常被认为能较好反映出基因突变时实际速率；而异义替换速率Ka则不然，因为他们逃脱不了自然选择
3.1.6 等位基因与固定
绝大多数自然界现存的生物种群包含着大量的基因变异, 从而形成等位基因。一个物种某个基因的不同版本被称之为等位基因。
- 举个例子，人平均每200个碱基对中就有一个不同于其他人。
PCC(1)=1/4 + (1/4)e-4β + (1/2)e-2(α+β)
• Jukes-Cantor模型和Kimura的双参数模型的对称性说明四个核苷酸在t0和任何时刻都以一样的概率存在（ PGG(t) =PAA(t) =PTT(t) =PCC (t) ） • 就像Jukes-Cantor单参数模型，展开后的方程以及换成另外3个核苷酸得到的方程，是当两个序列间的不同核苷酸个数已知的时候估算替换的真实数目的一个很有用的公式，如下所示： K = 1/2ln[1/(1-2P-Q)] + 1/4ln[1/(1-2Q)] P是序列中转换的核苷酸的分数，Q是颠换的核苷酸的分数。
– 有利的
– 中性的 – 不利的
• 有利的变化实际上只占少数 • 核苷酸序列的某些变化对一个生物体的影响比其他因素更大
3.1.1 突变率 r = K/(2T)
r：替换速率（突变率）
K: 来源于同一祖先的两个序列之间的替换数量 T：分叉时间如果不同物种间的进化率是相似的，在没有其他证据的情况下，通过替换速率（突变率），可以推测进化事件发生的时间。比较基因内和基因间的替换速率（突变率）常用来确定不同基因组区域的作用
300
50 131 132 300
96.0
9.0 41.8 33.0 76.3
19.6
3.0 8.1 11.5 14.3
3.39
1.86 3.48 3.00 3.60
5’UT
内含子 3’UT 3’端侧翼序列
由上表中，可以揭示的一个普遍规律：
内含子和两端侧翼序列的替换积累速度最快其次是能转录而不能翻译的序列最慢的是编码序列
0.8
0.6
K= p
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
p
3.2.2 转换和颠换
嘌呤：含氮碱基有两个环状结构嘧啶：含氮碱基有一个环状结构
转换
（transition）嘌呤嘌呤嘧啶嘧啶
胞嘧啶
C

胸腺嘧啶
T
颠换
（transvertion）嘌呤嘧啶嘧啶嘌呤在大多数DNA片段中，转换出现的概率高于颠换出现的概率
如果不区分转换和颠换（也就是说p = P + Q），这个方程就简化成了Jukes-Cantor公式
3.2.4 多参数模型
• 20世纪80年代以来，已经产生出大量的序列数据，对这些数据的分析结果表明：Kimua关于核苷酸以两种速度变异的假设，与Jukes-Cantor关于所有的核苷酸转变为其他3种的概率都是相同的假设一样，都过于简单
甘氨酸（GGG）->丙氨酸（GCG）经过详细分析可以发现，基因的编码序列发生同义替换的概率几乎是异义替换的3倍
并非三联密码子上的所有位置都会发生异义替换。事实上，三联密码子中的核苷酸可分为3类：非简并位点：该位点的变异都是导致替换双重简并位点：该位点有两种不同的核苷酸翻译成同一种氨基酸，另外两种不同的核苷酸则翻译成不同的氨基酸四重简并位点：这一位点上无论是什么，都不会影响该密码子的翻译
例：
分类例子
非简并位点
苯丙氨酸（UUU）亮氨酸（CUU）异亮氨酸（AUU）缬氨酸（GUU）天冬氨酸（GAU，GAC）谷氨酸（GAA，GAG）甘氨酸（GGG，GGA，GGU，GGC）
双重简并位点四重简并位点
如果自然选择在出现改变蛋白质功能的变异的时候就起作用，那么很显然，处于四重简并位点的核苷酸替换的积累最为迅速，而处于非简并位点的替换积累最为缓慢
对，就可能会严重地低估序列在最近的共同祖先之后发生的
替换数目
3.2.1 Jukes-Cantor模型
• 在替换经常出现的地方，某些位点就可能会发生多次替换 • Juke-Cantor假设每个核苷酸都有可能转变成其他任何一个核苷酸，基于这一假设，他们建立了一个数学模型
– 假设每个核苷酸都有可能转变成其他任何一个核苷酸，概率为α。 – 如果基因中某个位点在时刻t0为C，那么在时刻t1仍然是C的概率就是PC(1)=1-3α
替换后 A 3.3 (1.2) 7.2 (5.0) 23.6 (37.7) 34.1 (44.0) T 4.0 (1.5) 17.0 (33.2) 4.6 (3.2) 26.3 (37.8) C 4.6 (1.7) 10.4 (3.8) 6.0 (3.7) 21.0 (9.2) G 9.8 (3.6) 2.7 (1.0) 6.2 (4.5) 9.0 (18.7) 各行总计 18.4 (6.7) 16.4 (6.0) 31.1 (42.6) 34.2 (44.7)

A
腺嘌呤

G
鸟嘌呤
3.2.3 Kimura的双参数模型
• 该模型考虑了转换和颠换的不同速率。 • 假定转换一律以α速率进行，颠换一律以β速率进行。 • 如果基因中某个位点在时刻t0为C，那么在时刻t1该位点保持C的概率是PCC(1)=1-α-2β
• 类似Jukes-Cantor模型，将上式展开后，得到，
3.3 基因间进化率的变化
• 基因内不同部分的进化率有着很明显的差异，同样，我们发现基因间的进化率也是各不相同的。如果排除统计因素，进化率的差别应归咎于两个因素
– 突变频率的差异 – 自然选择对位置的影响程度
• 同义替换率的差异远远不及异义替换率的差异
– 尽管基因内某些部位比其他区域更容易发生偶然的突变，但同义替换率的差别很少超过两倍，而异义替换率却有将近200倍的差异。
等位基因的差异变化很广，从不会产生影响到产生严重后果。各种等位基因相对频率的改变就是进化的基础新的等位基因以非常低的频率出现：q = 1/2N
N是这个种群中具有繁殖活性的二倍体的数量
危及生物体生存和繁殖的突变，会在自然选择中，从基因库里扫地出门，这种突变频率最终降为0
如果等位基因优势突出，其频率就渐渐接近于1，即该等位基因被固定
3.1.2 功能约束
自然选择能够杜绝导致生物体生存和繁衍能力下降的基因变化
那些能够引起蛋白质催化性能及结构特征变化的基因变化，会更加受制于自然选择。十分重要的基因部分被认为受功能约束控制，它们在进化过程中趋向于非常缓慢的变化另外一些不会对氨基酸序列或表达方式造成影响的基因变化，很少受到自然选择的纠正，因此这种类型的变化速度相对较快
– 在t2时刻是C的概率为： PC(2)=(1-3α) PC(1)+ α [1-PC(1)]。
– 在tk时刻是C的概率为： PC(k)=(1-3α) PC(k-1)+ α [1-PC(k-1)]
= α +（1-4α）PC(k-1)。 – … – 任意时间t时刻，位点为C的概率为（即非替换位点概率） PC(t) = 1/4+(3/4e-4αt) – 估计替换数目的公式为: K = -3/4ln[1-(4/3(p))]
• 既然存在4种核苷酸，每一个都可以转变为另外3个之一，因此就应该有12种可能的替换
• 每种突变类型的概率如下表所示，有了这些参数，就可以建立更复杂的12参数模型 • 由于GC含量会引起替换速率的差异，于是引进第13个参数来弥补这个偏差
人类基因组的Alu-Y（Sb）序列的核苷酸替换的相对频率
3.1.5 替换和突变
虽然一个基因核苷酸序列的每一位都可能发生变化，然而人们没有观察到所有可能的变异，但这个问题却使人们发现了分子进化研究中突变和替换这两个词在使用上有趣的数字差异。突变：是指DNA的复制和修复过程中出现错误而导致的核苷酸序列的改变
替换：是指了某个层次上经过自然选择过滤后的突变
大量分析证实，基因不同部分的变化速度确实千差万别，而这些速度正反映了不同部分受功能约束的程度
人、鼠、兔、牛的类β球蛋白基因各部分的差异
基因区域类别所有非编码序列所有编码序列 5’端侧翼序列人类/基因区域替换的平均数量长度 913 441 67.9 69.2 标准方差 14.1 16.7 替换速率（个替换/ 位点/10亿年） 3.33 1.58
人、兔类β球蛋白基因编码序列里各种位点的替换率
位点类型位点数目/bp 302 60 85 替换数目 17 10 20 替换速率（个替换/位点/10亿年） 0.56 1.67 2.35
非简并位点
二重简并位点四重简并位点
3.1.4 插入删除情况和伪基因
在有转录活性的基因中，插入删除很难发生。原因在于插入删除会改变阅读框。DNA和修复酶经过亿万年的进化，已形成合理的机制，一般会使插入删除比简单的碱基替换发生的概率小10倍
3.2 估算替换数目
一般来讲，从两个序列的比对中获得的替换数目（K）是任何分子进化分析中最重要的一个变量(信息）。如果一种最优的比对表明两个序列之间只有相对较少的替换，
那么只有简单地数一下替换个数就可以确定K值。
然而，在核苷酸序列被用来做分析研究之前，T.Jukes和 C.Cantor就认识到如果序列之间的差异很大，那么用序列比
第三章替换模式
分析已经发生的替换数目和性质，对于分子进化的研究有很重要的意义.
这种分析也为生物信息学的研究人员致力于识别和刻画具有重要功能的基因部分提供了强有力的线索。
本章内容
基因内的替换模式估算替换数目基因间进化率的变化
分子时钟
细胞器的进化
3.1 基因内的替换模式
• 基因突变：一种核苷酸替换成另一种，以及插入/删除事件
复制一条完整的基因可能形成很多复制品，其中一个提供原基因的必要功能，而其他的复制则积累了不受自然选择的替换
某个不断变化的复制品会出现一些新的重要功能，于是这个基因就变得对生物体的适应性非常重要更多时候复制出来的基因会成为伪基因，因为变异使得这样的基因丧失了功能，失去了转录的活性。这些基因序列的替换积累速率相当高，略高于同一物种的基因的3’端侧翼序列
个体之间发现的许多变异的优势或劣势都不明显，
在本质上是选择中性的。
基因任何中性变异被固定的概率是q
这里q为该等位基因的相对频率
基因任何中性变异最终从种群中消失的可能性为1-q，尽管基因新变异的固定概率可能很小，中性突变却能在种群中维持很长的时间，固定新的中性突变的平均时间实际上相当于繁衍4N代所经历的时间
这里p就是数出来的两个序列间的不同核苷酸的分数（错配位点与所有位点之间的比值，p < 1）。该方程完全符合以下观点：
– 当两序列间只有少数错配时，p就会很小，且任意一位点上发生多重替换的概率也很小
– 当两序列间错配数目很大时，实际替换数目将大于直接计数得到的结果
1
K
K = -3/4ln[1-(4/3(p))]