第四章 分子进化分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因此,可用 Q41 Q42 去检验核苷酸频率是否处 于平衡态。
2. 核苷酸替代数的估计
欲估计核苷酸替代数,必须应用核苷酸替代的数
学模型。为此,许多学者提出了不同的替代模型, 其中一些模型以替代率矩阵的形式列在表中。
核苷酸替代模型
A A T C G T C G α α α -A T C G A -α gA α gA α gA T α gT -α gT α gT C α gC α gC -α gC G α gG α gG α gG -(A)Jukes-Cantor 模型 -α α α -α α α -α α α (B)Kimurar 模型 A T C G -β β α β -α β β α -β α β β -A T C G -β θ β θ α θ
ˆ nd / n p
以下,我们称此估计为p距离。
尽管总核苷酸替代能用公式计算,但我们常常也需
要知道两个序列间(即序列和)不同核苷酸对的频
率。在每一序列中,有4种不同核苷酸(A,T,C,G), 故两条序列相应位点配对时可有16种不同类型的核
苷酸对 。
表5-1 16种不同类型的核苷酸对
类型 相同核苷酸对 频率 转换型对 频率 颠换型对 频率 AA TT 核苷酸对 CC GG 总数
3位点列出。
人与猕猴的细胞色素b基因的10种不同类型核苷酸对
转换 密码子的位置 第一 第二 第三 合计 TC 21 20 60 101 AG 22 3 16 41 TA 5 6 6 17 颠换 TG 1 1 5 7 CA 5 0 49 54 CG 4 2 2 8 TT 68 140 11 219 相同对 CC 93 87 122 302 AA 100 71 102 273 GG 56 45 2 103 总数
(二)相对速率检验
最简单的分子钟假设检验是采用第三个物种C(外
类群)来检验两个物种A和B是否以相同的速率进 化。这一检验称为相对速率检验(relative-rate
test),其实几乎所有的分子钟检验比较的都是相
对速率而不是绝对速率。 确定灵长类分歧时间。
第三节
核苷酸和蛋白质的 适应性进化
[例] 血红蛋白链的进化距离和氨基酸替代率的估计 表4-5表示出了6种脊椎动物血红蛋白链成对比较的
ˆ )。我们用这些 有差异氨基酸的数目的比例( p 值来估计PC距离( dG )和 距离( )。
表4-5 解析法估算的PC距离的标准误(下对角阵) 及自展法估算的PC距离的标准误(上对角阵)
生物信息学
生物信息学
第四章
分子进化分析
哈尔滨医科大学 李霞、张绍军
第一节
引言
分子进化开始于20世纪60年代,近20年来由于分子
遗传学资料的迅速积累,成为计算生物学和生物信
息学等新兴学科的重要组成部分。 尤其人类基因组测序后,推动了分子进化的进一步 发展,序列保守性,基因表达和网络的进化等研究 内容不断的出现在最新的研究中,充实了生物信息 学的研究范围。
值较大,而当亲缘关系较近的物种比较时(如人 和马),值较小。这说明随着两个物种的分歧时 间增大,氨基酸的替代数也将增大,但并不严格 与分歧时间成比例。
图4-2 p距离和泊松校正(PC)距离随分歧时间变化的关系
2. 泊松校正(PC) 距离 p与t的变化呈现非线性关系的原因之一是当多个氨
基酸替代出现在同一位点时,nd偏离实际氨基酸的
O1
AG
O2
GA
O3
TC
O4
CT
O
总数
P 11
AT
P 12
TA
P21
AC
P22
CA
P
总数
Q11
TG
Q12
GT
Q21
CG
Q22
GC 总数
频率
Q31
Q32
Q41
Q42
Q
如果4种核苷酸间的替代是随机发生的,当P很小
时,Q约为P的2倍。实际上,通常转换比颠换出
现更频繁。因此,P将大于Q/2。当序列间的分歧 度低时,转换对颠换的比值(R),常称为转换/
图4-1 六种脊椎动物血红蛋白α链的氨基酸序列
表4-4以及不同氨基酸的比例(下对角线) 不同脊椎动物血红蛋白α链中不同氨基酸的数目(上对角线)
人 人 马 牛 袋鼠 蝾螈 鲤鱼 0.121 0.121 0.186 0.436 0.486 马 17 0.121 0.207 0.471 0.479 牛 17 17 袋鼠 26 29 25 蝾螈 61 66 63 66 鲤鱼 68 67 65 71 74
第二节 系统发生分析与重建
一、核苷酸置换模型及氨基酸置换模型
(一)DNA序列进化分析
DNA序列的进化演变比蛋白质序列的演变更复杂,
因为有多种多样的DNA区域,如蛋白质编码区、非
编码区、外显子、内含子、侧翼区、重复DNA序列 和插入序列等。因此,弄清所研究的DNA类型和功 能是十分重要的。即便我们单独考虑蛋白质编码区, 密码子第一、二和三位的核苷酸替代式样也不尽相 同。何况,某些区比其他区更易受到自然选择的影 响,使得DNA的不同区域呈现不同的进化模式。
3. 期望树与现实树 一个用无限长的序列或每一分支的替代数的期望 值构建的树称为期望树,建立在实际替代数基础 上的树称为现实树,由所观察到的序列数据构建 的树称为重建树。 4. 拓扑距离
两个不同的树之间的拓扑距离通常可以用序列分
割的方法来测量。
(二)基于距离法构建系统发生树
通常使用的方法分为3大类:
(1)距离法
(2)简约法 (3)似然法
距离方法
距离方法涉及两个步骤:计算物种对之间的遗传
距离以及从距离矩阵重建一课体统发育树。 最小二乘法 最小二乘法(LS)将成对距离矩阵作为给定数 据,通过匹配那些尽可能近的距离来估计一棵树
上的枝长。
设物种i和j之间的距离 为dij,树上物种i到j间 通路的枝长和为dij。 LS方法对所有独立的i 和j对求距离差的平方 的最小值, 使得这棵树与距离之 间的拟合尽可能地近。
二、系统发生树的基本概念及搜索方法
在研究从病毒到人类的各种生物的进化历史中,
DNA或蛋白质序列的系统发育分析已经成为一个重
要的工具。 由于不同的基因或DNA片段的进化速率存在较大的 差异,我们可以通过这些基因或DNA片段来估计几 乎所有水平上的有机体间的进化关系(例如,界、 门、科、属、种以及种内群体)。
(一)系统发育树的种类
1.有根树和无根树 基因或生物体的系统发育关系常常用有根或无根 的树形结构来表示,即有根树和无根树。
2. 基因树和物种树
当一个系统发育树由来自各个物种的一个同源基 因构建时,得到的的树将不完全等同于物种树。 根据基因构建的树的分支结构也可能不同于物种 树,我们称这种树为基因树。
当r遵循分布时,就有可能估计出平均每个位点的
氨基酸替代数。为此,让我们考虑在时间t时两个 序列间某一位点上的氨基酸相同的概率,按公式
(4.4)计算。然后,对所有位点的q求均值,为
q
0
a qf (r )dr a 2rt
a
dG a[(1 p)1/ a 1]
Tajima的D检验的统计显著性可能与几种不同的 解释相容,而且难于区分它们。正如前面所讨论 的,一个负D值表明存在净化选择或群体中分离 的轻微有害突变。然而,负D值也可能是由群体 扩张造成的。
来自百度文库
2. Fu和Li的D检验与Fay和Wu的H检验 Fu和Li区分了内部突变和外部突变,即分别在系谱 树内枝或外枝上发生的突变。
一、中性与近中性理论
按照中性理论,我们今天观察到的遗传变异——无
论是种内多态性还是中间分歧,均不取决于自然选
择所驱动的有利突变的固定,而是取决于那些事实 上没有适合效应(即中性的)突变的随机固定。
二、基因的适应性进化
(一)基因适应性进化的检验方法
Tajima的D检验
ˆ ˆ S D ˆ ˆ SE S
颠换比,能用下式估计:
ˆ ˆ P ˆ /Q R
核苷酸替代数的估计常常建立在以下假设基础上, 即每个序列的核苷酸频率处于平衡态,且此频率
不随时间而变化。当每个序列的核苷酸频率处于
平衡时,我们期望表5-1中的
P11 P12 、 P21 P22 、 Q11 Q12 、 Q21 Q22 、 Q31 Q32
nd
58 32 138 228
n
375 375 375 1125
(二)氨基酸序列进化分析
1.氨基酸差异和不同氨基酸的比例
蛋白质或肽链的进化演变研究开始于两个或多个
氨基酸序列的比较。图4-1显示了人、马、牛、袋 鼠、蝾螈和鲤鱼的血红蛋白α链的氨基酸序列。图 中,不同的氨基酸分别用不同的单字母代表。
1.两个序列间的核苷酸差异
对于一种同源的核酸分子来说,它在亲缘关系越近
的生物之间差异就越小,相反差异 就越大,即两同 源分子分歧的时间与它们之间的序列差异成正比。
同一条祖先序列传衍的两条后裔序列,它们的核苷
酸差异随时间而增加。一个简便的描述序列分歧大 小的测度是两条后裔序列中不同核苷酸位点的比例。
D
I an 1 E SE ( I an 1 E )
Fay和Wu提出了一种类似的主意并构建了θ的估计值
2 2 S i i ˆ H i 1 nn 1 n
3. McDonald-Kreitman检验和选择强度估计 McDonald和Kreitman检验思想采用了泊松随机场 (Poisson random field)理论,现在已被扩展到估 计度量自然选择强度的参数中。
若已知每个位点的氨基酸替代率按分布的话,每 个位点氨基酸替代的观察值将按负二项式分布。
因此,Uzzell和Corbin研究建议,不同位点的替
代率都按分布估计,即
br a 1
f (r ) [b / (a)]e r
a
f (r)的分布形状由a决定,a常称为形状参数或参 数,而b则称为尺度因子。分布是非常柔性的, 有多种多样形状,由形状参数a决定。
0.179 0.450 0.464
0.471 0.507
0.529
注:计算排除了缺失和插入,使用的氨基酸总数为140。
在图中所给出的例子中,删除所有间隔后可比较
的总氨基酸位点数为140。因此,在此例中。值出 现在表中对角线上部,可以很容易地计算出,列 于对角线下部。
当所比较的物种亲缘关系很远时(如人和鲤鱼),
2 2 2
(d 24 d 24 ) (d34 d34 )2
2
(三)基于字母特征构建进化树
最大简约法
达到变化最小数目的重建称为最简约重建 (most parsimonious reconstruction)
最大简约法建树示意图
三、分子钟假说
(一)概述
分子钟(molecular clock)假说认为DNA或蛋白 质序列的进化速率随时间或进化谱系保持恒定。 化石数据是被用来校定分子钟的,即将序列间的 距离转换成绝对地质时间和置换率。
表4-7 线粒体 DNA 序列的成对距离
1.人 1.人 2.黑猩猩 0.0965 0.1140 0.1849 0.1180 0.2009 0.1947 2.黑猩猩 3.大猩猩 4.猩猩
3.大猩猩 4.猩猩
S (dij dij )
i j
2
(d12 d12 ) (d13 d13 ) (d14 d14 ) (d 23 d 23 )2
2 2
(C)Equal-input 模型
(D)Tamura 模型 β θ -α θ β θ
2
β θ α θ -β θ
1 1
α θ β θ β θ --
1 1 1
2
2
2
1
[例4.1] 人与猕猴的细胞色素b基因间的核苷酸替代数 动物线粒体DNA中的细胞色素b基因是高度保守的, 因此常被用于研究亲缘关系较远的动物的进化关系。 下表表示出了人与猕猴的细胞色素b基因的10种不 同类型核苷酸对的数目,并分别以密码子第1、2和
替代数将会逐渐增加。更精确估计替代数的方法之 一是运用泊松分布的概念。令r为一个特定位点每
年的氨基酸替换率,并且为简便起见假设所有位点
的r都相同,在时间t年后,每个位点氨基酸替代的 平均数是rt。在一个给定位点氨基酸替代数k(k=0, 1, 2, 3, …)的发生频率遵循泊松分布,即,
P(k; t ) ert (rt )k / k !
2. 核苷酸替代数的估计
欲估计核苷酸替代数,必须应用核苷酸替代的数
学模型。为此,许多学者提出了不同的替代模型, 其中一些模型以替代率矩阵的形式列在表中。
核苷酸替代模型
A A T C G T C G α α α -A T C G A -α gA α gA α gA T α gT -α gT α gT C α gC α gC -α gC G α gG α gG α gG -(A)Jukes-Cantor 模型 -α α α -α α α -α α α (B)Kimurar 模型 A T C G -β β α β -α β β α -β α β β -A T C G -β θ β θ α θ
ˆ nd / n p
以下,我们称此估计为p距离。
尽管总核苷酸替代能用公式计算,但我们常常也需
要知道两个序列间(即序列和)不同核苷酸对的频
率。在每一序列中,有4种不同核苷酸(A,T,C,G), 故两条序列相应位点配对时可有16种不同类型的核
苷酸对 。
表5-1 16种不同类型的核苷酸对
类型 相同核苷酸对 频率 转换型对 频率 颠换型对 频率 AA TT 核苷酸对 CC GG 总数
3位点列出。
人与猕猴的细胞色素b基因的10种不同类型核苷酸对
转换 密码子的位置 第一 第二 第三 合计 TC 21 20 60 101 AG 22 3 16 41 TA 5 6 6 17 颠换 TG 1 1 5 7 CA 5 0 49 54 CG 4 2 2 8 TT 68 140 11 219 相同对 CC 93 87 122 302 AA 100 71 102 273 GG 56 45 2 103 总数
(二)相对速率检验
最简单的分子钟假设检验是采用第三个物种C(外
类群)来检验两个物种A和B是否以相同的速率进 化。这一检验称为相对速率检验(relative-rate
test),其实几乎所有的分子钟检验比较的都是相
对速率而不是绝对速率。 确定灵长类分歧时间。
第三节
核苷酸和蛋白质的 适应性进化
[例] 血红蛋白链的进化距离和氨基酸替代率的估计 表4-5表示出了6种脊椎动物血红蛋白链成对比较的
ˆ )。我们用这些 有差异氨基酸的数目的比例( p 值来估计PC距离( dG )和 距离( )。
表4-5 解析法估算的PC距离的标准误(下对角阵) 及自展法估算的PC距离的标准误(上对角阵)
生物信息学
生物信息学
第四章
分子进化分析
哈尔滨医科大学 李霞、张绍军
第一节
引言
分子进化开始于20世纪60年代,近20年来由于分子
遗传学资料的迅速积累,成为计算生物学和生物信
息学等新兴学科的重要组成部分。 尤其人类基因组测序后,推动了分子进化的进一步 发展,序列保守性,基因表达和网络的进化等研究 内容不断的出现在最新的研究中,充实了生物信息 学的研究范围。
值较大,而当亲缘关系较近的物种比较时(如人 和马),值较小。这说明随着两个物种的分歧时 间增大,氨基酸的替代数也将增大,但并不严格 与分歧时间成比例。
图4-2 p距离和泊松校正(PC)距离随分歧时间变化的关系
2. 泊松校正(PC) 距离 p与t的变化呈现非线性关系的原因之一是当多个氨
基酸替代出现在同一位点时,nd偏离实际氨基酸的
O1
AG
O2
GA
O3
TC
O4
CT
O
总数
P 11
AT
P 12
TA
P21
AC
P22
CA
P
总数
Q11
TG
Q12
GT
Q21
CG
Q22
GC 总数
频率
Q31
Q32
Q41
Q42
Q
如果4种核苷酸间的替代是随机发生的,当P很小
时,Q约为P的2倍。实际上,通常转换比颠换出
现更频繁。因此,P将大于Q/2。当序列间的分歧 度低时,转换对颠换的比值(R),常称为转换/
图4-1 六种脊椎动物血红蛋白α链的氨基酸序列
表4-4以及不同氨基酸的比例(下对角线) 不同脊椎动物血红蛋白α链中不同氨基酸的数目(上对角线)
人 人 马 牛 袋鼠 蝾螈 鲤鱼 0.121 0.121 0.186 0.436 0.486 马 17 0.121 0.207 0.471 0.479 牛 17 17 袋鼠 26 29 25 蝾螈 61 66 63 66 鲤鱼 68 67 65 71 74
第二节 系统发生分析与重建
一、核苷酸置换模型及氨基酸置换模型
(一)DNA序列进化分析
DNA序列的进化演变比蛋白质序列的演变更复杂,
因为有多种多样的DNA区域,如蛋白质编码区、非
编码区、外显子、内含子、侧翼区、重复DNA序列 和插入序列等。因此,弄清所研究的DNA类型和功 能是十分重要的。即便我们单独考虑蛋白质编码区, 密码子第一、二和三位的核苷酸替代式样也不尽相 同。何况,某些区比其他区更易受到自然选择的影 响,使得DNA的不同区域呈现不同的进化模式。
3. 期望树与现实树 一个用无限长的序列或每一分支的替代数的期望 值构建的树称为期望树,建立在实际替代数基础 上的树称为现实树,由所观察到的序列数据构建 的树称为重建树。 4. 拓扑距离
两个不同的树之间的拓扑距离通常可以用序列分
割的方法来测量。
(二)基于距离法构建系统发生树
通常使用的方法分为3大类:
(1)距离法
(2)简约法 (3)似然法
距离方法
距离方法涉及两个步骤:计算物种对之间的遗传
距离以及从距离矩阵重建一课体统发育树。 最小二乘法 最小二乘法(LS)将成对距离矩阵作为给定数 据,通过匹配那些尽可能近的距离来估计一棵树
上的枝长。
设物种i和j之间的距离 为dij,树上物种i到j间 通路的枝长和为dij。 LS方法对所有独立的i 和j对求距离差的平方 的最小值, 使得这棵树与距离之 间的拟合尽可能地近。
二、系统发生树的基本概念及搜索方法
在研究从病毒到人类的各种生物的进化历史中,
DNA或蛋白质序列的系统发育分析已经成为一个重
要的工具。 由于不同的基因或DNA片段的进化速率存在较大的 差异,我们可以通过这些基因或DNA片段来估计几 乎所有水平上的有机体间的进化关系(例如,界、 门、科、属、种以及种内群体)。
(一)系统发育树的种类
1.有根树和无根树 基因或生物体的系统发育关系常常用有根或无根 的树形结构来表示,即有根树和无根树。
2. 基因树和物种树
当一个系统发育树由来自各个物种的一个同源基 因构建时,得到的的树将不完全等同于物种树。 根据基因构建的树的分支结构也可能不同于物种 树,我们称这种树为基因树。
当r遵循分布时,就有可能估计出平均每个位点的
氨基酸替代数。为此,让我们考虑在时间t时两个 序列间某一位点上的氨基酸相同的概率,按公式
(4.4)计算。然后,对所有位点的q求均值,为
q
0
a qf (r )dr a 2rt
a
dG a[(1 p)1/ a 1]
Tajima的D检验的统计显著性可能与几种不同的 解释相容,而且难于区分它们。正如前面所讨论 的,一个负D值表明存在净化选择或群体中分离 的轻微有害突变。然而,负D值也可能是由群体 扩张造成的。
来自百度文库
2. Fu和Li的D检验与Fay和Wu的H检验 Fu和Li区分了内部突变和外部突变,即分别在系谱 树内枝或外枝上发生的突变。
一、中性与近中性理论
按照中性理论,我们今天观察到的遗传变异——无
论是种内多态性还是中间分歧,均不取决于自然选
择所驱动的有利突变的固定,而是取决于那些事实 上没有适合效应(即中性的)突变的随机固定。
二、基因的适应性进化
(一)基因适应性进化的检验方法
Tajima的D检验
ˆ ˆ S D ˆ ˆ SE S
颠换比,能用下式估计:
ˆ ˆ P ˆ /Q R
核苷酸替代数的估计常常建立在以下假设基础上, 即每个序列的核苷酸频率处于平衡态,且此频率
不随时间而变化。当每个序列的核苷酸频率处于
平衡时,我们期望表5-1中的
P11 P12 、 P21 P22 、 Q11 Q12 、 Q21 Q22 、 Q31 Q32
nd
58 32 138 228
n
375 375 375 1125
(二)氨基酸序列进化分析
1.氨基酸差异和不同氨基酸的比例
蛋白质或肽链的进化演变研究开始于两个或多个
氨基酸序列的比较。图4-1显示了人、马、牛、袋 鼠、蝾螈和鲤鱼的血红蛋白α链的氨基酸序列。图 中,不同的氨基酸分别用不同的单字母代表。
1.两个序列间的核苷酸差异
对于一种同源的核酸分子来说,它在亲缘关系越近
的生物之间差异就越小,相反差异 就越大,即两同 源分子分歧的时间与它们之间的序列差异成正比。
同一条祖先序列传衍的两条后裔序列,它们的核苷
酸差异随时间而增加。一个简便的描述序列分歧大 小的测度是两条后裔序列中不同核苷酸位点的比例。
D
I an 1 E SE ( I an 1 E )
Fay和Wu提出了一种类似的主意并构建了θ的估计值
2 2 S i i ˆ H i 1 nn 1 n
3. McDonald-Kreitman检验和选择强度估计 McDonald和Kreitman检验思想采用了泊松随机场 (Poisson random field)理论,现在已被扩展到估 计度量自然选择强度的参数中。
若已知每个位点的氨基酸替代率按分布的话,每 个位点氨基酸替代的观察值将按负二项式分布。
因此,Uzzell和Corbin研究建议,不同位点的替
代率都按分布估计,即
br a 1
f (r ) [b / (a)]e r
a
f (r)的分布形状由a决定,a常称为形状参数或参 数,而b则称为尺度因子。分布是非常柔性的, 有多种多样形状,由形状参数a决定。
0.179 0.450 0.464
0.471 0.507
0.529
注:计算排除了缺失和插入,使用的氨基酸总数为140。
在图中所给出的例子中,删除所有间隔后可比较
的总氨基酸位点数为140。因此,在此例中。值出 现在表中对角线上部,可以很容易地计算出,列 于对角线下部。
当所比较的物种亲缘关系很远时(如人和鲤鱼),
2 2 2
(d 24 d 24 ) (d34 d34 )2
2
(三)基于字母特征构建进化树
最大简约法
达到变化最小数目的重建称为最简约重建 (most parsimonious reconstruction)
最大简约法建树示意图
三、分子钟假说
(一)概述
分子钟(molecular clock)假说认为DNA或蛋白 质序列的进化速率随时间或进化谱系保持恒定。 化石数据是被用来校定分子钟的,即将序列间的 距离转换成绝对地质时间和置换率。
表4-7 线粒体 DNA 序列的成对距离
1.人 1.人 2.黑猩猩 0.0965 0.1140 0.1849 0.1180 0.2009 0.1947 2.黑猩猩 3.大猩猩 4.猩猩
3.大猩猩 4.猩猩
S (dij dij )
i j
2
(d12 d12 ) (d13 d13 ) (d14 d14 ) (d 23 d 23 )2
2 2
(C)Equal-input 模型
(D)Tamura 模型 β θ -α θ β θ
2
β θ α θ -β θ
1 1
α θ β θ β θ --
1 1 1
2
2
2
1
[例4.1] 人与猕猴的细胞色素b基因间的核苷酸替代数 动物线粒体DNA中的细胞色素b基因是高度保守的, 因此常被用于研究亲缘关系较远的动物的进化关系。 下表表示出了人与猕猴的细胞色素b基因的10种不 同类型核苷酸对的数目,并分别以密码子第1、2和
替代数将会逐渐增加。更精确估计替代数的方法之 一是运用泊松分布的概念。令r为一个特定位点每
年的氨基酸替换率,并且为简便起见假设所有位点
的r都相同,在时间t年后,每个位点氨基酸替代的 平均数是rt。在一个给定位点氨基酸替代数k(k=0, 1, 2, 3, …)的发生频率遵循泊松分布,即,
P(k; t ) ert (rt )k / k !