2015-7 分子进化分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、利用MEGA构建系统发生树
50条氨基酸序列 “SEQAA.txt” 利用ClustalX进行完全比对,产生比对文件 “SEQAA.aln” 利用MEGA进行建树
37
ClustalX载入序列
38
ClustalX比对结果
39
在MEGA中将ClustalX比对结果转换为MEGA格式
40
转 换 结 果
2
B C D E 8 0 4 8 0 6 8 6 0
0 6 0
8 8 0
2 B
2 E
1 3
2
B
2
E
2
A
2
C D
AC B E A 0 8 C B 0 E
C D
2 E
2 A
2 C
8
B
D
0
23
2、非加权分组平均法
(Unweighted Pair Group Method with Arithmetic
mean, UPGMA)
P(0; t ) e
rt
35
Poisson校正距离 祖先序列未知:不知道当前的序列从何演化而来 解决方案:对两条已经有t年分化的序列,一条序列某位点 无替代的概率为: e rt ,两条序列同源位点均无替代概率为: 此概率可用1-p估计:q=1-p; 两个序列间每个位点氨基酸替代总数(d=2rt):
距离变换法
参考物种:先于其它物种从共同祖先中分化 出来的物种。 距离变换公式:
dij
dij diD d jD 2
d D (i, j A, B, C )
假设有4个物种A、B、C、D及其距离矩阵,其中D是A、B、 C的外部参考物种,D可作为变换其它物种间距离的外部参 考。d’ij是物种i和j之间变换后的距离; d D 是外部参考物种与 全体内部物种之间的平均距离。
8
Out of Africa
80,000 to 120,000 yrs ago Science 16 October 2015: p264 125,000 yrs ago Science, 29 August 2014, p. 994
50,000 to 70,000 yrs ago
53个人的线粒体基因组
基于离散特征的构建方法
最大简约法 最大似然法 进化简约法 相容性方法
20
一种简单的距离矩阵
21
1、连锁聚类方法
•选择距离最小的一对序列 •将这两个序列合二为一,形成一个新的对象 (代表这两个序列的祖先) •重新计算这个新的对象与其它序列的距离。
单连锁聚类:
d(x,u) = min (d(y,u),d(z,u))
46
2、利用MEGA直接搜索数据库建树
47
输入序列 或登录号
48
49
50
51
52
比对结束
53
将比对结果输出 为.meg格式
54
55
29
5、基于特征的系统发生树构建方法
甲 节点1
乙
丙
丁
戊 节点3
节点2
根节点
根据简约位点构造系统发生树-最大简约法(maximum parsimony) 30
6、系统发生树检验-Bootstrap采样
31
Bootstrap采样分析结果
支持度 比例
32
7、分子钟检验和校正
分子钟前提:
(1)进化速率恒定 (2)每个位置最多发生一次变异 p=D/L (L:比对总位点数;D:位点不同数) 由序列比对直接估计对齐位置不一样的比例 往往低估实际发生变异个数 转换/颠换比:R>4 密码子不同位置不同突变速率 直系同源与旁系同源
13
DNA突变的模式
替代 插入
缺失
倒位
14
核苷酸替代:转换 & 颠换
转换:嘌呤被嘌呤 替代,或者嘧啶被 嘧啶替代 颠换:嘌呤被嘧啶 替代,或者嘧啶被 嘌呤替代
15
基因复制
重组
逆转录
16
分子进化研究的目的
物种分类及关系:从物种的一些分子特性出发, 构建系统发育树,进而了解物种之间的生物系统 发生的关系 —— tree of life 大分子功能与结构的分析:同一家族的大分子, 具有相似的三级结构及生化功能,通过序列同源 性分析,构建系统发育树,进行相关分析;功能 预测 进化速率分析:例如,HIV的高突变性;哪些位 点易发生突变?
17
新基因产生速率
Zhang et al. PLoS Biol. 2010,
18
第二节 系统发生分析方法
系统发生分析的步骤
(1)序列分析 (2)构建系统发生树 (3)评价所建立的树
19
基于数据类型的系统发生树构建方法:
基于距离的构建方法
非加权组平均法 邻近归并法 Fitch-Margoliash法 最小进化方法
9
2、系统发生分析原理
分子钟(molecular clock)
Emile Zuckerkandl和Linus Pauling,1960s 氨基酸变异积累
y
序列分歧度
x
分歧时间
10
分子进化
1964年,Linus Pauling提出分子进化理论。 基本假设:核苷酸和氨基酸序列中含有生物进化历 史的全部信息。
发生在分子层面的进化过程:DNA, RNA和蛋白质
分子。 从物种的一些分子特性出发,从而了解物种之间的 生物系统发生的关系。
11
进化速率
某一段时间之内的遗传改变量
cgatgttcgtcccggagaccatgggcgcgtacatcggattcgaagctctgaggct
• • •
分子进化观点:
• 如果各类中单元个数不一样,原距离矩阵 中各个距离值对新距离计算的贡献就不一样, 或者说是经过“加权”的,称这样的聚类为 加权分组平均。 • 在非加权分组平均法中,在 计算新分类到其它分类之间的 平均距离时按照各分类中分类 单元的数目进行加权处理。
2 1 2 B 2 E 2 A 2 C D
24
1 3
D 7
归并-选择dxy-dx-dy最小的一对分类 单元
x=A, y=B → 新节点(xy)
计算(xy)到x和y节点的距离 dx,(xy) = 1/2dxy +1/2(dx-dy) =5/2+(7.5-10.5)/2=1
dy,(xy) = 1/2dxy +1/2(dy-dx) 利用邻近归并算法构造的系统发生树 = 5/2+(10.5-7.5)/2=4
对应的核苷酸置换率矩阵M为
3 M
3 3 3
34
Poisson校正(泊松校正)
序列差异的百分比(p)与分歧时间t的关系:t较短的时候, 回复突变较少,两者大致成线性关系;当t较大时,回复突 变增多,二者成非线性关系 基本假设:令r为某一位点每年的氨基酸替代率,并假设所 有位点的r都相同 在时间t年之后,每个位点替代的平均数为:rt 给定一个位点,氨基酸替代数k(k=0,1,2,3,…)的可能性遵循 泊松分布,即 e rt (rt ) k P(k ; t ) k! 因此,某一位点氨基酸不变的概率为
重复循环,直到仅剩一个类为止。
25
3、距离变换法
(transformed distance method) 针对问题:进化速率的变化
A A B C B 9 C 8 11 D 12 15 10
1.15 1 5 4 A 4 C B D
26
1 2 6
3
3 6
A
B
C
D
真实的系统发生树
D
6.15
UPGMA法构建的系统发生树
2
现代综合进化论
第一节 系统发生与系统发生树
1、基本概念:
系统发生(phylogeny, 系统发育)——是指生物 形成或进化的历史
系统发生学 (phylogenetics)——研究 物种之间的进化关系
3
系统发生树(phylogenetic
tree) ——表示形式,描述物种之间进化关系
趋同进化 表型特征难以检测 比较关系较远的生物体
7
•现代系统发生学
利用从遗传物质中提取的信息作为物种特征 具体地说就是核酸序列或蛋白质分子
• 分子系统发生分析
通过比较生物分子序列,分析序列之间的关 系,构造系统发生树。
• 关于现代人起源的研究:
线粒体DNA
——所有现代人都是一个非洲女性的后代 “线粒体夏娃” 15万年前
最大连锁聚类: d(x,u) = max (d(y,u),d(z,u))
平均连锁聚类: d(x,u) = 1/2 * (d(y,u)+d(z,u))
其中x代表y和z的合并,u代表任意其它对象
22
平均连锁聚类法
A B C D E A 0 8 4 6 8 B 0 8 8 4 C D E
2 1
A A 0 B E D 6
分子进化速率大致恒定 次要分子(分子部分)进化快 对分子结构和功能破坏小的替换更频繁
12
分子进化的模式
DNA突变的模式:替代,插入,缺失, 倒位; 核苷酸替代:转换 (Transition) & 颠换 (Transversion) 基因复制:多基因家族的产生以及伪 基因的产生
A. 单个基因复制 – 重组或者逆转录 B. 染色体片断复制 C. 基因组复制
41
打开MEGA格式文件
42
利用NJ法建树
43
最终得到的系统发生树 原始树
Bootstrap检验 得到的树 数值反映了自 举检验对该部 分的支持程度
44
不同的树型
45
进化树拓扑结构调整
Root:任选一个枝条为树 根重新建立系统树 Flip:使某树干下的树结 构发生180度旋转 Swap:使某树干下树枝 顺序改变,但不改变该枝 下的相对位置
采用p-distance建树
不符合分子钟现象
腺嘌呤A 鸟嘌呤G
胞嘧啶C 尿嘧啶U
胸腺嘧 啶T
33
进化速率校正模型
Jukes-Cantor单参数模型(1969)
DNA序列进化的一个基本过程就是核苷酸随时间而变化 (置换),核苷酸在每个方向上的置换率均为α: 3 4 d JC ln(1 p) 4 3
q (ert )2 e2rt
d=-ln(1-p),即泊松距离 1 p e Baidu Nhomakorabea d ln(1 p) d ln(1 p)
常见的氨基酸置换有Dayhoff模型、
Jones-Taylor-Thomton模型、mtREV 模 型等
36
构建系统发生树实例
UPGMA算法的执行过程如下:
计算新分类到其它类的距离
d( xy ),u ny nx ( ) d x ,u ( ) d y ,u 2 nx ny nx ny
B
2 1 2 2
1 3 2
E
A
C D
其中nx、ny、(nx+ny)分别为x类、y类、(xy)类的元素个 数;
在距离矩阵中删除与类 i和类 j相应的行和列,为类 (xy) 加入新的行和列;
4
系统发生树
对一组实际对象的世系关系的描述(如基因,物种等)
树根 内部节点
l2 l3 l4 l5 C l1 A l3 l4 B D l5 l6
C
边
l6 进化距离
l7
A
B
叶节点
D
(a)有根树
(b)无根树
5
系统发生学
• 经典系统发生学
主要是物理或表型特征
如生物体的大小、颜色、 触角个数
6
经典系统发生学的局限性:
27
4、邻近归并法
基本思想:
在进行类的合并时,不仅要求待合并的类是相近 的,同时还要求待合并的类远离其它的类。
x
y
28
例
6个分类单元的距离矩阵 A
A B C E F 5 4 6 8 7 10 7 9 6 5 9 8 11 8
B
C
D E
F
对于所有的分类单元x,计算每个节 点到其它节点的距离:
dA=(5+4+7+6+8)/4=7.5 dB=10.5 dC=8 dD=9.5 dE=8.5 dF=11
《生物统计学与生物信息学》研究生课
第七章 分子进化分析
滕虎 大连理工大学生命科学与技术学院
1
人类对生命认识的历史
达尔文之前——自然神学阶段 亚里士多德:较为完善的形式 是从不完善中发展而来的。 达尔文——自然选择理论
《物种起源》——1859年 《古老的人类》——1863年 《人类的遗传》——1871年 生物进化有三个基本环节,即突 变、选择和隔离; 种群是生物进化的基本单位。
50条氨基酸序列 “SEQAA.txt” 利用ClustalX进行完全比对,产生比对文件 “SEQAA.aln” 利用MEGA进行建树
37
ClustalX载入序列
38
ClustalX比对结果
39
在MEGA中将ClustalX比对结果转换为MEGA格式
40
转 换 结 果
2
B C D E 8 0 4 8 0 6 8 6 0
0 6 0
8 8 0
2 B
2 E
1 3
2
B
2
E
2
A
2
C D
AC B E A 0 8 C B 0 E
C D
2 E
2 A
2 C
8
B
D
0
23
2、非加权分组平均法
(Unweighted Pair Group Method with Arithmetic
mean, UPGMA)
P(0; t ) e
rt
35
Poisson校正距离 祖先序列未知:不知道当前的序列从何演化而来 解决方案:对两条已经有t年分化的序列,一条序列某位点 无替代的概率为: e rt ,两条序列同源位点均无替代概率为: 此概率可用1-p估计:q=1-p; 两个序列间每个位点氨基酸替代总数(d=2rt):
距离变换法
参考物种:先于其它物种从共同祖先中分化 出来的物种。 距离变换公式:
dij
dij diD d jD 2
d D (i, j A, B, C )
假设有4个物种A、B、C、D及其距离矩阵,其中D是A、B、 C的外部参考物种,D可作为变换其它物种间距离的外部参 考。d’ij是物种i和j之间变换后的距离; d D 是外部参考物种与 全体内部物种之间的平均距离。
8
Out of Africa
80,000 to 120,000 yrs ago Science 16 October 2015: p264 125,000 yrs ago Science, 29 August 2014, p. 994
50,000 to 70,000 yrs ago
53个人的线粒体基因组
基于离散特征的构建方法
最大简约法 最大似然法 进化简约法 相容性方法
20
一种简单的距离矩阵
21
1、连锁聚类方法
•选择距离最小的一对序列 •将这两个序列合二为一,形成一个新的对象 (代表这两个序列的祖先) •重新计算这个新的对象与其它序列的距离。
单连锁聚类:
d(x,u) = min (d(y,u),d(z,u))
46
2、利用MEGA直接搜索数据库建树
47
输入序列 或登录号
48
49
50
51
52
比对结束
53
将比对结果输出 为.meg格式
54
55
29
5、基于特征的系统发生树构建方法
甲 节点1
乙
丙
丁
戊 节点3
节点2
根节点
根据简约位点构造系统发生树-最大简约法(maximum parsimony) 30
6、系统发生树检验-Bootstrap采样
31
Bootstrap采样分析结果
支持度 比例
32
7、分子钟检验和校正
分子钟前提:
(1)进化速率恒定 (2)每个位置最多发生一次变异 p=D/L (L:比对总位点数;D:位点不同数) 由序列比对直接估计对齐位置不一样的比例 往往低估实际发生变异个数 转换/颠换比:R>4 密码子不同位置不同突变速率 直系同源与旁系同源
13
DNA突变的模式
替代 插入
缺失
倒位
14
核苷酸替代:转换 & 颠换
转换:嘌呤被嘌呤 替代,或者嘧啶被 嘧啶替代 颠换:嘌呤被嘧啶 替代,或者嘧啶被 嘌呤替代
15
基因复制
重组
逆转录
16
分子进化研究的目的
物种分类及关系:从物种的一些分子特性出发, 构建系统发育树,进而了解物种之间的生物系统 发生的关系 —— tree of life 大分子功能与结构的分析:同一家族的大分子, 具有相似的三级结构及生化功能,通过序列同源 性分析,构建系统发育树,进行相关分析;功能 预测 进化速率分析:例如,HIV的高突变性;哪些位 点易发生突变?
17
新基因产生速率
Zhang et al. PLoS Biol. 2010,
18
第二节 系统发生分析方法
系统发生分析的步骤
(1)序列分析 (2)构建系统发生树 (3)评价所建立的树
19
基于数据类型的系统发生树构建方法:
基于距离的构建方法
非加权组平均法 邻近归并法 Fitch-Margoliash法 最小进化方法
9
2、系统发生分析原理
分子钟(molecular clock)
Emile Zuckerkandl和Linus Pauling,1960s 氨基酸变异积累
y
序列分歧度
x
分歧时间
10
分子进化
1964年,Linus Pauling提出分子进化理论。 基本假设:核苷酸和氨基酸序列中含有生物进化历 史的全部信息。
发生在分子层面的进化过程:DNA, RNA和蛋白质
分子。 从物种的一些分子特性出发,从而了解物种之间的 生物系统发生的关系。
11
进化速率
某一段时间之内的遗传改变量
cgatgttcgtcccggagaccatgggcgcgtacatcggattcgaagctctgaggct
• • •
分子进化观点:
• 如果各类中单元个数不一样,原距离矩阵 中各个距离值对新距离计算的贡献就不一样, 或者说是经过“加权”的,称这样的聚类为 加权分组平均。 • 在非加权分组平均法中,在 计算新分类到其它分类之间的 平均距离时按照各分类中分类 单元的数目进行加权处理。
2 1 2 B 2 E 2 A 2 C D
24
1 3
D 7
归并-选择dxy-dx-dy最小的一对分类 单元
x=A, y=B → 新节点(xy)
计算(xy)到x和y节点的距离 dx,(xy) = 1/2dxy +1/2(dx-dy) =5/2+(7.5-10.5)/2=1
dy,(xy) = 1/2dxy +1/2(dy-dx) 利用邻近归并算法构造的系统发生树 = 5/2+(10.5-7.5)/2=4
对应的核苷酸置换率矩阵M为
3 M
3 3 3
34
Poisson校正(泊松校正)
序列差异的百分比(p)与分歧时间t的关系:t较短的时候, 回复突变较少,两者大致成线性关系;当t较大时,回复突 变增多,二者成非线性关系 基本假设:令r为某一位点每年的氨基酸替代率,并假设所 有位点的r都相同 在时间t年之后,每个位点替代的平均数为:rt 给定一个位点,氨基酸替代数k(k=0,1,2,3,…)的可能性遵循 泊松分布,即 e rt (rt ) k P(k ; t ) k! 因此,某一位点氨基酸不变的概率为
重复循环,直到仅剩一个类为止。
25
3、距离变换法
(transformed distance method) 针对问题:进化速率的变化
A A B C B 9 C 8 11 D 12 15 10
1.15 1 5 4 A 4 C B D
26
1 2 6
3
3 6
A
B
C
D
真实的系统发生树
D
6.15
UPGMA法构建的系统发生树
2
现代综合进化论
第一节 系统发生与系统发生树
1、基本概念:
系统发生(phylogeny, 系统发育)——是指生物 形成或进化的历史
系统发生学 (phylogenetics)——研究 物种之间的进化关系
3
系统发生树(phylogenetic
tree) ——表示形式,描述物种之间进化关系
趋同进化 表型特征难以检测 比较关系较远的生物体
7
•现代系统发生学
利用从遗传物质中提取的信息作为物种特征 具体地说就是核酸序列或蛋白质分子
• 分子系统发生分析
通过比较生物分子序列,分析序列之间的关 系,构造系统发生树。
• 关于现代人起源的研究:
线粒体DNA
——所有现代人都是一个非洲女性的后代 “线粒体夏娃” 15万年前
最大连锁聚类: d(x,u) = max (d(y,u),d(z,u))
平均连锁聚类: d(x,u) = 1/2 * (d(y,u)+d(z,u))
其中x代表y和z的合并,u代表任意其它对象
22
平均连锁聚类法
A B C D E A 0 8 4 6 8 B 0 8 8 4 C D E
2 1
A A 0 B E D 6
分子进化速率大致恒定 次要分子(分子部分)进化快 对分子结构和功能破坏小的替换更频繁
12
分子进化的模式
DNA突变的模式:替代,插入,缺失, 倒位; 核苷酸替代:转换 (Transition) & 颠换 (Transversion) 基因复制:多基因家族的产生以及伪 基因的产生
A. 单个基因复制 – 重组或者逆转录 B. 染色体片断复制 C. 基因组复制
41
打开MEGA格式文件
42
利用NJ法建树
43
最终得到的系统发生树 原始树
Bootstrap检验 得到的树 数值反映了自 举检验对该部 分的支持程度
44
不同的树型
45
进化树拓扑结构调整
Root:任选一个枝条为树 根重新建立系统树 Flip:使某树干下的树结 构发生180度旋转 Swap:使某树干下树枝 顺序改变,但不改变该枝 下的相对位置
采用p-distance建树
不符合分子钟现象
腺嘌呤A 鸟嘌呤G
胞嘧啶C 尿嘧啶U
胸腺嘧 啶T
33
进化速率校正模型
Jukes-Cantor单参数模型(1969)
DNA序列进化的一个基本过程就是核苷酸随时间而变化 (置换),核苷酸在每个方向上的置换率均为α: 3 4 d JC ln(1 p) 4 3
q (ert )2 e2rt
d=-ln(1-p),即泊松距离 1 p e Baidu Nhomakorabea d ln(1 p) d ln(1 p)
常见的氨基酸置换有Dayhoff模型、
Jones-Taylor-Thomton模型、mtREV 模 型等
36
构建系统发生树实例
UPGMA算法的执行过程如下:
计算新分类到其它类的距离
d( xy ),u ny nx ( ) d x ,u ( ) d y ,u 2 nx ny nx ny
B
2 1 2 2
1 3 2
E
A
C D
其中nx、ny、(nx+ny)分别为x类、y类、(xy)类的元素个 数;
在距离矩阵中删除与类 i和类 j相应的行和列,为类 (xy) 加入新的行和列;
4
系统发生树
对一组实际对象的世系关系的描述(如基因,物种等)
树根 内部节点
l2 l3 l4 l5 C l1 A l3 l4 B D l5 l6
C
边
l6 进化距离
l7
A
B
叶节点
D
(a)有根树
(b)无根树
5
系统发生学
• 经典系统发生学
主要是物理或表型特征
如生物体的大小、颜色、 触角个数
6
经典系统发生学的局限性:
27
4、邻近归并法
基本思想:
在进行类的合并时,不仅要求待合并的类是相近 的,同时还要求待合并的类远离其它的类。
x
y
28
例
6个分类单元的距离矩阵 A
A B C E F 5 4 6 8 7 10 7 9 6 5 9 8 11 8
B
C
D E
F
对于所有的分类单元x,计算每个节 点到其它节点的距离:
dA=(5+4+7+6+8)/4=7.5 dB=10.5 dC=8 dD=9.5 dE=8.5 dF=11
《生物统计学与生物信息学》研究生课
第七章 分子进化分析
滕虎 大连理工大学生命科学与技术学院
1
人类对生命认识的历史
达尔文之前——自然神学阶段 亚里士多德:较为完善的形式 是从不完善中发展而来的。 达尔文——自然选择理论
《物种起源》——1859年 《古老的人类》——1863年 《人类的遗传》——1871年 生物进化有三个基本环节,即突 变、选择和隔离; 种群是生物进化的基本单位。