分子进化和系统发育
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
替换模型的必要性: 必须准确和无偏见地估计替换率; 数学模型可以考虑回复和平行突变等情况,尤其是 在P值较大时。
Jukes - Cantor 单参数模型
C
最简单的DNA序列进化模型:
T
假设每个核苷酸有同样的机会
archaea
eukaryote
eukaryote
无根树
eukaryote
通过外类群 通来过确外定类树群根 来确定树根
eukaryote
有有根根树树 根
bacteria outgroup 外外类类群群
archaea archaea archaea
eukaryote eukaryote
eukaryote eukaryote
选择生物学数据时的注意事项
序列有指定的来源并且正确无误。 序列是同源的,即所有的序列都起源于同一祖先序 列(ortholog)。 样本序列之间的差异包含了足以解决感兴趣的问题 的信息位点。 样本序列随机进化。 序列中的每一个位点的进化都是独立的。
Ortholog (直系同源基因):两个基因通过物种形 成的事件而产生,或源于不同物种的最近的共同祖 先的两个基因,或者两个物种中的同一基因,一般 具有相同的功能。 Paralog (旁系同源基因):两个基因在同一物种中, 通过至少一次基因复制(重复)的事件而产生,常 常具有不同的功能。
Tree of Life:
重建所有生物 的进化历史并 以系统树的形 式加以描述。
分子进化研究——系统进化树
16S rDNA
分子进化研究——物种分类
分子进化研究——人类起源(Out of Africa)
线粒体基因组(16,587bp)
当前人类线粒体基因组最 大的差异存在于非洲和非 非洲人之间。
树根确定
——最常用的确定树根的方法是使用一个或多个无可 争议的同源物种作为外群(outgroup),这个外群要 足够近,以提供足够的信息,但又不能太近以至于和 树中的种类相混。
外群(outgroup)
不同数目的分类群可能的有根树和无根树
b a
a
b ca
c bc
ba
c
考虑3个分类群时,共有3种可能的有根树,1种无根树
人类迁移的路线
分子钟理论
• 在各种不同的发育谱系及足够大的进化时间尺度中, 许多序列的进化速率几乎是恒定不变的。
• 两个物种的同源基因之间的差异程度与它们的共同祖 先的存在时间(即两者的分歧时间)有一定的数量关系。
序列分歧度
分子钟理论
从一个分歧数据可以推测其他
y x
分歧时间
系统发育分析的基本步骤
分类群数
3 4 5 6 10 30 N
无根树
树
分枝/树
1
3
3
5
15
7
105
9
2,027,025
17
8.69 1036
57
(2N - 5)! 2N - 3 (N - 3)!
2N - 3
有根树
树
分枝/树
3
4
15
6
105
8
945
10
34,459,425
18
4.95 1038
58
(2N - 3)! 2N - 2 (N - 2)!
a
b c da
cb
da
db c
a
b c da
c b da
d bc
b
a c db
c a db
a ac
c
a b dc
b a dc
d ab
d
a b cd
b a cd
c abห้องสมุดไป่ตู้
考虑4个分类群时,共有15种可能的有根树
a
ca
b
b
dc
d
a
b
d
c
考虑4个分类群时,共有3种可能的无根树
无根树和有根树:潜在的拓扑结构数目
当前
DNA序列间的差异
• DNA序列间核苷酸的差异越少,分化时间越短; • 同一祖先序列衍生的两条后裔序列间分化的简单
测度就是两条后裔序列不同核苷酸位点的比例。
DNA序列的替换率估计
对于两条长度为N的序列,差异位点数为n, 则两条DNA序列的替换率P(也可以称两条序列之间 的距离或差异):
P=n/N
分子进化和系统发育
Darwin, Charles (1809-1882)
《The Origin of Species》 (1859) 共同祖先
经典的进化研究方法
• 化石证据——最理想的方法
然而…零散、不完整
经典的进化研究方法
• 形态学证据——确定大致的进化框架
分子进化研究
分子进化理论由莱纳斯.鲍林(Linus Pauling)于 1964年提出。 该理论基本假设:核苷酸和氨基酸序列中含有生物 进化历史的全部信息。
2N - 2
真实树(true tree) ——物种分化事件的顺序在历史上是唯一的,所以 在用给定物种建立的所有可能的树中只有一种能代 表真实的进化历史,这样一种系统树称为真实树。
推测树(inferred tree) ——用某一组数据和某种构树法得到的树称推测树, 推测树可能与真实树等同也可能与真实树不同。
分类数目增大,计算量急剧增加,因此,目前算 法都为优化算法,不能保证最优解
DNA序列的替换模型
祖先基因
时间
X
Y
2t
X’
Y’
t
DNA 序列进化演变
百万年
AAGACTT
3
AAGGCCT
TGGACTT
2
AGGGCAT
TAGCCCT
AGCACTT
1
AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT
DNA序列的替换率估计
14个碱基长度,其中有3个位
如
点发生了改变,那么这两条序
列的替换率(距离) P=3/14
在序列的同一个位点可能发生不止一次的变化。如在第7个 位置观测到G,而在另一条序列为A, 有多种可能
GA GCA …
大多数替换估计会显著低估真正替换的数目。
DNA序列替换模式
DNA序列的替换模型
直系同源基因 vs. 旁系同源基因 paralogs
orthologs
系统发育树的基本特征
分支/世系
末端节点 A 代表最终分
B 类,可以是 物种,群体
C ,或者蛋白
祖先节点/
D
质 、 DNA 、 RNA分子等
树根
E
内部节点/分歧点,该
分支可能的祖先结点
无根树,有根树,外类群
archaea
archaea
CACTATGAC… CACTATCAC…
CATTGTCAC… GATTGTCTC… GCTTGTCTT…
GCTTGGCTT… ACTTGGCTT… ACTCGGCTT… ACTCGACTT…
系统发育(phylogeny)相关概念
系统发育分析:研究物种进化和系统分类的一种方 法,常用一种类似树状分支的图形来概括各物种/类 群生物之间的亲缘关系,这种树状分支的图形称为 系统发育树。
Jukes - Cantor 单参数模型
C
最简单的DNA序列进化模型:
T
假设每个核苷酸有同样的机会
archaea
eukaryote
eukaryote
无根树
eukaryote
通过外类群 通来过确外定类树群根 来确定树根
eukaryote
有有根根树树 根
bacteria outgroup 外外类类群群
archaea archaea archaea
eukaryote eukaryote
eukaryote eukaryote
选择生物学数据时的注意事项
序列有指定的来源并且正确无误。 序列是同源的,即所有的序列都起源于同一祖先序 列(ortholog)。 样本序列之间的差异包含了足以解决感兴趣的问题 的信息位点。 样本序列随机进化。 序列中的每一个位点的进化都是独立的。
Ortholog (直系同源基因):两个基因通过物种形 成的事件而产生,或源于不同物种的最近的共同祖 先的两个基因,或者两个物种中的同一基因,一般 具有相同的功能。 Paralog (旁系同源基因):两个基因在同一物种中, 通过至少一次基因复制(重复)的事件而产生,常 常具有不同的功能。
Tree of Life:
重建所有生物 的进化历史并 以系统树的形 式加以描述。
分子进化研究——系统进化树
16S rDNA
分子进化研究——物种分类
分子进化研究——人类起源(Out of Africa)
线粒体基因组(16,587bp)
当前人类线粒体基因组最 大的差异存在于非洲和非 非洲人之间。
树根确定
——最常用的确定树根的方法是使用一个或多个无可 争议的同源物种作为外群(outgroup),这个外群要 足够近,以提供足够的信息,但又不能太近以至于和 树中的种类相混。
外群(outgroup)
不同数目的分类群可能的有根树和无根树
b a
a
b ca
c bc
ba
c
考虑3个分类群时,共有3种可能的有根树,1种无根树
人类迁移的路线
分子钟理论
• 在各种不同的发育谱系及足够大的进化时间尺度中, 许多序列的进化速率几乎是恒定不变的。
• 两个物种的同源基因之间的差异程度与它们的共同祖 先的存在时间(即两者的分歧时间)有一定的数量关系。
序列分歧度
分子钟理论
从一个分歧数据可以推测其他
y x
分歧时间
系统发育分析的基本步骤
分类群数
3 4 5 6 10 30 N
无根树
树
分枝/树
1
3
3
5
15
7
105
9
2,027,025
17
8.69 1036
57
(2N - 5)! 2N - 3 (N - 3)!
2N - 3
有根树
树
分枝/树
3
4
15
6
105
8
945
10
34,459,425
18
4.95 1038
58
(2N - 3)! 2N - 2 (N - 2)!
a
b c da
cb
da
db c
a
b c da
c b da
d bc
b
a c db
c a db
a ac
c
a b dc
b a dc
d ab
d
a b cd
b a cd
c abห้องสมุดไป่ตู้
考虑4个分类群时,共有15种可能的有根树
a
ca
b
b
dc
d
a
b
d
c
考虑4个分类群时,共有3种可能的无根树
无根树和有根树:潜在的拓扑结构数目
当前
DNA序列间的差异
• DNA序列间核苷酸的差异越少,分化时间越短; • 同一祖先序列衍生的两条后裔序列间分化的简单
测度就是两条后裔序列不同核苷酸位点的比例。
DNA序列的替换率估计
对于两条长度为N的序列,差异位点数为n, 则两条DNA序列的替换率P(也可以称两条序列之间 的距离或差异):
P=n/N
分子进化和系统发育
Darwin, Charles (1809-1882)
《The Origin of Species》 (1859) 共同祖先
经典的进化研究方法
• 化石证据——最理想的方法
然而…零散、不完整
经典的进化研究方法
• 形态学证据——确定大致的进化框架
分子进化研究
分子进化理论由莱纳斯.鲍林(Linus Pauling)于 1964年提出。 该理论基本假设:核苷酸和氨基酸序列中含有生物 进化历史的全部信息。
2N - 2
真实树(true tree) ——物种分化事件的顺序在历史上是唯一的,所以 在用给定物种建立的所有可能的树中只有一种能代 表真实的进化历史,这样一种系统树称为真实树。
推测树(inferred tree) ——用某一组数据和某种构树法得到的树称推测树, 推测树可能与真实树等同也可能与真实树不同。
分类数目增大,计算量急剧增加,因此,目前算 法都为优化算法,不能保证最优解
DNA序列的替换模型
祖先基因
时间
X
Y
2t
X’
Y’
t
DNA 序列进化演变
百万年
AAGACTT
3
AAGGCCT
TGGACTT
2
AGGGCAT
TAGCCCT
AGCACTT
1
AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT
DNA序列的替换率估计
14个碱基长度,其中有3个位
如
点发生了改变,那么这两条序
列的替换率(距离) P=3/14
在序列的同一个位点可能发生不止一次的变化。如在第7个 位置观测到G,而在另一条序列为A, 有多种可能
GA GCA …
大多数替换估计会显著低估真正替换的数目。
DNA序列替换模式
DNA序列的替换模型
直系同源基因 vs. 旁系同源基因 paralogs
orthologs
系统发育树的基本特征
分支/世系
末端节点 A 代表最终分
B 类,可以是 物种,群体
C ,或者蛋白
祖先节点/
D
质 、 DNA 、 RNA分子等
树根
E
内部节点/分歧点,该
分支可能的祖先结点
无根树,有根树,外类群
archaea
archaea
CACTATGAC… CACTATCAC…
CATTGTCAC… GATTGTCTC… GCTTGTCTT…
GCTTGGCTT… ACTTGGCTT… ACTCGGCTT… ACTCGACTT…
系统发育(phylogeny)相关概念
系统发育分析:研究物种进化和系统分类的一种方 法,常用一种类似树状分支的图形来概括各物种/类 群生物之间的亲缘关系,这种树状分支的图形称为 系统发育树。