第六章分子系统发育分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常以系统发育树(phylogenetic tree)表示,用它描述物种 之间的进化关系。通过对生物学数据的建模提取特征,进 而比较这些特征,研究生物形成或进化的历史。
系统发育学的发展历史
追溯于达尔文时代(十九世纪) 经典系统发育学中,主要特征为表型特征
(phonotype features)
由于mtDNA在细胞减数分裂期间不发生重排,而且点突 变率高,所以有利于检查出在较短时期内基因发生的变 化,有利于比较不同物种的相同基因之间的差别,确定 这些物种在进化上的亲缘关系
分子进化实质和对象
从物种的一些分子特性出发,从而了解物种之间 的生物系统发育的关系。
研究分子进化的主要对象:蛋白和核酸序列 通过序列同源性的比较进而了解基因的进化以及
每个节点代表一个分类单元(物种或序列) 节点之间的连线(分支)代表物种之间的进化关系
节点分为外部节点(terminal node)和内部节点 (internal node)
外部节点:代表实际观察到的分类单元 内部节点(分支点);它代表了进化事件发生的位置,
或代表分类单元进化历程中的祖先
分类单元(Operational Taxonomic Unit, OTU):进 化研究中的一种基本单位,由研究者选定。在同一 项研究中分类单元应当一致。
第六章 分子系统发育分析
系统发育(phylogeny)
也称系统发生、种系发生,是指生物形成或进化的历史。
系统发育学(phylogenetics)
根据现有数据推演进化谱系,研究物种之间的进化关系, 其基本思想是比较物种的特征,并认为特征相似的物种在 遗传学上接近。
系统发育研究的结果描述形式
20世纪60年代,蛋白质测序出现 20世纪70年代,开始获得基因组信息,特别是DNA序
列
蛋白质序列和DNA序列为分子系统发育分析提供 了可靠的数据。
如何根据核酸和蛋白质的序列信息推断物种之间 的系统发育关系?
从一条序列转变为另一条序列所需要的变换越多,那 么,这两条序列的相关性就越小,从共同祖先分歧的 时间就越早,进化距离就越大;相反,两个序列越相 似,那么它们之间的进化距离就可能越小
系统发育分析步骤
序列选择
序列有指定的来源并且正确无误 序列是同源的(也就是说,所有的序列都起源于同一祖先
序列) 序列比对中,不同序列的同一个位点都是同源的。 在接受分析的一个序列组中,序列之间的系统发育史是相
同的(比如,序列组中不存在核序列与细胞器序列的混合) 样本足以解决感兴趣问题 样本序列之间的差异包含了足以解决感兴趣问题的系统发
距离(相似度):反映序列之间关系的一种度 量,是建立系统发育树时所常用的一类数据
表型特征的局限性(趋同进化现象) 表型特征判定的困难
现代系统发育学进入分子水平
直接利用从核酸序列或蛋白质分子提取的信息,作为 物种的特征,通过比较生物分子序列,分析序列之间 的关系,构造系统发育树,进而阐明各个物种的进化 关系
20世纪中期,分子数据开始被广泛应用于系统发 育研究
蛋白质电泳:在分子大小、电荷等一些浅层特征上分 离和比较相关的蛋白质
线粒体DNA(mtDNA)用作分子进化研究的主要对象, 具有如下特点
突变率高:是核DNA的10倍左右,即使是在近期内趋异 的物种之间也会很快积累大量的核苷酸置换,可进行比 较分析
母性遗传(maternal inheritance):因为精子的细胞质极 少,子代的mtDNA基本来自卵细胞,且不发生DNA重组, 因此具有相同mtDNA序列的个体必定来自共同的雌性祖 先
生物系统发育的内在规律。
所有的生物都可以追溯到共同的祖先,生物的产 生和分化就像树一样地生长、分叉,以树的形式 来表示生物之间的进化关系是非常自然的事
可以用树中的各个分支点代表一类生物起源的相 对时间,两个分支点靠得越近,则对应的两群生 物进化关系越密切
系统发育树(系统树,进化树)
由一系列节点(nodes)和分支(branches)组成
பைடு நூலகம்例:地球上现代人起源的研究
线粒体DNA非常适合于系统发育分析,因为线粒体DNA从母 体完全传到子代,不与父代DNA重组
用细胞核基因来研究系统发育关系时存在的问题
基因常常会被复制,导致在个体基因组中,一个基因可 能有若干个拷贝
进化过程中,这些拷贝各自演变,形成两个或更多的相 似基因
在对不同物种的基因进行比较时,如果选择这类基因, 其分析结果的可靠性将存在问题
如果找不到可以作为树根的单元,则系统发育树是无根 树;
在有根树中,从根节点出发,到任何一个节点的路径均 指明进化时间或者进化距离
树根
1
1
2
1
1
BC
A
有根树
3 D
A
2
1
1 B
C 1
3
D
无根树
对于给定的分类单元数,有很多棵可能的 系统发育树,但是只有一棵树是正确的, 分析的目标就是要寻找这棵正确的树
本章讨论中,以序列(DNA序列或蛋白质序列)作为分 类单元
二叉树:每个节点最多有两个子节点的树
带权树:分支具有一定权值
在带权树中,分支的长度(或权值)一般与分类单元之 间的变化成正比,它是关于生物进化时间或者遗传距离 的一种度量形式
系统发育树具有以下性质:
如果是一棵有根树,则树根代表在进化历史上是最早的、 并且与其它所有分类单元都有联系的分类单元;
育信号
分子序列或特征数据的分析
分析对象:一组同源的序列(取自于不同生物基因组的共 同位点)
分析方法:多序列比对(Clustal W+手工比对)
通过分析,产生距离或特征数据,确定替换模型, 为建立系统发育树提供依据
构造系统发育树
根据所处理数据的类型 ,按距离法/最简约法(MP)/最 大似然法(ML)构建系统发育树
检验结果(对建立的进化树进行评估)
执行以上几个步骤的计算机程序都是相互独立的,但是它们 都是进行系统发育分析的有机部分
用于构建系统发育树的分子数据
距离(distances)数据:常用距离矩阵描述,表 示两个数据集之间所有两两差异
特征(characters)数据:表示分子所具有的特征
距离和特征
系统发育学的发展历史
追溯于达尔文时代(十九世纪) 经典系统发育学中,主要特征为表型特征
(phonotype features)
由于mtDNA在细胞减数分裂期间不发生重排,而且点突 变率高,所以有利于检查出在较短时期内基因发生的变 化,有利于比较不同物种的相同基因之间的差别,确定 这些物种在进化上的亲缘关系
分子进化实质和对象
从物种的一些分子特性出发,从而了解物种之间 的生物系统发育的关系。
研究分子进化的主要对象:蛋白和核酸序列 通过序列同源性的比较进而了解基因的进化以及
每个节点代表一个分类单元(物种或序列) 节点之间的连线(分支)代表物种之间的进化关系
节点分为外部节点(terminal node)和内部节点 (internal node)
外部节点:代表实际观察到的分类单元 内部节点(分支点);它代表了进化事件发生的位置,
或代表分类单元进化历程中的祖先
分类单元(Operational Taxonomic Unit, OTU):进 化研究中的一种基本单位,由研究者选定。在同一 项研究中分类单元应当一致。
第六章 分子系统发育分析
系统发育(phylogeny)
也称系统发生、种系发生,是指生物形成或进化的历史。
系统发育学(phylogenetics)
根据现有数据推演进化谱系,研究物种之间的进化关系, 其基本思想是比较物种的特征,并认为特征相似的物种在 遗传学上接近。
系统发育研究的结果描述形式
20世纪60年代,蛋白质测序出现 20世纪70年代,开始获得基因组信息,特别是DNA序
列
蛋白质序列和DNA序列为分子系统发育分析提供 了可靠的数据。
如何根据核酸和蛋白质的序列信息推断物种之间 的系统发育关系?
从一条序列转变为另一条序列所需要的变换越多,那 么,这两条序列的相关性就越小,从共同祖先分歧的 时间就越早,进化距离就越大;相反,两个序列越相 似,那么它们之间的进化距离就可能越小
系统发育分析步骤
序列选择
序列有指定的来源并且正确无误 序列是同源的(也就是说,所有的序列都起源于同一祖先
序列) 序列比对中,不同序列的同一个位点都是同源的。 在接受分析的一个序列组中,序列之间的系统发育史是相
同的(比如,序列组中不存在核序列与细胞器序列的混合) 样本足以解决感兴趣问题 样本序列之间的差异包含了足以解决感兴趣问题的系统发
距离(相似度):反映序列之间关系的一种度 量,是建立系统发育树时所常用的一类数据
表型特征的局限性(趋同进化现象) 表型特征判定的困难
现代系统发育学进入分子水平
直接利用从核酸序列或蛋白质分子提取的信息,作为 物种的特征,通过比较生物分子序列,分析序列之间 的关系,构造系统发育树,进而阐明各个物种的进化 关系
20世纪中期,分子数据开始被广泛应用于系统发 育研究
蛋白质电泳:在分子大小、电荷等一些浅层特征上分 离和比较相关的蛋白质
线粒体DNA(mtDNA)用作分子进化研究的主要对象, 具有如下特点
突变率高:是核DNA的10倍左右,即使是在近期内趋异 的物种之间也会很快积累大量的核苷酸置换,可进行比 较分析
母性遗传(maternal inheritance):因为精子的细胞质极 少,子代的mtDNA基本来自卵细胞,且不发生DNA重组, 因此具有相同mtDNA序列的个体必定来自共同的雌性祖 先
生物系统发育的内在规律。
所有的生物都可以追溯到共同的祖先,生物的产 生和分化就像树一样地生长、分叉,以树的形式 来表示生物之间的进化关系是非常自然的事
可以用树中的各个分支点代表一类生物起源的相 对时间,两个分支点靠得越近,则对应的两群生 物进化关系越密切
系统发育树(系统树,进化树)
由一系列节点(nodes)和分支(branches)组成
பைடு நூலகம்例:地球上现代人起源的研究
线粒体DNA非常适合于系统发育分析,因为线粒体DNA从母 体完全传到子代,不与父代DNA重组
用细胞核基因来研究系统发育关系时存在的问题
基因常常会被复制,导致在个体基因组中,一个基因可 能有若干个拷贝
进化过程中,这些拷贝各自演变,形成两个或更多的相 似基因
在对不同物种的基因进行比较时,如果选择这类基因, 其分析结果的可靠性将存在问题
如果找不到可以作为树根的单元,则系统发育树是无根 树;
在有根树中,从根节点出发,到任何一个节点的路径均 指明进化时间或者进化距离
树根
1
1
2
1
1
BC
A
有根树
3 D
A
2
1
1 B
C 1
3
D
无根树
对于给定的分类单元数,有很多棵可能的 系统发育树,但是只有一棵树是正确的, 分析的目标就是要寻找这棵正确的树
本章讨论中,以序列(DNA序列或蛋白质序列)作为分 类单元
二叉树:每个节点最多有两个子节点的树
带权树:分支具有一定权值
在带权树中,分支的长度(或权值)一般与分类单元之 间的变化成正比,它是关于生物进化时间或者遗传距离 的一种度量形式
系统发育树具有以下性质:
如果是一棵有根树,则树根代表在进化历史上是最早的、 并且与其它所有分类单元都有联系的分类单元;
育信号
分子序列或特征数据的分析
分析对象:一组同源的序列(取自于不同生物基因组的共 同位点)
分析方法:多序列比对(Clustal W+手工比对)
通过分析,产生距离或特征数据,确定替换模型, 为建立系统发育树提供依据
构造系统发育树
根据所处理数据的类型 ,按距离法/最简约法(MP)/最 大似然法(ML)构建系统发育树
检验结果(对建立的进化树进行评估)
执行以上几个步骤的计算机程序都是相互独立的,但是它们 都是进行系统发育分析的有机部分
用于构建系统发育树的分子数据
距离(distances)数据:常用距离矩阵描述,表 示两个数据集之间所有两两差异
特征(characters)数据:表示分子所具有的特征
距离和特征