第六章 分子系统发育分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 分子系统发育分析

系统发育(phylogeny)

也称系统发生、种系发生,是指生物形成或进化的历史。 根据现有数据推演进化谱系,研究物种之间的进化关系, 其基本思想是比较物种的特征,并认为特征相似的物种在 遗传学上接近。 常以系统发育树(phylogenetic tree)表示,用它描述物种 之间的进化关系。通过对生物学数据的建模提取特征,进 而比较这些特征,研究生物形成或进化的历史。

UPGMA算法的执行过程: (1) 初始化:使每个物种自成一类,如果有n个物种,则开始时共有n个类, 每个类的大小为1,分别用n个叶节点代表每个类; (2)执行下列循环: l 寻找具有最小距离Dij的两个类i、j;建立一个新的聚类(i,j ) l 连接i和j形成新节点(i, j),生长两个新的分支,将i和j连接到(i,j),分 支的长度为Di j / 2; l 计算新分类到其它类的距离


三种主要的进化树



距离树:考察数据组中所有序列的两两比对结果,通 过比较序列两两之间的距离决定进化树的拓扑结构和 树枝长度 最大简约树:考察数据组中序列的多重比对结果,优 化出的进化树能够利用最少的离散步骤去解释多重比 对中的碱基差异 最大似然树:考察数据组中序列的多重比对结果,优 化出拥有一定拓扑结构和树枝长度的进化树,这个进 化树能够以最大的概率导致考察的多重比对结果
a
B 22 - -
A
(CDE) 39.5 41.5 -
a=b=22/2=11
b B
b
(AB) (CDE)
g f2 e ROOT c a d D E C A B
(AB) - -
(CDE) 40.5 -
g f2
d e
D E C
c
a f1 b
ROOT
A
f1
b
B
f1+a=f2+c=40.5/2=20.25

分子序列或特征数据的分析

分析对象:一组同源的序列(取自于不同生物基因组的共 同位点) 分析方法:多序列比对(Clustal W+手工比对)


通过分析,产生距离或特征数据,确定替换模型, 为建立系统发育树提供依据 构造系统发育树

根据所处理数据的类型 ,按距离法/最简约法(MP)/最 大似然法(ML)构建系统发育树
E 41 43 20 10 -
e
E
d=e=10/2=5
E
A B C (DE)
d
g e c
A - - - -
D E C
B 22 - - -
d
g e c
C 39 41 - -
D
(DE) 40 42 19 -
c=19/2=9.5
g=c-d=9.5-5=4.5
E
C
A B (CDE)
a A B
A - - -

二态离散特征:只有2种可能的状况,常用“0”或“1”表 示

如:DNA序列上的某个位置若是剪切位点,其特征值为1,否则为 0 如:核酸的序列信息,对序列中某一位置来说,其可能的碱基有 A、T、G、C共4种

多态离散特征:具有两种以上可能的状态


如果能建立所有可能状态之间相似性的度量,特征 数据可被转换成距离数据

基于离散特征的构建:建树时,着重分析分类单位或 序列间每个特征(如核苷酸位点)的进化关系等


最大简约法(maximum parsimony method) 最大似然法(maximum likelihood method)

基于距离的建树方法根据一些尺度计算出双重序 列的距离,然后抛开真实数据,只是根据固定的 距离建立进化树 基于特征的建树方法在建立进化树时,优化了每 一个特征的真实数据模式的分布,双重序列的距 离不固定,取决于进化树的拓扑结构
系统发育树构建方法

基于距离的构建:列出所有可能的序列对,计算序列 之间的遗传距离,选出相似程度比较大或非常相关的 序列对,利用遗传距离预测进化关系


非加权分组平均法(unweighted pair group method with arithmetic means,UPGMA) Fitch-Margoliash法


用细胞核基因来研究系统发育关系时存在的问题


ቤተ መጻሕፍቲ ባይዱ

基因常常会被复制,导致在个体基因组中,一个基因可 能有若干个拷贝 进化过程中,这些拷贝各自演变,形成两个或更多的相 似基因 在对不同物种的基因进行比较时,如果选择这类基因, 其分析结果的可靠性将存在问题

线粒体DNA(mtDNA)用作分子进化研究的主要对象, 具有如下特点



突变率高:是核DNA的10倍左右,即使是在近期内趋异 的物种之间也会很快积累大量的核苷酸置换,可进行比 较分析 母性遗传(maternal inheritance):因为精子的细胞质极 少,子代的mtDNA基本来自卵细胞,且不发生DNA重组, 因此具有相同mtDNA序列的个体必定来自共同的雌性祖 先 由于mtDNA在细胞减数分裂期间不发生重排,而且点突 变率高,所以有利于检查出在较短时期内基因发生的变 化,有利于比较不同物种的相同基因之间的差别,确定 这些物种在进化上的亲缘关系

距离(相似度):反映序列之间关系的一种度 量,是建立系统发育树时所常用的一类数据


通过进行序列比对,累加每个比对位置的得分, 直接计算序列间的距离 如果使用打分函数或相似性度量函数,则需要将 相似度(或者得分)转换成距离
一种简单的距离矩阵

离散特征数据:反映序列中某些特征的离散数据, 可分为二态特征与多态特征
如果找不到可以作为树根的单元,则系统发育树是无根 树; 在有根树中,从根节点出发,到任何一个节点的路径均


指明进化时间或者进化距离
树根 1 1 A C 2 1 2 1 B C D 1 3 B D A 1 1 3
有根树
无根树

对于给定的分类单元数,有很多棵可能的 系统发育树,但是只有一棵树是正确的, 分析的目标就是要寻找这棵正确的树

可以用树中的各个分支点代表一类生物起源的相
对时间,两个分支点靠得越近,则对应的两群生
物进化关系越密切
系统发育树(系统树,进化树)

由一系列节点(nodes)和分支(branches)组成

每个节点代表一个分类单元(物种或序列) 节点之间的连线(分支)代表物种之间的进化关系

节点分为外部节点(terminal node)和内部节点 (internal node)

如何根据核酸和蛋白质的序列信息推断物种之间 的系统发育关系?

从一条序列转变为另一条序列所需要的变换越多,那 么,这两条序列的相关性就越小,从共同祖先分歧的 时间就越早,进化距离就越大;相反,两个序列越相 似,那么它们之间的进化距离就可能越小 举例:地球上现代人起源的研究


线粒体DNA非常适合于系统发育分析,因为线粒体DNA从母 体完全传到子代,不与父代DNA重组 http://www.lotour.com/snapshot/2005-530/snapshot_18418.shtml
分子进化实质和对象

从物种的一些分子特性出发,从而了解物种之间 的生物系统发育的关系。 研究分子进化的主要对象:蛋白和核酸序列


通过序列同源性的比较进而了解基因的进化以及
生物系统发育的内在规律。

所有的生物都可以追溯到共同的祖先,生物的产 生和分化就像树一样地生长、分叉,以树的形式 来表示生物之间的进化关系是非常自然的事

系统发育学(phylogenetics)


系统发育研究的结果描述形式

系统发育学的发展历史

追溯于达尔文时代(十九世纪) 经典系统发育学中,主要特征为表型特征 (phonotype features)

表型特征的局限性(趋同进化现象) 表型特征判定的困难 直接利用从核酸序列或蛋白质分子提取的信息,作为 物种的特征,通过比较生物分子序列,分析序列之间 的关系,构造系统发育树,进而阐明各个物种的进化 关系

由于距离法根据双重序列比对的差异程度(距离) 建立进化树,因此如果序列能精确反映出所有的进 化演变时间,距离法将能重构真实的进化树

不加权配对组算术方法( UPGMA, unweighted pair group method with arithmetic mean)

按照配对序列的最大相似性和连接配对的平均值的 标准将进化树的树枝连接起来 不考虑权值,而采用平均的方法进行聚类,故只有 当序列分歧是近似等于原始的序列差异的时候,才 会期望UPGMA会产生一个拥有真实的树枝长度的准 确的拓扑结构,在实际问题中很少会遇到这种情况
f1=9.25, f2=10.75

举例:比较五种动物的进化关系

线粒体DNA:

人类 GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA CAACAGAGGC TTACGACCCC TTATTTACC
黑猩猩GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA CAACAGAGGC TCACGACCCC TTATTTACC
系统发育分析步骤

序列选择



序列有指定的来源并且正确无误 序列是同源的(也就是说,所有的序列都起源于同一祖先 序列) 序列比对中,不同序列的同一个位点都是同源的。 在接受分析的一个序列组中,序列之间的系统发育史是相 同的(比如,序列组中不存在核序列与细胞器序列的混合) 样本足以解决感兴趣问题 样本序列之间的差异包含了足以解决感兴趣问题的系统发 育信号

现代系统发育学进入分子水平


20世纪中期,分子数据开始被广泛应用于系统发 育研究


蛋白质电泳:在分子大小、电荷等一些浅层特征上分 离和比较相关的蛋白质 20世纪60年代,蛋白质测序出现 20世纪70年代,开始获得基因组信息,特别是DNA序 列

蛋白质序列和DNA序列为分子系统发育分析提供 了可靠的数据。
个矩阵中的进化距离关系

通过距离矩阵,根据聚类算法构建进化树

聚类算法:从最相似的序列开始(即两者之间的最短),通过 距离方阵计算出实际的进化树

通过距离矩阵建树的方法

由进化距离构建进化树的方法有很多,常见有:

Fitch-Margoliash Method(FM法) Neighbor-Joining Method (NJ法/邻接法) Neighbors Relaton Method(邻居关系法) Unweighted Pair Group Method (UPGMA法)


检验结果(对建立的进化树进行评估)
执行以上几个步骤的计算机程序都是相互独立的,但是它们 都是进行系统发育分析的有机部分

用于构建系统发育树的分子数据

距离(distances)数据:常用距离矩阵描述,表 示两个数据集之间所有两两差异 特征(characters)数据:表示分子所具有的特征

距离和特征

外部节点:代表实际观察到的分类单元 内部节点(分支点);它代表了进化事件发生的位置, 或代表分类单元进化历程中的祖先

分类单元(Operational Taxonomic Unit, OTU):进 化研究中的一种基本单位,由研究者选定。在同一 项研究中分类单元应当一致。

本章讨论中,以序列(DNA序列或蛋白质序列)作为分 类单元


二叉树:每个节点最多有两个子节点的树 带权树:分支具有一定权值

在带权树中,分支的长度(或权值)一般与分类单元之 间的变化成正比,它是关于生物进化时间或者遗传距离 的一种度量形式

系统发育树具有以下性质:

如果是一棵有根树,则树根代表在进化历史上是最早的、 并且与其它所有分类单元都有联系的分类单元;
其中ni、nj、(ni+nj)分别为i类、j类、(ij)类的元素个数; l 在距离矩阵中删除与类i和类j相应的行和列,为类(ij)加入新的行和列;
重复循环,直到仅剩一个类为止。
UPGMA法
A B C D E
d
A - - - - -
D
B 22 - - - -
d e
C 39 41 - - -
D
D 39 41 18 - -
不同情况采用不同的建树方法
距离法(距离矩阵法)

给定一种序列间距离的量度,在该量度下构建一 棵系统发育树,使该树能最好地反映已知序列间 的距离

通过各物种间的比较,根据一定的假设(进化距离模型) 推导得出序列间的进化距离,构建进化距离矩阵

距离矩阵:简单计算两序列的差异,该值可被看作是进化距离, 准确性大小依赖于进化模型的选择,进化树的构建则是基于这
相关文档
最新文档