生物信息学第六章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 M
3
3
3
α
α α
C
α
α
T
• 利用该模型,可以计算序列间核苷酸置换概率。设某一位点 上的碱基在起始时间(t=0)为A,在时间t=1时,同一位点上 的碱基仍为A的概率为:
PA(1)=1-3α t=2时,该位点碱基为A的概率 PA(2)=(1-3α)PA(1)+ α [1-PA(1)] 时间为t+1时,概率为: PA(t+1)=(1-3α)PA(t)+ α [1-PA(t)] • 定义时间t+1和t的概率差为ΔPA(t)有: ΔPA(t)=PA(t+1)- PA(t)=-3αPA(t)+α[1-PA(t)]=-4αPA(t)+α • 上述公式适用于离散时间过程。对连续时间过程,可转换为:
dPA(t )
令PA(0)=1,有:
dt
4PA(t )
PA(t)=1/4+3/4e-4αt
• Kimura的两参数模型将转换(transition)和颠换 (transversion)置换率分别设为α和β,如图4-7 所示。 α • 对应的矩阵M为: A G
2 2 M 2 2
4.2.2 蛋白质编码序列进化 • Miyata和Yasunaga(1980)最早提出了估算两个蛋白质序列间置 换数目的方法。在这些方法中,必须将同义置换(synonymous) 和非同义置换(nonsynonymous)分开考虑。 • 起始和终止密码子应排除在外,因为它们几乎不随时间变化。 • 在研究蛋白质序列进化的工作中,最基本的参数计算步骤包括以 下几步: • 首先,将核苷酸序列的位点分为非简并的(nondegenerate ,如果 在该位点所有可能的变化都是非同义的)、两重简并的(twofold degenerate,如果3个可能变化中的一个是同义的)和四重简并 的(fourfold degenerate ,如果所有可能的变化都是同义的)。计 算这3种情况的数目,记为Li ( i = 0,2,4) 。 • 其次,比较两个密码子之间的同义与非同义变化。 对于只有一个核苷酸差异的两个密码子来说,差异值容易计算; 对于不止一个核苷酸差异的两个密码子比较,则必须考虑所有 可能的进化途径。例如,AAT(Asn)和ACG(Thr)间的两种可能的 途径是:
第四章 分子系统发育分析 §4.1分子进化的基本概念
• 系统发生学是进化生物学的一个重要研究领域,系统发生分 析早在达尔文时代就已经开始。从那时起,科学家们就开始 寻找物种的源头,分析物种之间的进化关系,给各个物种分 门别类。 • 经典系统发生学研究所涉及的特征主要是生物表型 (phenotype)特征,所谓的表型特征主要指形态学的(结构的) 特征,如生物体的大小、颜色、触角个数,也包括某些生理 的、生化的以及行为习性的特征。通过表型比较来推断生物 体的基因型(genotype),研究物种之间的进化关系。但是, 利用表型特征是有局限性的。有时候关系很远的物种也能进 化出相似的表型,这是由称为趋同进化的过程造成的。 • 例如,如果一个生物学家按照生物体是否有眼睛来构建进化 树,那么他可能将人类、两翼昆虫和软体动物放在同一个进 化组中,因为它们都有光探测器官。在这个例子中,很明显 这三种生物体并不具有密切的关系,在其它特征上有天壤之
途径1 AAT(Asn)一ACT(Thr)一ACG(Thr) 途径2 AAT(Asn)一AAG(Lys)一ACG(Thr) • 途径1中同义与非同义变化各1次,而途径2中有2次非同义 变化。假定两种途径的可能性相同(非加权),同义差异值 (MA)为(1+0)/2=0.5,非同义差异值(MA)为(1+2)/2=1.5。不 少学者已对加权方法进行了讨论。 • 最后,可以将核苷酸置换分为转换和颠换两种,差异值分别 记为Si和Vi (i=0,2,4)。在两重简并的位点中,转换是同义的 而颠换是非同义的,这在哺乳动物线粒体编码中是没有例外 的。在通用编码中有两个例外:精氨酸密码子(CGA,CGG, AGA和AGG)的第一个位置,异亮氨酸(AUU,AUC和AUA) 的最后一个位置。在这两种例外情况中,所有的同义变化包 括在S2中,而所有的非同义变化包括在V2中。 • 在实际应用中,常见的氨基酸置换有Dayhoff模型、JonesTaylor-Thomton模型、mtREV 模型等。近来,有关氨基酸 置换模型的建立及应用是分子进化研究中最为活跃的领域之 一。
§4.2 分子进化模型与序列分歧度计算 4.2.1核苷酸序列进化 • DNA序列进化的一个基本过程就是核苷酸随时间而变化(置 换)。核苷酸置换模型可以用矩阵表示。图4-6示出了Jukes 和Cantor (1969)单参数模型的基本假定,即核苷酸在每个 α 方向上的置换率均为α。 A G • 对应的核苷酸置换率矩阵M为:
• 以外类群作为树根的系统树称为有根树 • 没有外类群作为树根的系统树称为无根树 图4-3示出了有根树和无根树的例子,其中R为有根树(a)的树 根。当分类单位数目为n(n>2)时,全部可能的有根树(二歧分 支)的数目为: NR=(2n-3)!/[2n-2(n-2)!] 当n≥3时,无根树(二歧分支)的数目为: NU=(2n-5)!/[2n-3(n-3)!] 例如,当n=10时,NR=34459425,NU=2027025。
A A R B C
C D
D
B E 时间 (a) (b) E
图4-3 有根树(a)和无根树(b)
4.1.3.2 标度树枝(scaled branch)和非标度树枝(unscaled branch) 在图4-4示出的两个系统树中,(a)中树枝的长度代表了性状 状态变异的数量,称为标度树枝系统树;而(b)中各树枝的长 度并不表示性状状态变异的数量,但所有节点的位置仍与分 A 化时间(divergence time)相对应,可称为非标度树枝系 A F 2 统树。 1 1 1 G B 1 2 B 2 C 2 C H2 2
2 1 1
1
6
DFra Baidu bibliotek
E
D E
6
时间
1个单位
图4-4 标度树枝(a)和非标度树枝(b)系统树
4.1.3.3 基因树(gene tree)和物种树(species tree) • 基因树是由一个基因所构建的系统树。物种树则表达了某一 特定类群的进化路径(evolutionary pathway)。虽然基因树 和物种树同属系统树,但两者至少在两个方面存在差异: ① 从两个不同的物种中获取的两个基因,其分化可能早于物 种的分化; ② 基因树的拓扑结构可能与物种树不一致,因为两个或多个 基因树之间很可能存在不一致之处。如何将由多个基因或基 因组建立的基因树综合成为一个物种树,是分子系统学目前 所面临的一个难题。 • 图4-5示出了物种树和基因树间3种可能的关系。图中圆角矩 形(代表物种形成)和实心圆点(代表基因分化)分别表示物种树 和基因树。在(a)和(b)中,物种树的拓扑结构与基因树一致。 其中(a)中基因间的分化时间大致等于物种间的分化时间;(b) 中基因X和Y的分化时间大大早于物种间的分化时间;(c)中基 因树与物种树的拓扑结构不同。对于中性位点而言,上述3种 情况的概率均可通过物种分化时间(T=t1-t2)和有效种群规模 (effective population size)N来计算,分别标注在图4-5的树
• 在分子进化研究中,同源性一般是指两种核酸分子的核苷酸 序列之间或两种蛋白质分子的氨基酸序列之间的相似程度。 序列分析是最终测定同源性程度的方法,DNA—DNA杂交或 DNA - RNA杂交也是有用的估计途径。在实际应用中,以下 几个概念应加以区别: (1) 直系同源(orthology )不同种属中具有相同功能的蛋白质 可以反映物种血统上的同源性,即物种进化的历史。 (2) 并系同源(paralogy )一个个体中既有一定关系却又不相 同的蛋白质,只反映基因进化的历史。 (3) 异同源(xenology ) 基因中存在外源基因拷贝,仅仅部分 反映基因进化的历史。 (4) 多异同源(paraxenology)与异同源的不同点在于在主基 因组中它拥有两个或更多的外源基因拷贝。 (5) 部分同源(plerology)由许多不同的功能部分组成,而一 个基因的组成中包含有其他基因的片段。 • 分子系统发育分析中,应首先考虑直系同源基因序列,其他 同源序列只能作为补充信息。
β
β α
C
β
β
T
• Jukes-Cantor单参数模型(JC)和Kimura两参数模型(KZP) 在分子进化研究中应用较为广泛。其他模型有Kimura三参 数模型(K3ST)、Felsenstein―等输入”模型(F81)、Lanave 等“广义时间可反转”模型(GTR)、Hasegawa等五参数模 型(HKY85)、Kishino和Hasegawa广义模型(SYM)以及 Tamura和Nei六参数模型(TrN)等。近来,Yang与Adachi 和Hasegawa还提出了广义可反转马尔可夫模型,等等。
4.1.1同源性与同源性状
• 同源性(homology)是比较生物学中的一个中心概念。第3章 和第4章中已涉及序列同源性检索方面的内容。这里,将进 一步讨论有关序列同源性分析的基本概念。同源,最基本的 意义就是具有共同祖先。一般来说,如果两个物种中有两个 性状(状态)满足以下两个条件中的任意一个,就可以称这两 个性状为一对同源性状(homologous character): (1) 它们与这些物种的祖先类群中所发现的某个性状相同; (2) 它们是具有祖先—后裔关系的不同性状。 相似性与同源性是两个不同的概念,相互之间没有直接的等 同关系。相似只是一个描述性的词汇,并不代表实质性的同 源。相似不一定同源,同源一般表现为相似。但同源基因不 一定比非同源基因相似度更高。
• 图4-2 示出了内类群、外 类群和姊妹群的例子。 图中G1={A,B,C}和 G2={S,G1}可视为内类 群;O1,O2为G2的外类 群;S为G1的姊妹群
4.1.3 系统(发育)树
• 系统树是表达类群(或序列)间系统发育关系的一种树状图,可 划分为以下几种类型
4.1.3.1 有根树和无根树
• • • •
别,就是它们眼睛的构造也大相径庭。这说明表型有时候会误 导我们,表型相似并不总是反映基因相似。 用表型来判定进化关系的另一个问题是,对于许多生物体很难检 测到可用来进行比较的表型特征。例如,即使用显微镜检查,也 难以发现细菌的明显特性。 当我们试图比较关系较远的生物体的时候,第三个问题又出现了, 即什么样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺 乳动物,它们之间的共同特征实在是少之又少。 随着人们对生物的认识从宏观发展到微观,科学家对物种分类的 依据也从宏观上的形态发展到了微观上的分子,并且有了突破性 的进展,系统发生分析进入分子层次。 核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的, 作为生物遗传物质的核酸和作为生命机器的蛋白质分子中存在着 关于生物进化的信息,可用于系统发生关系的研究。在分子水平 上进行分析具有许多表型分析所没有的优势,所得到的结果更加 科学、可靠。分子系统发生分析直接利用从核酸序列或蛋白质分 子提取的信息,作为物种的特征,通过比较生物分子序列,分析 序列之间的关系,构造系统发生树,进而阐明各个物种的进化关 系。
4.1.2 类群
1.祖先类群(ancestral group) 如果一个类群(物种)至少有一个子裔类群,这个原始的类群 就称为祖先类群。 2.单系类群(monophyletic group) 包含一个祖先类群所有子裔的群组称为单系类群,其成员间 存在共同祖先关系。 3.并系类群(paraphyletic group)和复系类群(polyphyletic group) 不满足单系类群要求,各成员间又具有共同祖先特征的群组 称为并系类群;各成员既不具有共同衍生特征也不具有共同 祖先特征,只具有同型特征的分类群组称为复系类群。 4. 内类群(ingroup)和外类群(outgroup) 一项研究所涉及的某一特定类群可称为内类群;不包括在内 类群中又与之有一定关系的类群可称为外类群。外类群的建 立是为了比较内类群中各成员的特征差异。
5. 姊妹群(sister group) 与某一类群在谱系关系上最为密 切的类群称为姊妹群。 姊妹群是单系类群的一种常见类 型。 • 图4-1示出树6个分类群(A-F)进 行不同划分所产生的单系、并系 和复系类群的例子。图4-1(a)中 单系类群为:{A,B},{E,D, F}、{C,D,E,F}、 {A,B,C,D,E,F} • 图4-1 (b)中并系类群为:{C, D,E}、 {B,C,D, E, F}等 • 图4-1 (c)中复系类群为:{B,D}、 {B,D,E,F}
相关文档
最新文档