第四部分 分子系统学
第四章、序列的同源比较及分子系统 学和分子进化分析1
(ii) 氨基酸突变代价矩阵GCM (iii)疏水矩阵 (iv)PAM矩阵(Point Accepted Mutation) (v) BLOSUM矩阵 (Blocks Amino Acid Substitution Matrices)
2013-7-14 22
二、序列相似性比较基础知识
3、打分矩阵
直向同源( orthologous):不同种属的同源序列,是 基因复制的结果。如:α血红素和β血红素。 共生同源 (paralogous):同一种属的同源序列,是 物种行成的结果。如:人和鼠的α血红素。
2013-7-14 5
一、序列相似性比较简介
4、序列比较的基本操作是:比对(align) 是指这两条序列中各个字符的一种一一对应关系,
2013-7-14 23
二、序列相似性比较基础知识
3、打分矩阵 该矩阵是根据氨基酸残基替换前后疏水性的变化而 得到得分矩阵。若一次氨基酸替换疏水特性不发生太 大的变化,则这种替换得分高,否则替换得分低。
2013-7-14
24
二、序列相似性比较基础知识
3、打分矩阵
PAM 矩阵 是第一个广泛使用的最优矩阵,它是基于进化原理的,建立 在进化的点接受突变模型PAM(Point Accepted Mutation)基础 上,通过统计相似序列比对中的各种氨基酸替换发生率而得到该 矩阵。Dayhoff 和她的同事们研究了71 个相关蛋白质家族的1572 个突变,发现蛋白质家族中氨基酸的替换并不是随机的,由此, 断言一些氨基酸的替换比其他替换更容易发生,其主要原因是这 些替换不会对蛋白质的结构和功能产生太大的影响。如果氨基酸 的替换是随机的,那么,每一种可能的取代频率仅仅取决于不同 氨基酸出现的背景频率。然而,在相关蛋白中,存在取代频率大 大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点突 2013-7-14 25 变已经被进化所接受。这意味着,在进化历程上,相关的蛋白质
分子生物学基础PPT第四章
第二节 启动子与转录的起始
3.真核生物启动子对转录的影响 TATA区和其他两个UPE区的作用有所不同(图4-5)。 前者的主要作用是使转录精确地起始,如果除去TATA区或 进行碱基突变,转录产物下降的相对值不如CAAT区或GC区 突变后明显,但发现所获得的RNA产物起始点不固定。研 究SV40晚期基因启动子发现上游激活区的存在与否,对该 启动子的生物活性有着根本性的影响。若将该基因5′上 游–21-–47核苷酸序列切除,基因完全不表达(图4-6)。
分子生物学基础
遗传信息的转录—从 第四章 遗传信息的转录 从DNA到RNA 到
第一节 RNA转录的概述
一、RNA转录的特点 RNA转录的特点 在DNA指导下RNA的合成称为转录。RNA链的转 录起始于DNA模板的一个特定起点,并在特定的终 点终止,此转录区域称为转录单位。一个转录单 位可以是一个基因或多个基因。基因的转录是一 种有选择性的过程,随着细胞的不同生长发育阶 段和细胞内外条件的改变将转录不同的基因。转 录起始主要由DNA分子上的启动子(promoter)控 制,而控制终止的部位称为终止子(teminator)。 典型的转录单位结构如图4-1。
第四节
转录后加工
图4-12 真核生物mRNA5′–端帽结构
第四节
2.3′–端加尾
转录后加工
真核生物成熟的mRNA 3′–端通常都有100~200个腺苷 酸残基,构成多聚腺苷酸(polyA)的尾巴。通过研究发 现,DNA序列中没有多聚T的序列,由此说明了3′尾巴 polyA是在转录后加上的。研究发现,它还是多聚腺苷酸 化的信号,该序列AAUAAA,因为切除该保守序列,3′–端 则不能进行切除,也不能形成polyA尾巴。3′–端polyA尾 的形成见图4-13。
分子进化和分子系统学(转载)
分⼦进化和分⼦系统学(转载)分⼦进化和分⼦系统学12.1 概念 分⼦进化⼀词有两层含义。
从⽣命历史看,在前⽣命的化学进化阶段(细胞⽣命出现之前),进化主要表现在分⼦层次上,即表现在⽣物分⼦的起源和进化上。
换⾔之,从时序上说,分⼦进化是⽣物进化的初始阶段。
但从另⼀⾓度来看,在细胞⽣命出现之后,进化发⽣在⽣物分⼦、细胞、组织、器官、⽣物个体、种群等各个组织层次上,分⼦进化是⽣物分⼦层次上的进化。
换⾔之,从组织层次上说,分⼦进化是⽣物组织的基础层次的进化。
我们通常所说的分⼦进化就是指后者。
前者通常被称为前⽣命的化学(分⼦)进化。
⼀般⽽⾔,对⾃然现象的认识过程是从⼈类感官所及的层次开始,逐步向微观和宏观两个⽅向扩展。
向微观领域的探索往往出于寻找“深层原因”的动机。
对进化原因和进化机制的探索,最终必然深⼊到分⼦层次。
向宏观领域探索则是相反的过程,即⽤已知的低组织层次的知识去认识和解释⾼组织层次现象。
如今,科学家们发现,不同层次的现象遵循不同的规律和不同的法则。
低层次的规律并不完全适⽤于⾼层次,⽤⾼层次的规律解释低层次现象也往往⾏不通。
因此,本章讨论的分⼦进化规律和分⼦进化的理论基本上只适⽤于分⼦进化。
12.2 ⽣物⼤分⼦进化的特点 在⽣物⼤分⼦的层次上来观察进化改变时,我们看到的是⼀个很不同于表型进化的过程。
根据分⼦进化研究的权威之⼀⽊村(Kimura,1989)的总结,分⼦进化有两个显著特点,即进化速率相对恒定和进化的保守性。
1.⽣物⼤分⼦进化速率相对恒定 如果以核酸和蛋⽩质的⼀级结构的改变,即分⼦序列中的核苷酸或氨基酸的替换数作为进化改变量的测度,进化时间以年为单位,那么⽣物⼤分⼦随时间的改变(即分⼦进化速率)就像“物理学的振荡现象”⼀样,⼏乎是恒定的。
通过⽐较不同物种同类(同源的)⼤分⼦的⼀级结构,可以计算出该类分⼦的进化速率。
对于某类蛋⽩质分⼦或某个基因(或核酸序列)来说,其分⼦进化速率可表⽰为氨基酸或核苷酸的每个位点每年的替换数,即 上式中的K是分⼦进化速率(每个氨基酸位点每年的替换数);d是氨基酸或核苷酸替换数⽬;N是⼤分⼦结构单元(氨基酸或核苷酸)总数; t是所⽐较的⼤分⼦发⽣分异的时间, 2t代表进化时间,进化经历的时间是分异时间的2倍。
现代分子生物学第四章ppt课件
密码子与反密码子的相互作用
tRNA的反密码子在核 糖体内是经过碱基的反 向 配 对 与 mRNA 上 的 密 码子相互作用的。
Codon 5’ A C G 3’ Anticodon 3’ U G C 5’ is usually written as codon ACG/anticodon CGU, ACG and CGU
遗传密码: mRNA上每3个核苷酸翻译成多肽链上 的一个氨基酸,这3个核苷酸就称为一 个密码子〔三联子密码〕。
4. 1. 1 三联子密码及其破译
由于mRNA中只需4种核苷酸,蛋白质中有20 种氨基酸:
以一种核苷酸代表一种氨基酸是不能够的。
假设以两种核苷酸作为一个氨基酸的密码〔二 联子〕,能代表42=16种氨基酸。
假设以3个核苷酸代表一个氨基酸,有43=64种 密码子,满足了编码20种氨基酸的需求。
从遗传学的角度证明三联子密码的想象 是正确的
Crick等人发现T4噬菌体rII位点上两个基因的 正确表达与它能否侵染大肠杆菌有关,用吖啶 类试剂〔诱导核苷酸插入或从DNA链上丧失〕 处置使T4噬菌体DNA发生移码突变 〔frameshift mutation〕,噬菌体就丧失感染 才干。
mRNA上的密码子与tRNA上 的反密码子配对表示图
a. 密码子与tRNA反密码 子臂上相应序列配对
b. 当反密码子第一位是I时, 密码子第三位可以是A、U或C。
tRNA上的反密码子与mRNA上密码子的配对与“摆动〞分析
1.3'〕X-Y-C 〔5'〕
酪氨酸
3
缬氨酸
密码子个数 6 2 1 2 4 6 4 1 2 4
除了Arg以外,编码某一特定氨基酸的密码子个数 与该氨基酸在蛋白质中的出现频率相吻合
第四章 分子进化分析
1.2.3 最大似然法(ML)
最大似然法(maximum likelihood,ML) ML对 系统发育问题进行了彻底搜查。ML期望能够 搜寻出一种进化模型(包括对进化树本身进 行搜索),使得这个模型所能产生的数据与 观察到的数据最相似.
进化模型可能只是简单地假定所有核苷酸(或 AA)之间相互转变的概率相同,程序会把所有 可能的核苷酸轮流置于进化树的内部节点上, 并且计算每个这样的序列产生实际数据的可能 性(比如两个姊妹群都有核苷酸A,那么如果 假定原先的核苷酸C得到现在的A的可能性比起 假定原先就是A的可能性要小得多),所有可 能性的几率被加总,产生一个特定位点的似然 值,然后这个数据集的所有比对位点的似然值 的加和就是整个进化树的似然值。
2.选择适当的分析方法 如你分析的是DNA数据,可以选择简约法 (DNAPARS),似然法(DNAML, DNAMLK), 距离法等(DNADIST)。。。 3.进行分析 选择好程序后,执行,读入分析数据,选 择适当的参数,进行分析,结果自动保存为 outfile,outtree。
Outfile是一个记录文件,记录了分析的 过程和结果,可以直接用文本编辑器(如写 字板)打开。 Outtree是分析结果的树文件,可以用 phylip提供的绘树程序打开查看,也可以用 其他的程序来打开,如treeview。
paralogs
orthologs
1.1.2 类
群
祖先类群(ancestral group):如果一个类群(物种)至少有一 个子裔群,这个原始的类群就称为祖先类群 单系类群(monophyletic group)包含一个祖先类群所有子裔 的群组称为单系类群,其成员间存在共同祖先关系 并系类群(paraphyletic group)和复系类群(polyphyletic group):不满足单系类群要求,各成员间又具有共同祖先特征 的群组称为并系类群;各成员不具有共同衍生特征也不具有共 同祖先特征,只具有同型特征的分类群组称为复系类群 内类群(ingroup):一项研究所涉及的某一特定类群可称为内类 群
厦门大学进化生物学第10章分子进化和分子系统学演示教学
1)蛋白水平上进化速率不均衡性 (保守性)的体现
不同蛋白一般进化速率不等
按系统来说,一般认为参与免疫反应及 受精过程的蛋白进化速率较快,而参与胚胎 发育的转录因子则进化速率较慢。如脊椎动 物的gamma-interferon蛋白和海胆的精子顶体 蛋白Bindin都是目前发现的进化速率最快的 蛋白成员。
1.中性突变理论的提出
◌ 1968年,日本遗传学家木村资生(Motoo Kimura)
在《Nature》杂志发表了“论分子水平上的进化 速率”的评述,根据不少核苷酸和氨基酸的置换 并不影响生物大分子的生物学功能的事实,提出 了生物进化在分子水平上的“中性理论”;
◌ 次年,美国学者金和朱克斯(J.K.King & T.H.
3.中性突变理论的主要论据
1)分子层次上的大多数变异是选择中性的; 2)蛋白质与核酸分子的进化速率高而且相对
恒定; 3)突变压在分子进化中的作用在最近的研究
中得到越来越多的证实; 4)按群体遗传学的数学模式计算出来的自然
选择代价过高,不符合实际情况。
跳页
a. 哑突变占优势; b. 在生物基因组中,非编码的DNA占绝大部
此外,还有研究暗示脑部特异表达的基 因在人的这一支中进化速率较快。
同一蛋白不同区域进化速度不等
2)核酸水平上进化速率不均衡性(保守 性)的体现
• DNA密码子中的同义替换比变义替换发生
的频率高;
• 内含子内的碱基替换速率明显高于外显子,
一般大致等同于或高于同义替换;
• 外显子内部一般编码区的进化速度快于非
序列计算的,往往比实际的小。
• 校正方法:氨基酸和核酸的校正方法存在
一定差异,且根据不同基因的蛋白序列 (或核酸序列)校正方法也不尽相同。
第十章 分子进化和分子系统学.
生物进化是以生物大分子为基础的, 只有从分子水平上研究生物的进化才能 触及生物进化的本质,同时也使我们采 用更加直接的手段研究生物进化成为可 能。 究竟什么是分子进化,什么是分子 系统学、分子进化的特点又是什么,如 何建立分子系统树等,诸如此类的问题 是本章要讨论的重点。
分子进化速率通常用每年、每个氨 基酸座位的替换率来表示,公式为Kaa = Kaa/2T,T为比较的两个蛋白质之间从共 同的祖先分歧开始的年数,2T为进化间, Kaa是比较的两个蛋白质之间每个氨基酸 座位替换的平均数。如果知道了用来比较 的两个物种的分歧年数和蛋白质氨基酸的 差异,就可以计算出该蛋白质的进化速率。 如人和鲨鱼的分歧年数为4.2X108年,血 红蛋白α链差异Kaa为0.76,Kaa=0.76 /2 X 4.2X10-8 = 0.9X10-9。用同样的方 法对人和鲤鱼的血红蛋白α链进行比较计 算,进化速率为0.6X10-9。
四、分子系统学和分子系统树
分子系统学是研究生物大分子进化 历史的科学,它主要研究某一生物大分 子在生物进化的过程中突变的产生、固 定以及积累的过程。分子系统学以生物 大分子进化速率的恒定性为前提,通过 比较现在同一同源分子在不同生物间的 差异以及其他信息来推断生物大分子的 进化史,以此建立生物大分子进化系统 树。
中性突变理论的本质是分子突变从 严格的意义上讲是选择中性的,即对生 物本身来讲既无利也无害,它的命运几 乎取决于遗传上的随机固定,所以在分 子进化的过程中,突变压和随机固定起 着重要作用。只有进一步导致形态和生 理上的差异后自然选择才能发挥作用。 关于中性理论内容和传统的进化论之间 的区别以及中性理论的证据,木村资生 进行了详细论述。
M . O . Dayhof 对蛋白质的氨基酸 变化进行了广泛的研究,收集了大量的数 据,其中研究最详细最深入的蛋白质是脊 椎动物的血红蛋白(珠蛋白)和肌红蛋白。 血红蛋白在血液中运输氧和二氧化碳;肌 红蛋白具有在组织中贮存氧的功能。 1 .氨基酸差异比例的计算 2.氨基酸差异比例的校正 3.分子进化速率的计算及其恒定性
生物信息学第六章分子系统发育分析 ppt课件
姊妹群是单系类群的一种常见类 型。
• 图4-1示出树6个分类群(A-F)进 行不同划分所产生的单系、并系 和复系类群的例子。图4-1(a)中 单系类群为:{A,B},{E,D, F}、{C,D,E,F}、 {A,B,C,D,E,F}
• 图4-1 (b)中并系类群为:{C, D,E}、 {B,C,D, E, F}等
第四章 分子系统发育分析
§4.1分子进化的基本概念
• 系统发生学是进化生物学的一个重要研究领域,系统发生分 析早在达尔文时代就已经开始。从那时起,科学家们就开始 寻找物种的源头,分析物种之间的进化关系,给各个物种分 门别类。
• 经典系统发生学研究所涉及的特征主要是生物表型 (phenotype)特征,所谓的表型特征主要指形态学的(结构的) 特征,如生物体的大小、颜色、触角个数,也包括某些生理 的、生化的以及行为习性的特征。通过表型比较来推断生物 体的基因型(genotype),研究物种之间的进化关系。但是, 利用表型特征是有局限性的。有时候关系很远的物种也能进 化出相似的表型,这是由称为趋同进化的过程造成的。
4.1.1同源性与同源性状
• 同源性(homology)是比较生物学中的一个中心概念。第3章 和第4章中已涉及序列同源性检索方面的内容。这里,将进 一步讨论有关序列同源性分析的基本概念。同源,最基本的 意义就是具有共同祖先。一般来说,如果两个物种中有两个 性状(状态)满足以下两个条件中的任意一个,就可以称这两 个性状为一对同源性状(homologous character):
• 用表型来判定进化关系的另一个问题是,对于许多生物体很难检 测到可用来进行比较的表型特征。例如,即使用显微镜检查,也 难以发现细菌的明显特性。
• 当我们试图比较关系较远的生物体的时候,第三个问题又出现了, 即什么样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺 乳动物,它们之间的共同特征实在是少之又少。
分子系统学
分子系统学分子系统学是指通过对生物大分子(蛋白质、核酸等)的结构、功能等的进化研究,来阐明生物各类群(包括已绝灭的生物类群)间的谱系发生关系.相对于经典的形态系统分类研究,由于生物大分子本身就是遗传信息的载体,含有庞大的信息量,且趋同效应弱,因而其结论更具可比性和客观性.尤为重要的是,一些缺乏形态性状的生物类群(如微生物和某些低等动、植物)中,它几乎成为探讨其系统演化关系的唯一手段.由于分子系统学的上述特点,自其诞生之日起,就逐渐在各种生物类群的系统发生研究中得到了广泛的应用.总的说来,迄今分子系统学的研究所获得的生物类群间亲缘关系的结果,大多都和经典的形态系统树相吻合.但是,在一些生物进化谱系不明或模糊关键环节上,它得出的结果却往往和形态系统学的推测大相径庭.1研究步骤分子系统学研究的主要方法是根据分子生物学数据构建生物类群的谱系发生树.它一般包括以下程序:1.首先确定所要分析的生物类群,选择该类群中相关亚类群的一些代表种类;确定所要分析的目的生物大分子(包括DNA序列、蛋白质序列等)或它们的组合;2.设法获得它们的序列数据或其它相关数据(如限制性内切酶(I LP)、随机扩增多态DNA( )、DNA序列等),DNA序列的数据可以通过GenBank获得,也可以通过实验室的研究(设计特异引物进行PCR扩增和序列测定)而获得;3.对获得的相关数据进行比对(pairwisealignment)或其它的数学处理,如转变成遗传距离数据矩阵;通过一些遗传分析软件(常用的计算机软件如:PHYLIP J、PAI J、MEGA[J 等)对这些处理后的数据,并基于一定的反映DNA序列进化规律的数学模型构建分子系统树;4对构建的系统树做相应的数学统计分析以检验系统树的可靠性等.值得注意的是,在分析具体的研究对象时,上述各个环节是紧密联系的一个整体,要获得一个正确的结论,必须综合考虑每一环节之间的内在联系.比如目的基因的选择、数据处理和分析的分类群之间、构树方法和分析软件的选择之间都有密切的联系.2涉及议题基因树和物种树分子系统学的目的就是通过基因树来推测物种树.基因树是根据生物大分子的序列数据(主要为DNA序列数据)构建的谱系树,物种树则是反映物种实际种系发生的谱系树.人们期待着得到的基因树和物种树相一致,然而实际情况往往并非如此.Nei(1987)描绘了二种谱系树之间所有可能的关系,认为二种谱系树之间至少存在二个方面的差异:一是基因树的分化时间早于物种树,二是基因树的拓扑结构可能与物种树不一致(二个或多个基因树之间存在着差异)如何将由多个基因或基因组建立的基因树综合成一个物种树,是分子系统学面临的一个主要难题.Maddison(1997)认为:基因重复所导致的并源而非直源关系的产生,不同生物类群问基因的水平转移,系统演化分歧事件发生后产生的分子性状的多型性引起的谱系选择等生物学因素是造成二者不一致的主要原因.相应地,分子系统学研究中一定要选择直源基因而非并源基因,选择水平转移事件较少的树,采用基于大量独立进化的基因位点进行分析等等,都不失为一种行之有效的方法,更有利于获得一个可靠的树.分类群的选择分子系统学研究中如何选择所研究的对象——内类群的选择是一个非常值得注意的问题.内类群选择(内类群的数目及选择依据等)的科学性与否直接影响到所得结论的可靠性.关于内类群的数目,目前大多数分子系统学家认为,当所分析的序列长度一定时,尽量选择较多的分类群有助于获得更准确的结论,而内类群选择的依据主要体现在:(1)结合古生物学,形态学等各方面证据,尽量保证所选择的分类群确为一个单系发生的类群;(2)分类群的选择并非是随机的,尽量使其在所研究的生物类群中具有代表性;(3)在某些因具有明显长枝效应(或短枝效应)而导致的系统关系不确定的分支间增加分类群有助于减弱或消除这种效应.另外,在构建分子系统树中,同样需要选择外类群以确定系统发生树的基部位置,从而确定进化的方向.外类群的选择可以是单个(单一外类群),也可以是多个(复合外类群).在所研究的内类群数目不多且二者之间的极性关系十分确定的情况下,单个外类群足以说明问题.而在较为复杂的分析中,通常选择复合外类群以保证所得结论的可靠性[11].随机选择的外类群,极有可能因为亲缘关系较远,导致所得结果的不确定性增大.因此,在选择外类群时,必须结合其它分类学上的证据,或者在做详细的系统发育研究之前,首先对所研究的内、外群的关系进行初步探讨,以便于选择较为理想的外类群.最理想的外类群应该是该内群的姐妹群,因为二者间拥有较多的共近裔性状.目的基因的选择分子系统学研究中目的基因的选择也是一个至关重要的问题.一般来说,要根据所研究的具体分类群选择适宜的基因:在高级分类阶元(科级以上)间的系统发生分析中,选择一些在进化中较为保守的基因或基因片段(如核编码的蛋白质(酶)基因、核糖体基因(18S rRNA基因、28S rRNA基因)等);在较低级的分类阶元间,可以选择进化速率较快的基因或基因片断(如某些核编码基因的内含子或转录间隔区(ITS)以及一些细胞器基因(线粒体基因和叶绿体基因)等).当然,每一个具体的研究对象,可以选择的基因数目可以是多个的,至于哪些是最有效的,这通常要依据具体情况做比较分析后才能得出结论.条件允许的话,可以作多基因或多基因组合分析后寻求一致树来加以解决.有时针对某些涉及到多种层次分类阶元的复杂分类群时,还可以采取组合分析的方法:即推断位于系统树基部的深层次的谱系发生时,运用较保守的基因作为目的基因;推断位于系统树中段的谱系发生时,采用进化速率较为适中的基因;在系统树顶端的终端分类单元时,采用进化速率较快的基因.这样可以在不同阶层的演化关系中都获得可信的结果.基因序列数据的比对选择了适宜的目的基因并通过基因的扩增(PCR技术)和序列测定后,就获得了各个目标生物类群的DNA序列数据,对所获得的同源DNA序列进行比对是分析中的关键环节.所谓比对是指通过插入间隔(gaps)的方法,使不同长度的序列对齐达到长度一致,并确保序列中的同源位点都排列在同一位置.其中间隔的处理对后续的系统学分析有明显的影响.序列比对目前通常基于以下二种原理:点标(dot plot)法和记分距阵(scoring ma仃ix)法.基因树的构建方法目前,构建基因树的方法很多,常用的主要有二大类:距离法(distancemethod):是将序列数据转变成数据(遗传距离)矩阵,然后通过此数据矩阵构建系统树、具体性状法(dis—cretecharacter method):直接分析序列上每个核苷酸位点所提供的信息构建系统树,它又包括最大简约法(MP)和最大似然法以及由ML法延伸的贝叶斯法(Bayesianmetl-,od).距离法该方法基于这样一种假设,即只要获得一组同源序列间的进化距离(遗传距离),那么就可以重建这些序列的进化历史.距离法中以邻接法(NJ)最为常用.邻接法是由Saitou和Nei(1987)提出,其原理是逐步寻找新的近邻种类(序列),使最终生成的分子树的遗传距离总长度为最小.该法虽并不检验所有可能的拓扑结构,但在每阶段诸物种(序列)聚合时都要应用最小进化原理,故而被认为是ME的一种简化方法.最大简约法该方法源于形态学的分支系统学研究,而最早被Fitch(1971)用于核苷酸数据研究.它是一种最优化标准,遵循“奥卡姆剃刀(Ockharn’S razor)原理,即假设由一祖先位点替换为另一位点时,发生的替换数目最少的事件为最可能发生的事件.在实际应用中,由于MP法只考虑所谓的“信息位点”,所得的进化树是最短的、也是变化最少的进化树.因而,简约法的“最小核苷酸替换数目”原则也意味着“异源同型事件(homoplastic event)(即平行替换、趋同替换、同时替换和回复突变等)最少.最大似然法该法最早由Felsenstein(1981)提出,其原理是以一个特定的替代模型分析一组既定的序列数据,使获得的每一个拓扑结构的似然率均为最大,再挑出似然率值最大的拓扑结构作为最终树这里所分析的参数是每个拓扑结构的枝长,并对似然率的最大值来估算枝长.迄今的研究表明,在分类群数目较大、序列长度较长的复杂分析中,ML法的分析结果优于其它任何方法。
现代分子生物学课件-第四章
第二十三页,共酸的现象称为简并(degeneracy),对应 于同一氨基酸的密码子称为同义密码子 (synonymous codon)。
AUG和GUG既是甲硫氨酸及缬氨酸的密码
子又是起始密码子。
第二十四页,共167页。
第二十五页,共167页。
第十六页,共167页。
4. 1. 2 遗传密码的性质 1. 密码的简并性
4种核苷酸可组成64个密码子,现在已经知 道其中61个是编码氨基酸的密码子,另外3个即 UAA、UGA和UAG并不代表任何氨基酸,它们 是终止密码子,不能与tRNA的反密码子配对, 但能被终止因子或释放因子识别,终止肽链的 合成。
以多聚(C)及多聚(A)做模板得到的分别 是多聚脯氨酸和多聚赖氨酸。
第九页,共167页。
以多聚UG为模板合成的是多聚Cys 和Val,因为多聚(UG)中含Cys和Val的 密码:
5'……UGU GUG UGU GUG UGU GUG……3'
无论读码从U开始还是从G开始,都只能 有UGU(Cys)及GUG(Val)两种密码子。
表4-1 三核苷酸密码子能使特定的 氨基酰-tRNA结合到核糖体上
密码子
与核糖体相结合的14C标记的氨基酰-tRNA
Phe-tRNAPhe Lys-tRNALys Pro-tRNAPro
UUU
4.6 *
0
0
AAA
0
7.7
0
CCC
0
0
3.1
*数字代表特定氨基酰tRNA与带有模板三核苷酸的核 糖体相结合的效率。
第六页,共167页。
如果同时删去3个核苷酸, 翻译产生少了一个氨基酸的 蛋白质,但序列不发生变化。
分子进化 ppt课件
(一)分子进化速率的恒定性
分子进化速率的恒定性是指核酸或者蛋白质等生 物大分子在进化的过程中碱基或者氨基酸发生 替换的频度,它是测定生物大分子进化快慢的 尺度,时间以年为单位。
ppt课件
27
不同物种同类型(同源)的核酸和蛋白质大分 子,被认为有着相同的起源。研究这些大分子 一级结构的改变,检测出不同物种间大分子序 列中的核苷酸或氨基酸的替换数,再结合地质 学上有关化石方面的数据,就可以确定生物大 分子随时间而改变的速度,即分子进化速率。
(2)核酸的进化
就量的方面看,在生物进化过程中,从低级到高 级,基因的数量是逐渐增加的,因此,细胞中 的DNA含量也逐渐增加,这是总的趋势。
例外,如肺鱼和某些两栖类细胞中的DNA含量 就比鸟类和哺乳类的高出很多,主要原因是由 于出现了多倍化,或重复序列及内含子的大量 增加。
ppt课件
16
ppt课件
ppt课件
45
分子进化中性理论的意义:
分子进化中性理论揭示了分子进化的基本规律, 是解释生物大分子进化现象的重要理论。
分子进化中性理论强调遗传漂变和突变压在分子 进化中的作用,是对综合进化论的重要补充和 修正。
ppt课件
46
中性理论承认自然选择在表型进化中的作用,同 时又强调分子层次上进化现象的特殊性。
ppt课件
35
(四)有害突变的选择清除和中性突变的固定
在分子水平上,明显有害突变型的选择清除,中 性或轻微有害突变的随机固定比明显有利突变 型的正达尔文选择更频繁发生。这是表型进化 与分子进化的最大区别。
ppt课件
36
三、分子进化的中性理论
基于对蛋白质和核酸分子的进化改变的比较研究, Kimura (1968)、King & Jukes (1969)、Kimura & Ohta (1971) 等提出了一个被称为“分子进化 中性论” 的理论,用以解释分子层次上的非 达尔文式进化现象。
序列的同源比较及分子系统学和分子进化分析教学课件
特点
本教学课件内容全面、结构清晰,注重 实践操作和案例分析,有助于学生深入 理解和掌握相关知识。
VS
优势
通过同源比较、分子系统学和分子进化分 析三个方面的内容,使学生对分子生物学 领域有一个全面的了解,同时提高学生的 实验操作能力和解决问题的能力。
感谢您的观看
THANKS
分子系统学与分子进化分析的关联
亲缘关系研究
分子系统学是研究生物亲缘关系和进化顺序的科学,通过比较不同物种或不同基因的分子特征,可以推断出它们 之间的亲缘关系和进化路径。
进化机制研究
分子进化分析是研究生物进化机制的科学,通过比较不同物种或不同基因的分子变异和进化速率,可以揭示生物 进化的内在规律和机制。
它基于氨基酸或核苷酸序列的相似性 比较,以评估物种间的亲缘关系和进 化历程。
序列同源比较的背景
随着生物技术的不断发展,研究人员 能够获得越来越多的基因和蛋白质序 列数据。
为了更好地理解这些数据和物种间的 关系,需要进行序列同源比较,以挖 掘更多有用的信息。
序列同源比较的意义
01
序列同源比较有助于研究物种的进化和亲缘关系。
药物研发
分子系统学研究结果可以用来寻找新的药物靶点,有助于开发出 更加有效的药物。
03
分子进化分析原理
分子进化的概念
分子进化的定义
分子进化是指生物大分子在进化过程中发生的适应性或非适应性 变化的过程。
分子进化的研究内容
主要研究生物大分子演化的规律和机制,包括DNA、蛋白质等分 子的演化过程、速度和方向等。
05
教学课件内容及安排
教学课件的主题和目标
主题
序列的同源比较、分子系统学和分子 进化分析
目标
厦门大学进化生物学第10章分子进化和分子系统学
2. 构建分子系统树的具体流程
1)大分子特征数据的获得 不同物种的同源大分子的同源位点就构成一 类特征,每一个位点有多种可能的特征状态,对 于DNA或RNA来说每个位点有4种可能的特征状态 (对应于4种碱基)。例如,某一物种的18S rRNA序列的第130位点为G,位点130是一类特征, G是一种特征状态。
◌ 1968年,日本遗传学家木村资生(Motoo Kimura)
在《Nature》杂志发表了“论分子水平上的进化 速率”的评述,根据不少核苷酸和氨基酸的置换 并不影响生物大分子的生物学功能的事实,提出 了生物进化在分子水平上的“中性理论”; 次年,美国学者金和朱克斯(J.K.King & T.H. Jukes)在《Science》杂志上刊出“非达尔文主义 的进化”一文,呼应木村资生的观点,向传统的 达尔文进化学说,包括现代综合进化论提出挑战。 他们认为,达尔文进化学说不能解释微观世界的 多种现象,提出了“非达尔文主义进化”的概念。
结论1:生物大分子进化中的一级结 构的改变(替换)只和进化经历的时间 相关,而与表型进化速率不相关。为什 么生物大分子进化改变的速率如此稳定 呢?一种可能的解释是:大分子一级结 构中组成单元的替换是一个没有特殊驱 动和控制的随机过程。
2.生物大分子进化的“保守性”
“保守性”是指功能上重要的大分子或 大分子的局部在进化速率上明显低于那些功 能上不重要的大分子或大分子局部。也即是 那些引起现有表型发生显著改变的突变(替 换)发生的频率较那些无明显表型效应的突 变(替换)发生频率低。
蛋白
二、分子进化的两大特点
1.生物大分子进化速率相对恒 定 2.生物大分子进化的“保守性”
1)核酸或蛋白质等生物大分子差异比例的计算
分子进化速率:核酸或蛋白质等生物大分子在进化 过程中碱基或氨基酸发生替换的频度,以年为单位, 可表示为:
分子系统学
分子系统学Molecular Systematics课程代码:901060105学时数:36 学分数:2执笔人:刘彦群讨论参加人:秦利,石生林,夏润玺等审核人:杨瑞生一、教学目的分子系统学是近40年发展起来的应用生物化学及分子生物学技术解决进化生物学问题的一门综合性很强的交叉学科,是检测、描述并解释生物在分子水平的多样性及其演化规律的学科,在生命科学研究领域具有重要作用。
通过本课程的学习,掌握分子系统学的原理和方法,基本掌握如何利用分子系统学方法解决种群结构、分类学、系统发育和分子进化的问题,为生物科学研究奠定科学的研究方法。
本课程是蚕学专业选修课和公共选修课。
二、教学内容、教学目标及学时分配第一章概论(3学时)本章介绍分子系统学的概念、发展状况、基本原理、研究方法、研究内容、分子系统学的优缺点、动物主要类群的分子系统学研究概况、分子系统学研究中存在的主要问题和展望。
第二章分子系统学基础(6学时)本章主要介绍分子系统学的遗传和进化基础,重点掌握生物的分子组成、起源和系统学价值。
1. DNA及其基因组的组成、结构和进化2. RNA的组成、结构和进化3.蛋白质的组成、结构和进化4.小分子化合物及其生化进化5.分子进化6.表型进化的分子基础第三章分子系统学的研究程序(5学时)通过本章学习,掌握分子系统学研究的一般程序和方法,重点掌握分子系统学研究的原则。
1.确定研究类群和目标2.预试3.取样策略4.样品的收集、处理和保存5.结果记录、数据分析6.系统学解释第四章核酸的分子系统学方法(8学时)本章主要介绍核酸分子系统学方法与应用范围,包括DNA—DNA杂交法、RAPD、AFLP、RFLP、SSR、核酸序列分析方法,重点掌握各种方法的优缺点和适合范围。
1. RAPD标记技术的原理与应用2. AFLP标记技术的原理与应用3. SSR标记的原理与应用4.序列分析方法与应用:核基因、线粒体基因、叶绿体基因;功能基因、基因间隔区。
分子系统学
分子系统学是指通过对生物大分子(蛋白质、榜酸等)的结构、功能等的进化研究,来阐明生物各类群(包括已绝灭的生物类群)间的谱系发生关系[ .相对于经典的形态系统分类研究,由于生物大分子本身就是遗传信息的载体,含有庞大的信息量,且趋同效应弱,因而其结论更具可比性和客观性.尤为重要的是,一些缺乏形态性状的生物类群(如微生物和某些低等动、植物)中,它几乎成为探讨其系统演化关系的唯一手段.由于分子系统学的上述特点,自其诞生之日起,就逐渐在各种生物类群的系统发生研究中得到了广泛的应用.总的说来,迄今分子系统学的研究所获得的生物类群间亲缘关系的结果,大多都和经典的形态系统树相吻合.但是,在一些生物进化谱系不明或模糊关键环节上,它得出的结果却往往和形态系统学的推测大相径庭.1 分子系统学研究的一般步骤分子系统学研究的主要方法是根据分子生物学数据构建生物类群的谱系发生树.它一般包括以下程序:首先确定所要分析的生物类群,选择该类群中相关亚类群的一些代表种类;确定所要分析的目的生物大分子(包括DNA序列、蛋白质序列等)或它们的组合;设法获得它们的序列数据或其它相关数据(如限制性内切酶(I LP)、随机扩增多态DNA( )、DNA序列等),DNA序列的数据可以通过GenBank获得,也可以通过实验室的研究(设计特异引物进行PCR扩增和序列测定)而获得;对获得的相关数据进行比对(pairwisealignment)或其它的数学处理,如转变成遗传距离数据矩阵;通过一些遗传分析软件(常用的计算机软件如:PHYLIP J、PAI J、MEGA[ J等)对这些处理后的数据,并基于一定的反映DNA序列进化规律的数学模型构建分子系统树;对构建的系统树做相应的数学统计分析以检验系统树的可靠性等.值得注意的是,在分析具体的研究对象时,上述各个环节是紧密联系的一个整体,要获得一个正确的结论,必须综合考虑每一环节之间的内在联系.比如目的基因的选择、数据处理和分析的分类群之间、构树方法和分析软件的选择之间都有密切的联系.2 分子系统学研究中涉及到的几个重要议题2.1 基因树和物种树分子系统学的目的就是通过基因树来推测物种树.基因树是根据生物大分子的序列数据(主要为DNA序列数据)构建的谱系树,物种树则是反映物种实际种系发生的谱系树.人们期待着得到的基因树和物种树相一致,然而实际情况往往并非如此.Nei(1987)描绘了二种谱系树之间所有可能的关系,认为二种谱系树之间至少存在二个方面的差异:一是基因树的分化时间早于物种树,二是基因树的拓扑结构可能与物种树不一致(二个或多个基因树之间存在着差异)[77,如何将由多个基因或基因组建立的基因树综合成一个物种树,是分子系统学面临的一个主要难题.Mad dison(1997)认为:基因重复所导致的并源而非直源关系的产生,不同生物类群问基因的水平转移,系统演化分歧事件发生后产生的分子性状的多型性引起的谱系选择等生物学因素是造成二者不一致的主要原因[8].相应地,分子系统学研究中一定要选择直源基因而非并源基因,选择水平转移事件较少的树,采用基于大量独立进化的基因位点进行分析等等,都不失为一种行之有效的方法,更有利于获得一个可靠的树.2.2 分类群的选择分子系统学研究中如何选择所研究的对象——内类群的选择是一个非常值得注意的问题.内类群选择(内类群的数目及选择依据等)的科学性与否直接影响到所得结论的可靠性.关于内类群的数目,目前大多数分子系统学家认为,当所分析的序列长度一定时,尽量选择较多的分类群有助于获得更准确的结论,加j.而内类群选择的依据主要体现在:(1)结合古生物学,形态学等各方面证据,尽量保证所选择的分类群确为一个单系发生的类群;(2)分类群的选择并非是随机的,尽量使其在所研究的生物类群中具有代表性;(3)在某些因具有明显长枝效应(或短枝效应)而导致的系统关系不确定的分支间增加分类群有助于减弱或消除这种效应[91.另外,在构建分子系统树中,同样需要选择外类群以确定系统发生树的基部位置,从而确定进化的方向.外类群的选择可以是单个(单一外类群),也可以是多个(复合外类群).在所研究的内类群数目不多且二者之间的极性关系十分确定的情况下,单个外类群足以说明问题.而在较为复杂的分析中,通常选择复合外类群以保证所得结论的可靠性[11].随机选择的外类群,极有可能因为亲缘关系较远,导致所得结果的不确定性增大.因此,在选择外类群时,必须结合其它分类学上的证据,或者在做详细的系统发育研究之前,首先对所研究的内、外群的关系进行初步探讨,以便于选择较为理想的外类群.最理想的外类群应该是该内群的姐妹群,因为二者间拥有较多的共近裔性状.2.3 目的基因的选择分子系统学研究中目的基因的选择也是一个至关重要的问题.一般来说,要根据所研究的具体分类群选择适宜的基因:在高级分类阶元(科级以上)间的系统发生分析中,选择一些在进化中较为保守的基因或基因片段(如核编码的蛋白质(酶)基因、核糖体基因(18S rRNA基因、28S rRNA基因)等);在较低级的分类阶元间,可以选择进化速率较快的基因或基因片断(如某些核编码基因的内含子或转录间隔区(I TS)以及一些细胞器基因(线粒体基因和叶绿体基因)等).当然,每一个具体的研究对象,可以选择的基因数目可以是多个的,至于哪些是最有效的,这通常要依据具体情况做比较分析后才能得出结论.条件允许的话,可以作多基因或多基因组合分析后寻求一致树来加以解决.有时针对某些涉及到多种层次分类阶元的复杂分类群时,还可以采取组合分析的方法:即推断位于系统树基部的深层次的谱系发生时,运用较保守的基因作为目的基因;推断位于系统树中段的谱系发生时,采用进化速率较为适中的基因;在系统树顶端的终端分类单元时,采用进化速率较快的基因.这样可以在不同阶层的演化关系中都获得可信的结果[ ].2.4 基因序列数据的比对选择了适宜的目的基因并通过基因的扩增(PCR技术)和序列测定后,就获得了各个目标生物类群的DNA序列数据,对所获得的同源DNA序列进行比对是分析中的关键环节.所谓比对是指通过插入间隔(gaps)的方法,使不同长度的序列对齐达到长度一致,并确保序列中的同源位点都排列在同一位置.其中间隔的处理对后续的系统学分析有明显的影响[ ,:4].序列比对目前通常基于以下二种原理:点标(dot plot)法和记分距阵(scoring ma仃ix)法[15].对于分类群数目较少且序列较短的对位排列,用肉眼判断,手工排序就能完成.但随着序列数目和长度的增加,即多序列对位排列(multiple sequence alignment)的l难度随之增大.因而计算机程序已成为多序列比对必不可少的工具,CLUSTAL系列软件[ ]是目前较为常用的排序程序.当然,软件自动排序的结果不可避免地会出现一些偏差,在此情况下,肉眼辨别和基于某些序列结构特征(如rRNA基因的二级结构等)的手工校正成为一种重要的补充手段.另外处理某些得失位点(indels)和多次替换位点是排序中一个十分棘手的事情,此时往往需要借助个人积累的经验和相应的数学方法、设计统计学模式以估算发生多次替换的数目而加以修正.2.5 基因树的构建方法目前,构建基因树的方法很多,常用的主要有二大类:即距离法(distance method)、和具体性状法(dis—crete character method).前者是将序列数据转变成数据(遗传距离)矩阵,然后通过此数据矩阵构建系统树;后者直接分析序列上每个核苷酸位点所提供的信息构建系统树,它又包括最大简约法(MP)和最大似然法( )以及由ML法延伸的贝叶斯法(Bayesian metl-,od).2.5.1 距离法:该方法基于这样一种假设,即只要获得一组同源序列间的进化距离(遗传距离),那么就可以重建这些序列的进化历史.距离法中以邻接法(NJ)最为常用.NJ法是由Saitou和Nei(1987)提出,其原理是逐步寻找新的近邻种类(序列),使最终生成的分子树的遗传距离总长度为最小[17].该法虽并不检验所有可能的拓扑结构,但在每阶段诸物种(序列)聚合时都要应用最小进化原理,故而被认为是ME的一种简化方法.由于分析程序大大简化,费时较少,适于分析较大的数据集,目前已成为距离法分析中最通用的一种方法.NJ法不包含速率一致的假设,通过采用“校正”距离矩阵来减少各分支速率的影响,因而系统树的正确与否依赖于校正距离系数的准确性.当序列较短时,计算仍可能有较大的统计误差.NJ 法由于仅限于数据矩阵的统计值,相对于后述的具体位点的分析方法,其最大优势是运算十分简便而快捷.但是该法的不足之处是,由于不考虑各个位点的具体情况而丢失了一些有用的遗传信息,另外,通过这一方法得出的枝长估算值不具有确定的进化意义.2.5.2 最大简约法该方法源于形态学的分支系统学研究,而最早被Fitch(1971)用于核苷酸数据研究.它是一种最优化标准,遵循“奥卡姆剃刀(Ockharn’S razor)原理,即假设由一祖先位点替换为另一位点时,发生的替换数目最少的事件为最可能发生的事件[18].在实际应用中,由于MP法只考虑所谓的“信息位点”,所得的进化树是最短的、也是变化最少的进化树.因而,简约法的“最小核苷酸替换数目”原则也意味着“异源同型事件(homoplastic event)(即平行替换、趋同替换、同时替换和回复突变等)最少.就序列上的位点来说,它没有明确的假设,无须估计核苷酸替换时所用的各种数学模型,且当序列问的分化程度较小、序列长度较大且核苷酸替换率较稳定的情况下,该法能获得更为真实的拓扑结构[19].反之,当序列较短且序列间的进化速率差异较大或替换形式不同时,异源同型事件出现的概率就大,产生所谓的“长枝吸引”或“短枝吸引”效应,而得出错误的拓扑结构.另外,由于MP法需要比较大量的拓扑结构,当序列数目和长度较大时,运算过程非常耗时.2.5.3 最大似然法该法最早由Felsenstein(1981)提出,其原理是以一个特定的替代模型分析一组既定的序列数据,使获得的每一个拓扑结构的似然率均为最大,再挑出似然率值最大的拓扑结构作为最终树[ .这里所分析的参数是每个拓扑结构的枝长,并对似然率的最大值来估算枝长.迄今的研究表明,在分类群数目较大、序列长度较长的复杂分析中,ML法的分析结果优于其它任何方法[15].但由于该法涉及到全部序列的所有核苷酸位点的替换数,加之假设的替换模型包含一组可变参数(如转换/颠换比等).所以该法和MP法一样,当序列数目和长度较大时,构建NIL树是极其耗时的,同时当序列数目足够大而序列长度很小时,和MP 法一样,它也容易给出错误的拓扑结构.。
第四部分 分子系统学
第四部分分子生物学在系统学中的运用分子系统学(molecular systematics)是检测、描述并解释生物在分子水平的多样性及其演化规律的学科,是一门综合性很强的交叉学科。
其理论基础来源于系统学、分类学、遗传学、比较生物化学、分子生物学和进化论,其方法来源于免疫学、仪器分析、生物化学和分子生物学。
它是随着PCR技术、限制性内切酶等现代生物学技术的诞生及其在系统学中的应用和发展而形成的,经过几十年的发展,分子系统学逐渐形成了自身的原理和分析方法。
实验1 实验数据的获取进入NCBI主页(/)后,在Search框中选择nucleotide,在For后输入Grylloidea complete mitochondrion,即蟋蟀总科全线粒体后,点击Go即可搜索出符合条件的序列。
在搜索结果中浏览已经测序的蟋蟀总科全线粒体基因组,发现该总科已经被测序的有5种。
点开每一种的序列号,即可得到全线粒体基因序列及相关信息。
本研究所选择的5种蟋蟀总科及外群全线粒体基因序列数据的分类地位及来源见表2-1。
所用线粒体基因组主要来自于截止2012年3月为止GeneBank中收录的所用蟋蟀总科昆虫。
以NCBI中收录的东方蝼蛄(Gryllotalpa orietalis)和斑蝼蛄(Gryllotalpa pluvialis)作为外群。
实验2实验数据处理和分析所下载的5种昆虫的全线粒体基因序列所编码的基因完全相同,均为ATP6,ATP8,COX1,COX2,COX3,CYTb,ND1,ND2,ND3,ND4L,ND4,ND5,ND6基因。
将表2-1中所列的线粒体基因组编码的13个蛋白编码基因以及其联合数据分别作为一个独立的Fasta格式文件。
用ClustalX1.83进行多重序列比对,参数设置均设置默认。
将比对好的13种蛋白编码基因及联合数据集分别建成14个数据集。
(1) 序列组成分析经ClustalX 1.83软件比对后的序列为aln格式,在MEGA中打开并转化为meg格式,在使用MEGA 4.1软件进行比对结果的分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四部分分子生物学在系统学中的运用分子系统学(molecular systematics)是检测、描述并解释生物在分子水平的多样性及其演化规律的学科,是一门综合性很强的交叉学科。
其理论基础来源于系统学、分类学、遗传学、比较生物化学、分子生物学和进化论,其方法来源于免疫学、仪器分析、生物化学和分子生物学。
它是随着PCR技术、限制性内切酶等现代生物学技术的诞生及其在系统学中的应用和发展而形成的,经过几十年的发展,分子系统学逐渐形成了自身的原理和分析方法。
实验1 实验数据的获取进入NCBI主页(/)后,在Search框中选择nucleotide,在For后输入Grylloidea complete mitochondrion,即蟋蟀总科全线粒体后,点击Go即可搜索出符合条件的序列。
在搜索结果中浏览已经测序的蟋蟀总科全线粒体基因组,发现该总科已经被测序的有5种。
点开每一种的序列号,即可得到全线粒体基因序列及相关信息。
本研究所选择的5种蟋蟀总科及外群全线粒体基因序列数据的分类地位及来源见表2-1。
所用线粒体基因组主要来自于截止2012年3月为止GeneBank中收录的所用蟋蟀总科昆虫。
以NCBI中收录的东方蝼蛄(Gryllotalpa orietalis)和斑蝼蛄(Gryllotalpa pluvialis)作为外群。
实验2实验数据处理和分析所下载的5种昆虫的全线粒体基因序列所编码的基因完全相同,均为ATP6,ATP8,COX1,COX2,COX3,CYTb,ND1,ND2,ND3,ND4L,ND4,ND5,ND6基因。
将表2-1中所列的线粒体基因组编码的13个蛋白编码基因以及其联合数据分别作为一个独立的Fasta格式文件。
用ClustalX1.83进行多重序列比对,参数设置均设置默认。
将比对好的13种蛋白编码基因及联合数据集分别建成14个数据集。
(1) 序列组成分析经ClustalX 1.83软件比对后的序列为aln格式,在MEGA中打开并转化为meg格式,在使用MEGA 4.1软件进行比对结果的分析。
计算各个种之间的遗传距离(及其标准差),各数据组碱基的组成(nucleotide composition)、保守位点(conserved sites)、变异位点(variable sites)、简约信息位点(parsimony information sites)、自裔位点(singleton sites)、两两碱基频率(nucleotide pair frequency)、转换与颠换的比值R(Ts/Tv)等。
并进行碱基组成偏向性分析和碱基替换饱和性分析等。
所有进化模型均假设各支系的碱基组成处于平衡状态,所以在数据分析之前,需要对数据组的碱基组成偏向性(base composition bias)进行检验。
(2) 数据组系统发育信号检测如果转换颠换比的值小于2.0此基因序列的突变已达到饱和状态,可能会发生多重替换,受进化噪音影响的可能性较大,给系统发育分析带来困难,因此要对各数据集进行碱基替换饱和分析。
实验3 系统发育分析软件分子生物之形质资料与一般传统形态形质资料之性质不同,故在计算生物间的相似度的方法或系数种类亦不同,特别需考虑sequence alignment的问题,而并非单纯或直接去比对各形质之异同。
1. ClustalX2.0:用来对核酸与蛋白序列进行多序列比较(multiple sequence alignment)的软件。
多序列比较在分子生物学中是一个基本方法,用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助。
2. PHYLIP(Ver.3.68):Phylogeny Inference Package,内含三十余种独立程序可分析各种类型之资料及选用不同的分析方法。
它可以分析DNA与蛋白序列,限制位点等,并可绘制进化树。
程序含有许多选项可以精确控制与分析。
3. TreeView 1.6.6:TreeView是用来生成与打印进化树的软件它可以读取NEXUS与PHYLIP生成的进化树格式文件,生成进化树,并输出到打印机。
4. PAUP 4.0b(Win):PAUP是由Swofford所编写的利用简约分析进行系统发育分析(phylogenetic analysis using parsimony)的软件包,目前亦有多个版本。
该软件包中提供了简约分析用的多种模型,其中包括了Wangner、Fitch、Doll、Camin-Sokal等,对系统发育分析结果亦可进行一些统计分析及自举检验。
PAUP具有IBM-PC和Macintosh两种文本供选择。
5. MEGA 4.1:分子进化遗传分析MEGA(molecular evolutionary genetics analysis)是由Kumar等(1993)所编写的分子进化遗传分析的软件包。
在版本4.1中,它能对DNA、mRNA、氨基酸序列及遗传距离进行系统发育分析。
在建树方法上,提供了目前最常用的UPGMA、邻近法及最大简约法,对所获得数亦可进行自举检验及标准误估计可靠性检验。
6. MrBayes (Version 3.1.2):MrBayes软件可进行贝叶斯系统发育推论分析,其网址为http://morphbank.ebc.uu.se/mrbayes,目前可以免费下载。
该软件以NEXUS格式输入数据,但如果数据为隔行,则必须加入interleave=yes。
数据可以是核酸或氨基酸序列,也可以是限制性位点或以0、1表示的形态数据。
可以通过批处理或逐步执行的程序。
MrBayes软件可以通过不同的方法汇总模型参数的后置分布,包括系统树布局和分支长度,该软件还可以推导祖征和位点速率。
实验4 系统发育树构建1 距离矩阵法(distance-matrix methods)距离法矩阵是指以距离系数矩阵为基础的各种系统发育分析方法。
这类方法首先要求原始数据以成对分类单元之间的距离形式表示,对于性状数据编码后要转换成距离数据。
当距离关系满足超度量特性时,可以直接应用聚类分析方法构建超度量树,否则就要用叠加树法。
这类方法的优点是算法较性状数据分析方法简单直观,对进化过程没有其它更多的假设,故系统分析的结果具有稳定性。
基于距离构建系统树的方法很多,其中被证明能有效用于实际数据分析的方法有算数平均的不加权的组队法(UPGMA)、最小进化法(ME)和邻接法(NJ)。
2 简约性方法(parsimony methods)简约性方法源于形态性状研究,该方法的理论基础是ockham的哲学原理,即解释一个过程的最好的理论是所需假设数目最少的那一个。
如果对系统发育推断所需要知道的进化愈少,结果就愈可信。
与其他方法比较,简约法依靠较少或简单的进化假设,可以直接利用原始数据,不需要将原始数据转换成距离数据,可以避免信息丢失,而且大多数简约法的计算机算法及程序比其它方法更成熟。
该方法既可以用于核昔酸数据,也可以用于氨基酸数据。
简约性方法中最常用的为MP法(maximum parsimony,最简约法)。
简约法是一种不依赖任何进化模型的方法,能快速地分析出大量序列之间的系统发生关系,所构建的树中的短分支更接近真实,但简约树的树长值完全决定于所有重建祖先序列中的最小突变数,而突变是否按照事先约定的核昔酸最少替代的途径进行是不得而知的,单一的突变图谱可能会得出似是而非的结论。
再者,所有分支的突变数不可能相同,由于没有考虑核昔酸的突变过程,使得长分支末端的序列由于趋同进化而显示较高的相似性。
趋同现象违背了简约法则,导致的结果是对“长支吸引”的敏感。
因此,当序列单位位点上核昔酸替代数相对较大时,则极可能得出错误拓扑结构的树。
3 最大似然法(maximum likelihood method,ML法)最大似然法是应用统计推断构建系统发育关系的典型方法。
其原理是,只要建立一个关于进化过程的模型和一组观测数据就可以进行统计推测,一棵树(T)的似然性(L)是产生该树的观测数据(D)与进化模型(M)的概率。
在给定D和H的条件下,不同分枝形式和分枝长度的树有不同的似然性数值,极似然法的标准是选择具有最大似然值的树。
其分析的核心在于替代模型,目前根据碱基频率的相等或不等、转换和颠换速率的相等或不等、位点间替换速率异质性的有无以及不变位点比例的高低等特征提出的替代模型很多,仅在Modeltest软件中实际使的就达到56种,模型的正确选择也就成为极似然法的关键所在。
似然法似乎是几种常用方法中最为接近序列实际进化的方法,它考虑了所有可能的突变路径,能完全利用数据的系统发生信息。
然而,极似然法构建的系统树在很大程度上依赖于对核昔酸替代模型的选择。
似然法运算强度极大,对于分类单元较多时十分费时,这也是似然法应用的最大障碍。
而且似然法并没有评估拓扑结构的优劣,而是假定分支长度估计最精确的拓扑结构为最优树。
实际上,系统发生所关心的是树的拓扑结构,分支长度反而成为干扰参数,忽略分支长度似乎更合理些。
4 贝叶斯推论法(Bayesianinference)贝叶斯推论法是建立在后验概率(posterior probablity)基础上的,有关类群历史的推断是根据树的后验概率进行的,具有最高后验概率值的树的分支格局就可以作为有关类群系统发育关系的最佳估计。
一系列数值方法可以用于近似的获得后验概率,其中最有用的是Markov链Monte Carlo。
算法,其基本思想是建立Markov链,以替代模型参数作为状态空间,其静态分布就是参数的后验概率分布,通过计算机模拟和抽样技术获得分支格局的后验概率。
贝叶斯推论的优点在于能够以很高的计算速度处理大型数据集,同时提供了衡量树可信性的有效参数一后验概率。
贝叶斯法和极似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树。
但二者基本的不同在于,似然法是以观察数据的最大概率来拟合系统树。
贝叶斯法正好相反,是通过系统树对数据及进化模型的最大拟合概率而得到系统树。
极似然法给出的是数据的概率,而贝叶斯法给出了模型的概率。
极似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然值的系统树集合。
所有系统树的后验概率加在一起等于1,任何分支上的后验概率就是所有系统树该分支的后验概率之和。
将所有系统树按照后验概率大小排列,然后将具有最大后验概率的系统树加在一起,直至后验概率大于0.95通常,在此95%置信概率,贝叶斯法会给出唯一的系统树。