系统发育分析教程
分子系统发育分析课件

建树算法
总结词
建树算法是将序列比对结果转化为系统发育树的计算过程, 常用的算法有UPGMA、NJ、ML等。
详细描述
建树算法是将多个物种的基因序列进行比较,根据它们之间 的相似性和差异,构建出一个反映物种之间亲缘关系的进化 树。常用的建树算法包括UPGMA、NJ、ML等。
数据准备
整理相关分子序列数据,进行 预处理。
序列比对
采用适合的方法进行序列比对 ,确保数据准确性。
系统发育分析
基于比对后的数据,进行系统 发育分析。
结果展示与解读
生成系统发育树并解读其意义 。
软件应用案例
微生物系统发育分析
用于研究微生物种群间的进化关系。
古生物学研究
用于分析古生物化石中的分子信息,揭示生物演化历程。
算法优化与改进
算法效率和准确性
提高算法的运行速度和准确性,以处理大规模 数据集。
算法可扩展性
确保算法能够适应不断增长的数据量和复杂性 。
算法灵活性
提供更灵活的参数和选项,以满足不同研究需求。
应用领域的拓展
跨物种比较
01
将分子系统发育分析应用于不同物种的比较,以揭示物种间的
进化关系。
疾病机制研究
02
数据匿名化
对涉及个人隐私的数据进行适当 的匿名化处理,保护数据主体的 隐私权。
结果解读与发布
要点一
准确解读
对分子系统发育分析的结果进行准确解读,避免误导或夸 大其实际意义。
要点二
结果审查
对分析结果进行同行评审或专家审查,确保结果的可靠性 和准确性。
系统发育分析方法精品PPT课件

据,使得获得的每一个拓扑 特定的替代的模,远缘 参数统计的最小方差, 都计算似然函数,计算
结构的似然率都为最大值, 序列
在进化模型确定的情况 量大,耗时时间长。依
然后再挑出其中似然率最大
下,ML法是与进化事实 赖于合适的替代模型,
的拓扑结构作为最优树。
吻合最好的建树算法.
BI
基因进化模型的统计推论法,
系统发育树构建的过程
序列拼接 (Mega) 多序列比对 (MAFFT)
进化模型的选择 (ModelTest) 系统发育树的构建 (RAxML, MrBayes, PAUP) 系统发育树显示和编辑 (FigTree, Adobe Illustrator)
• BioEdit • Mega • Seqman • Contig • Sequencer
系统发育分析方法
2015.12.11
系统发育分析常用方法
一、基于距离方法 Distance based (Algorithmic) methods
unweighted pair group method with arithmetic mean (UPGMA) Neighbor-Joining Method (NJ) Minimum Evolution (ME) Fitch-Margoliash Method (FM)
ClustalX
Gblocks jModelTest, ModelTest, ModelGenerator
PHYLIP MEGA PAUP PHYML, PAML, RAxML MrBayes TreeView
FigTree, Adobe Illustrator
用途
序列分析的综合工具 序列分析的综合工具 序列分析的综合工具 多重序列比对工具 多重序列比对工具 图形化的多序列比对工具;构建N-J系统树 冗余序列处理工具 进化模型选择工具 集成的进化分析工具 图形化、集成的进化分析工具 集成的进化分析工具 ML建树工具 基于贝叶斯方法的建树工具 进化树显示工具 进化树显示和编辑工具
生物信息基础 第6章 系统发育分析

生 物 信 息 基 础 - Basics in Bioinformatics 模式识别与智能系统实验室 5
•• 例2:冠状病毒全
基因组核酸序列 的系统发育树
[1] Peter Forster et al., Phylogenetic network analysis of SARS - CoV - 2 genomes, PNAS 2020.
表型特征
• 基因组数据方面的差异
– 数据丰富 – 建立了严格的数学模型
基因型特征
生 物 信 息 基 础 - Basics in Bioinformatics 模式识别与智能系统实验室
7
表型特征的局限性
• 表型特征的局限性
– 趋同进化的影响(表型相似并不总反映基因相似)
• 人、软体动物、蝗虫
– 难以选择合适的表型特征
叶结点排列整齐,内部结点 可以反映进化时间的顺序
分枝长度与物种/序列的进 化时间成正比
两种树都可在分枝上标注信息(分支长度、进化时间以及 其它数值)
生 物 信 息 基 础 - Basics in Bioinformatics 模式识别与智能系统实验室
12
2. 叉树 (内部结点的分叉)
二歧分叉
2G I
•
计算方法
优化算法
聚类算法
简约法(MP) Parsimony
最 大 似 然 法 (ML) MaximumLikelihood
数据类型 距离数据 特征数据
进化距离最小二乘法
UPGMA法
邻 接 法 (NJ) NeighborJoining
生 物 信 息 基 础 - Basics in Bioinformatics 模式识别与智能系统实验室
生物信息学系统发育分析

物种分化
HA*
orthologs
WA*
Yeast 基因和 所有的 human/worm基 因是直系同源 关系
生物信息学
17
How phylogeny?
生物信息学
18
进化树的构建
基本思想:
物种内同功能生物分子(如蛋白质或核酸分 子)的相似程度越高,则物种的亲缘关系越 近。
具体步骤:
生物信息学
19
1. 选择“特征分子”。原则是:a. 各个物种都有 的同源分子,b. 进化速率适当;
2. 对这些同源分子的序列进行多序列比对(multisequences alignment),截取比对的最好区域 作为物种的代表序列;
自展检验:用来推断树可靠性的检验。
Felsenstein (1985)提出
自展检验是放回式抽样统计法的一种,通 过对数据集多次重复取样,构建多个进化 树,用来检查给定树的分枝可信度。
生物信息学
28
生物信息学实验
29
Bootstrap步骤
通过随机选择位点,从实际数据中构造出100个(或者1000 个乃至更多)多序列比对的数据集,每个数据集构建一颗 基因树。自举抽样是以放回式抽样的方式进行的。
genomics, Functional genomics,
Structural genomics, Metageno的进化历史 进化树的研究有助于基因功能的研究;基
因功能的预测可由基因的进化史中提炼出 来。 进化树的研究有助于了解病毒的起源、病 毒传播的方式。
浅谈系统发育分析及进化树制作课件

THE FIRST LESSON OF THE SCHOOL YEAR
目录CONTENTS
• 系统发育分析简介 • 进化树基本概念 • 进化树的制作方法 • 系统发育分析的挑战与未来发展 • 实践案例分享 • 总结与展望
01
系统发育分析简介
定义与重要性
定义
系统发育分析是一种研究生物种群进化历程和亲缘关系的方法,通过比较不同 物种间的基因、蛋白质等分子序列差异,构建进化树来揭示生物的演化关系。
重复构建
为确保结果的稳定性,对同一数据集进行多次重复构 建进化树。
01
系统发育分析的挑 战与未来发展
当前面临的主要问题
数据获取与整合
系统发育分析需要大量的基因序 列数据,如何高效获取和整合这 些数据是一个挑战。
算法复杂度与计算
资源
随着数据量的增长,传统的系统 发育分析算法面临计算效率和资 源消耗的挑战。
物种间基因序列差
异
不同物种的基因序列存在较大差 异,如何准确识别和比较这些差 异是系统发育分析的关键。
未来发展方向与趋势
Байду номын сангаас
01
大数据技术的应用
利用大数据技术对海量基因序列 数据进行处理和分析,提高系统 发育分析的效率和准确性。
02
算法优化和并行计 算
通过算法优化和并行计算技术, 降低系统发育分析的计算复杂度 ,提高计算效率。
基于已知物种的进化关系 ,构建一棵假设树,常用 软件如RAxML。
贝叶斯法
基于贝叶斯统计理论,模 拟基因序列的进化过程, 常用软件如MrBayes。
参数设置与优化
模型选择
根据基因序列的特点选择合适的进化模型,如GTR、 GTR+I+G等。
第五章系统发生分析PPT课件

分子系统学 Molecular Systematics
分子系统学为生物分类问题提供了许多崭新的见解。 11
生物进化的分子机制
1、核苷酸替代、插 入/缺失、重组 2、基因转换
基因突变
遗传漂变 自然选择
固定在生物个体 以及物种内
产生新的形态、性状
把古代DNA数据与现代基因库中的数据资料相 结合,便可以构建出某一生物门类的系统发育树, 从而进一步探讨人类的演化与迁移等重大问题。
4
古分子系统学、分子系统学
古生物遗体、化石保存的三种信息: 1、形态学信息 2、化学信息(生物的代谢产物和一般的生物化学分子) 3、遗传信息(保存的一级结构生物大分子,即基因产物和基因片段)
ACC TCT TTG CTG Thr Ser Leu Leu
缺失 Thr Tyr Leu Leu ACC TAT TTG CTG
ACC TAC TTT GCT G Thr Tyr Phe Ala
倒位 Thr Tyr Leu Leu ACC TAT TTG CTG
ACC TAT TGC TGThr Tyr Cys -
Tyr Asn
无义突变(nonsense mutation)
导致产生终止密码子的核苷酸突变 如: TAT TAA
Tyr STP
问题:假设所有密码子以同一概率出现,上述三种突变的比例
25%,71%,4%
16
密码子使用频率(codon usage)
17
密码子使用频率的偏倚性: 编码同一个氨基酸的多个同义密码子具有不同的使用频率。 或者某一物种或某一基因通常倾向于使用一种或几种特定的 同义密码子,这些密码子被称为最优密码子(Optimal Codon), 此现象被称为密码子偏好性(Codon Usage bias)。
系统发育分析教程

系统发育分析教程大致流程:1.从18个mtDNA基因组中提取rRNA基因12S、16S和蛋白质基因ND1、ND2、CytB2.分别进行序列比对,并进行比对精制3.将精制比对结果串联成一个独立的分析文件,记录基因位置4.NJ分析(MEGA)5.MP分析(PAUP)6.ML分析(RAXML)7.贝叶斯分析(MRBAYES)1.安装DNASTAR软件(又名Lasergene),软件内包含很多组件。
2.例子中有18个转录组的数据,ctrl+A,点住第一个文件拖到DNASTAR的MegAlign里。
确保MegAlign左侧的序列名称完全按照英文字母顺序来排。
3.双击第一条序列,在出来的选框中选取12S序列,点击NEXT。
不断重复,直至将所有物种的12S序列挑出来。
4.然后ctrl+A全选,点击OPTION下面的Genetic Codes,选择编码方式,根据基因来选,这里选择Vertebrate Mito。
点击Align下面的By Clustal w Method等待程序对齐完成。
这时的序列应该已经对齐了。
5.将结果存为12S.MSF,MSF格式可以同时保存多个序列文件。
6.重复2-5步,分别挑出16S、ND1、ND2、CytB,存为相应的名称。
7.安装GeneStudioPro软件8. 打开GeneStudioPro的SeqVerter软件。
点击Import sequences导入序列,保留gaps全选序列,点击右侧Merge为一个Fasta序列。
点击Clear清空,如此将所有序列处理完,将文件的后缀改为fas9.将改好名的文件复制入GBlocks的目录底下。
10.打开GBlock.exe,输入o,回车输入上一步的文件名,回车输入t,回车,直到第一项t项为所选的序列类型输入g,回车,这时出现了两个文件重命名文件将-gb移动到.fas之前重复此步,将所有序列处理完,注意所选序列类型要正确。
检查所有序列是否已切整齐,且为3的倍数。
系统发育分析-MEGA

系统发育分析-MEGA实 验 目 的1. 学会使用 MEGA 构建进化树,熟悉建树相关参数;2. 会分析建树结果,体会不同方法的差异。
实 验 内 容 实 验 流 程一、 准备工作首先现在MEGA 的官网上下载MEGA X :正式下载前还需要输入一些信息:在宿舍用Wi-Fi 下载也是极慢(1M/min ),用VPN1分钟就直接下好了,安装:由于我们之前的同源序列中只有直系同源序列,因此我们需要再在序列库中寻找MTPAP的并系同源序列。
首先在NCBI的HomoloGene库中搜索MTPAP,得到以下结果:点击Orthologs,可以发现许多的直系同源基因,由于之前选择的5条序列相似度过高,因此我们重新下载10条直系同源核酸与蛋白序列:发现了一个从未听说过,但功能却极为强大的网站——GeneCard:信息:所有序列整理好后如下图所示:在此之前,先将物种名单信息上传至NCBI的Taxonomy - Common Tree中,找到要与建树结果比对的标准树:使用TreeViewX打开下载得到的phy文件:可以看到,重新下载的物种数据分布比较宽泛,避免因序列信息过于相似而使建树结果出现分歧。
二、直系同源序列的比对现在正式开始使用MEGA X进行序列分析。
先利用MEGA的多序列比对功能得到meg文件。
导入序列:使用ClustalW进行比对:比对结果:保存比对结果(可以选择fasta格式或是meg格式)。
三、对五种建树方法的探索我们分别尝试五种建树方法,并于标准树做对比:1. ML法建树参数设置:Original ML Tree:100次Bootstrap后得到的一致树:可以看到,Bootstrap前后,直系同源序列的关系都与是否与已知物种分类关系相同,只是拓扑结构略有区别。
2. NJ法建树参数设置:Original NJ Tree:100次Bootstrap后得到的一致树:相对于ML法,NJ法建树速度极快,但是建树结果就是在是差强人意了。
第七章分子系统发育分析进化树

D C F GA B E†
系统进化树的概念
直系同源(orthol。
旁系同源(paralogs): 同源的基因是由于基因复制产生的。 用于分子进化分析中的序列必须是直系同源的,才能真实
反映进化过程。
旁系同源
直系同源
系统进化树的种类
Eukaryote 4
系统进化树的种类
——物种树、基因树
物种树:代表一个物种或 群体进化历史的系统进化 树,两个物种分歧的时间 为两个物种发生生殖隔离 的时间
基因树:由来自各个物种 的一个基因构建的系统进 化树(不完全等同于物种 树),表示基因分离的时 间。
基因分裂
基因分裂 基因分裂 物种分裂
关于分子钟的讨论和争议
1、对长期进化而言,不存在以恒定速率替换的生物大分子 一级结构;(基因功能的改变、基因数目的增加)
2、不存在通用的分子钟;
3、争议: 分子钟的准确性 中性理论(分子钟成立的基础)
第一节 生物进化的分子机制
分子途经研究生物进化的可行性 分子进化的模式 分子进化的特点 研究分子进化的作用
末端节点:代表最终分类, 可以是物种,群体,或者蛋 白质、DNA、RNA分子等
A
B
C
D 祖先节点/树根
内部节点/分歧点,该
E
分支可能的祖先节点
系统进化树的概念
进化树分支的图像称为进化的拓扑结构 理论上,一个DNA序列在物种形成或基因复制时,
分裂成两个子序列,因此系统进化树一般是二歧 的。
A BC D F G E†
氨基酸
例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率 是内区进化速率的10倍。
核苷酸
例:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核 苷酸替代频率较高。
第六章-分子系统发育分析PPT课件

.
28
UPGMA算法的执行过程:
(1) 初始化:使每个物种自成一类,如果有n个物种,则开始时共有n个类, 每个类的大小为1,分别用n个叶节点代表每个类; (2)执行下列循环:
l 寻找具有最小距离Dij的两个类i、j;建立一个新的聚类(i,j ) l 连接i和j形成新节点(i, j),生长两个新的分支,将i和j连接到(i,j),分 支的长度为Di j / 2; l 计算新分类到其它类的距离
外部节点:代表实际观察到的分类单元
内部节点(分支点);它代表了进化事件发生的位置, 或代表分类单元进化历程中的祖先
.
11
分类单元(Operational Taxonomic Unit, OTU):进 化研究中的一种基本单位,由研究者选定。在同一 项研究中分类单元应当一致。
本章讨论中,以序列(DNA序列或蛋白质序列)作为分 类单元
常以系统发育树(phylogenetic tree)表示,用它描述物种 之间的进化关系。通过对生物学数据的建模提取特征,进 而比较这些特征,研究生物形成或进化的历史。
.
2
系统发育学的发展历史
追溯于达尔文时代(十九世纪)
经典系统发育学中,主要特征为表型特征 (phonotype features)
二态离散特征:只有2种可能的状况,常用“0”或“1”表 示
如:DNA序列上的某个位置若是剪切位点,其特征值为1,否则为 0
多态离散特征:具有两种以上可能的状态
如:核酸的序列信息,对序列中某一位置来说,其可能的碱基有 A、T、G、C共4种
如果能建立所有可能状态之间相似性的度量,特征 数据可被转换成距离数据
黑猩猩GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA CAACAGAGGC TCACGACCCC TTATTTACC
第6章分子系统发育分析[1]
![第6章分子系统发育分析[1]](https://img.taocdn.com/s3/m/32b05a778e9951e79b8927c1.png)
B. 序列相似程度较低,ML(最大似然法)首先
C. 序列相似程度太低,无意义
4. 一般采用两种及以上方法构建进化树,无显著区
别可接受
一般来讲,如果模型合适,ML的效果较好。近缘序列,可采用MP法 (最大简约法),因为用的假设最少。远缘序列,一般用NJ或ML。
⑥系统发育树重建的基本方法
距离法 (distance):距离树考察数据组中所有序列的两两
Linus Pauling
1954年诺贝尔化学奖得主Linus Pauling在1960年代初开创性地展开的基 于直系同源蛋白序列比对的分子进化与分子钟研究。通过直系同源蛋白 质之间比较来确定物种之间的亲缘关系。
分子进化的模式
1. DNA突变的模式:替代,插入,缺失,倒位 2. 核苷酸替代:转换 (Transition) & 颠换
a b c d e f
③系统发育树的种类 ——期望树、现实树和重建树
理论上:
假设所研究的序列无限 长,从中随机抽样进行 统计分析。
实际情况:
所研究的序列是短序列, 统计得到的替代数目存 在大量随机误差。
期望树:
一个用无限长的序列或每一 分支的期望替代数构建的树
现实树:
建立在实际替代数基础上 的树
构树方法 重建树
特征,研究生物形成或进化的历史。在分子水平上 进行系统发生分析具有许多优势,所得到的结果更 加科学、可靠。
系统发育分析早在达尔文时代就已经开始 经典系统发育学研究所涉及的特征主要是生物的表型 特征(指形态学的或结构的特征)。通过表型比较来 推断生物体的基因型,研究物种之间的进化关系。 利用表型特征的局限性:表型相似并不总是反映基因 相似;对于许多生物体很难检测到可用来进行比较的 表型特征;如何选择表性特征。
系统发育分析

实习四: 系统发育分析-PHYLIP, MEGA, MrBayes实习目的1. 学会使用PHYLIP,MEGA和MrBayes构建进化树2. 学会分析建树结果,体会各种方法差异实习内容:一、PHYLIPPHYLIP网址: /PHYLIP.htmlPHYLIP是一个免费的系统发育树构建软件,它的功能比较全面,可用距离法、最大简约法和最大似然法分别进行建树,还可以对进化树可靠性进行检验。
PHYLIP没有多序列比对功能,所以先要用其它序列比对软件完成序列比对,并保存为phy格式后,才可提交给PHYLIP 进行分析。
1.1 比对序列的准备1.将教学材料里demo sequence.zip文件解压到D盘根目录下,分别用其中的mRNA和protein序列学习进化树构建。
首先我们用实习2学过的多序列比对软件对序列进行比对。
这里以CLUSTAX为例来说明。
强烈建议:将你的所有同源核酸(或蛋白质)序列存到一个文本文档里,将”>”之后那行只保留物种名称,或物种名称_蛋白(或基因)名称,方便后面分析比较。
2.用CLUSTALX进行多条序列比对,在Alignment - output format option选中PHYLIP 格式,对序列进行比对(Alignment - Do complete alignment)。
将生成的phy文件保存,此文件可以用写字板打开浏览,里面内容是多条序列比对结果。
(Figure 1.1)Figure 1.1 用clustalx进行多条序列比对及生成的phy文件3.双击解压PHYLIP-3.69.zip文件,得到三个文件夹,其中doc文件夹里是关于所有PHYLIP 子程序的使用说明,exe文件夹里是直接可以使用的可执行程序,src文件夹里是所有程序的源代码。
4.打开PHYLIP的exe文件夹,将上步保存的phy文件复制到exe文件夹中。
5.上课时我们是先将序列用某种方法建树后,然后做bootstrap检验,看树的可靠性。
系统发育分析方法

•
charset locus3 = 606-1159; [replace the xx's with numbers reflecting the character spanning of your gene 3]
•
charset locus4 = 1160-1678; [replace the xx's with numbers reflecting the character spanning of your gene 4]
据,使得获得的每一个拓扑 特定的替代的模,远缘 参数统计的最小方差, 都计算似然函数,计算
结构的似然率都为最大值, 序列
在进化模型确定的情况 量大,耗时时间长。依
然后再挑出其中似然率最大
下,ML法是与进化事实 赖于合适的替代模型,
的拓扑结构作为最优树。
吻合最好的建树算法.
BI
基因进化模型的统计推论法,
转换文件格式
hsearch addseq=random nreps=1000; roottrees outroot=monophyl; savetrees brlens=yes ; pscores ALL/ci=yes tl=yes hi=yes rc=yes ri=yes khtest=yes;
bootstrap nreps=1000 Keepall=yes / AddSeq=random nreps=10; roottrees outroot=monophyl; savetrees from=1 to=1 savebootp=both maxdec=0;
28
操作步骤
• 1. Fasta文件转换成Nexus格式的文件 • 2. 把Mrmodelblock文件夹中对应的MrModelblock*loci文件
系统发育分析 PPT

treefile
系统发育分析
• 将treefile更名results3后,双击打开CONSENSE.EXE 工具
打开CONSENSE工具 把treefile更名为results3
系统发育分析
• 输入results3 • 修改O选项,输入18 • 默认R选项,构建无根树 • 其他设置默认,输入Y,回车 • 计算生成out文件
简约法相关工具
似然法相关工具
距离法相关工具 系统树统计学检验工具
• TreeView:
Nigerian
South Amerind
Australian
Papuan
North Amerind
Southern Chinese Korean
0.02
Nigerian Pygmy
Bantu
Japanese Finn
系统发育分析
• 输入results1 • 选择修改M选项,输入100 • 其他设置默认,输入Y,回车 • 计算生成新的outfile文件
输入results1
距离模型 是否处理多样本数 据集,默认为否 选择M,要处理多样本数据集 输入多样本数据集的样本集数目100, 与Seqboot中的设置要一致
其他设置默认,输入Y
• 计算生成out文 件
输入results2 选用的距离法 选择外类群 是否处理多样本数据集,默认为否 输入O,要设置外类群 输入18,表示是第18条序列作为外类群
选择M,要处理多样本数据集, 输入多样本数据集的样本集数目, 与前面步骤中的设置要一致
其他设置默认,输入Y
系统发育分析
outfile
构建的系统 发育树,每 个样本对应 一个系统树
系统发育分析
第五章序列比较与系统发育分析

空位罚分处理方法: 1)对第一个空位罚分,如10-15 2)对空位的延伸罚分,如1-2
10 搜索比对结果
不同的比对程序所采用的记分矩阵和罚分 规则不同,因而对同一组数据比对的结果也会 有很大差异。
§5.2 序列同源比较
12
序列比对类型
1)双序列比对(pair sequence alignment)。 2)序列对数据库的比对 3)多序列比对( Multiple sequence alignment)
一、双序列比对(pair sequence alignment)
13
序列两两比对方面有两个著名的算法: Needleman-Wunsch算法,从全局角度计算两条 序列之间的相似性,其中包括了所有短片段的 比对序列——全局比对。 Smith-Waterman算法,从局部出发获得两条比 对序列的最大相似性的局部片段——局部比对。
53 系统树分析的困难:
在于找出分类单元中哪一分类单元是其他序 列的共同祖先,或哪一对分类单元最早从共 同祖先中分离出来。
系统树分析的目标:
对于给定的分类单元数,有很多棵可能的系统 树,但是只有一个是正确的,系统树分析的目 标就是要寻找这棵正确的树。
二、系统发育分析基本步骤
54
1 分子序列或特征数据分析,产生距离 或特征数据,为构建系统树提供依据
两种算法均可用于核酸序列和蛋白质序列。
14 常用比对软件:
名称 网址
说明
ALIGN
http://genome.eerie.fr /fasta/alignquery.html
生物学中的系统发育学

生物学中的系统发育学导言:系统发育学是生物学的一个重要分支,研究生物种群的进化关系和亲缘关系。
通过构建系统发育树,可以揭示不同物种之间的演化历史和遗传关系。
本文将介绍系统发育学的定义、研究方法和应用,以及一些经典的系统发育学案例。
一、系统发育学的定义系统发育学(Phylogenetics)是生物学中研究物种进化关系和亲缘关系的分支,目的是通过建立系统发育树来揭示物种之间的演化历史和遗传关系。
系统发育学通过对遗传信息、形态特征和分子标记等进行比较分析,揭示了生物多样性和进化的重要规律。
二、系统发育学的研究方法1. 形态学方法:通过对物种大小、形状、结构等外部特征的观察和比较,确定物种之间的相似性和差异性。
经典的例子是达尔文通过对鸟嘴形状的观察,揭示了鸟类的演化历程。
2. 分子标记方法:利用DNA、RNA和蛋白质等分子标记,通过测序和比较分析,揭示不同物种之间的遗传关系。
这种方法在现代系统发育学中得到广泛应用,因为分子标记具有高保真性和高可变性。
3. 生态学方法:通过对生态位、生活习性等方面的观察研究,了解物种之间的生态关系和适应能力,进而推测它们的进化历史和亲缘关系。
三、系统发育学的应用1. 物种分类与命名:系统发育学为物种的分类和命名提供了科学依据。
通过构建系统发育树,可以确定物种之间的进化关系,为新物种的分类和命名提供准确的依据。
2. 基因组研究:系统发育学在基因组研究中发挥着重要作用。
通过比较不同物种的基因组,可以揭示基因家族的起源和演化过程,为进一步研究基因功能和基因组结构提供基础。
3. 生物多样性保护:系统发育学在生物多样性保护和物种保护中也有应用。
通过研究物种的演化关系和亲缘关系,可以为物种保护提供科学依据和策略,帮助保护濒危物种和生态系统。
四、经典的系统发育学案例1. 鸟类系统发育:根据形态学和分子标记的研究,建立了鸟类的系统发育树,揭示了鸟类的演化历程和亲缘关系。
例如,鸵鸟属和企鹅属虽然具有类似的外形特征,但由于生活环境和进化历史的不同,它们被划分在不同的分支上。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系统发育分析教程
大致流程:
1.从18个mtDNA基因组中提取rRNA基因12S、16S和蛋白质基因
ND1、ND2、CytB
2.分别进行序列比对,并进行比对精制
3.将精制比对结果串联成一个独立的分析文件,记录基因位置
4.NJ分析(MEGA)
5.MP分析(PAUP)
6.ML分析(RAXML)
7.贝叶斯分析(MRBAYES)
1.安装DNASTAR软件(又名Lasergene),软
件内包含很多组件。
2.例子中有18个转录组的数据,ctrl+A,点住第一个文件拖到DNASTAR的MegAlign里。
确保MegAlign左侧的序列名称完全按照英文字母顺序来排。
3.双击第一条序列,在出来的选框中选取12S序列,点击NEXT。
不断重复,直至将所有物种的12S序列挑出来。
4.然后ctrl+A全选,点击OPTION下面的Genetic Codes,选择编码方式,根据基因来选,这里选择Vertebrate Mito。
点击Align下面的By Clustal w Method
等待程序对齐完成。
这时的序列应该已经对齐了。
5.将结果存为12S.MSF,MSF格式可以同时保存多个序列文件。
6.重复2-5步,分别挑出16S、ND1、ND2、CytB,存为相应的名称。
7.安装GeneStudioPro软件
8. 打开GeneStudioPro的SeqVerter软件。
点击Import sequences导入序列,保留gaps
全选序列,点击右侧Merge为一个Fasta序列。
点击Clear清空,如此将所有序列处理完,将文件的后缀改为fas
9.将改好名的文件复制入GBlocks的目录底下。
10.打开GBlock.exe,输入o,回车
输入上一步的文件名,回车
输入t,回车,直到第一项t项为所选的序列类型
输入g,回车,这时出现了两个文件
重命名文件将-gb移动到.fas之前
重复此步,将所有序列处理完,注意所选序列类型要正确。
检查所有序列是否已切整齐,且为3的倍数。
新建一个txt,命名为5genes
打开txt,输入:序列类型,序列名称=起始位-终止位,基因按照特定顺序排列打开第一个序列,记录终止位置
选择Append alignment,按之前的顺序将序列全部导入,并记录下每个基因分布,即起始与终止位置,输入txt中
将串联好的序列存为5genes.fas 用mega打开序列
选择分析
然后选择核酸序列
选择遗传密码
选择distances/compute overall mean
选择替代模型为nucleotide/jukes-cantor
点击compute
遗传距离为0.396,在0<x<1之间,适合建NJ树选择建NJ树
选择对所有位点进行计算,假如蛋白编码的基因第三位替代过饱和,就选择1和2
替代模型选择maximum composite likelihood
这个是默认设置
也可以改为另一个,填入之前预测的模型的gamma参数
再改bootstrap
运行
树已建好
用seqverter将序列转为nex格式打开paup参数
设置外类群
设置搜索次数
设置bootstrap次数
设置brlens次数
保存并退出
打开paup,载入转换好的序列
保存操作命令
在操作行逐条输入并运行命令Outgroup 外类群
Bootstrap nreps=1000 keepall Contree
Describetrees
Savetrees from=1 to=1000
或者直接打开刚刚做好的参数直接运行,等程序运行完产生了六个文件
把树拖进treeview查看
查看分数,一致性指数CI完全一致时为1,如果存在趋同进化或平行进化,则接近0.保留指数RI与CI类似。
将文件另存为phy4格式
准备好phy格式的序列文件和txt格式的注释,复制到RAXML文件夹底下。
打开RAXML下的AutoRun.txt文件,修改好相应参数,将后缀名改为bat。
参数注解如下:
-f 功能,选择了a,是最好用的,另外可以选择d,是最快的。
-m 模型类型,选择了GTRGAMMAI
-s 序列所在文件名
-n 后缀,自己设,这里设为5genes
-q 基因分布所在文件名
-# 分析10次
Pause 停止
运行Autorun.bat,开始跑数据。
假如要分别对密码子的每一位进行独立的分析,如对编码蛋白的基因进行分析,则对基因分布文件进行修改,如改为
DNA,ND_1=1753-2671\3
DNA,ND_2=1754-2671\3
DNA,ND_3=1755-2671\3
当程序跑完后,看最好的是哪次的结果。
这次最好的结果是第一次run的,可以把结果拖进treeview里查看
可以对Autorun进行修改而进行bootstrap,如改为:
RAxML-7.0.3-WIN.exe -f a -x 12345 -p 12345 -m GTRGAMMAI -s 5genes.phy -n 5genes_boot50 -q 5genes.txt -# 50
Pause
程序产生了四个文件
标尺0.1较为合适
下面开始贝叶斯分析,用bioedit打开5genes.fas 点击EXPORT-sequencealighment-nex/paup
编辑此文件,查看missing=-;假如为missing=M gap=-;,则改为missing=-;
将注解写在end;后
begin mrbayes;
charset 12S = 1 - 675;
charset 16S = 676 - 1752;
charset ND1 = 1753 - 2671;
charset ND2 = 2672 - 3646;
charset CYTB = 3647 - 4781;
partition 5P = 5: 12S, 16S,ND1,ND2,CYTB;
end;
begin mrbayes;
set partition=5P;
Prset applyto=(all) statefreqpr=dirichlet(1,1,1,1) ratepr=variable; lset applyto=(all) nst=6 rates=invgamma;
unlink shape=(all) pinvar=(all) statefreq=(all) revmat=(all);
end;
begin mrbayes;
mcmc ngen=10000000 nruns=2 temp=0.2 samplefreq=1000 printfreq=1000;
end;
下面为注解
Charset 基因片段
Prset 先验,认为每种一样
Lset likelyhood怎么设,all是所有partition分开,nst=6是GTR模型Unlike 所有模型非关联化
Mcmc 加热,ngen为走多少步,nchains=4为默认值,可省略。
在mcmc后加p 可调出之前的数据,nrun为同时进行几个线程,最多为8个。
Samplefreq为多少步确认一次
Printfreq为多少步显示一次
中括号为冷链,小括号为热链。
运行mrbayes,输入execute 5genes.nex
当deviation为0,则两个结果一样,否则则不一样
等待程序跑完,输入sumt burnin=50 这个值一般是所跑的四分之一。
最后生成一致树,用treeview打开,>0.95较为可靠。
打开tracer,导入p文件。
P文件是模型,t文件是树。
ESS小于100不可信,大于100可接受,大于200较为可信,分别为红色,绿色,黑色
也可以在tracer中burnin
把他们选在一起
看图是否有很大差异,再看他们的mean是否一样如上述都一样,则bayes的结果较为可信。