RAxML建立极大似然进化树简明指南
手把手教你用FastTree快速构建序列进化树
手把手教你用FastTree快速构建序列进化树
手把手教你用Fast Tree 快速构建序列进化树
常见的建树方法有:贝叶斯法(Bayesian),最大似然法(Maximum likelihood,ML),最大简约法(Maximum parsimony,MP),邻接法(Neighbor-Joining,NJ),最小进化法(Minimum Evolution,ME),类平均法(UPGMA)。
一般来讲,如果模型合适,最大似然法的效果较好。
对于近缘序列,最大简约法用的假设最少,各种方法结果相似。
而对于远缘序列,一般使用最大似然法或邻接法。
对相似度很低的序列,邻接法往往出现Long-branch attraction(LBA,长枝吸引现象),严重干扰进化树的构建。
对于各种方法构建分子进化树的准确性,Hall 认为贝叶斯的方法最好,其次是最大似然法,然后是最大简约法。
其实如果序列的相似性较高,各种方法结果差别不大。
最大似然法和邻接法需要选择模型。
对于蛋白质序列,一般选择Poisson Correction(泊松修正)模型。
而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2 参数)模型。
表1. 构建进化树的常用软件
软件名称简介Clustal X图形化的序列比对工具GeneDoc多序列比对结果美化工具BioEdit序列分析综合工具MEGA图形化比对,进化分析综合工具PAUP进化分析工具Phylip
进化分析工具PhyML最大似然法建树工具PAML最大似然
法建树工具MrBayes贝叶斯法建树工具FastTree最大似然法建树工具(速度快)TreeView进化树显示工具。
最大似然法系统发育树原理步骤
一、概述系统发育树是生物学领域中常用的一种分类学方法,通过比较不同物种的遗传信息,构建它们之间的亲缘关系,从而揭示它们的进化历史和演化路径。
而最大似然法则是系统发育树构建的常用方法之一,它基于遗传信息的统计学原理,通过计算各种拓扑结构的概率来确定系统发育树的最优结构。
二、最大似然法的原理在构建系统发育树时,我们首先需要收集物种的遗传信息,比如DNA 序列,蛋白质序列等。
然后我们需要假设一个系统发育树的拓扑结构,即物种之间的亲缘关系,接着利用这些遗传信息来评估这个拓扑结构的合理性。
而最大似然法则就是基于遗传信息的统计学原理,来评估不同拓扑结构的合理性。
三、最大似然法的步骤最大似然法构建系统发育树的步骤通常可以分为以下几个步骤:1. 假设模型:我们需要选择一个适当的进化模型,用来描述物种进化的过程。
比较常用的模型包括Jukes-Cantor模型、Kimura模型、GTR模型等。
这些模型会考虑不同的进化因素,比如碱基替换率、碱基组成偏好等。
2. 构建系统发育树:在选择好模型后,我们需要利用这些遗传信息来构建系统发育树。
通常我们会有多个不同拓扑结构的备选方案,比如三叉结构、四叉结构等。
而最大似然法则会根据已有的遗传信息来评估这些备选方案的合理性。
3. 计算概率:最大似然法则通过计算每个拓扑结构出现的概率来评估其合理性。
这里的概率通常是指给定遗传信息的情况下,某拓扑结构出现的可能性。
而这个概率通常是利用进化模型和统计学原理计算得来的。
4. 确定最优结构:通过比较不同拓扑结构的概率,我们可以确定系统发育树的最优结构。
通常我们会选择概率最大的那个拓扑结构作为最终的系统发育树。
四、总结通过最大似然法则构建系统发育树的步骤,我们可以在遗传信息的基础上,找到最优的物种亲缘关系,从而揭示它们的进化历史和演化路径。
最大似然法则基于遗传信息的统计学原理,通过计算不同拓扑结构的概率来评估其合理性,从而确定系统发育树的最优结构。
浅谈系统发育分析及进化树制作课件
THE FIRST LESSON OF THE SCHOOL YEAR
目录CONTENTS
• 系统发育分析简介 • 进化树基本概念 • 进化树的制作方法 • 系统发育分析的挑战与未来发展 • 实践案例分享 • 总结与展望
01
系统发育分析简介
定义与重要性
定义
系统发育分析是一种研究生物种群进化历程和亲缘关系的方法,通过比较不同 物种间的基因、蛋白质等分子序列差异,构建进化树来揭示生物的演化关系。
重复构建
为确保结果的稳定性,对同一数据集进行多次重复构 建进化树。
01
系统发育分析的挑 战与未来发展
当前面临的主要问题
数据获取与整合
系统发育分析需要大量的基因序 列数据,如何高效获取和整合这 些数据是一个挑战。
算法复杂度与计算
资源
随着数据量的增长,传统的系统 发育分析算法面临计算效率和资 源消耗的挑战。
物种间基因序列差
异
不同物种的基因序列存在较大差 异,如何准确识别和比较这些差 异是系统发育分析的关键。
未来发展方向与趋势
Байду номын сангаас
01
大数据技术的应用
利用大数据技术对海量基因序列 数据进行处理和分析,提高系统 发育分析的效率和准确性。
02
算法优化和并行计 算
通过算法优化和并行计算技术, 降低系统发育分析的计算复杂度 ,提高计算效率。
基于已知物种的进化关系 ,构建一棵假设树,常用 软件如RAxML。
贝叶斯法
基于贝叶斯统计理论,模 拟基因序列的进化过程, 常用软件如MrBayes。
参数设置与优化
模型选择
根据基因序列的特点选择合适的进化模型,如GTR、 GTR+I+G等。
手把手教你构建系统进化树(2021年)
97 NR 116489.1 Pseudomonas stutzeri strain VKM B-975 16S ribosomal RNA partial sequence NR 113652.1 Pseudomonas stutzeri strain NBRC 14165 16S ribosomal RNA partial sequence
进化分析流程
测序组装
• 将克隆扩增测序得到的基因进行测序。
Blast
• 比对找到相似度最高的几个基因,将这几个基因的 序列(Fasta格式文件)下载下来,整合在一个*.txt 文档中。
比对序列
• 用Mega 7.0的ClustalW做多序列联配,比对结果用*.meg格式 保存。或者用Clustal X软件进行比对,比对结果保存为*.aln, 再用Mega 转化为*.meg格式。
DNA→ DNA
ezbiocloud https:///identify
cDNA→蛋 白质
蛋白质 →cDNA
蛋白质→蛋白 质
NCBI
输入测序组装后的序列
ezbiocloud
输入序列名称 输入测序组装后的序列
比对序列
MEGA可识别fasta格式文件比对前将xxx.txt 重命名为xxx.fasta
构建系统进化树
1) 在构建系统树时,使用了Bootstrap法进行检验。在做Bootstrap时,以原序列为蓝本随机重组生成新的序列, 重复估算模型。如果原序列计算得到的分枝在新Bootstrap中依然频繁出现,则该分枝的可信度高。分枝在 Bootstrap中出现的频率就是表征分枝可信度的参数。 2) Original Tree是应用估算模型形成的最优系统树。在Original Tree上有计算得到的距离数据,可以表征两个基 因的亲缘远近;MEGA形成的Original Tree上也有频率参数,实际来自Bootstrap Consensus Tree的对应分枝。 3) Bootstrap Consensus Tree 是很多次Bootstrap得到的平均结果,它不包含进化距离信息(在设置View时无法 调用,也没有意义),分枝上的数字代表该分枝的频率参数。另外,它的拓扑结构也可能与Original Tree很不相同。
一步一步教你如何做系统进化树
大家好:我在此介绍几个进化树分析及其相关软件的使用和应用范围。
这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)。
在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。
进化树也称种系树,英文名叫“Phyligenetic tree”。
对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。
做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。
⑵要构建一个进化树(To reconstrut phyligenetic tree)。
构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。
所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。
进化树枝条的长度代表着进化距离。
独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶对进化树进行评估。
主要采用Bootstraping法。
进化树的构建是一个统计学问题。
我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。
如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。
Raxml软件构建多基因系统发育树教程
Raxml软件构建单基因系统发育树教程前言:以真菌ITS序列为例。
大家应该都知道基因库中多数ITS序列一般都包含了ITS两端的外围序列,即ITS1前端的部分18S序列和ITS2后端的部分28S序列。
而在建树的过程中我们通常是采用ITS1+5.8S+ITS2进行建树。
如果我们直接采用下载的序列进行alignment,而不进行两端剪齐(切去ITS1前端的部分18S序列和ITS2后端的部分28S序列)的话,那么我们构建出的基因树虽然结果上与标准构建结果相似但终究不是科学严谨的树。
因为从基因库中下载的基因序列会有长短不一的现象,如果直接用来建树的话会有些不妥。
所以小编建议大家使用MEGA或其他alignment软件进行序列比对,然后将两端切齐,再保存成fasta格式的文件,即可载入RaxmlGUI2.0进行建树。
或许会有人怀疑该建树软件的可行性,也许会想它是否为流氓软件?该软件建出来的系统树能否用于文章发表?编辑和审稿人是否接受?为了消除大家的顾虑,接下来小编给大家证明一下该软件的科学性和可行性:参见下图SCI文章。
消除疑虑后,小编将教大家如何基于ML法构建多基因系统发育树。
该建树教程:以五个基因ITS_GAPDH_CHS1_ACT_TUB2为例。
正如开始所述,大家需谨记先将每种基因的fasta文件进行alignment,然后后再两端切齐,再保存成fasta格式用于载入建树软件!注:载入RaxmlGUI2.0软件中的alignment文件中每个物种序列顺序可以随意调换。
因是多基因建树需要将同一个菌株的五种基因拼接一起,所以同一个菌株的不同基因序列标签名要一致,这样软件才能识别出是同一个菌株的不同基因。
(当然也可以将每个菌株的基因标签一一对应,如ITS序列文件是菌株1,2,3.....; TUB2序列文件也是菌株1,2,3.....按顺序对应好。
)1.将准备好的fasta格式的alignment文件载RaxmlGUI2.0。
构建系统进化树的详细步骤
构建系统进化树的详细步骤1. 建树前的准备工作1.1 相似序列的获得——BLASTBLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。
国际著名生物信息中心都提供基于Web的BLAST服务器。
BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。
首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。
这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。
它们都有一个大的文本框,用于粘贴需要搜索的序列。
把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。
如果是DNA序列,一般选择BLASTN搜索DNA数据库。
这里以NCBI为例。
登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。
BLASTN结果如何分析(参数意义):>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, completesequenceScore = 2020 bits (1019), Expect = 0.0Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60|||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120|| ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似; Expect:比对的期望值。
第七章分子系统发育分析进化树
D C F GA B E†
系统进化树的概念
直系同源(orthol。
旁系同源(paralogs): 同源的基因是由于基因复制产生的。 用于分子进化分析中的序列必须是直系同源的,才能真实
反映进化过程。
旁系同源
直系同源
系统进化树的种类
Eukaryote 4
系统进化树的种类
——物种树、基因树
物种树:代表一个物种或 群体进化历史的系统进化 树,两个物种分歧的时间 为两个物种发生生殖隔离 的时间
基因树:由来自各个物种 的一个基因构建的系统进 化树(不完全等同于物种 树),表示基因分离的时 间。
基因分裂
基因分裂 基因分裂 物种分裂
关于分子钟的讨论和争议
1、对长期进化而言,不存在以恒定速率替换的生物大分子 一级结构;(基因功能的改变、基因数目的增加)
2、不存在通用的分子钟;
3、争议: 分子钟的准确性 中性理论(分子钟成立的基础)
第一节 生物进化的分子机制
分子途经研究生物进化的可行性 分子进化的模式 分子进化的特点 研究分子进化的作用
末端节点:代表最终分类, 可以是物种,群体,或者蛋 白质、DNA、RNA分子等
A
B
C
D 祖先节点/树根
内部节点/分歧点,该
E
分支可能的祖先节点
系统进化树的概念
进化树分支的图像称为进化的拓扑结构 理论上,一个DNA序列在物种形成或基因复制时,
分裂成两个子序列,因此系统进化树一般是二歧 的。
A BC D F G E†
氨基酸
例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率 是内区进化速率的10倍。
核苷酸
例:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核 苷酸替代频率较高。
RAxML建立极大似然进化树简明指南
用RAxML构建极大似然进化树RAxML是用极大似然法建立进化树的软件之一,可以处理超大规模的序列数据,包括上千至上万个物种,几百至上万个已经比对好的碱基序列。
作者是德国慕尼黑大学的 A. Stamatak博士。
RAxML有若干版本(有的版本支持在多个CPU上运行),本文以最常用的单机版raxmlHPC为例。
1 下载和安装RAxML可以在Linux, MacOS, DOS下运行,下载网址为http://icwww.epfl.ch/~stamatak/index-Dateien/Page443.htm也可以使用的超级计算机运行。
对于Linux和Mac用户下载RAxML-7.0.4.tar.gz 用gcc编译即可make –f Makefile.gccWindows用户可以下载编译好的exe文件,而无需安装。
2 数据的输入RAxML的数据位PHYLIP格式,但是其名字可以增加至256个字符。
“RAxML对PHYLIP文件中的tabs,inset不敏感”。
输入的树的格式为NewickRAxML的查错功能1 序列的名称有重复,即不同的碱基却拥有一致的名称。
2 序列的内容重复,即两条不同名称的序列,碱基完全一致。
3 某个位点完全由序列完全由未知符号组成,如氨基酸序列完全由X,?,*,-组成,DNA序列完全由N,O,X,?,-组成。
4序列完全由未知符号组成,如氨基酸序列完全由X,?,*,-组成,DNA序列完全由N,O,X,?,-组成。
5 序列名称中禁用的字符如包括空格、制表符、换行符、:,(),[]等3 RAxMLHPC下的选项-s sequenceFileName 要处理的phy文件-n outputFileName 输出的文件-m substitutionModel 模型设定方括号中的为可选项:[-a weightFileName] 设定每个位点的权重,必须在同一文件夹中给出相应位点的权重[-b bootstrapRandomNumberSeed] 设定bootstrap起始随机数[-c numberOfCategories] 设定位点变化率的等级[-d] -d 完全随机的搜索进化树,而不是从maximum parsimony tree开始。
系统进化树的构建
菜单栏
工具条
•实例讲解
选择File标签-->Convert file format to Mega.
当给出相应的文件路径之后点击ok
显示文件已经转化为MEGA Format, 点击OK. 将文件保存,牢记路径
•实例讲解
点击,载入MEGA格式的分析序列
•实例讲解
选择数据类型,在本次测试中我们 用的是核苷酸序列。
实验三.系统发育分析软件的使用
分子系统发育分析
• 系统发育分析研究是研究物种进化和系统 分类的一种方法,研究对象为携带遗传信 息的生物大分子序列,采用特定的数理统 计算法来计算生物间的进化关系。并用系 统进化树,即一种类似树枝状得图形来概 括生物间的这种亲缘关系。
分子系统发育分析
• 系统发育进化树( Phylogenetic tree)
•实例讲解
文件下载完之后,这里我们采用事先准备好的序列。 将Fasta 文件直接用 ClustalX 1.83打开
•实例讲解
在进行多序列比对之前我们需要对软件进行一些设置 1.选择Alignment标签 2.选择Output format options PHYLIP软件:PHYLIP MEGA软件:FASTA
进化拓扑结构: 进化树中不同枝的拓扑图形。 根:所有分类的共同祖先。 结点:表示一个分类单元。 进化支:两种以上生物(DNA序 列)及其祖先组成的树枝。 进化分支:进化关系的图形表示 进化分支长度: 用数值表示的进化枝的变化程度 (遗传距离) 距离标尺: 生物体或序列之间差异的的 数字 尺度。 外群: 与分析序列相关的生物序列且具 有较远的亲缘关系 结 点
99 BANNAch 68 100 88
BJ9575 YN6 YN0556 LN0684
分子进化树构建的简要步骤(以蛋白为例)
分⼦进化树构建的简要步骤(以蛋⽩为例)PhyML利⽤氨基酸序列建树步骤(核酸建树也可以作为参考)前⾔:本⽂阅读对象适合建树新⼿,⽣物信息学⾼⼿请勿嘲笑,其中有什么错误还恳请指点。
为什么要建树及其你要解决什么问题这⾥不做讨论,只是⼀个纯粹的建树过程,前期的序列收集过程⾃⼰费⼼,根据⾃⼰的需要来做。
这⾥主要是最⼤似然法来建树,NJ法像mega这些软件中都有集成,最新的mega7也集成ML法,不过模型及各种参数不⼀定适合你,所以学习多种多种⽅法也是有⽤的,PhyML速度较慢,如果数列数量较多、步长检验次数多,等待时间会很长,有可能达到⼏⼗⼩时,也与电脑配置有关,⼀般时间都是以⼩时计数,所以要有⼼理准备,如果数据量⼤,推荐⽤RaxML或其他⽅法建树,它处理速度要⽐PhyML 快,不过RaxML是纯命令操作,对不熟悉命令及参数意义的⼈有⼀定难度,我只在linux 下操作过,在win下没有使⽤过。
本⽂是⽤氨基酸建树过程,如果你是⽤核酸序列建树,也可以参考这个过程,核酸替代模型请⽤jmodeltest或其他同功软件计算。
由于PhyML计算过程⽐较长,做⼀遍⽐较耗时,推荐你⽤其他软件⽤NJ法先⾏试验建树,看看你选择的序列是否有效及符合你的预期结果,调整好序列后再⽤PhyML跑⼀遍看结果是否符合⾃⼰的要求。
PhyML有线上版本,只需要提交序列⽐对结果,设置模型参数,留下邮箱等待就会给你返回结果,不过时间不可控,根据⾃⾝情况选择线上还是本地⾃⼰建树。
⽔平有限,如有错误遗漏恳请各位指点。
如果在⽂库不能下载,可以去⽹盘下载,见⽂末。
●建树过程:序列准备-模型选择-建树及树的验证。
●环境准备:电脑^-^Windows或者Linux都可以(没试过mac,如果是mac环境,请参考具体的操作⼿册)、ProtTest、PhyMl及序列⽐对的软件,线上或本地都可以。
1.序列准备:在⾃⼰熟悉的数据库中(我⾃⼰⽐较熟悉Ncbi)上做blast,选取跟要建树蛋⽩同源的各物种序列,下载到本地,整合到⼀个fasta⽂件中,注意修改物种名称,字数最好不要太长,序列⽐对后.phy格式⽂件对⽂件名长度有限制(这个可能跟软件有关系,只要⾃⼰知道是什么物种,不⾄于混淆就⾏),注意规范性,fasta⽂件中最好除了>头标,字母及下划线不要有其他不相关的字符,因为如果后⾯你要⽤软件分析.phy⽂件的时候这些软件对.phy的格式要求⽐较变态,有其他多余字符它都会报错的(你如果在dos 下⽤命令合并⽂件请注意⽂件中最后⼀⾏的字符,请删除)。
Raxml软件构建单基因系统发育树教程
Raxml单基因系统发育树构建教程
RaxmlGUI 2.0是RAxML的一个图形化用户界面。
RAxML是使用最大似然法(ML)构建系统发育树最流行和广泛使用的方法之一。
这里RaxmlGUI 2.0 beta是RaxmlGUI(使用命令行的版本)的重写版本。
该版本的一个最大优点就是操作简便(无需命令行操作,需先将准备好的序列进行alignment)。
该软件同时适合Linux,MacOS,Windows,包括PTHREADS和SSE3,同时支持PHYLIP和FASTA类型的输入文件。
该软件的视图界面分为建树文件输入窗口界面,分析窗口界面,重复值设置窗口界面,枝长计算窗口界面,外群选择窗口界面,建树结果输出窗口界面。
建树操作流程如下:
1. Add alignment文件:软件支持FASTA和PHYLIP类型的文件,包括核酸序列,氨基酸序列,离散二进制和其他多状态字符,如形态特征数据等,见下图1。
注:程序会解析每条序列的信息。
2. Analysis:选择ML+rapid bootstrap(可根据文章或需求选择)见下图2。
3. Reps.重复值设置:一般设置为1000次(也可以根据自己的电脑快慢适当缩减),见下图3。
使用RAxML构建进化树陈连福的生信博客
使用RAxML构建进化树陈连福的生信博客1. RAxML 简介RAxML (Random Axelerated Maximum Likelikhood) 能使用多线程或并行化使用最大似然法构建进化树。
网页版工具:参考文献:RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies2. RAxML 下载与安装也可以直接使用sudo apt install raxml$ wget https:///stamatak/standard-RAxML/archive/v8.2.12.tar.gz -O ~/software/RAxML-v8.2.12.tar.gz$ tar zxf ~/software/RAxML-v8.2.12.tar.gz -C /opt/biosoft/ $ mv /opt/biosoft/standard-RAxML-8.2.12/ /opt/biosoft/RAxML-8.2.12/$ cd /opt/biosoft/RAxML-8.2.12/选择不同的编译方式$ make -f Makefile.SSE3.PTHREADS.gcc -j 4$ rm *.o选择不同的编译方式$ make -f Makefile.AVX.PTHREADS.gcc -j 4$ rm *.o选择不同的编译方式$ make -f Makefile.SSE3.HYBRID.gcc -j 4$ rm *.o选择不同的编译方式$ make -f Makefile.AVX.HYBRID.gcc -j 4$ rm *.o$ chmod 755 /opt/biosoft/RAxML-8.2.12/usefulScripts/*$ echo 'PATH=$PATH:/opt/biosoft/RAxML-8.2.12/' >> ~/.bashrc$ source ~/.bashrc2. RAxML 的使用RaxML 软件包中带有一个 PDF 格式的 Manual 文档,介绍得非常详细。
一步一步教你构建进化树(ML树)
一步一步教你构建进化树(ML树)大多数人习惯了利用MEGA构建NJ树,速度快,准确性也不是很差。
但是比较严格做法是,构建多种树进行比较,比较常用的那就是ML树。
高质量期刊一般会采用NJ树和ML树相互验证的方法。
构建ML树,速度较慢,大家需要注意。
构树常用的软件流程基本上可以采用MUSCLE+PhyML了。
1. MUSCLE由于利用PhyML构建ML树,需要phy格式的比对文件,因此需要用MUSCLE产生。
需要注意的一点是phy格式比对文件对序列ID 要求最多10个字符,因此构树之前要进行更改。
如下图,Glyma.10G0这个ID如果不更改,最终比对完成后会显示ID的前十个字符,其全部的ID是Glyma.10G010000。
修改的脚本参照下面:my $num=1;`mkdir $od` unless (-d '$od');$od=“Change_ID”###输出目录,可以自定义$fa=“test.fa”;###序列文件名字,改成你自己的即可$index='mapk';###4个字符以内的任意前缀my %VS;open (OUT,'>$od/VS.txt')|| die 'cannot open $od:$!';###ID 改前后对照表open (SEQ,'>$od/change_name.fa')|| die 'cannot open $od/change_name.fa:$!';my $ina = Bio::SeqIO->new(-file => $fa, -format => 'fasta');while(my $obj = $ina->next_seq()){my $id = $obj->id;my $seq = $obj->seq;my $id2='$index$num';$VS{$id}=$id2;$num++;print SEQ '>$id2\n$seq\n';}close SEQ;foreach my $key(keys %VS){print OUT '$key\t$VS{$key}\n';}修改完成后进行MUSCLE比对,注意比对输出格式选择:muscle -in change_name.fa -phyiout change_name.fa.phy2. ML树构建。
关于构进化树的经验(丁香园)
适用范围========真核多细胞动物基因家族进化树的构建评价====方法:距离法(distance-based method),简约法(parsimony),极大似然法(max-likelihood, ML),Bayes方法。
从前人和我的评测上看,ML方法综合起来是最准确的,并且相对起来不易受数据质量和各种理论与模型偏差的干扰,但这种优势并不十分明显,有时距离法和简约法也会超过ML 方法。
基于蛋白质的简约法效果也较好,经常可与ML方法相比,但似乎它要求输入质量较好的数据,我在用基于DNA的dnapars (in PHYLIP package)时能感觉到这一点;另外,简约法一般被认为对近源序列有很好的效果(我没有这方面经验)。
距离法一般比前两种差。
Bayes 方法本质上是ML但允许更灵活的模型,有时Bayes方法被认为是算support value的好方法,但多数学者认为Bayesian support value is 'excessively high'。
评测表明各种算法都有自己的强项,对某种特定进化历史的数据,某一种方法可能一致的超越另一种。
前面说ML最好只是说平均起来较好,但对一个特定的家族并不其然。
因此尝试多种方法总是准确建树的保证。
对于不同算法建出树的差别只有融汇生物学的知识才能作出判断。
极大似然法(ML)+++++++++++++建ML树的推荐程序是PHYML。
这是一种近似算法,但效果已经足够好。
这个程序使建ML成为可能;以往的ML程序都是慢到难以忍受。
简约法(parsimony)+++++++++++++++以PAUP*为首选,也可选择PHYLIP。
PAUP*是要钱的,尽管还不算很贵。
我的经验是蛋白水平明显好于核苷(protpars vs. dnapars)距离法(distance-based method)+++++++++++++++++++++++两种选择:若想快速建一棵带bootstrap的树,推荐quicktree与clustalw/x;若想建很sophisticated的树,建议用PHYLIP生成bootstrap的多序列比对,用tree-puzzle计算距离,再用phylip建一致树(之所以中间换用tree-puzzle是因为PHYLIP的protdist写的有问题,过于慢,另外tree-puzzle的ML模型比较完备)。
进化树的建立过程
进化树的建立过程1, 通过测序后,在NCBI 中进行BLAST 比对,看和哪个属中的种最近,从而确定进化树中需比较的菌种,然后可以在权威的International Journal of Systematic and Evolutionary Microbiology 杂志中看最近是否有你要建树的菌的图,从而更捷径的得到典型的建树对比菌株(一般上标为T)2, 打开MEGA 4在Alignment →Query Databank s →在上图红色圈出的空格处添加建树对比菌的登入号,然后直接点击上头的Add to Alignment ,以此添加,当然添加的量可多也可少,按照自己的要求,建的树越大需要比对的就越多,反之,亦然。
添加完之后会是如下的图形,可以参照。
3 添加完对比的后,将自己测序菌株序列导入如果拿回来后的序列是文本文档,就需要将它转化成fasta 格式,其实也就是在文本文档上头加个“>”号就可以,但是序列字母必须是大写的,如果是小写的,可以在DNAman 中转化成大写的(或者在EditSeq 中的先全选择序列后在edit 的reverse case 中转变,后如下操作),并且需每列中的数字去掉,保存为fasta 格式后,这里输入建树的登入号在MEGA的Edit→insert sequences to file将保存的fasta文件导入MEMA中,如果导入的序列是互补链的话,直接在添加的里面,点击导入链,右击后点击互补就行,选中所有的序列后,在Alignmen t选项中选中Align by clustalw让其自动分析后,出现这样的界面,然后在Date选项中输出格式选择为MEGA格式保存4 再一次启动软件将上一步保存的文件打开,然后在我红色标记的采用的是“邻接法”建树。
然后点击“computer“就可以输出图了希望大家下载后,能够给我的帖子进行评价,谢谢!。
一键!构建最大似然树~简单又准确
一键!构建最大似然树~简单又准确写在前面很多人都知道“建树”,NJ树,最大似然树 - ML,贝叶斯法建树~ 建树的目的常常有两个:•分类•推断演化顺序•其他 - 如分析基因家族扩张收缩等很多人都会用mega 来建树,因为他非常方便,导入序列,点击多序列比对,然后就建树(mega默认在建树前可以选择按有效位点比例剪切)。
事实上,中间还缺一个关键步骤,我相信很多不接触演化的朋友完全不知道。
那就是“筛选合适的氨基酸替换模型”。
IQ-tree的横空出世,解决了这一问题。
软件的流行,不仅仅在于其快慢,还在于其方便程度。
当然,要做最方便,那么最好是,多序列比对和比对结果修剪都直接自动化起来。
对于专门做演化,尤其是质体基因组的朋友,如果需要界面化工具,那么我一般推荐的是老铁张东开发的“Phylosuite”。
当然,如果是TBtools 用户,又想偷个懒,快速画个进化树看看,那么可以用今天推出的最新功能“One Step Build a ML Tree”。
一键构建进化树一直以来,我不太想写这个功能,一者是觉得没必要,二者是懒得动。
但前段时间在演示TBtools 的使用时,我发现绝大多数人,其实跟我一样,能偷懒的地方也像偷懒。
我们还是不够勤奋,无妨。
有限的时间,还是要用在点上才好,于是我开放了早就写好的一键建树功能,大体如下:1.输入蛋白序列(无需比对)2.输出文件路径3.点击开始4.等待即可5.期间,该功能会调用Muscl 进行多序列比对,使用trimAI 修剪比对结果,最后调用IQ-tree 自动筛选氨基酸替换模型,然后建一个ML树。
完成了,就输出进化树文本,并弹窗一个进化树,可以快速分析。
使用示例打开 TBtools,先喝一碗主界面的鸡汤,然后选择到功能总之,打开界面之后,几乎只需要做两个事情,把蛋白序列放进去,然后设置输出文件,点击 Start 即可。
如果设置直接文本输出,那么结果如下建树完成会自动弹出一个绘制好的进化树写在最后Emmm,简单的工具,其实不需要说明书。
如何绘制出高颜值的进化树
如何绘制出高颜值的进化树当我们打开别人的论文时,总会看到很多高颜值的进化树。
比如↓↓↓Anthropogenic impact on diazotrophic diversity in the mangrove rhizosphere revealed by nifH pyrosequencing[J]. Frontiers in Microbiology如果我们也能画出这么漂亮的进化树,那么高分文章,按时毕业,都不是事儿啊。
今天小锐就给大家介绍一款功能强大的在线进化树美化工具—ITOL(Interactive Tree Of Life),让大家的文章也可以变得高大上起来!预备知识在生物学中,进化树被用来表示物种之间的进化关系。
生物分类学家和进化论者根据各类生物间的亲缘关系的远近,把各类生物安置在有分枝的树状图表上,简明地表示生物的进化历程和亲缘关系。
叶子节点之间的距离表示相应的两个物种之间的差异程度。
ITOL简易教程1、进入ITOL首先进入ITOL的在线分析网址/,这个工具包括三个主要功能,即对进化树的管理(Manage)、注释(Annotate)和导出(Export)。
2、上传数据进入首页点击upload上传自己的进化树数据,支持的数据格式包括:纯文本文件(plain text files),Newick、Nexus、PhyloXML格式文件,RaxML或pplacer生成的jplace后缀文件。
3、修改参数文件加载后,会显示由文件生成的进化树和一个控制台,我们就可以通过修改Controls中的参数来调整进化树的整体显示了,如显示模式(Circular、Normal、Unrooted)、旋转角度、label特征等等。
鼠标点击分枝或节点则可以修改特定节点和分枝,包括color、style、labels等。
4、美化注释接下来就是让你的进化树颜值嗖嗖上涨的关键步骤了:对进化树进行注释美化。
ITOL通过上传自己的数据集,在原始树基础上增加更多更重要的信息,比如用柱状图、饼图、箱型图、热图等将数据集注释在进化树上。
MEGA构建系统进化树的步骤(以MEGA7为例)教学文案
M E G A构建系统进化树的步骤(以M E G A7为例)MEGA构建系统进化树的步骤(以MEGA7为例)本文是看中国慕课山东大学生物信息学课程总结出来的分子进化的研究对象是核酸和蛋白质序列。
研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA序列。
因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。
所以这种情况下应该选用DNA序列,而不选蛋白质序列。
2)如果DNA 序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。
1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致 ( 5’-3’)。
想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。
所以我们以后者为例。
2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta 文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。
如果是比对好的多序列比对可以直接选择“Analyze”。
3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),弹出窗口询问“Nothing selected for alignment,Selectall?”选择“OK”。
4. 之后,弹出多序列比对参数设置窗口。
这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。
极大似然函数怎么构造
极大似然函数怎么构造极大似然函数是一种常用的统计学方法,用于估计未知参数的值。
在统计学中,我们经常需要根据已知的数据来推断未知的参数,例如,我们可以通过观察一组数据来估计某个总体的均值或方差。
极大似然函数就是一种用于估计未知参数的方法,它的基本思想是选择使得观测数据出现的概率最大的参数值作为估计值。
极大似然函数的构造方法如下:假设我们有一组观测数据x1, x2, ..., xn,这些数据是从一个未知的总体中抽取得到的。
我们假设这个总体的分布是已知的,但是其中的某些参数是未知的,我们需要通过观测数据来估计这些参数的值。
假设这些参数的取值为θ,我们的目标是找到一个θ的值,使得观测数据出现的概率最大。
具体地,我们可以定义一个关于θ的函数L(θ),称为似然函数,它表示在给定θ的情况下,观测数据出现的概率。
似然函数的定义如下:L(θ) = P(x1, x2, ..., xn | θ)其中,P表示概率,|表示给定的条件。
似然函数的意义是,在给定θ的情况下,观测数据出现的概率。
我们的目标是找到一个θ的值,使得L(θ)最大。
为了找到L(θ)的最大值,我们可以对θ进行求导,然后令导数等于0,求解得到θ的值。
具体地,我们可以对L(θ)取对数,得到一个更容易处理的函数l(θ),称为对数似然函数:l(θ) = log L(θ)对l(θ)求导,得到:d l(θ) / dθ = Σi=1 to n d log P(xi | θ) / dθ其中,Σ表示求和,d表示微分。
我们令d l(θ) / dθ等于0,求解得到θ的值,即为极大似然估计值。
极大似然函数是一种常用的统计学方法,用于估计未知参数的值。
它的基本思想是选择使得观测数据出现的概率最大的参数值作为估计值。
通过构造似然函数和对数似然函数,我们可以求解出极大似然估计值,从而得到未知参数的估计值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用RAxML构建极大似然进化树RAxML是用极大似然法建立进化树的软件之一,可以处理超大规模的序列数据,包括上千至上万个物种,几百至上万个已经比对好的碱基序列。
作者是德国慕尼黑大学的 A. Stamatak博士。
RAxML有若干版本(有的版本支持在多个CPU上运行),本文以最常用的单机版raxmlHPC为例。
1 下载和安装RAxML可以在Linux, MacOS, DOS下运行,下载网址为http://icwww.epfl.ch/~stamatak/index-Dateien/Page443.htm也可以使用的超级计算机运行。
对于Linux和Mac用户下载RAxML-7.0.4.tar.gz 用gcc编译即可make –f Makefile.gccWindows用户可以下载编译好的exe文件,而无需安装。
2 数据的输入RAxML的数据位PHYLIP格式,但是其名字可以增加至256个字符。
“RAxML对PHYLIP文件中的tabs,inset不敏感”。
输入的树的格式为NewickRAxML的查错功能1 序列的名称有重复,即不同的碱基却拥有一致的名称。
2 序列的内容重复,即两条不同名称的序列,碱基完全一致。
3 某个位点完全由序列完全由未知符号组成,如氨基酸序列完全由X,?,*,-组成,DNA序列完全由N,O,X,?,-组成。
4序列完全由未知符号组成,如氨基酸序列完全由X,?,*,-组成,DNA序列完全由N,O,X,?,-组成。
5 序列名称中禁用的字符如包括空格、制表符、换行符、:,(),[]等3 RAxMLHPC下的选项-s sequenceFileName 要处理的phy文件-n outputFileName 输出的文件-m substitutionModel 模型设定方括号中的为可选项:[-a weightFileName] 设定每个位点的权重,必须在同一文件夹中给出相应位点的权重[-b bootstrapRandomNumberSeed] 设定bootstrap起始随机数[-c numberOfCategories] 设定位点变化率的等级[-d] -d 完全随机的搜索进化树,而不是从maximum parsimony tree开始。
在100至200个分类单元间,该选项可能会生成拓扑结构完全不同的局部最大似然树。
[-e likelihoodEpsilon]默认值为0.1[-E excludeFileName] 排除的位点文件名[-f a|b|c|d|e|g|h|i|j|m|n|o|p|s|t|w|x] f 算法-f a rapid Bootstrap-f b draw the bipartitions using a bunch of topologies-f c checks if RAxML can read the alignment.-f d rapid hill-climbing algorithm-f e optimize the model parameters-f g compute the per–site log Likelihoods for one ore more trees passed via -z.-f h compute a log likelihood test (SH-test [21]) between a best tree passed via -t and a bunch of other trees passed via -z.-f i performs a really thorough standard bootstrap…………………………[-g groupingFileName] 预先分组的名称[-h] program options[-i initialRearrangementSetting] speccify an innitial rearrangement setting for the ininital phase of the search algorithm.[-j][-k] optimize branchlength and model parameters on bootstrapped trees[-l sequenceSimilarityThreshold] Specify a threshold for sequence similarity clustering.[-L sequenceSimilarityThreshold][-M] 模型设定-m GTRCAT: GTR approximation-m GTRMIX: Search a good topology under GTRCAT-m GTRGAMMA: General Time Reversible model of nucleotide subistution with the gamma model of rate heterogeneity.-m GTRCAT_GAMMA: Inference of the tree with site-specific evolutionary rates. 4 discrete GAMMA rates,-m GTRGAMMAI: Same as GTRGAMMA, but with estimate of proportion of invariable sites-m GTRMIXI: Same as GTRMIX, but with estimate of proportion of invariable sites.-m GTRCAT GAMMAI: Same as GTRCAT_GAMMA, but with estimate of proportion of invariable sites.-n outputFileName 输出文件名-o outgroupName(s) 设定外类群如果有两个以上外类群,两者之间不能用空格,而应该用英文的"," DNA, gen1=1-500DNA, gen2=501-1000[-p parsimonyRandomSeed][-P proteinModel][-q multipleModelFileName]-q multiple modelfile name如将以下信息拷贝到另存为文件genenamesDNA, rbcLa = 1-526DNA, matK = 527-1472调用方法-q genenames-m GTRGAMMA[-r binaryConstraintTree]-s sequenceFileName 待分析的phy文件[-t userStartingTree] 用户指定的进化树拓扑结构[-T numberOfThreads][-u multiBootstrapSearches] Specify the number of multiple BS searches per replicate to obtain better ML trees for each replicate.[-v] 版本信息[-w workingDirectory] 将文件写入的工作目录[-x rapidBootstrapRandomNumberSeed] invoke rapidBootstrap[-y] -y 只输出简约树拓扑结构,之后推出,该树也可以用于GARLI等软件[-z multipleTreesFile][-#|-N numberOfRuns]生成的文件RAxML log.exampleRun: 运行时间、似然值/ number of checkpoint fileRAxML result.exampleRun: 树文件RAxML info.exampleRun: -m GTRGAMMA or -m GTRMIX contains information about the model and algorithm usedRAxML parsimonyTree.exampleRun: -t.RAxML randomTree.exampleRun: -d.RAxML checkpoint.exampleRun.checkpointNumber: -jRAxML bootstrap.exampleRun: -# and -b or -xRAxML bipartitions.exampleRun: -f bRAxML reducedList.exampleRun: -l or -LRAxML bipartitionFrequencies.exampleRun: -t , -z , -f mRAxML perSiteLLs.exampleRun: -f gRAxML bestTree.exampleRun: -x 12345 -f aRAxML distances.exampleRun: -f x4 分析实例若当前已经有比对好的序列,名为test1.phy 文件raxmlHPC -x 12345 -p 12345 -# 100 -m GTRGAMMA out1 -s test1.phy -f d -q gennames -n TEST将以上语句粘贴到记事本中,另存为test1.bat文件,保存到raxmlHPC.exe相同的文件夹,双击test1.bat 即可运行。
运行结束后,程序将自动关闭。
-x 用快速方法进行Bootstrap-p 设定随机数-# Bootstrap100次-m GTRGAMMA模型-o out1 将out1序列设置为外类群-s test1.phy 输入的phy文件为ex_al.phy-n TEST输出的各结果文件中包含TEST-q gennames设定的基因的各位点分割位置-f d rapid hill-climbing algorithm5详实的例子1 生成一系列随机化的MP树raxmlHPC -y -s ex_al -m GTRCAT -n ST0raxmlHPC -y -s ex_al -m GTRCAT -n ST1raxmlHPC -y -s ex_al -m GTRCAT -n ST2raxmlHPC -y -s ex_al -m GTRCAT -n ST3raxmlHPC -y -s ex_al -m GTRCAT -n ST42 infer the ML trees for those starting trees using a fixed setting -i 10raxmlHPC -f d -i 10 -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST0 -n FI0raxmlHPC -f d -i 10 -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST1 -n FI1raxmlHPC -f d -i 10 -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST2 -n FI2raxmlHPC -f d -i 10 -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST3 -n FI3raxmlHPC -f d -i 10 -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST4 -n FI43 using the automatically determined setting on the same starting trees:raxmlHPC -f d -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST0 -n AI0raxmlHPC -f d -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST0 -n AI1raxmlHPC -f d -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST0 -n AI2raxmlHPC -f d -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST0 -n AI3raxmlHPC -f d -m GTRMIX -s ex_al -t RAxML_parsimonyTree.ST0 -n AI46正确的碱基变化等级Getting the Number of Categories right大样本量的时候建议采用GTRMIX 搜寻极大似然树用GTRCA T进行相应的Bootstrap因此,需要设定几种-c值,查看那种给出最大的gamma的似然值。