系统发育分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

常见软件
软件名称 DNAMAN BioEdit
DNASTAR MAFFT
用途
序列分析的综合工具 序列分析的综合工具 序列分析的综合工具 多重序列比对工具
Muscle
多重序列比对工具
图形化的多序列比对工具;构建N-J系统树 冗余序列处理工具 进化模型选择工具
ClustalX
Gblocks jModelTest, ModelTest, ModelGenerator
序列拼接 (Mega) 多序列比对 (MAFFT) 进化模型的选择 (ModelTest) 系统发育树的构建 (RAxML, MrBayes, PAUP) 系统发育树显示和编辑 (FigTree, Adobe Illustrator)
序列拼接
• BioEdit • Mega
• Seqman
• Contig • Sequencer
多序列比对
http://mafft.cbrc.jp/alignment/server/
速度: Muscle>MAFFT>Clustal 比对准确性:MAFFT>Muscle>>Clustal
比对前
MAFFT 7.0 online alignment
http://mafft.cbrc.jp/alignment/server/index.html
跑 多 少 次 Partition 文件
比对好序列的 输出结果 文件名字 的的名字
Partition文件 的名字
基因的名字和序列所在位置
Page 26
MrBayes建树
(Mrmodeltest 2.3和Mrbayes 3.2.2)
mrbayes_x86.exe for 32 bit system, mrbayes_x64.exe for 64 bit system
MP
ML
BI
基因进化模型的统计推论法, 通过后验概率直观反映出各 大而复杂的数据集 分支的可靠性而不需要自检 法检验
具有坚实的数学和统计 学基础,可以处理复杂 和接近实际情况的进化 模型
对进化模型比较敏感, 后验概率是建立在许多 假说上,在现实中可能 不成立
系统发育树构建的软件
http://evolution.genetics.washington.edu/phylip/software.html
PAUP软件使用流程 (系统树构建)
1. 将比对后的fasta格式文件转换成Nexus格式 2. 将paup命令粘贴到Nexus文件下方,在命令程序中指定外群, 保存。
begin paup; log file=p_buffer.txt; pset collapse=minbrlen; [ctype 1.5_1:all;] set maxtrees=5000 increase=no; outgroup ****; set criterion=parsimony;
bootstrap nreps=1000 Keepall=yes / AddSeq=random nreps=10; roottrees outroot=monophyl; savetrees file=BT.tre from=1 to=1 savebootp=both maxdec=0; end;
转换文件格式
hsearch addseq=random nreps=1000; roottrees outroot=monophyl; savetrees brlens=yes file=MP.tre; pscores ALL/ci=yes tl=yes hi=yes rc=yes ri=yes khtest=yes;
PHYLIP
MEGA PAUP PHYML, PAML, RAxML MrBayes TreeView
FigTree, Adobe Illustrator
集成的进化分析工具
图形化、集成的进化分析工具 集成的进化分析工具 ML建树工具 基于贝叶斯方法的建树工具 进化树显示工具 进化树显示和编辑工具
系统发育树构建的过程
Minimum Evolution (ME)
Fitch-Margoliash Method (FM)
二、基于特征符方法 Character based (Tree searching) methods
Maximum parsimony (MP) Maximum likelihood (ML) Bayesian inference (BI)
系统发育分析方法
刘芳 2015.12.11
系统发育分析常用方法
一、基于距离方法 Distance based (Algorithmic) methods
unweighted pair group method with arithmetic mean (UPGMA) Neighbor-Joining Method (NJ)
http://sourceforge.net/projec ts/mrbayes/files/
Version 3.2.2 fixes a number of bugs in previous releases of version 3.2.
操作步骤
• 1. Fasta文件转换成Nexus格式的文件
• • • • • • • • • • • • • • • • • • • • • • • • • • •
begin mrbayes; [This block sets up several different partitions that could be used in the analysis of this dataset] outgroup M_infuscans_CBS_869_96; [replace fungusX with your outgroup taxon] [When defining your charsets below, the characters must follow each other directly, e.g. 1-300, 301-500, 501-600 and not 5-300, 325-500, 530-600. You will excluded everything you do not want to include in the analysis (e.g. 1-4, 301-324 and 501-529 in the charset excludedcharacters line.] charset locus1 = 1-286; [replace the xx's with numbers reflecting the character spanning of your gene 1] charset locus2 = 287-605; [replace the xx's with numbers reflecting the character spanning of your gene 2] charset locus3 = 606-1159; [replace the xx's with numbers reflecting the character spanning of your gene 3] charset locus4 = 1160-1678; [replace the xx's with numbers reflecting the character spanning of your gene 4] charset excludedchars = 282-286 601-605 1155-1159 1674-1678; [list here all of the characters that you do not want to include. e.g. the bits between the loci] exclude excludedchars; partition AllLoci = 4: locus1, locus2, locus3, locus4; log start filename=mydata.log; end; begin mrbayes; 视情况修改,也可不修改。 outgroup M_infuscans_CBS_869_96; set partition= AllLoci; prset applyto=(1,2,4) statefreqpr=dirichlet(1,1,1,1); [This means locus1 and locus3 are same] prset applyto=(3) statefreqpr=fixed(equal); [This is the model of locus2] lset applyto=(1,2) nst=2 rates=gamma; lset applyto=(3,4) nst=2 rates=propinv; unlink shape=(all) pinvar=(all) statefreq=(all) revmat=(all); mcmcp ngen= 10000000 relburnin=yes burninfrac=0.25 printfreq=1000 samplefreq=1000 nchains=4 savebrlens=yes stoprule=yes stopval=0.01; mcmc; sumt [conformat=simple]; [using Mrbayes3.2.1 should add "conformat=simple"] end;
. . . . .
3.打开paup软件,打开Nexus文件然后运行即可。
4. 运行界面。MP树运行完后,点击“Stop”,继续运行BT树。
运行结果文件:
MP树
wk.baidu.com BT树
P-buffer 文件
RAxML建树
• 程序自带的文件: raxmlHPC、 raxmlHPC-PTHREADS、 run 三个 • 准备文件两个:phy格式的比对好的序列, txt格式的partition文件 Run 文件
方法
基本特征
适用范围
优点
缺点
NJ
不需要分子钟假设,是基于 假设少,树的构建相对 最小进化原理,进行类的合 远缘序列,进化距离不 准确,计算速度快,只 序列上的所有位点等同 并时,不仅要求待合并的类 大,信息位点少的短序 得一颗树,可以分析较 对待,且所分析的序列 是相近的,而且要求待合并 列 多的序列,运行速度优 的进化距离不能太大 的类远离其他的类。 于最大简约法 基于进化过程中碱基替代数 只适于序列数目N≤12。 目最少这一假说,不需要替 善于分析某些特殊的分 存在较多回复突变或平 代模型,对所有可能的拓扑 近缘序列物种序列的数 子数据如插入、缺失等 行突变时,结果较差。 结构进行计算,并计算出所 目≤12. 序列有用。 变异大的序列会出现长 需替代数最小的那个拓扑结 枝吸引而导致建树错误。 构,作为最优树 依赖于某一个特定的替代模 很好的统计学基础,大 型来分析给定的一组序列数 样本时似然法可以获得 所有可能的系统发育树 据,使得获得的每一个拓扑 特定的替代的模,远缘 参数统计的最小方差, 都计算似然函数,计算 结构的似然率都为最大值, 序列 在进化模型确定的情况 量大,耗时时间长。依 然后再挑出其中似然率最大 下,ML法是与进化事实 赖于合适的替代模型, 的拓扑结构作为最优树。 吻合最好的建树算法.
• 5. 将SCORES文件复制到MrModeltest2.3文件夹中,此时该 文件夹包含以下文件:
• 6. 运行cmd
• 得到txt文件
• 7. 打开刚刚得到的txt文件,从每一个txt文件中找到如下 Bayes的模型:
• 8. 把得到的models复制到一个text文本中
• 9. 打开之前的NEXUS文件,删掉mrmodeltest命令, 粘贴 bayes命令:
• 2. 把Mrmodelblock文件夹中对应的MrModelblock*loci文件
中的内容粘贴到Nexus文件最下方(几个基因即对应几个 loci的文件,比如4个基因,则需要复制MrModelblock4loci 中的内容)
• 3. 修改刚刚粘贴的命令 参看文件
红色框中是要修改的地方
• 4. Paup运行刚刚修改好的Nexus文件,得到SCORES文件
相关文档
最新文档