
Clustal:目前被最广泛应用的 MSA 方法
可在本地计算机运行 序列输入、输出格式
>sequence 1 ATTGCAGTTCGCA … … >sequence 2 ATAGCACATCGCA… … >sequence 3 ATGCCACTCCGCC… …
10 3 2 5
outgroup 外群、外围支
最大简约法 (maximum parsimony, MP) 距离法 选择建树方法(替代模型) (distance) 最大似然法 (maximum likelihood, ML) 贝叶斯法 (Bayesian inference) UPGMA
多序列比对的应用: •系统发育分析(phylogenetic analysis) •结构预测(structure prediction) •序列基序鉴定(sequence motif identification) •功能预测(function prediction) ClustalW/ClustalX:一种全局的多序列 比对程序,可以用来绘制亲缘树,分析进化 关系。 MEGA5——分子进化遗传分析软件
比对结果 “*”、“:”、“.” 和空格依次代表改位点的序列一致性由高到低

Mrbayes 3.2 编译并行

How to download and compile the most recent version of MrBayes 3.2 (Mac and Unix) from the MrBayes svn repository on SourceForge1. If a Mac, open Terminal (located in Applications/Utilities). Then check that you have gcc installed by typing$ which gccThis should result in the directory location of your current copy of gcc, if you have one installed. If not, install one from the Developer Tools CD that came with your computer. Most Unix systems will already have gcc installed.2. Type (on one line):svn co https:///svnroot/mrbayes/trunk/src mrbayesYou should now get a number of files downloaded to your directory, in a folder named ”mrbayes”.3. Change to the mrbayes directory by typing:$ cd mrbayes4. Create the Makefile, which contains the instructions for the compiler (the ”make” command), by typing:$ ./configure5. Now compile the program by typing:$ makeIt will take a few minutes for the compiler to assemble the binary version of the program.6. Run the program by typing:$ ./mbYou may want to put the executable in your path. Consult a Unix savvy person on how to do this.Compiling and running the MPI version of MrBayes1. Download the source code and shift to the ”mrbayes” directory as described above.2. In step 4, use the following command to create the Makefile instead:$ ./configure --enable-mpi=yes3. Now compile the program by typing$ makeIt will take a few minutes for the compiler to assemble the binary version of the program. If the first entry on each line printed during the compilation step is ”mpicc”, you are compiling the parallel version. If it is ”gcc”, something went wrong during the configure step and you are compiling the serial version instead.If you have already compiled the serial version of the program in the same directory, you first need to remove the compiled objects by running$ make cleanThen you run the ”make” command as above. Note that the compiled program is going to be called ”mb” both for the serial and the parallel version, so the compilation of the parallel version will overwrite the serial version unless you rename or move the latter executable first.4. Run the parallel version of the program using the command$ mpirun -np 2 ./mbwhere 2 is the number of available processors or processor cores. The MrBayes header should say that you are running the parallel version and it should also give the number of processors (cores) available.5. In practical use, it is often convenient to run the MPI version of MrBayes in batch mode. For instance, you can prepare a Nexus batch file ”batch.nex”, which contains a MrBayes block. To use such a file and have the screen output written to the log file”log.txt”, use the command:$ mpirun -np 2 ./mb batch.nex > log.txt &You can now look into the end of the log file every now and then to see what the run is doing currently using$ tail log.txtIf you wish to continuously follow what is being printed to the log file, you can use$ tail -f log.txtThere are many other ways of running the MPI version of MrBayes. Clusters often come with special instructions on how to run mpi programs; they typically involve launching the MrBayes MPI runs through an appropriate script. Consult your supercomputer support for instructions.。

2,打开mega文件,选择click me to actrivate a data file导入文件——选择nucleotide sequences,点ok,yes.选inverterbrate mitochondrial,ok——选ta,选save:format选nexus(paup4.0),选interleaved output,ok——保存为1bayes.nex。
format gap=- matchchar=. datatype=DNA interleave;
在文件末尾加上begin mrbayes;
Lset Nst=6 Rates=gamma;
outgroup U91490;
outgroup AY210831;(可以变换外群或不设置外群)
begin characters;

Help <command>,单命令介绍,包括该命令当前状态。
如:help lset。
(依次输入命令,完成简单也最常用的分析):Execute filename.nex,打开待分析文件,文件必须和mrbayes程序在同一目录下。
Lset nst=6 rates=invgamma,该命令设置进化模型为with gamma-distributed rate variation across sites和a proportion of invariable sites的GTR模型。
mcmc ngen=10000 samplefreq=10,保证在后面的可能性分布中probability distribution至少取到1000个样品。
默认取样频率:every 100th generation。
如果分裂频率分支频率split frequencies的标准偏差standard deviation在100,000代generations以后低于0.01,当程序询问:“Continue the analysis?(yes/no)”,回答no;如果高于0.01,yes继续直到该值低于0.01。
sump burnin=250(在此为1000个样品,即任何相当于你取样的25%的值),参数总结summarize the parameter,程序会输出一个关于样品(sample)的替代模型参数的总结表,包括mean,mode和95 % credibility interval ofeach parameter,要保证所有参数PSRF(the potential scale reduction factor)的值接近1.0,如果不接近,分析时间要延长。
sumt burnin=250,总结树summarize tree。


图11.在DOS下依次输入如下命令:exe *.nex其中*为要输入的文件名,文件需转化为.nex格式。
打开后会显示“Successfully read matrix”“Exiting data block”和“Reached end of file”。
2.如完成上步,输入下面命令,其中lset nst=?,数字为建模后得到的,如果建模后所得到的partition = 012012,两两相同则为2,如果partition = 000000,全一样则为1,如果partition = 012345,全不同则为6。
lset nst=2(hky)rates=invgamma3.成功后输入下一步:其中代表文件中外群样本的编号。
outgroup /4、成功后输入下一步,回车后如果文件夹中存在相同文件名则需要将相同文件替换掉,输入Y后回车。
mcmc ngen=1000000 samplefre=105、当要求的代数已经运行完毕,窗口会提示询问是否继续运行,如果回答yes,会要求输入继续运行的代数。
在回答之前,我们一般要先检查the average standard deviation of split frequencies的值,该值代表两个独立分析当前的相似性程度,越接近0越好,如果数值小于0.01则终止运行(一般在0.01-0.05之间即可),但决不能大于0.1,否则继续加10万运行。
sump burnin=25000(注:这里的burnin为buRnin,而不是buMin)6.这时会出现mybayes,输入下一步。

An In troduction to the O pera tion M ethod of Phylogenetic Ana lysis Program M rBayes 3. 1 W ANG Y ong et a l ( School of Food and B iological Engineering, J iangsu University, Zhenjiang, J iangsu 212013) Abstract After giving a brief introduction to the characteristics of M rBayes 3. 1 p rogram and the p reparation of Nexus files, the basic operat2 ing methods of M rBayes 3. 1 p rogram were introduced by taking common DNA sequences, common p rotein sequences, DNA sequences with coding regions, mRNA sequences and m ixed data file as examp les. This article p rovided an operating guidance for p rimary users to run the p rogram correctly. Meanwhile, it constituted the necessary p reparatory operations for further study and mastery of specific app lications of the p rogram. Key words Phylogenetic analysis; Bayesian inference; M rBayes 3. 1; Operating method

2. 用modeltest3.7软件分析模型参数。
3. 打开mrbayes软件,文件输入。
命令:>execute 文件名.nex4. 设置参数,模型(上面modeltest3.7软件分析模型参数)。
命令:>lset nst=6/2 rates =gamma/invgamma/propinv,若要检查模型的参数,输入命令showmodel。
若设定lset nst=2,需输入命令report tratio=dirichlet。
3.1 >mcmc ngen=100000(1000000) (samplefreq=10(100)),注意:代数可以先设为10000,以便估计时间的长短。
>help mcmc来确认设置。
3.2 运行结束前,标准误差要小于0.01,否则增加代数,继续运行4.1 >sump burnin=250(2500);抽样的25%划为老化样本,舍去。
4.2 >sumt burnin=250(2500),输出所得的进化树,可用treeview打开.Modeltest 3.7基本操作步骤(中文)Moedltest是进行似然法计算必须的软件之一,它可以帮助大家为所获数据选择最佳的模型进行计算,得到最优的结果。
目前该软件的这里介绍一下Modeltest3.7的基本操作步骤:1. 下载Modeltest3.7软件和模型文件modelblockPAUPb10.txt;2. 将序列同源排序后保存为XXX.nex文件;全部拷贝到C盘。
3. 打开模型文件,将文件内容拷贝到XXX.nex文件的末尾,可以将该文件另存为XXX.test.model.nex,保留原来的*.nex文件;;4. 打开PAUP4.0应用程序,将XXX.test.model.nex文件拖入PAUP窗口,然后在命令行输入:execute XXX.test.model.nex,回车后PAUP就开始对数据进行模型估计,结果将保存为model.scores文件和modelfit两个文件,文件位于PAUP4.0软件的文件夹中;5. 将model.scores文件拷贝到所在的文件夹中。

使用贝叶斯方法构建系统发育树—MrBayesmrBayes需要的比对文件格式为:nex,可以在比对是选择输出此种文件格式mtBayes可以在命令提示符里面运行在CMD里面输入mrBayes,出现如下界面在界面内输入 exe file(或者execute file,其中file为序列文件名),得到如下界面如果没有错误,则说明数据文件格式是正确的。
设置替换模型参数可以使用help lset查看lset设置的参数Nucmodel: 指的是核酸的类型。
1 是JC69模型,即单参数模型。
Code: 指的是密码子编码的规律。
如果是推测线粒体内的基因,需要使用Metmt,叶绿体则需要使用MycoplasmaPloidy: 物种是单倍体还是二倍体。
使用lset Nst=6 Rate=gamma类似命令设置参数。
设置模型的相关先验信息使用help prset查看相关参数及其说明一般情况下,需要关注的参数有:Tratiopr:指定转换和颠换的比例。

实验3 用贝叶斯方法重建基因进化历史传统的系统进化学研究一般采用的要么是表型的数据,要么是化石的证据。
常规的做法一般都是利用某一个或者几个基因来构建物种树(species tree),但是一个基因的进化史能不能完全代表所有被研究物种的进化史呢?这是非常值得讨论的问题,但这不是我们本次实验的重点,在这里就不多赘述了。
所以,我们这里所指的进化树如非特别说明,指的都是基因树(gene tree)。
经典的研究系统进化的方法主要有距离法、最大简约法(maximum parsimony,MP)、最大似然法(maximum likelihood,ML)等等。
Bayes模型将模型参数视作随机变量(r.v.),并在不考虑序列的同时为参数假设先验分布(prior distribution)。
根据Bayes定理,可以不断对参数进行改进:f(θ|D)=f(D|θ)f(θ)f(D)(1) 其中f(θ|D)为后验概率分布(posterior probability distribution),而f(θ)是先验概率分布(prior probability distribution),而f(D|θ)为似然值。

系统发生分析程序MrBayes 3.1使用方法介绍

系统发生分析程序MrBayes 3.1使用方法介绍
【摘要】在介绍MrBayes 3.1程序基本特点以及Nexus文件准备的基础上,选取普通DNA序列、普通蛋白质序列、含编码区域的DNA序列、mRNA序列以及混合型数据文件为例分别介绍了MrBayes 3.1程序的基本使用方法,为初学者正确使用该程序提供了操作指南,同时为深入学习与掌握该程序的特殊用途打好基础.【总页数】5页(P16665-16669)
1.系统发生分析软件PAUP和TreePuzzle使用方法介绍 [J], 王勇;陈克平;姚勤
2.管道应力分析程序使用的深入探讨 [J], 文渊;
3.使用电力系统分析程序对励磁参数的整定 [J], 王琳;翟晓佳
4.管道应力分析程序使用的深入探讨 [J], 文渊
5.MrBayes分子钟定年之程序 [J], 张驰

默认状态下, bayes会同时 运行两个(Nruns=2) 完全独立的 但由不同的随机树 开始的分析。
四条链之间的交换频率 在0.1-0.8之间,认为是 合理的,则进行下一项。
图看起来很平稳,没有上升或者下降的趋势。 如果有任何上升或者下降的趋势,可能需要延长分析时间以获得充分的后掩盖率分布取样。
Statefreqpr:该 参数用于指定状态 频率的先验分布概 率。
Shapepr:该参数用 于指定位点间速率变 异的gamma形状参 数的先验概率。
Privarpr:该参数用 于设置不变位点速率。
Ngen:设置分析要 跑的代数。
Samplefreq:对链取 样的频率。默认状态下, 每第100代,对链取样 一次。如果分析量较小, 我们也许想尽快使其收 敛,可设置为每10代 取样一次。
用于指定DNA 模型的一般类型
用于设置替换类 型数
用于设置位点间 速率变异模型
Revmatpr:该参 数用于设置核酸数 据GTR模型的替换 率的先验概率。
当要求的代数已经运行完毕,窗口会提示询问是否继续运行,如果回 答yes,会要求输入继续运行的代数。在回答之前,我们一般要先检查 the average standard deviation of split frequencies的值,该值 代表两个独立分析当前的相似性程度,越接近0越好。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
< >内为需要输入的内容,但不包括括号。
所有命令都需要在MrBayes >的提示下才能输入。
文件格式:文件输入,输入格式为Nexus file(ASCII,a simple text file,如图):或者还有其他信息:interleave=yes 代表数据矩阵为交叉序列interleaved sequencesnexus文件可由MacClade或者Mesquite生成。
但Mrbayes并不支持the full Nexus standard。
但除了DNA{A, C, G, T, R, Y, M, K,S, W, H, B, V, D, N}、RNA{A, C, G, U, R, Y, M, K, S, W, H, B, V, D, N}、Protein {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X}、二进制数据{0, 1}、标准数据(形态学数据){0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9}外,并不支持其他数据或者符号形式。
执行文件:execute <filename>或缩写exe <filename>,注意:文件必须在程序所在的文件夹(或者指明文件具体路径),文件名中不能含有空格,如果执行成功,执行窗口会自动输出文件的简单信息。
或者执行help lset检查默认设置(如图):略Nucmodel用于指定DNA模型的一般类型。
我们通常选取标准的核苷酸替代模型nucleotide substitution model,即默认选项4by4。
另外,Doublet选项用于paired stem regions of ribosomal DNA的分析,Codon选项用于DNA sequence in terms of its codons的分析。
默认状态下,所有的置换比率相同,对应于F81模型(JC model)。
Rates通常设置为invgamma (gamma-shaped rate variation with a proportion of invariable sites),Ngammacat(the number of discrete categories used to approximate the gamma distribution)一般采用默认选项4。
余下的选项中,只有Covarion和Parsmodel与单核苷酸模型相关,而我们既不会采用parsimony model,也不会采用the covariotide model,故保留默认状态。
在对矩阵作了以上修改后,重新输入help lset命令,可以查看变化后的设置。
模型有6种类型的参数:the topology, the branch lengths, the four stationary frequencies of the nucleotides, the six different nucleotide substitution rates, the proportion of invariable sites, andthe shape parameter of the gamma distribution of rate variation.默认参数在大多数分析中都已足够,通常不许修改,如需立即使用,这部分可以跳过。
通过输入help prset可以获得模型的各参数默认设置列表:略,我们只对Revmatpr (for the six substitution rates of the GTR rate matrix), Statefreqpr (for the stationary nucleotide frequencies of the GTR rate matrix), Shapepr (for the shape parameter of the gamma distribution of rate variation), Pinvarpr (for the proportion of invariable sites), Topologypr (for the topology), Brlenspr (for the branch lengths) 这几项设置作简单介绍。
Revmatpr and Statefreqpr的默认的先验概率密度prior probability density都是a flat Dirichlet (所有值都为1.0) 。
有时可能需要把Statefreqpr设置为equal,比如在JC and SYM模型下,命令prset statefreqpr=fixed(equal)。
如果我们要对默认的statefreqpr的flat Dirichlet prior状态加以强调,即equal nucleotide frequencies。
可以输入命令prset statefreqpr= Dirichlet(10,10,10,10),或者更甚的强调prset statefreqpr=Dirichlet(100,100,100,100)。
如果修改了该选项后想改回来,输入prset statefreqpr=Dirichlet(1,1,1,1)或者prsst= Dir(1,1,1,1)。
Shapepr参数定义the prior for the α (shape) parameter of the gamma distribution of rate variation.Pinvarpr参数定义the prior for the proportion of invariable sites。
Topologypr参数默认设置uniform puts equal probability on all distinct, fully resolved topologies.The alternative is to constrain some nodes in the tree to always be present but we will not attempt that in this analysis.Brlenspr参数可以设置为unconstrained或者clock-constrained。
默认为unconstrained,对于没有分子钟的树,the branch length prior可以设置为指数的exponential或者均一的uniform,默认为指数的,参数为10.0,对大多分析都合适。
在设置前可以输入help mcmc命令查看默认设置。
Swapseed是单独的用于产生随机交换序列the chain swapping sequence的随机数产生器。
Ngen(number of generations)设置分析要跑的代数。
如果要设置ngen值但不想立即开始分析,可以使用mcmcp命令,如mcmcp ngen=10000。
默认状态下,bayes会同时运行两个(Nruns = 2)完全独立的但由不同的随机树开始的分析。
检查Mcmcdiagn 参数是否设置为yes,Diagnfreq 是否设置为一个合适的值,如默认的每第1000代(可以更改)。
这样bayes会在每第1000代计算各种运行(分析)的诊断,并把它们保存在一个<filename>.mcmc 的文件中。
最重要的诊断,不同分析中树取样the tree samples的相似性的衡量,也会在每1000代输出到屏幕上。
默认状态为(relburnin=yes and burninfrac=0.25),即每个诊断完成,25%的样品被丢弃。
默认状态下,bayes会使用Metropolis coupling提高the MCMC sampling of the target distribution。
Swapfreq, Nswaps, Nchains和Temp四个参数一起控制Metropolis coupling行为。
设置为n,n-1个热链heated chains被使用。
默认n=4,表示bayes会使用3个热链和1个"cold" chain。
Bayes使用一种增值的热方案an incremental heating scheme,该方案下,通过增加其后验概率,链i被heated 到the power 1/ (1 + iλ),其中λ是由Temp参数控制。
Heating的作用是保持后验概率平稳flatten out the posterior probability,以便热链可以轻松找到后验概率中的峰isolated peaks,帮助冷链cold chain快速通过这些峰。
每第Swapfreq代,会从两条链中随机抽取并交换它们的状态an attempt is made to swap their states。