Mrbayes中文使用说明
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
< >内为需要输入的内容,但不包括括号。所有命令都需要在MrBayes >的提示下才能输入。
文件格式:
文件输入,输入格式为Nexus file(ASCII,a simple text file,如图):
或者还有其他信息:
interleave=yes 代表数据矩阵为交叉序列interleaved sequences
nexus文件可由MacClade或者Mesquite生成。但Mrbayes并不支持the full Nexus standard。
同时,Mrbayes象其它许多系统软件一样允许模糊特点,如:如果一个特点有两个状态2、3,可以表示为:(23),(2,3),{23}或者{2,3}。但除了DNA{A, C, G, T, R, Y, M, K,S, W, H, B, V, D, N}、RNA{A, C, G, U, R, Y, M, K, S, W, H, B, V, D, N}、Protein {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X}、二进制数据{0, 1}、标准数据(形态学数据){0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9}外,并不支持其他数据或者符号形式。
执行文件:
execute
选定模型:
通常至少需要两个命令,lset和prset,lset用于定义模型的结构,prset用于定义模型参数的先验概率分布。在进行分析之前可以执行showmodel命令检查当前矩阵模型的设置。或者执行help lset检查默认设置(如图):
略
Nucmodel用于指定DNA模型的一般类型。我们通常选取标准的核苷酸替代模型nucleotide substitution model,即默认选项4by4。另外,Doublet选项用于paired stem regions of ribosomal DNA的分析,Codon选项用于DNA sequence in terms of its codons的分析。
替代模型的一般结构一般由Nst设置决定。默认状态下,所有的置换比率相同,对应于F81模型(JC model)。一般我们选用GTR模型,即nst=6。
Code设置只有在DNA模型设置为codon的情况下才使用。Ploidy设置也与我们无关。
Rates通常设置为invgamma (gamma-shaped rate variation with a proportion of invariable sites),Ngammacat(the number of discrete categories used to approximate the gamma distribution)一般采用默认选项4。通常这个设置已经足够,增加该选项设置的数量可能会增加似然计算的精确性,但所花时间也成比例增加,大多数情况下,由增加该数值对结果的影响可以忽略不计。
余下的选项中,只有Covarion和Parsmodel与单核苷酸模型相关,而我们既不会采用parsimony model,也不会采用the covariotide model,故保留默认状态。
在对矩阵作了以上修改后,重新输入help lset命令,可以查看变化后的设置。
设置先验参数prior:
现在可以为模型设置先验参数了。模型有6种类型的参数:the topology, the branch lengths, the four stationary frequencies of the nucleotides, the six different nucleotide substitution rates, the proportion of invariable sites, and
the shape parameter of the gamma distribution of rate variation.
默认参数在大多数分析中都已足够,通常不许修改,如需立即使用,这部分可以跳过。
通过输入help prset可以获得模型的各参数默认设置列表:
略,
我们只对Revmatpr (for the six substitution rates of the GTR rate matrix), Statefreqpr (for the stationary nucleotide frequencies of the GTR rate matrix), Shapepr (for the shape parameter of the gamma distribution of rate variation), Pinvarpr (for the proportion of invariable sites), Topologypr (for the topology), Brlenspr (for the branch lengths) 这几项设置作简单介绍。
Revmatpr and Statefreqpr的默认的先验概率密度prior probability density都是a flat Dirichlet (所有值都为1.0) 。有时可能需要把Statefreqpr设置为equal,比如在JC and SYM模型下,命令prset statefreqpr=fixed(equal)。
如果我们要对默认的statefreqpr的flat Dirichlet prior状态加以强调,即equal nucleotide frequencies。可以输入命令prset statefreqpr= Dirichlet(10,10,10,10),或者更甚的强调prset statefreqpr=Dirichlet(100,100,100,100)。
如果修改了该选项后想改回来,输入prset statefreqpr=Dirichlet(1,1,1,1)或者prsst= Dir(1,1,1,1)。Shapepr参数定义the prior for the α (shape) parameter of the gamma distribution of rate variation.
Pinvarpr参数定义the prior for the proportion of invariable sites。
Topologypr参数默认设置uniform puts equal probability on all distinct, fully resolved topologies.
The alternative is to constrain some nodes in the tree to always be present but we will not attempt that in this analysis.
Brlenspr参数可以设置为unconstrained或者clock-constrained。默认为unconstrained,对于没有分子钟的树,the branch length prior可以设置为指数的exponential或者均一的uniform,默认为指数的,参数为10.0,对大多分析都合适。
可以在分析前输入showmodel命令检查模型的设置。
分析及设置:
由mcmc命令设置参数并开始分析。
在设置前可以输入help mcmc命令查看默认设置。
Seed是随机数产生器随机输出的一个种子数值。Swapseed是单独的用于产生随机交换序列the chain swapping sequence的随机数产生器。除非特别指定,这两个值由系统时钟生成。
Ngen(number of generations)设置分析要跑的代数。通常可以先设置较少的代数以确认分析的各项设置正常,并可以估计一个较长的分析所要花的时间和代数。如果要设置ngen值但不想立即开始分析,可以使用mcmcp命令,如mcmcp ngen=10000。
默认状态下,bayes会同时运行两个(Nruns = 2)完全独立的但由不同的随机树开始的分析。一般采取默认设置。
检查Mcmcdiagn 参数是否设置为yes,Diagnfreq 是否设置为一个合适的值,如默认的每第1000代(可以更改)。这样bayes会在每第1000代计算各种运行(分析)的诊断,并把它们保存在一个
默认状态下,bayes会使用Metropolis coupling提高the MCMC sampling of the target distribution。Swapfreq, Nswaps, Nchains和Temp四个参数一起控制Metropolis coupling行为。
Nchains设置为1,不使用heating。设置为n,n-1个热链heated chains被使用。默认n=4,表示bayes会使用3个热链和1个"cold" chain。根据经验,heating对于大于50个类群(序列)的分析是很重要的。增