系统发育软件使用流程_公开版(精)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系统发育及群体遗传统计分析软件使用流
程(公开版
谢磊左云娟徐新伟
基础知识与注意事项:
1 interleave vs. noninterleave
DNA序列数据分段显示为interleave格式,如果一行显示则为noninterleave 格式。
除了PAUP之外,几乎所有系统发育分析软件都要求noninterleave格式的数据。
但是当几个片段的序列combine时会得到interleave格式的数据,这时候PAUP 能够识别运输interleave格式的优点就显示出来了。
PAUP可以输出noninterleave 格式的数据,所以可以使用PAUP进行数据格式转换以得到能够用于其他软件的数据格式(MAC版PAUP进行菜单操作即可,PC版PAUP方法见附录1*。
export format=nexus interleaved=no file=temp.txt (生成noninterleave文件命令 2 log file
Log file就是在运算之前建立日志,运算的所有过程都会随时记录在一个文档当中便于以后查询。
建议在每次使用PAUP算树时首先进行Log file。
3 存树
系统发育树的保存有两种方式,一种是存成nex格式的树文件,另一种是存成PICT格式的图文件。
Nex格式的树文件是用按层次加括号的方式表示类群之间关系,如((A,B(C,D,这个文件可以用PAUP、MacClade或Treeview 打开生成文章需要的图文件。
而图文件则是写文章时候需要的文件,一般可以用AI或WORD进行编辑修饰。
建议每次运算都要保存树文件,因为树文件可以随时生成图文件,如果只保存图文件一旦数据出现损坏或丢失则需要重新运算。
4 写文章时需要的参数
运算PAUP时要注意细节,写文章需要的参数,如CI、RI、信息位点等数据一定不能忽略,每次运算都要生成这些数据。
PAUP的describetree和cstatus命令是每次运算必须进行的。
5 modeltest
在使用ML法运算PAUP和Garli以及Bayes和Beast之前必须进行modeltest,检测DNA数据的分子进化模型。
现在一般使用modeltest 3.7。
在MAC机器上运行即可。
如果遇到MAC上运行medeltest有问题不能算完的情况,建议使用PC 版PAUP运算,生成score文件后用MAC去读取信息。
有用的信息为Akaike Information Criterion (AIC下面的一段(Harrison & Langdale, 2006; Posada & Buckley, 2004。
6 分子钟计算
在拿到分子数据之后,需要进行分化年代推算之前要做一个modeltest叫做likelihood ratio test,检测分子序列进化是否按照clock-like fashion。
如果P<0.05则否定clock-like fashion。
一般得到的结果都是P值很小的,这就需要选用一些特殊方法来对分子钟进行校订。
最常用的方法就是PL法和Bayes法,分别由r8s (rates 和BEAST来完成(当然还有很多软件,见Rutschmann,2006。
R8s是对已经算出来的带支长的树文件进行操作,根据支长信息化石点信息和一些设置确定smooth值。
然后根据这个smooth值确定各分支分化年代。
而BEAST则是直接对DNA序列数据进行操作,根据化石点标定来确定各个分支分化年代。
系统发育研究数据处理基本流程:
MP+ML+Bayes→dating
1 Paup MP流程: MAC(PC运算可将附录1,4内容贴至nex 数据后面运行即可
准备nex文件(interleave和noninterleave均可→存入新建文件夹→拖入paup或用paup打开→ execute → log file → cstatus → tstatus → hsearch → define outgroup →
roottrees → savetrees → describetrees →contree(save to file →save pict→bootstrap(save tree file →print bootstrap tree→save pict. →stop log.
2 Paup ML 流程:MAC(PC运算可将附录5内容贴至nex数据后面运行即可
准备nex文件(interleave和noninterleave均可→存入新建文件夹→拖入paup或用paup打开→execute→从modeltest软件中打开paupblock运算检测模型→生成score file→打开modeltest中的bin读取score数据→生成结果文档→存档并打开此文档→AIC→将begin paup的运算模块贴至原nex数据文件后面→重新将其拖入paup运行→选择ML运算模式→hsearch→打印树图→save pict. →bootstrap.
3 Garli运算ML流程:MAC
准备nex文件(interleave →存入新建文件夹→拖入paup或用paup打开
→execute→输出noninterleave文档(若直接是noninterleave上述过程省略,又如果是PC机,在命令行中输入附录1*的命令回车即可。
使用noninterleave文档(数据中类群名称不得有单引号,空格,所有方括号中内容删除→新建文件夹存入→按照流程2进行modeltest→在苹果机上打开Garli→导入数据→把model定好→run(切记此处不要激bootstrap选项
将上次运算数据拷贝至一新建文件夹→导入苹果版Garli→激活bootstrap选项→定好model→run
所有结果用paup软件打开→save pict→打开bootstrap树→做50% majority rule contree→save pict.
注:Garli苹果和PC版都有但是界面不同。
数据格式:和算PAUP一样的nexus格式,但是这个格式有很多注意事项,一些常见的小错误会造成软件无法运行。
参见下列常见问题:
1 一定要noninterleave的数据,否则软件无法运算
2 [ ]虽然在mrbayes和paup中不成问题但是在garli中有影响,里面内容在算之前全部删除为好。
3 taxon名称中可以有下划线但是不得有空格,逗号句点等,否则无法运行。
Mac版
GUI的菜单界面,只要有上述正确的nexus格式的数据文件即可运算。
PC版
Nex format plus a command file
每次使用时拷贝一个软件的文件夹,将此文件夹重新命名(尽量清楚易查询。
将正确的数据文件拷贝到此文件夹下(与garli运行程序在同一目录下。
编辑命令文档(名称是garli,进行参数设置。
完成后双击garli运行程序图标即可运算。
4 Bayes 流程:MAC和PC同
Noninterleave 文件→贴运算程序到文件后面(见附录3→将其拷贝至MrBayes 文件夹下→打开运行程序→execute 文件名.扩展名→运算结束后用paup运行源文件→从.t文件中取树→burnin→做50% majority rule contree→save pict.
5 r8s流程:单一MAC
按照流程2进行modeltest→按照流程2进行ML运算→运算结束print tree→检查这棵带枝长的树是否有分支长度为0的分支→如果有在restore和delete taxa中将这些类群去除→存储带枝长的树到file(nex格式→将树的taxa名称更换为实际类群名称→将树文件贴至运算模版(见附录6→首先进行第一步cross-validation→得到smooth值→替换smooth值再算一遍即可。
注:r8s:
该软件与BEAST不同,是对已存在的树进行操作,校订分子钟。
算法为PL法。
先选择模型算出一个ML树(要带枝长,注意如果要用这个树算r8s要保证该树
各个分支清晰,有较高的分辨率,最好没有0枝长树(polytomy。
在这个树的tre的nexus文件上面编辑各种命令,然后输入r8s进行运算。
6 BEAST流程:MAC和PC同
数据格式为noninterleave nex文档→ BEAUTI打开→定义节点→基本设置→化石点标定→生成xml文档→BEAST打开运算→运算完成→Tracer打开log文件
→TreeAnnotator打开树文件→生成out文件→Figtree打开out文件。
附录1.最大简约法分析批处理文件
begin PAUP;
log file=hsearch1.log;
set autoclose=yes;
set maxtrees=100 increase=auto;
hsearch start=stepwise addseq=random nreps=1000 savereps=yes
randomize=addseq rstatus=yes hold=1 swap=tbr multrees=yes nchuck=200 chuckscore=1;
savetrees file=hsearch1.all.tre brlens=yes;
filter best=yes permdel=yes;
savetrees file=hsearch1.best.tre;
gettrees file=hsearch1.best.tre;
contree all/majrule=yes treefile=contree.tre;
log stop;
end;
*export format=nexus interleaved=no file=temp.txt (此为生成noninterleave文件命令
附录 2. ILD分析
;
endblock;
charpartition dna=ITS:1-848,trnLF:849-3051;
begin paup;
set criterion=parsimony;
log file=iscap.hom;
hompart part=dna nreps=100/addseq=random;
hsearch swap=tbr;
endblock;
附录 3. Bayes 分析
begin mrbayes;
lset nst=6 rates=gamma;
mcmcp ngen=2000000 printfreq=1000 samplefreq=100 nchains=4 savebrlens=yes
filename=P_combined;
mcmc;
sumt filename=P_combined.t burnin=2000;
end;
Begin mrbayes;
附录4. 单一bootstrap 分析(MP 法
begin paup;
log file=bootstrap.log;
set maxtrees=100 increase=auto;
set criterion=parsimony;
set root=outgroup;
outgroup 56/only;
bootstrap nreps =1000 conlevel =50 treefile =bootstrap.tre keepall =
yes
cutoffpct=50/start=stepwise addseq=random nreps=100 savereps=yes nchuck=20 chuckscore=5 dstatus=none;
log stop;
end;
附录 5. Paup 运行ML 分析
苹果机:
BEGIN PAUP;
Lset Base=(0.3271 0.1847 0.1967 Nst=6 Rmat=(0.9731 1.0473 0.2212 0.4660
1.5241 Rates=gamma Shape=0.8160 Pinvar=0.6410;
END;
PC 机:
Begin Paup;
Set criterion=likelihood;
Lset Base=(0.3413 0.2847 0.0895 Nst=6 Rmat=(0.3885 3.5246 0.5305 0.4364
3.2970 Rates=gamma Shape=0.5232 Pinvar=0.2613;
Hsearch start=nj nchuck=2 chuckscore=5 dstatus=none; savetrees format=nexus brlens=yes append=yes file=likelihood;
lscores 1/scorefile=likelihood.sf append=yes;
set root=outgroup;
outgroup 27 28;
showtrees all;
end;
附录 6. r8s 模版
#NEXUS
begin trees;
tree PAUP_1=
[&R]
((((((n38_L.cam:0.000345,n39_L.ame:0.001746:0.006149,((w07_Sympl:0.002345,w 03_S.ren:0.000432:0.002795,n43_S.nip:0.005495:0.004937:0.010468,Orotium_n:0 .013628:0.019634,Gymnostac:0.030761:0.005855,((((n35_Calla:0.018544,Philoden d:0.022115:0.003446,(Arisaema:0.006638,Arisaema:0.008069:0.032465:0.002675, Dracontiu:0.028457:0.001894,(Pothos_ov:0.022059,(Monstera:0.005233,Spathiphy:
0.012305:0.010303:0.006431:0.038754:0.093727,Tofieldia:0;
End;
begin rates;
blformat nsites=3171 lengths=persite;
prune taxon=Tofieldia;
mrca D1 w03_S.ren w07_Sympl;
mrca D2 n38_L.cam n39_L.ame;
mrca D3 w03_S.ren n43_S.nip;
mrca D4 n38_L.cam n43_S.nip;
mrca F1 Orotium_n n39_L.ame;
mrca root Orotium_n Philodend;
collapse;
fixage taxon=root age=120;
constrain taxon=F1 min_age=72;
set ftol=1e-7;
set verbose=0; [suppresses huge amount of output in CV analyses]
divtime method=pl algorithm=tn crossv=yes cvStart=0 cvInc=0.25 cvNum=20 ; set smoothing=100;
divtime method=pl algorithm=tn;
showage;
describe plot=chronogram;
describe plot=tree_description;
set num_time_guesses=3;
divtime method=pl algorithm=tn;
end;
参考文献
Harrison CJ, Langdale JA. 2006. A step by step guide to phylogeny reconstruction. The Plant Journal 45: 561--572.
Posada D, Buckley TR. 2004. Model selection and model averaging in phylogenetics: advantages of Akaike Information Criterion and Bayesian approaches over likelihood ration tests. Systematic Biology 53: 793—808.
Rutschmann F. 2006. Molecular dating of Phylogenetic trees: a brief review of current methods that estimate divergence times. Diversity & Distributions 12: 35--48.。