应用PHYLIP构建进化树的完整详细过程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、获取序列

一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。

二、多序列比对

目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。生成的指导树文件(DND文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。

三、构建进化树

1.N-J法建树

依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和

CONSENSE.EXE打开。具体步骤如下:

(1)打开seqboot.exe

输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。

R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)

odd number: (4N+1)(eg: 1、5、9…)

改好了y

得到outfile(在phylip文件夹内)

改名为2

(2)打开Dnadist.EXE

输入2

修改M值,再按D,然后输入1000(M值)

y

得到outfile(在phylip文件夹内)

改名为3

(3)打开Neighboor.EXE

输入3

M=1000(M值)

按Y

得到outfile和outtree(在phylip文件夹内)

改outtree为4,outfile改为402

(4)打开consense.exe

输入4

y

得到outfile和outtree(在phylip文件夹内)

Outfile可以改为*.txt文件,用记事本打开阅读。

四、进化树编辑和阅读

outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。TREEVIEW可以显示BOOTSTRAN值,序列较多(60条以上)的时候打开直接显示有明显的重叠,可以在打印预览中显示,或输出为EMF WMF图片文件看,但是序列较多时BOOTSTRAN值的显示位置比较乱,和序列名称有重叠。

PHYLODRAW的编辑功能较强,可以自由调节X、Y轴的长度。输出格式为BMP、PS格式。缺点是不能直接显示BOOTSTRAN值,包括打开TREEVIEW输出的NEX文件,而且输出的BMP文件不全,类似截屏文件,我用PHOTOSHOP进行拼接合成,添加BOOTSTRAN值和注解符号等。据说也可以将PS文件用记事本打开,改变其中的字号,然后通过ADOBE DISTRILLOR将PS转化为P DF,就可以解决问题。如果发现还有重叠,可以再次改变PS文件中的字号大小,直到合适为止。

NJPLOT可以显示BOOTSTRAN值和分值长度。但是不能调节图片X、Y轴的长度。

建MP,ML树将Dnadist和Neighboot两步分别改为Dnapars和Dnaml,其余步骤相同。据说ML法序列较多是非常耗时,我没有尝试。因为我的序列较多。

也可以用CLASTAL X中的BOOTSTRAN N-J TREE法生成进化树,TREE菜单输出格式选项(OUTPUT FORMAT OPTION)中的BOOTSTRAN LABELS ON 选NODE(节点)。在treeview 里,选择tree菜单,然后把show internal edge lables 的选项打勾了,直接打开生成的文件bootstrap的值就可以显示出来。

下面介绍几个软件的使用。首先是PHYLIP。其是多个软件的压缩包,下载

后双击则自动解压。当你解压后就挥发现PHYLIP 的功能极其强大,主要包括五

个方面的功能软件:i,DNA 和蛋白质序列数据的分析软件。ii,序列数据转变

成距离数据后,对距离数据分析的软件。iii,对基因频率和连续的元素分析的

软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态

时,对序列进行分析的软件。v,按照DOLLO 简约性算法对序列进行分析的软

件。vi,绘制和修改进化树的软件。在此,我主要对前两种功能软件进行说明。

我们现在有几个序列如下:

Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT

Mo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT

Mo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT

Mo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT

Mo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

要对这8个序列进行进化树分析,按照上面的步骤,首先用CLUSTALX排列序

列,输出格式为*.PHY。用记事本打开如下图:

图中的8 和50 分别表示8 个序列和每个序列有50 个碱基。然后,打开软件

SEQBOOT,如下图:

按路径输入刚才生成的*.PHY文件,并在Random number seed (must be odd) ?

的下面输入一个4N+1 的数字后,屏幕显示如下:

图中的D、J、R、I、O、1、2 代表可选择的选项,键入这些字母,程序的条件

就会发生改变。D选项无须改变。J 选项有三种条件可以选择,分别是Bootstrap、

Jackknife 和Permute。文章上面提到用Bootstraping 法对进化树进行评估,所谓Bootstraping 法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半

相关文档
最新文档