构建系统进化树的详细步骤

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

构建系统进化树的详细步骤

1. 建树前的准备工作

1.1 相似序列的获得——BLAST

BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意

为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心

都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序

列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。

首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。它

们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明

行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是

任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就

可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。

BLASTN结果如何分析(参数意义):

>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete

sequence

Score = 2020 bits (1019), Expect = 0.0

Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus

Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60

|||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58

Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120

|| ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118

Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似; Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect 小于1e-10,

就比对很好了,多数情况下为0;

Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相

同;

Gaps:一般翻译成空位,指的是对不上的碱基数目;

Strand:链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,如果是Plus /

Plus则二者皆为正向。

1.2 序列格式:FASTA格式

由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA

数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“>”

开头,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。

多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示:

>E.coli

1 aaattgaaga gtttgatcat ggctcagatt gaacgctggc ggcaggccta acacatgcaa

61 gtcgaacggt aacaggaaga agcttgcttc tttgctgacg agtggcggac ……

>AY631071 Jiangella gansuensis YIM 002 1 gacgaacgct ggcggcgtgc ttaacacatg caagtcgagc ggaaaggccc tttcgggggt

61 actcgagcgg cgaacgggtg agtaacacgt gggtaacctg ccttcagctc tgggataagc

……

其中的…>‟为Clustal X默认的序列输入格式,必不可少。其后可以是种属名称,也可以是序列在Genbank中的登录号(Accession No.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时Clustal X程序只默认前几位为该序列名称。回车换行后是序列。将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件

(例:C:\temp\jc.txt),即可导入Clustal X等程序进行比对建树。 2. 构建系统树的相关软件和操作步骤

构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。鉴于以上对于构建系统树的评价,结合本实验室实际情况,以下主要介绍N-J Tree构建的相关软件和操作步骤。

2.1 用Clustal X构建N-J系统树的过程

(1) 打开Clustal X程序,载入源文件.

File-Load sequences- C:\temp\jc.txt. (2) 序列比对

Alignment - Output format options - ? Clustal format; CLUSTALW sequence numbers: ON

Alignment - Do complete alignment (Output Guide Tree file,

C:\temp\jc.dnd;Output Alignment file, C:\temp\jc.aln;) Align ? waiting……

等待时间与序列长度、数量以及计算机配置有关。

(3) 掐头去尾

File-Save Sequence as…

Format: ? CLUSTAL

GDE output case: Lower

CLUSTALW sequence numbers: ON

相关文档
最新文档