构建系统发育树需要注意的几个问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
构建系统发育树需要注意的几个问题
1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。
2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。
3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。
4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。
5 枝长可以用来表示类间的真实进化距离。
6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。
7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。
分子进化研究的基本方法
对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。
表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。
系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基
因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。
用于构建系统进化树的数据有二种类型:一种是特征数据(character data),它提供了基因、个体、群体或物种的信息;二是距离数据(distance data)或相似性数据(similarity data),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distance matrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。
一.clustal X建树
1) 打开clustal X,载入上述序列,“load sequences”→“output format options”:“CLASTAL FORMAT”; CLASTAL SEQUENCES NUMBERS:ON;
ALIGNMENT PARAMETERS:
“RESET NEW GAPS BEFOR ALIGNMENT”
“MULTIPLE ALIGNMENT PARAMETERS”→设置相关参数
2)“DO COMPLETE ALIGNMENT”→FILE→SA VE AS,掐头去尾。
3) 打开MEGA 4,FILE→CONVERT TO MEGA FORMATE→SA VE→FILE→OPEN DATA→CONTAINING PROTAIN SEQUENCES NO →PHYLOGENY→BOOTSTRAP TEST OF PHYLOGENY→N J →设置相关参数。最后看到系统发育树
二.这里要介绍的是Bioedit-Mega建树法,简单实用,极易上手。
1 将所测得的序列在NCBI上进行比对,这个就不多讲了。
2 选取序列保存为text格式。
3 运行Bioedit,使用其中的CLUSTAL W进行比对。
4 运用MEGA 4 建树,首先将前面的文件转化格式为mega格式,然后进行激活,最后进行N-J建树。
此法简单实用,树形美观。
构建系统进化树的详细步骤
1.建树前的准备工作
1.1相似序列的获得——BLAST
BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。
这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。BLASTN结果如何分析(参数意义):
>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence
Score = 2020 bits (1019), Expect = 0.0
Identities = 1382/1497 (92%), Gaps = 8/1497 (0%)
Strand = Plus / Plus
Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118
Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect 小于1e-10,就比对很好了,多数情况下为0;
Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同;