NCBI资源的使用及进化树的构建
一步一步教你使用NCBI数据库资源解读
一步一步教你使用NCBI数据库资源随着ncbi数据库各种资源的涌现,NCBI已经成为科研工作者必不可少的资料查找,数据分析的工具。
那么NCBI 数据如何使用,新手入门一步一步教你认识和使用NCBI数据库。
一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information),即我们所熟知的NCBI 是由美国国立卫生研究院(NIH)于1988年创办。
创办NCBI 的初衷是为了给分子生物学家提供一个信息储存和处理的系统。
除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。
目前,NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能,而且都可以在NCBI的主页上找到相应链接,其中多半是由BLAST功能发展而来的。
1 NCBI最新进展1.1 PubMed搜索功能的增强去年,NCBI对PubMed进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。
其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。
而且,“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。
现在,在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。
应用PHYLIP构建进化树的完整详细过程
一、获取序列一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。
用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。
二、多序列比对目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。
生成的指导树文件(DND文件)可以直接用TR EEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。
三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。
具体步骤如下:(1)打开seqboot.exe输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。
R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile(在phylip文件夹内)改名为2(2)打开Dnadist.EXE输入2修改M值,再按D,然后输入1000(M值)y得到outfile(在phylip文件夹内)改名为3(3)打开Neighboor.EXE输入3M=1000(M值)按Y得到outfile和outtree(在phylip文件夹内)改outtree为4,outfile改为402(4)打开consense.exe输入4y得到outfile和outtree(在phylip文件夹内)Outfile可以改为*.txt文件,用记事本打开阅读。
四、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW 、NJPLOT等软件打开编辑。
NCBI资源介绍及使用手册
NCBI资源介绍及使用手册NCBI 资源介绍本文目录:NCBI(美国国立生物技术信息中心) 简介NCBI 站点地图NCBI癌症基因组研究NCBI-Coffee BreakNCBI-基因和疾病NCBI-UniGeneCluster of Orthologous Groups of proteins(COG)介绍Gene Expression Omnibus (GEO)介绍LocusLink介绍关于RefSeq:NCBI参考序列NCBI(美国国立生物技术信息中心)简介介绍理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。
通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。
阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。
数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。
挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。
国立中心的建立后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。
NCBI是在NIH的国立医学图书馆(NLM)的一个分支。
NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。
NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
它的使命包括四项任务:建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
应用PHYLIP构建进化树的完整详细过程
应用PHYLIP构建进化树的完整详细过程一、获取序列一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST 获取相似性较高的一组序列,下载保存为FASTA格式。
用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。
二、多序列比对目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。
生成的指导树文件(DND文件)可以直接用TREEIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。
三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。
具体步骤如下:(1)打开seqboot.exe输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。
R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile(在phylip文件夹内)改名为2(2)打开Dnadist.EXE输入2修改M值,再按D,然后输入1000(M值)Y得到outfile(在phylip文件夹内)改名为3(3)打开Neighboor.EXE输入3M=1000(M值)按Y得到outfile和outtree(在phylip文件夹内)改outtree为4,outfile改为402(4)打开consense.exe输入4Y得到outfile和outtree(在phylip文件夹内)Outfile可以改为*.txt文件,用记事本打开阅读。
三、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeiew里看;也可以不改文件扩展名,直接用treeiew、PHYLODRAW、NJPLOT等软件打开编辑。
NCBIblast使用教程[1]
E值范围
3.设置结果输出显示格式
选择需要显示的选项 以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
NCBIblast使用教程[1]
提交任务
返回查询号(request id) 修改完显示格式后点 击进入结果界面
可以修改显示结果格式
NCBIblast使用教程[1]
NCBIblast使用教程[1]
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
分析过程(一)
1.登陆ncbi的blast主页
2.选择程序,因为 查询序列是蛋白序 列可以选择blastp,
点击进入
也可以选择tblastn
作为演示, 我们这里选blastp
NCBIblast使用教程[1]
分析过程(二)
3.填入序列(copy+pa索整个序列,不填
w 其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
NCBIblast使用教程[1]
Blast资源
1.NCBI主站点:
/BLAST/(网络版) ftp:///blast/ (单机版)
5.选择搜索数据库,这里我们 选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库 (cdd),蛋白序列搜索才有。
NCBI资源的使用及进化树的构建
• NCBI (National Center for Biotechnology Information ) 美国国立 生物技术信息中心
• NCBI负责管理GenBank。 GenBank是
美国国立卫生研究院维护的基因序列数据库, 汇集并注释了所有公开的核酸序列。
• 自引导评估(bootstrap): Bootstrap是由 Felsenstein (PHYLIP的编写者)引入分子分类 领域的,现己成为分析分子树置信区间最常用的 方法。
• 可以对任何建树方法进行评估。模拟研究表明, 在合适的条件下也就是各种替换速率基本相等, 树枝基本对称的条件下,如果自引导数值大于70, 那么所得的系统发育进化树能够反映真实的系统 发生史的可能性要大于95 % 。
• GenBank与日本DNA数据库(DNA Data Bank of Japan, DDBJ)以及欧洲生物信息研究所的欧洲 分子生物学实验室核苷酸数据库(European Molecular Biology Laboratory, EMBL),所有这 3个中心都可以独立地接受数据提交,而3个中心
• blastp:将待查询的蛋白质序列及其互补序列一 起对蛋白质序列数据库进行查询;
blastn:将待查询的核酸序列及其互补序列一起 对 核酸序列数据库进行查询;
blastx:先将待查询的核酸序列按六种可读框架 (逐个向前三个碱基和逐个向后三个碱基读码) 翻译成蛋白质序列,然后将翻译结果对蛋白质 序列数据库进行查询;
• 将XXX.phy文件拷到PHYLIP文件夹中的 exe文件夹下
4
2
3 1
依次使用seqboot,dnadist,neighbor,consense
手把手教你构建系统进化树(2021年)
97 NR 116489.1 Pseudomonas stutzeri strain VKM B-975 16S ribosomal RNA partial sequence NR 113652.1 Pseudomonas stutzeri strain NBRC 14165 16S ribosomal RNA partial sequence
进化分析流程
测序组装
• 将克隆扩增测序得到的基因进行测序。
Blast
• 比对找到相似度最高的几个基因,将这几个基因的 序列(Fasta格式文件)下载下来,整合在一个*.txt 文档中。
比对序列
• 用Mega 7.0的ClustalW做多序列联配,比对结果用*.meg格式 保存。或者用Clustal X软件进行比对,比对结果保存为*.aln, 再用Mega 转化为*.meg格式。
DNA→ DNA
ezbiocloud https:///identify
cDNA→蛋 白质
蛋白质 →cDNA
蛋白质→蛋白 质
NCBI
输入测序组装后的序列
ezbiocloud
输入序列名称 输入测序组装后的序列
比对序列
MEGA可识别fasta格式文件比对前将xxx.txt 重命名为xxx.fasta
构建系统进化树
1) 在构建系统树时,使用了Bootstrap法进行检验。在做Bootstrap时,以原序列为蓝本随机重组生成新的序列, 重复估算模型。如果原序列计算得到的分枝在新Bootstrap中依然频繁出现,则该分枝的可信度高。分枝在 Bootstrap中出现的频率就是表征分枝可信度的参数。 2) Original Tree是应用估算模型形成的最优系统树。在Original Tree上有计算得到的距离数据,可以表征两个基 因的亲缘远近;MEGA形成的Original Tree上也有频率参数,实际来自Bootstrap Consensus Tree的对应分枝。 3) Bootstrap Consensus Tree 是很多次Bootstrap得到的平均结果,它不包含进化距离信息(在设置View时无法 调用,也没有意义),分枝上的数字代表该分枝的频率参数。另外,它的拓扑结构也可能与Original Tree很不相同。
如何用MEGA5.0和Clustalx1.83构建进化树
如何用MEGA5.0和Clustalx1.83构建进化树MEGA是一个关于序列分析以及比较统计的工具包,从3.1版本到后来的4.0版本一直都广为大家熟悉,现在推出了Mega5.0版本。
功能比以前多有改进。
现主要介绍使用Mega 5.0构建系统进化树的方法。
供大家参考。
用MEGA构建进化树有以下步骤:1、测序:将克隆扩增测序得到的16S rDNA序列进行测序。
2、NCBI上做Blast/blast/Blast.cgi找到相似度最高的几个序列,确定一下你分离的细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个,然后寻找相似性最高的细菌,通常把该属的序列(Fasta格式文件)下载下来,或点击GenBank登录号,复制FSA TA 格式,整合在一个*.txt文档中(单独建立一个文件夹存放,后面的很多文件会自动装入该文件夹),如>XXXXAGGCTTAACACA TGCAAGTCGAGCGGAGCGAGGGTGCTTGCACCTTAGCTTAGCGGCG GACGGGTGAGTAA TGCTTAGGAA TCTGCCTA TTAGTGGGGGACAACA TTCCGAAAGGA A TGCTAA TACCGCA TACGCCCTACGGGGGAAAGCAGGGGA TCTTCGGACCTTGCGCTAA TAGA TGAGCCTAAGTCGGA TTAGCTAGTTGGTGGG>gi|289469964|gb|GU388381.1| Acinetobacter tandoii strain DSM 14970 16S ribosomal RNA gene, partial sequenceACTTAGCGGCGGACGGGTGAGTAA TGCTTAGGAA TCTGCCTA TTAGTGGGGGACAACA TTCCGAAAGGGA TGCTAA TACCGCA TACGCCCTACGGGGGAAAGCAGGGGA TCTTCGG ACCTTGCGCTAA TAGA TGAGCCTAAGTCGGA TTAGCTAGTTGGTGGGGTAAAGGCCTAC CAAGGCGACGA TCTGTAGCGGGTCTGAGAGGA TGA………………………….参考序列选择注意事项:1、不选非培养(unclutured)微生物为参比;2、不选未定分类地位的微生物,最相近的仅作参考;c,在保证同属的前提下,优先选择16S rDNA全长测序或全基因组测序的种;d,每个种属选择一个参考序列,如果自己的序列中同一属的较多,可适当选择两个参考序列。
构建生物进化树的方法比较
极为详细的建树方法,新手入门推荐生物进化树的构建目录前言 (2)一、 NCBI (6)二、 Mega (9)三、 DNAMAN (15)四、DNAStar (18)五、 Bio edit (21)前言1.背景资料进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。
在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。
所以,进化树简单地表示生物的进化历程和亲缘关系。
已发展成为多学科(包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。
归纳总结生物进化的总趋势有以下几类:①结构上:由简单到复杂②生活环境上:由水生到陆生③进化水平上:由低等到高等一般来说,进化树是一个二叉树。
它由很多的分支和节点构成。
根据位置的不同,进化树的节点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。
而物种之间的进化关系则用节点之间的连线表示。
内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。
在同一个进化树中,分类单元的选择应当标准一致。
进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。
进化树一般有两种:有根树和无根树。
有根树有一个鲜明的特征,那就是它有一个唯一的根节点。
这个根节点可以理解为所有其他节点的共同祖先。
所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。
无根树则不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。
但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。
无根树有根树放射树分子进化树(以分子数据为依据构建的进化树)不仅精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异(小至一个氨基酸或一个核昔酸差异),而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代,这对进化论的研究而言无疑是一场革命。
序列比对,构建进化树教学提纲
序列比对,构建进化树1从NCBI上下载某个基因在其他物种的序列比如,下载caveolin基因在其他物种的序列NCBI地址:/在search一栏的下拉列表中选择Nucleotide,for后面的一栏中输入自己要查询的基因。
完毕,点击GO确认。
可得到一下结果:每一条记录分别是某个物种的caveolin的序列,以第10条记录为例,称为GenBank 登录号。
为拉丁文的人类的字母,表示物种,表示基因名称(caveolin基因家族共有3个主要基因,分别称为1,2,3)表示此序列为cDNA,不含内含子。
下图中的NEXT表示翻页,查看剩余的记录。
打开第10条记录可看到下图:现在你需要保存下来得就是上面的这一串(碱基)核酸序列。
复制黏贴(包括上面表示顺序的数字)到TXT文本中备用。
打开DNAMAN软件,左上角点击file-new,出现下图:可以把先前从NCBI下载的序列(保存到TXT文本中得)复制到箭头指示处,得到:并按照上图左上角file-save as(注意此文件得保存名称为保存的此物中得名称),已上是DNAMAN软件中seq序列格式的保存方法。
2 序列编辑和比对(DNAMAN软件)你们实验PCR得到的序列只是某个基因上的一部分,所以为了进行不同物种间的比对,要把下载下来的其他物种的某个基因的序列进行删减,以使两段基因是大约相同长度的片段进行比对。
以人类caveolin1基因为例说明一下。
按照1,2,3得顺序依次打开,得到下图:点击上图中的1,你会得到下图,点击2是清楚所有刚才选进比对的序列(为了重新选择序列),3是有选择的删除某个序列。
当然,把你的所有准备的序列保存好以后,从查找范围这个下拉列表中寻找你要比对的序列。
可以按住ctrl点击你要比对的几个序列(同时选中)选完点击打开。
再点下图中得确定键。
得到下图:找好这两个物种重合的那个核苷酸的序号(前后两段都是),然后打开你保存的seq格式的序列,数出刚才比对重合部分的后端的碱基数,把这个碱基后面的序列删掉,再用此方法把比对重合部分前段得序列删掉,保存。
进化树构建的基本过程(上)
进化树构建的基本过程(上)通过进化树,我们可以得到⼀些⾮常有价值的信息,⽐如说某⼏个物种在同⼀分⽀上,说明他们有着较近的亲缘关系,更有可能他们之间存在着祖先与进化的关系。
⽐如最近来势汹汹的新冠肺炎,下图为从⽹上找的冠状病毒遗传进化分析,其中图中2019-nCoV即为本次新型冠状病毒。
今天我们就来简单介绍⼀下进化树构建的基本过程。
这次我们以YTHDF家族和YTHDC家族作为例⼦来进⾏演⽰。
PART1准备1. 基因蛋⽩序列打开NCBI gene数据库(https:///gene/),将所要查询的基因名称输进去即可,例如分析⼈YTH家族,将该家族的5个基因(YTHDF1/2/3、YTHDC1/2)依次输进基因栏。
选择对应物种,例如此处分析⼈,选择Homo sapiens,选择要分析的序列,本⽂分析蛋⽩序列,点击NP链接,若要分析mRNA序列,点NM即可。
转进来后点击FASTA后即可看到该基因的蛋⽩序列,通过右上⽅send to发送⾄本地保存为fasta格式。
然后将5个基因蛋⽩序列合在⼀个fasta格式⽂件。
具体合并就是把⽂件⽤⽂本打开,然后粘贴到⼀起就⾏。
注意:所有序列的⽅向都要保持⼀致 ( 5’-3’)。
序列⼯作就做好啦另:Uniprot数据库(/)也可获取蛋⽩序列哦,步骤与此类似,⾃⾏探索即可2.下载MEGA软件官⽹(https:///)下载即可,有多种版本可供下载,由于本⼈电脑上为MEGA-X版本,下⾯就此版本介绍具体⽤法。
PART2序列⽐对做系统进化树之前要做多序列⽐对,将⽐对结果提交给MEGA建树。
打开MEGA,点击File→Open A File/Session…→找到⾃⼰要⽐对的序列,打开弹出对话框,选Align然后5条要⽐对的序列就进来啦!接下来我们进⾏序列⽐对,在Alignment⾥⾯有Alignment by ClustalW和Muscle两个选项。
其中ClustalWClustalW是现在⽤的最⼴和最经典的多序列⽐对软件,基本原理是⾸先做序列的两两⽐对,根据该两两⽐对计算两两距离矩阵,然后⽤NJ或者UPGMA⽅法构建Binary进化树作为guide tree,最后⽤progressive的⽅法根据guide tree逐步添加序列进⾏⽐对,⼀直到所有序列都⽐对好。
应用PHYLIP构建进化树的完整详细过程
一、获取序列一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。
用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。
二、多序列比对目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。
生成的指导树文件(DND文件)可以直接用TR EEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。
三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。
具体步骤如下:(1)打开seqboot.exe输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。
R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile(在phylip文件夹内)改名为2(2)打开Dnadist.EXE输入2修改M值,再按D,然后输入1000(M值)y得到outfile(在phylip文件夹内)改名为3(3)打开Neighboor.EXE输入3M=1000(M值)按Y得到outfile和outtree(在phylip文件夹内)改outtree为4,outfile改为402(4)打开consense.exe输入4y得到outfile和outtree(在phylip文件夹内)Outfile可以改为*.txt文件,用记事本打开阅读。
四、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW 、NJPLOT等软件打开编辑。
进化树的构建
一、获取序列一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。
用BIOEDIT等软件编辑序列名称,注意PHYLIP 在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。
二、多序列比对目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。
生成的指导树文件(DND文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。
三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNA DIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。
具体步骤如下:(1)打开seqboot.exe输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。
R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNA DIST.EXE、NEIGHBOR.EXE中的M值也为1000)odd number: (4N+1)(eg: 1、5、9…)改好了y得到outfile(在phylip文件夹内)改名为2(2)打开Dnadist.EXE输入2修改M值,再按D,然后输入1000(M值)y得到outfile(在phylip文件夹内)改名为3(3)打开Neighboor.EXE输入3M=1000(M值)按Y得到outfile和outtree(在phylip文件夹内)改outtree为4,outfile改为402(4)打开consense.exe输入4y得到outfile和outtree(在phylip文件夹内)Outfile可以改为*.txt文件,用记事本打开阅读。
四、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。
手把手教你构建系统进化树
3、比对序列,比对结果转化为*.meg格式
用 Mega 6.0 的 ClustalW 做多序列联配,比对结果用 *.meg格式保存。或者用Clustal X软件进行比对,比对结果 保存为*.aln,再用Mega 6.0转化为*.meg格式。
4、构建系统进化树
打开保存的*.meg格式文件,选择邻接法构建系统发育 进化树。
以外米缀蛾的cds为例,点击cds,出现下图。
点击FASTA,出现下图。
该图为外米缀蛾的 FASTA格式,如何保 存见下图
一般情况下点 击该页的右上 角有send 图标, 选择后点击 create file 即 可下载。Txt可 以打开。 该图显示的是 序列全长的 FASTA格式下 载。
因为我采取基于氨 基酸序列比对,所 以选择coding sequences和fasta protein,下载编码 区氨基酸序列。
文件名未下载时不要更改,下下来之后再更改
MEGA6可以识别fasta格式文件。如图,将全 部-基因.txt重命名为全部-基因.fasta
•选择打开方式为MEGA6,打开全部-基因.fasta,自动跳出序列窗口 •用ClustalW做多序列联配
如何构建系统进化树
YZU.TRY
系统发生树(英文: Phylogenetic tree ) 又称为演化树( evolutionary tree ),是 表明被认为具有共同祖先的各物种间演化关 系的树。是一种亲缘分支分类方法 ( cladogram )。在树中,每个节点代表其 各分支的最近共同祖先,而节点间的线段长 度对应演化距离(如估计的演名称要么全部 斜体,要么全部不斜体,无法只让拉丁文斜体
MEGA 4构建进化树的步骤
用MEGA 4构建进化树的过程
自己直接从NCBI对测序结果直接Blast,获得的比对结果选取同源性大于96%的序列,直接Download另存为.fasta格式,然后直接用MEGA打开一个序列,对下载的每个序列用记事本打开,检查序列的格式是否统一,再通过该软件的菜单栏的Edit→Insert Sequence From File(添加所要比对的的序列)→Alignment →Align by ClustalW→出现的界面点击OK→Data→Expert Alignment→MEGA Format(保存该文件并命名)→出现界面Protein Coding Nucleotide Sequence Data →点击NO→关闭该比对界面→出现界面Open The Data File in MEGA→点击YES→出现一个新界面,不用管它,点击另一个界面菜单Phylogeny→Bootstrap Test of Phylogeny→根据需要选择自己所要的进化树结构类型。
系统进化树的构建
进化支
结点
猩 猩
根
一个单位
分支 长度
狒 狒
距离标尺
外 群
系统发育进化树示例
系统发育树重建分析步骤
多序列比对(自动比对,手工校正)
选择建树方法
建立进化树
进化树评估
系统发育树重建的基本方法
• 1. 距离法 (distance)
适用序列有较高相似性时
• 2. 最大简约法 (maximum parsimony, MP)
•实例讲解
文件下载完之后,这里我们采用事先准备好的序列。 将Fasta 文件直接用 ClustalX 1.83打开
•实例讲解
在进行多序列比对之前我们需要对软件进行一些设置 1.选择Alignment标签 2.选择Output format options PHYLIP软件:PHYLIP MEGA软件:FASTA
99 BANNAch 68 100 88
BJ9575 YN6 YN0556 LN0684
100
LN0688
81 LN0689
JKT6969
100 94
JKT6423 JKT7043 LNVNE9712
0.05
如果结点的Bootstrap Value >70我们认为 这个分支是可靠的
优化图标
优化选项栏
适用序列有很高相似性时
• 3. 最大似然法 (maximum likelihood, ML)
– 可用于任何相关序列集合
1. 基于序列距离特征 2+3基于序列离散特征
• 计算速度:
– 距离法 >最大简约法 >最大似然法
系统发育树重建分析过程
直系同源序列 合理的外群
点阵法
如何使用NCBI中的Blast
如何使用NCBI中的BlastNCBI(National Center for Biotechnology Information)是一个提供生物信息学数据库和工具的综合性资源平台。
其中,BLAST(Basic Local Alignment Search Tool)是一种经典的序列比对工具,用于比对和分析DNA、RNA和蛋白质序列的相似性。
使用NCBI中的BLAST可以有多种方式,包括在线使用和本地使用。
下面将对这两种使用方式进行详细介绍。
一、在线使用NCBIBLASTNCBI提供了一个在线的BLAST界面,用户可以直接在浏览器中使用。
具体步骤如下:1. 打开NCBI网站,点击"Blast"选项卡,然后选择需要比对的序列类型,例如,DNA、蛋白质或者其他。
2. 复制并粘贴待比对的序列到"Enter Query Sequence"文本框中。
或者,您也可以选择上传一个FASTA格式的文件。
3.选择适当的数据库。
NCBI提供了多个数据库供选择,根据您的研究目的选择合适的数据库。
4.配置其他参数。
您可以选择不同的比对算法、设置匹配参数、设定范围等。
5.点击"BLAST"按钮开始比对。
该过程可能需要一些时间,取决于比对数据的大小和服务器的负载情况。
6.一旦比对完成,系统将生成一个结果页面,显示比对结果。
您可以查看比对的统计信息、序列相似性分析、注释信息等。
7.针对一些结果,您可以选择进一步分析和操作,例如,设计引物、进行序列比对、构建进化树等。
二、本地使用NCBIBLAST3.准备待比对的序列,并保存到FASTA格式的文件中。
4.打开终端或命令提示符,并导航到BLAST软件的安装目录。
5. 运行BLAST命令。
根据您的比对需求,运行适当的BLAST命令,例如,“blastn”用于DNA比对,”blastp”用于蛋白质比对。
6.设置适当的输入参数,包括查询序列文件、目标数据库、比对算法等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• dnadist 计算核苷酸距离矩阵 • 把刚才的outfile改名,如dnadistinfile • 双击dnadist,输入dnadistinfile,回车
输入D,选择模型, 如改成kimura-2 输入M,然后输入 D,再输入1000, 和上面步骤要一致 即自举值 bootstrap=1000
进化分析的流程
收集数据 寻找同源基因 多重联配 模型选择
系统发育分析
假设检验
• 建立一个序列的数据集 • Cluxtal-X比对,生成一个XX.phy文件 • 将XX.phy文件拷入PHYLIP文件夹中的exe 文件夹 • 若是核酸序列使用邻接法做进化树,依次 使用seqboot, dnadist, neighbor, consense 四个程序做进化树 • 蛋白质序列,则使用prodist
• 自引导评估(bootstrap): Bootstrap是由 Felsenstein (PHYLIP的编写者)引入分子分类 领域的,现己成为分析分子树置信区间最常用的 方法。 • 可以对任何建树方法进行评估。模拟研究表明, 在合适的条件下也就是各种替换速率基本相等, 树枝基本对称的条件下,如果自引导数值大于70, 那么所得的系统发育进化树能够反映真实的系统 发生史的可能性要大于95 % 。
• GenBank与日本DNA数据库(DNA Data Bank of Japan, DDBJ)以及欧洲生物信息研究所的欧洲 分子生物学实验室核苷酸数据库(European Molecular Biology Laboratory, EMBL),所有这 3个中心都可以独立地接受数据提交,而3个中心 之间则逐日交换信息,并制成相同的充分详细的 数据库向公众开放。因此他们是相等的。
其他不管,输入Y,回车。Random number seed”(随机种子数),数值必须 是 4n+1(n为正整数),例如输入“5 or 9 or 13等等”,此为随机数,对结果没 影响。然后再回车。可以看到计算过程。
看到exe文件夹中出现一个 outfile 文件,然后可以把 seqboot关掉了
• consense 构建一致树 • 此时,exe文件夹中又多了一个outfile和一 个outtree文件。现在一共有dnadistinfile, neighborinfile,outfile,outtree 等4个文件。 • 将outtree改名,如neighborintree • 将outfile改名,如beighboroutfile • 双击consense
序列搜索,分析和比对以及使用 Cluxtal, phylip用邻接法做进化树的 简易教程
唐 明
• BLAST (Basic Local Alignment Search Tool)即碱基局部对准检索工具,
是一种序列类似性检索工具。它采用统计 学记分系统,能将真正配对的序列同随机 产生的干扰序列区别开来;同 时采用启发 式算法系统,即采用的是局部对准算法 (Local Alignment Algorithm),而不是全序 列对准算法(Global Alignment Algorithm)。
Clustalx的输出结果
• .aln格式文件
– 这个文件是默认输出,可以转换成各种格式, 而且很多软件都支持这种格式。
• .dnd格式文件
– 引导树。就是根据两两序列相似值构建的一个 指导后面多重联配的启发树 – 不能做进化分析。进化分析要考虑的所有同源 位点的一个综合效应,因此应该用.aln格式文 件专门做进化分析。
输入1000后,回车。再输入y,回车。 可见运算过程。运算完成后,再次出现 一个outfile文件。关掉dnadist程序。
• neighbor 邻接法建树 • 将outfile改名,如neighborinfile。 • 双击neighbor,然后输入neighborinfile
输入n,选择neighbor-joining,使用邻接法做树,不要选UPGMA。 输入m,再输入1000,回车。Random seed,还是输入9。 然后输入y,回车。可见运算过程。算完后,文件夹中多了outtree和 outfile两个文件。然后关闭neighbor程序。
不要改动参数,直接输入y,回车 然后可以看见多了两个文件,outtree和outfile
• outtree就是最终得到的一致树,使用 treeview打开outtree,然后可以编辑
将序列粘 帖进去
• nr: 所有非冗余的GenBank+EMBL+DDBJ+PDB 序列;但不包括EST、STS、GSS或HTGS序列。
month: 最近30天注释的新增加的或修订的 GenBank+EMBL+DDBJ+PDB序列 dbEST: GenBank+EMBL+DDBJ+PDB中EST部 分的无冗余数据。 dbSTS: GenBank+EMBL+DDBJ+PDB中STS部 分的无冗余数据。 htgs: 高允许能力(High Throughput)基因序列。
PowerBlast是用于大规模分析基因序列的网络 BLAST客户应用软件,它可以通过 • CBI• 名 N 匿 的FPT服务器(ftp://)下的 /blast/network/blast2 /powerBLAST/获取。
• blastp:将待查询的蛋白质序列及其互补序列一 起对蛋白质序列数据库进行查询;
序列搜索,比对以及进化树的 构建
• NCBI (National Center for Biotechnology Information ) 美国国立 生物技术信息中心
• NCBI负责管理GenBank。 GenBank是
美国国立卫生研究院维护的基因序列数据库, 汇集并注释了所有公开的核酸序列。
• Blast是通过比对(alignment)在数据库中寻找和你 的查询序列(query)相似度很高的序列。通俗地说 就是在已知的序列数据库中找和你的序列差不多 的序列。 • 序列类似性检索就是将新测定的核酸或蛋白质序 列对核酸或蛋白质序列数据库进行检索,找出与 之相似的序列,从而评判新测定的序列是重复别 人 的工作,还是在前人的基础上有所创新,或是 发现了新的序列。
• 什么是fasta格式?怎么建立? • 新建一个txt文本文件,命名如: bph.txt • Fasta的格式: >序列名称 序列
Clustalw/clustalx计算过程的三步曲
• Clustal-W是网页版本,Clustal-X是ClustalW的图形版本。 • 所有序列两两比较,得出两两间差异值 (最粗的距离) • 根据序列间的差异把差异越小的序列放在 一起构建一个分类树(有点像进化树) • 最终操作是以这个分类树作为引导树,从 各个相似序列的组作为起点做多重联配, 直到所有序列被联配上。
blastn:将待查询的核酸序列及其互补序列一起 对 核酸序列数据库进行查询; blastx:先将待查询的核酸序列按六种可读框架 (逐个向前三个碱基和逐个向后三个碱基读码) 翻译成蛋白质序列,然后将翻译结果对蛋白质 序列数据库进行查询;
• tblastn:先将核酸序列数据库中的核酸 序列按六种可读框架翻译成蛋白质序列, 然后将待查询的蛋白质序列及其互补序 列对其翻译结果进行查询; tblastx:先将待查询的核酸序列和核酸 序列数据库中的核酸序列按六种可读框 架翻译成蛋白质序列,然后再将两种翻 译结果从蛋白质水平进行查询。
• yeast: yeast(Saccharomyces Cerevisiae)基因 核酸序列。
E.coli: 大肠杆菌(E.coli)基因核酸序列。
pdb: 蛋白质数据库。 Kabat[Kabatnuc]: 免疫学上感兴趣的核酸序列 Kaba体数据库。
• mito: 线粒体序列数据库。 alu: 从重复序列数据库(REPBASE)选取的Alu 重复序列,适用于过滤查询序列中Alu重复序 列。通过匿名FTP从下的 /pub/jmc/alu目录中获取。 epd: 真核生物的启动子数据库。 gss: 基因搜寻序列,包括单递基因数据、外切 核酸酶捕获序列和Alu PCR序列。
• 将XXX.phy文件拷到PHYLIP文件夹中的 exe文件夹下
4 2
3
1
依次使用seqboot,dnadist,neighbor,consense
• seqboot 重复抽样:双击seqboot,输入 BPH.phy,回车
输入R,回车,把数字改为1000。 代表 自举值 bootstrap = 1000。 如果bootstrap值太低,则树不可靠
• (1)经由WWW使用的BLAST ,进入NBCI主页,然后 链接到BLAST主页。 • (2)网络版的BLAST BLAST2 是标准的网络BLAST客户软件,它可 以通过NCBI匿名的FTP服务器 (ftp://)下的/blast /network/blast2/获取。
• Blastn : 应该是出现较早的算法。比对的速度慢, 但允许更短序列的比对(如短到7个碱基的序列)。 • MEGABLAST : 主要用来鉴定一段新的核酸序列, 它并不注重比对各个碱基的不同和序列片断的同 源性,而只注重被比对序列是否是数据库未收录 的,是否为新的提交序列或基因。 速度快。同一 物种间的。 • Discontiguous MEGABLAST : 灵敏度 (sensitivity)更高,用于更精确的比对。主要用 于跨物种之间的同源比对。