多重序列比对及系统发生树的构建

合集下载

系统发育树构建步骤

如何建树step 1. 将16S rDNA序列在NCBI上进行BLAST比对(/BLAST/) BLAST是目前常用的数据库搜索程序，它是Basic Local Alignment Search Tool的缩写，意为“基本局部相似性比对搜索工具”(Altschul et al.,1990 [62];1997[63])。

国际著名生物信息中心都提供基于Web的BLAST服务器。

BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段，并作为内核向两端延伸，以找出尽可能长的相似序列片段。

首先登录到提供BLAST服务的常用网站，比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。

这些网站提供的BLAST服务在界面上差不多，但所用的程序有所差异。

它们都有一个大的文本框，用于粘贴需要搜索的序列。

把序列以FASTA格式(即第一行为说明行，以“>”符号开始，后面是序列的名称、说明等，其中“>”是必需的，名称及说明等可以是任意形式，换行之后是序列)粘贴到那个大的文本框，选择合适的BLAST程序和数据库，就可以开始搜索了。

如果是DNA序列，一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。

登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。

BLASTN结果如何分析(参数意义)：例如：>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequenceScore = 2020 bits (1019), Expect = 0.0Identities = 1382/1497 (92%), Gaps = 8/1497 (0%)Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60|||||||||||||||||||||||||||||||||||||||||| ||||||||| |||||Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120|| ||||||||||||||||||||||||||||||| | |||||| |||||||||||||Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118其中，Score指的是提交的序列和搜索出的序列之间的分值，越高说明越相似。

生物信息实验

生物信息学实验讲义目录实验1. 计算机网上操作基本技能训练 (1)实验2.常用分子生物学数据库类型、文件格式及数据库查询 (2)实验3. 核酸序列分析 (3)实验4.多重序列比对及系统发生树的构建 (5)实验5. PCR 引物设计及评价 (7)实验6.蛋白质序列分析和结构预测 (9)实验一计算机网上操作基本技能训练【实验目的】1、熟练掌握上网操作基本方法及技能。

2、掌握利用网络进行资料搜集的多种方法【实验内容】1、熟悉Internet Exporer 的基本使用方法及相关技巧，熟悉Internet Exporer网络配置。

2、掌握免费电子邮箱的申请方法并且能收发电子邮件。

3、掌握网上软件下载及安装方法。

4、用IE或netscape等浏览工具浏览、搜索各类信息5、运用FlashGet 或网络蚂蚁等下载工具进行网络资料的下载以及运用各种上传工具上传资料到网络6、利用Winzip或Winrar等压缩工具进行文件的压缩与解压7、学习使用ftp8、在网上自主学习了解生物信息学知识【作业】1、在D盘建立一个以自己名字命名的文件夹。

2、申请一个自已的免费电子邮箱，并发一封电子邮件到liushunhui@。

3、从网络上下载任意一个软件，并安装到计算机上。

4、用FTP获取一个蛋白质结构分析软件比如rasmol，下载后保存到你的文件夹中，以便以后运用其进行蛋白质结构分析。

5、下载一个有关生物信息学的教程，并保存到你的文件夹中，进行参考学习。

附表: 相关软件及搜索工具网址实验二常用数据库类型、文件格式及数据库查询【实验目的】1、掌握序列检索的操作方法；2、熟悉GenBank数据库序列格式及其主要字段的含义；3、了解EBML数据库序列格式及其主要字段的含义；4、熟悉GenBank数据库序列格式的FASTA序列格式显示与保存；5、熟悉分子生物学软件的搜索与下载。

【实验内容】1、使用Entrez信息查询系统检索核酸序列BC060830和NM_000230，连接提取该序列内容，阅读序列格式的解释，理解其含义；2、GenBank数据库序列格式的FASTA序列格式显示与保存；3、使用SRS信息查询系统检索核酸序列BC060830，连接提取该序列内容，阅读序列格式的解释，理解其含义；4、使用搜索引擎搜索并下载DNAClub和BioEdit软件。

生物信息学实验指导

生物信息学实验讲义广东药学院生命科学与生物制药学院二○一一年三月目录实验1. 生物信息学数据库与软件搜索 (1)实验2.核酸序列的检索 (2)实验3. 核酸序列分析 (3)实验4.多重序列比对及系统发生树的构建 (5)实验5. PCR 引物设计及评价 (7)实验6.蛋白质序列分析和结构预测 (9)实验一生物信息学数据库和软件的搜索【实验目的】熟练掌握上网搜索生物信息学数据库和软件的方法及技能。

【实验内容】1、搜索生物信息学数据库或者软件数据库是生物信息学的主要内容，各种数据库几乎覆盖了生命科学的各个领域。

核酸序列数据库有GenBank, EMBL, DDB等，蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等，蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等，三维结构数据库有PDB, NDB, BioMagResBank, CCSD等，与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等，与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等，文献数据库有Medline, Uncover等。

另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广，分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务，如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库，三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具，用户可以进行多个数据库的多种查询。

2、搜索生物信息学软件生物信息学软件的主要功能有：分析和处理实验数据和公共数据，加快研究进度，缩短科研时间；提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验；寻找、预测新基因及预测其结构、功能；蛋白高级结构预测。

系统发育树构建教程(PHYLIP)

系统发育树构建教程（PHYLIP）PHYLIP网址：/phylip.html（一）序列的前期准备1．用ENTREZ或SRS搜索同源DNA/蛋白质序列(same sequence in different organisms) 2．用CLUSTALX进行多条序列比对，在output format option选定PHY格式,构建进化树需要这个phy文件。

Figure 4.1 用clustalx进行多条序列比对3．解压缩phylip-3.68.exe，得到三个文件夹，doc文件夹里是关于所有PHYLIP子程序的使用说明，exe文件夹里是直接可以使用的各个子程序，src文件夹里是所有程序的源文件。

4．打开exe文件夹，双击SEQBOOTt子程序（SEQBOOT是一个利用bootstrap方法产生伪样本的程序），输入刚刚生成的phy文件的路径，点击enter。

5．所有PHYLIP程序默认的输入文件名为infile, 输出文件名为outfile。

如果在exe文件夹里找不到默认的输入文件，会提示can’t find input file “infile”。

Figure 4.2 seqboot程序起始界面6．进入程序参数选择页面（Figure 4.3）。

第一列中的D、J、%、B、R、W、C、S等代表可选的参数。

想改变哪个参数，就键入此参数对应的字母，并点击回车键，对应参数将会发生改变。

当我们设置好所有参数后，（这里我们可以不做任何修改），键入Y，按回车。

此时程序询问“random numbe r seed? <must be odd>”，这是询问生成随机数的种子是多少，输入一个4N+1的数，点击回车程序开始运行，输出结果到文件outfile，保存在当前文件夹里。

.Figure 4.3 seqboot程序参数选择页面主要参数解释：D: 数据类型，有Molecular sequence、discrete morphology、restriction sites和gene frequencies4个选项。

系统发生树详解

系统发生树构建的步骤一般有下面几步:I,对文件10.8\protein sequence 的序列进行多序列比对,一般用clustalx/w软件完成.这里我们用软件BioEdit内置的clustalw来做多序列比对;II,对clustalw产生的多序列比对文件进行修剪,去掉比对后相似序列中没有对应的序列，前后全部对齐;III,将修剪后的多序列比对文件转换成系统发生软件所需的文件格式并保存.这里我们是采用mega来做系统发生树的,所以须将修剪后的多序列比对文件转成.meg的文件格式;IV,用系统发生软件构树(采用多种方法UPGMA,N-J, Maximum likelihood等);具体做法如下:①将protein sequence 的序列文件导入到BioEdit中做多序列比对,这里有好几种做法: a,将所有的序列文件全部保存在一个txt文件中,然后用BioEdit打开;(该方法比较麻烦) b,用DNASTAR中的Editseq工具将所有文件打开,然后用File菜单中Export all as one…按钮将所有的单蛋白质序列文件保存成一个多蛋白质序列文件,文件格式为.fastac,直接用BioEdit中File>new alignment>import>sequences alignment file(这里需要注意的是在导入序列文件时要将导入文件的类型选为All Files否则BioEdit将默认显示phy, gb, aln等文件而看不到其他文件);(推荐)导入后如图:alignment，如下图：比对后产生文件,其序列如下:③对clustalw产生的多序列比对文件进行修剪, 去掉比对后相似序列中没有对应的序列，前后全部对齐,可以直接用BioEdit的edit mode来做也可以用mega5>align>edit/buildalignment来做这里采用后者;format来导出文件,其文件内容如图:④用mega5建树.File>open a file打开已经转好的文件然后phylogeny下的不同方法UPGMA, N-J, Maximum likelihood得到各种树选择您感兴趣的基因，进行多物种的基因组搜索，将获得的序列进行基因序列特征分析，并构建多序列比对和系统发生树，请阐明选择基因的目的、试验步骤和进行结果分析。

P53蛋白的多序列对比与系统发育树构建

P53蛋白的多序列对比与系统发育树构建朱旭军生物工程 2012207547 p53基因是一种抑癌基因，在美国国立生物医学信息中心的生物医学文献数据库中，有关它的研究文献已经超过了50000篇。

P53基因定位于人类染色体17p13.1，编码393个氨基酸组成的53kD的核内磷酸化蛋白，故而被称为p53蛋白。

p53基因是细胞生长周期中的负调节因子，与细胞周期的调控、DNA修复、细胞分化、细胞凋亡等重要的生物学功能有关。

在人类基因组所包含的数万条基因中，它是研究得最为透彻的一个。

在已经进入临床试验的抗肿瘤基因治疗药物中，超过40个都选择了以它为靶点。

p53基因的突变(缺失)是人类肿瘤的常见事件，其与肿瘤的发生、发展有关。

一般认为p53过表达与肿瘤的转移、复发及不良预后相关。

[1]全世界各国科学家对P53蛋白的研究热情一直持续并有增无减。

2012年6月15日的Science杂志报道[2]，p53蛋白对刺激反应的不同动力学可导致不同的细胞命运。

细胞传递信息的分子信号通路常显示出复杂的动力学模式。

肿瘤抑制因子p53的动力学行为就可随刺激的不同而变化。

在面对DNA双链的断裂时，它的反应表现为一系列重复的脉冲式变化。

利用一个计算机模型，研究者确定了一套精确定时的给药方案，可以将脉冲式p53反应变为持续性p53反应。

这导致一系列不同的下游基因的表达，并且改变细胞命运。

经历脉冲式p53反应的细胞可从DNA损伤中恢复，而经历持续性p53反应的细胞则往往发生细胞衰老。

研究结果显示，蛋白反应动力学是信号通路的重要部分，直接影响着细胞命运的决定。

而2012年6月8日cell上的一篇文章指出[3]，作为重要的肿瘤抑制蛋白，p53蛋白的主要作用方式并不是通常认为的诱导细胞周期阻滞，细胞凋亡或衰老时的压力，该文章证明，以上三个方式在p53的抑癌作用中作用甚微。

多序列对比是将两条以上核酸或氨基酸序列进行多重比对以反映其进化关系及结构特征的数据分析方法。

系统发育树构建

目的
系统发育树的主要目的是揭示物种的进化历程，帮助科学家理解生物多样性的起源、物种的演化路径以及生物进化的规律。
系统发育树的基本组成
01
02
03
04
节点
代表物种或共同祖先，节点间的连线表示物种间的亲缘关系
。
分支
连接节点间的线段，代表物种间的进化关系。
叶节点
代表可观测的物种，是系统发育树的末端节点。
WENKU DESIGN
树的解读与注释
根部的位置
系统发育树的根部通常代表进化关系中最为原始的物种。
分支长度
分支长度可以反映物种之间的进化距离，较长的分支表示较大的进化距离。
节点注释
节点注释包括该节点的物种名称、化石记录等信息，有助于理解该节点在进化历史中的位置。
系统发育关系推断
同源性分析
通过比较不同物种的基因或蛋白质序列，确定它们之间的同源性，进而推断它们之间的进化关系。
03
通过比较不同物种在特定环境下的适应性特征，可以分析这些
特征的进化起源和演化过程。
PART 05
系统发育树的应用
REPORTING
WENKU DESIGN
物种分类与系统发生学研究
物种鉴定
系统发育树可以帮助确定物种间的亲缘关系，从而对未知物种进行鉴定和分类。
生物多样性研究
通过构建系统发育树，可以了解生物多样性的起源、演化和分布，为保护和利用生物资源提供科学依据。
分子钟假设
基于分子钟假设，通过比较不同物种基因或蛋白质序列的进化速率，可以推断它们之间的相对进化时间。
物种进化历史分析
物种起源与分化
01
系统发育树揭示了物种的起源和分化过程，有助于理解物种多

多基因联合建树图解教程(引用高老师)

多基因联合建树图解教程（引高老师原创）工具】（引用高老师原创）MAFFT（多序列比对及序列排序）、SequenceMatrix（多源数据合并）、PAUP （同质性检验）、Mrbayes（支持分源数据集建树）【流程】１.序列比对及排序在MEGA中打开序列进行逐一进行多重比对，并对序列名称进行排序。

排序的目的主要是避免后续序列串联拼接时发生错位，如上图所示，点击MEGA比对浏览器界面的左上角"Species/Abbrv"即可进行升序/降序排列，最后导出Fasta格式的多重序列比对文件。

2.序列合并运行SequenceMatrix，在菜单上依次点击“Import”-“Add Sequence”-选择待目的序列，如下图：导出过程会提示是否将空位标记为问号，建议选择选择“全否”。

逐一添加不同基因的多重比对序列后，同样点击菜单栏上方的“Export”导出nexus文件的合并序列文件，这里注意不同基因的前后顺序。

导出的nexus带序列长度的标识，建议用PAUP等软件对序列文件进化格式化，建议保存为non-interleaved的nexus文件。

3.同质性检验同质性检验（Testing for homogeneity）两种方法的参考脚本：（1）不相合长度差异检验(Incongruence length difference test , ILD Test)------------------------------------------------begin set;CHARSET 01P1 = 1-825;CHARSET 02HC = 826-2220;CHARSET 03Vpg = 2221-2784;charpartition genes = gene1:01P1, gene2:02HC, gene3:03VPg;end;Begin PAUP;log file=ildtest.log;hompart partition=genes nreps=100 / start=stepwise addseq=random nreps=10 savereps=no randomize=addseq rstatus=no hold=1 swap=tbr multrees=yes;log stop;End;-------------------------------------------------------------（2）同质性检验(Partition homogeneity test, PHT)--------------------------------------------------begin sets;charpartition favored = 1:1-825, 2:826-2220, 3:2221-2784;end;begin paup;hompart partition=favored nreps=100 search=bandb;end;-------------------------------------------------这里仅演示 ILD Test 检验，将上述参考文件添加在第2步得到合并的nexus文件尾，如下图添加脚本完毕，在PAUP中打开添加脚本后的nexus文件，运行如下图所示当异质性检验完成后，同一目录下会生成一个日志文件(*.log)，即为检验结果，如下图所示，p值0.01远小于数据集可联合与不可联合的阈值0.05，表明这些数据集最好不要联合分析。

生物信息实验报告4(四)多序列分析及系统进化树构建

（四）多序列分析及系统进化树构建实验目的：掌握多序列比对、构建系统进化树的基本步骤，熟悉使用CLUSTALW、MEGA5.1等软件的使用。

实验内容：1、利用CLUSTALW工具进行多序列比对，学会参数设置，结果输出。

将本实验室获得的仿刺参EGFR基因氨基酸序列，搜索同源序列，保存序列进行比对。

2、利用MEGA5.1构建系统进化树，并用自展分析对进化树进行评估。

实验步骤：1、将仿刺参EGFR基因氨基酸序列使用在线NCBI工具，进行Blast同源性比较见表1。

NCBI上做Blast/blast/Blast.cgi找到相似度最高的几个序列，通常把序列（Fasta格式文件）下载下来，或点击GenBank 登录号，复制FSATA格式，整合在一个*.txt文档中（单独建立一个文件夹存放，后面的很多文件会自动装入该文件夹），如>XXXXAGGCTTAACACA TGCAAGTCGAGCGGAGCGAGGGTGCTTGCACCTTAGCTTAGCGGCGGACGGGTGA GTAATGCTTAGGAATCTGCCTA TTAGTGGGGGACAACATTCCGAAAGGAATGCTAATACCGCATACGCC表1氨基酸序列的同源性比对物种（Species）GenBank 登录号(GenBank Accession No.)相似性(Similarity)Anopheles gambiae CAC35008.1 47% Nasonia vitripennis XP_001602830 49% Xiphophorus xiphidium AAP55673 46% Camponotus floridanus EFN60989 49% Danio rerio NP_919405 47% Drosophila melanogaster AAR85245 49% Gryllus bimacµlatus BAG65666 48% Xenopus (Silurana)tropicalisXP_002939960 47% Lymnaea stagnalis ABQ10634 46%Gallus gallus NP_990828 47%Rattus norvegicu s EDL97896.1 47%2、仿刺参EGFR氨基酸序列通过GENBANK数据库比较，经CLUSTAL W多重序列比对分析（图1）（注：图为部分比对序列图）。

生物信息学实验报告

生物信息学实验报告姓名：__ 王思__＿_ __ _学号:__＿03_ ___指导老师：__ 宋晓峰_南京航空航天大学２013年４月ﻬ实验一生物信息数据库的检索一．实验目的:１.了解生物信息学的各大门户网站以及其中的主要资源。

2。

了解主要数据库的内容及结构，理解各数据库注释的含义。

3.以PｕｂＭｅd为例，学会文献数据库的基本查询检索方法。

二．实验内容：（１）国际与国内的生物信息中心国际NCBI、EBI、EｘPASｙ，ＥMBL、SIB、TIGＲ以及国内CBI、BiｏSinｏ网站的熟悉及内容的了解.核酸序列数据库：ｇeｎbａnk/EMBL－ｂanｋ/DDBJNCBI网址：EBI网址:EMBＬ网址:i。

aｃ.ｕk/emｂl蛋白质序列数据库:Swｉss Ｐrot 、ExPASy网址：Uniｐｒot网址:蛋白质结构数据库:ＰDＢ网址：csb。

org/pｄｂ/(2）数据库内容、结构与注释的浏览分别读取The ｓpike pｒｏｔeiｎof SAＲS—Coｒoｎa Virus在NCBI中的核酸序列、SWISS—PROT蛋白质序列以及ＰDB蛋白质结构序列，熟悉数据库记录的结构，学会看懂其中的注释。

核酸序列：SWISS-ＰROT蛋白质序列：PＤＢ蛋白质结构序列：其PDB文件见附件ＳARS—Cｏrona Ｖirｕs。

ＰDB文件分别读取Ｈeａmagglutinｉn Genes oｆＨ９N2 Sｕbtypｅ Inｆｌueｎza Ａ V ｉｒuses（禽流感H9Ｎ2亚型HA基因）在NＣＢI中的核酸序列、SWＩSS-PROT蛋白质序列以及PDB蛋白质结构序列，熟悉数据库记录的结构,学会看懂其中的注释。

核酸序列：SWＩSS-PROT蛋白质序列PDＢ蛋白质结构序列其PDＢ文件见附件Ｈ9Ｎ2．ＰDB文件(3)文献信息的查找与管理有效地使用ＮＣBI PｕbＭed提供的各种主要功能,查询并下载相关课题或研究方向的论文文摘与文献全文。

生物信息学多重序列比对及系统发生树的构建

多序列比对及系统进化树的构建【实验目的】1、掌握使用Clustalx进行序列多重比对的操作方法；2、熟悉构建分子系统发生树的基本过程，掌握使用相关软件构建系统发生树的操作方法。

【实验原理】在现代分子进化研究中，根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。

一个可靠的系统发生的推断，将揭示出有关生物进化过程的顺序，有助于了解生物进化的历史和进化机制。

对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行比对。

⑵要构建一个进化树（phyligenetic tree）。

⑶对进化树进行评估，主要采用Bootstrap法。

进化树的构建是一个统计学问题，所构建出来的进化树只是对真实的进化关系的评估或者模拟。

如果采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。

模拟的进化树需要一种数学方法来对其进行评估。

CLUSTALX和MEGA软件能够实现上述的建树步骤。

CLUSTALX是Windows界面下的多重序列比对软件。

MEGA是多个软件的压缩包，功能极其强大，主要包括五个方面的功能软件：i，DNA和蛋白质序列数据的分析软件。

ii，序列数据转变成距离数据后，对距离数据分析的软件。

iii，对基因频率和连续的元素分析的软件。

iv，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态）时，对序列进行分析的软件。

v，按照DOLLO简约性算法对序列进行分析的软件。

vi，绘制和修改进化树的软件。

【实验内容】1、使用CLUSTALX软件对一组蛋白质序列（leptin.txt）进行多重序列比对；2、使用MEGA 软件包构建上述DNA分子系统发生树。

【实验方法】一、用CLUSTALX软件对已知序列做多序列比对。

1、在NCBI数据库搜索人leptin的同源蛋白序列2、下载leptin的同源蛋白序列8-10条，以FASTA格式保存为leptin.txt文件。

2、双击进入CLUSTALX程序，点FILE进入LOAD SEQUENCE，打开leptin.txt文件。

序列搜索_比对以及进化树的构建

Clustalx的输出结果
• .aln格式文件
– 这个文件是默认输出，可以转换成各种格式，而且很多软件都支持这种格式。
• .dnd格式文件
– 引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树 – 不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应，因此应该用.aln格式文件专门做进化分析。
• Blastn : 应该是出现较早的算法。比对的速度慢，但允许更短序列的比对（如短到7个碱基的序列）。 • MEGABLAST : 主要用来鉴定一段新的核酸序列，它并不注重比对各个碱基的不同和序列片断的同源性，而只注重被比对序列是否是数据库未收录的，是否为新的提交序列或基因。速度快。同一物种间的。 • Discontiguous MEGABLAST : 灵敏度（sensitivity）更高，用于更精确的比对。主要用于跨物种之间的同源比对。
• dnadist 计算核苷酸距离矩阵 • 把刚才的outfile改名，如dnadistinfile • 双击dnadist，输入dnadistinfile，回车
输入D，选择模型，如改成kimura-2 输入M，然后输入 D，再输入1000，和上面步骤要一致即自举值 bootstrap=1000
• NCBI负责管理GenBank。 GenBank是
美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸序列。
• GenBank与日本DNA数据库（DNA Data Bank of Japan, DDBJ）以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库（European Molecular Biology Laboratory, EMBL），所有这 3个中心都可以独立地接受数据提交，而3个中心之间则逐日交换信息，并制成相同的充分详细的数据库向公众开放。因此他们是相等的。

生物信息学-06多序列比对和进化树分析

第一、
第六章多序列比对和分子系统
发育分析
第一节序列间比对
Definitions
Pairwise alignment
The process of lining up two sequences to achieve maximal levels of identity (and conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology.
Pairwise sequence alignment programs
Multiple sequence alignment programs
How to get multiple sequences? Sequence BLAST Program
Two kinds of multiple sequence alignment resources
[1] Databases of multiple sequence alignments Text-based searches of CDD, Pfam (profile HMMs), PROSITE Database searches with a query sequence with BLAST, CDD, PFAM [2] Multiple sequence alignmentW, CLUSTAL X
Homology (同源性)
Similarity attributed to descent from a common ancestor.

生物信息学实验教程

生物信息学实验教程实验一、基因、蛋白质序列分析【实验目的】1、掌握基因、蛋白质序列检索的操作方法；2、熟悉蛋白质基本性质分析及其电子表达谱3、蛋白基因的引物设计【实验内容】1、使用Entrez或SRS信息查询系统检索人脂联素(adiponectin)蛋白质序列；2、使用网站对上述蛋白质序列进行分子质量、氨基酸组成、和疏水性等基本性质分析；3、蛋白基因的引物设计【实验方法】1、人脂联素基因、蛋白质序列的检索：（1）调用Internet浏览器并在其地址栏输入Entrez网址(/Entrez)；（2）在Search后的选择栏中选择nucleartide\protein；（3）在输入栏输入homo sapiens adiponectin；（4）点击go后显示序列接受号及序列名称；（5）点击序列接受号NP_004788 (adiponectin precursor; adipose most abundant genetranscript 1 [Homo sapiens])后显示序列详细信息；（6）将序列转为FASTA格式保存(参考上述步骤使用SRS信息查询系统检索人脂联素蛋白质序列)；（7）进入UNIGENE数据库分析其电子表达谱2、进入网站对人脂联素蛋白质序列进行分子质量、氨基酸组成和疏水性等基本性质分析：3、利用prime prime5.0设计此基因PCR引物4、独立完成NYGGF4、LYRM1两个基因的上述操作。

【作业】1、提交使用上述软件对人脂联素、NYGGF4、LYRM1蛋白质序列进行基本性质分析及其电子表达谱蛋白质实验二、序列结构预测【实验目的】1、熟悉基于序列同源性分析的蛋白质功能预测，了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测；2、了解蛋白质结构预测。

【实验内容】1、对人脂联素蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析；2、对人脂联素蛋白质序列进行motif结构分析；3、对人脂联素蛋白质序列进行二级结构和三维结构预测。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多重序列比对及系统发生树的构建【实验目的】1、熟悉构建分子系统发生树的基本过程，获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识；2、掌握使用Clustalx进行序列多重比对的操作方法；3、掌握使用Phylip软件构建系统发生树的操作方法。

【实验原理】在现代分子进化研究中，根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。

一个可靠的系统发生的推断，将揭示出有关生物进化过程的顺序，有助于我们了解生物进化的历史和进化机制。

对于一个完整的进化树分析需要以下几个步骤：⑴ 要对所分析的多序列目标进行比对（alignment）。

⑵ 要构建一个进化树（phyligenetic tree）。

构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。

所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。

而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。

进化树枝条的长度代表着进化距离。

独立元素法包括最大简约性法（M aximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。

⑶ 对进化树进行评估，主要采用Bootstraping法。

进化树的构建是一个统计学问题，我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。

如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的"进化树"。

模拟的进化树需要一种数学方法来对其进行评估。

不同的算法有不同的适用目标。

一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。

如果分析的序列较多，有可能要花上几天的时间才能计算完毕。

UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟。

这种算法得到的进化树相对来说不是很准确，现在已经很少使用。

邻位相连法是一个经常被使用的算法，它构建的进化树相对准确，而且计算快捷。

其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不能太大。

另外，需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。

CLUSTALX和PHYLIP软件能够实现上述的建树步骤。

CLUSTALX是Windows界面下的多重序列比对软件。

PH YLIP是多个软件的压缩包，功能极其强大，主要包括五个方面的功能软件：i，DNA和蛋白质序列数据的分析软件。

ii，序列数据转变成距离数据后，对距离数据分析的软件。

iii，对基因频率和连续的元素分析的软件。

iv，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态）时，对序列进行分析的软件。

v，按照DOLLO简约性算法对序列进行分析的软件。

vi，绘制和修改进化树的软件。

【实验内容】1、使用CLUSTALX软件对已知八条DNA序列（如下）进行多重序列比对；M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT2、使用PHYLIP 软件包构建上述DNA分子系统发生树。

【实验方法】一、用CLUSTALX软件对已知DNA序列做多序列比对。

操作步骤：1、以FASTA格式准备8个DNA序列test.seq（或txt）文件。

2、双击进入CLUSTALX程序，点FILE进入LOAD SEQUENCE，打开test.seq（或txt）文件。

3、点ALIGNMENT，在默认alignment parameters下，点击Do complete Alignment 。

在新出现的窗口中点击ALIGN进行比对，这时输出两个文件（默认输出文件格式为Clustal格式）：比对文件test.aln和向导树文件test.dnd。

4、点FILE进入Save sequence as,在format 框中选PHYLIP，文件在PHYLIP软件目录下以test.phy存在，点击OK。

5、将PHYLIP软件目录下的test.phy文件拷贝到EXE文件夹中。

用计事本方式打开的test.phy文件的部分序列如下：图中的8和50分别表示8个序列和每个序列有50个碱基。

二、用PHYLIP软件推导进化树。

1、进入EXE文件夹，点击SEQBOOT软件输入test.phy文件名，回车。

图中的D、J、R、I、O、1、2代表可选择的选项，键入这些字母，程序的条件就会发生改变。

D选项无须改变。

J选项有三种条件可以选择，分别是Bootstrap、Jackknife和Permute。

文章上面提到用Bootstra ping法对进化树进行评估，所谓Bootstraping法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。

这样，一个序列就可以变成了许多序列。

一个多序列组也就可以变成许多个多序列组。

根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。

将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最"逼真"的进化树。

Jackknife则是另外一种随机选取序列的方法。

它与Bootstrap法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。

Permute是另外一种取样方法，其目的与B ootstrap和Jackknife法不同，这里不再介绍。

R选项让使用者输入republicate的数目。

所谓republic ate就是用Bootstrap法生成的一个多序列组。

根据多序列中所含的序列的数目的不同可以选取不同的re publicate，此处选200，输入Y确认参数并在Random number seed (must be odd) ?的下面输入一个奇数（比如3）。

当我们设置好条件后按回车，程序开始运行，并在EXE文件夹中产生一个文件outfile，Out file用记事本打开如下：这个文件包括了200个republicate。

2、文件outfile改为infile。

点击DNADIST程序。

选项M是输入刚才设置的republicate的数目，输入D选择data sets，输入200。

设置好条件后，输入Y确认参数。

程序开始运行，并在EXE文件夹中产生outfile，部分内容如下：将outfile文件名改为infile，为避免与原先infile文件重复，将原先文件名改为infile1。

3、EXE文件夹中选择通过距离矩阵推测进化树的算法，点击NEIGHBOR程序。

输入M更改参数，输入D选择data sets。

输入200。

输入奇数种子3。

输Y确认参数。

程序开始运行，并在EXE文件夹中产生outfile和outtree两个结果输出。

outtree文件是一个树文件，可以用treeview等软件打开。

outfile是一个分析结果的输出报告，包括了树和其他一些分析报告，可以用记事本直接打开。

部分内容如下：4、将outtree文件名改为intree，点击DRAWTREE程序，输入font1文件名，作为参数。

输Y确认参数。

程序开始运行，并出现Tree Preview图。

5、点击DRAWGRAM程序，输入font1文件名，作为参数。

输Y确认参数。

程序开始运行，并出现Tree Pre view图。

6、将EXE文件夹中的outfile文件名改为outfile1，以避免被新生成的outfile 文件覆盖。

点击CONSEN SE程序。

输入Y确认设置。

EXE文件夹中新生成outfile和outtree。

Outfile文件用记事本打开，内容如下：7 、将EXE文件夹中的intree文件名改为intree1，将outtree改intree。

点击DRAWTREE程序，输入fo nt1文件名，作为参数。

输Y确认参数。

程序开始运行，并出现Tree Preview图。

8、点击DRAWGRAM 程序，输入font1文件名，作为参数。

输Y 确认参数。

程序开始运行，并出现Tree Pre view 图。

多重序列比对及系统发生树的构建

系统发育树构建步骤

生物信息实验

生物信息学实验指导

系统发育树构建教程(PHYLIP)

系统发生树详解

P53蛋白的多序列对比与系统发育树构建

系统发育树构建

多基因联合建树图解教程(引用高老师)

生物信息实验报告4(四)多序列分析及系统进化树构建

生物信息学实验报告

生物信息学 多重序列比对及系统发生树的构建

序列搜索_比对以及进化树的构建

生物信息学-06多序列比对和进化树分析

生物信息学实验教程

生物信息学多重序列比对及系统发生树的构建