多重序列比对及系统发生树的构建

合集下载

系统发育树构建步骤

系统发育树构建步骤

如何建树step 1. 将16S rDNA序列在NCBI上进行BLAST比对(/BLAST/) BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990 [62];1997[63])。

国际著名生物信息中心都提供基于Web的BLAST服务器。

BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。

首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。

这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。

它们都有一个大的文本框,用于粘贴需要搜索的序列。

把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。

如果是DNA序列,一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。

登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。

BLASTN结果如何分析(参数意义):例如:>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequenceScore = 2020 bits (1019), Expect = 0.0Identities = 1382/1497 (92%), Gaps = 8/1497 (0%)Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60|||||||||||||||||||||||||||||||||||||||||| ||||||||| |||||Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120|| ||||||||||||||||||||||||||||||| | |||||| |||||||||||||Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118其中,Score指的是提交的序列和搜索出的序列之间的分值,越高说明越相似。

生物信息学实验指导

生物信息学实验指导

生物信息学实验讲义广东药学院生命科学与生物制药学院二○一一年三月目录实验1. 生物信息学数据库与软件搜索 (1)实验2.核酸序列的检索 (2)实验3. 核酸序列分析 (3)实验4.多重序列比对及系统发生树的构建 (5)实验5. PCR 引物设计及评价 (7)实验6.蛋白质序列分析和结构预测 (9)实验一生物信息学数据库和软件的搜索【实验目的】熟练掌握上网搜索生物信息学数据库和软件的方法及技能。

【实验内容】1、搜索生物信息学数据库或者软件数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。

核酸序列数据库有GenBank, EMBL, DDB等,蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。

另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。

2、搜索生物信息学软件生物信息学软件的主要功能有:分析和处理实验数据和公共数据,加快研究进度,缩短科研时间;提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能;蛋白高级结构预测。

多重序列比对及系统发生树的构建

多重序列比对及系统发生树的构建

多重序列比对及系统发生树的构建【实验目的】1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识;2、掌握使用Clustalx进行序列多重比对的操作方法;3、掌握使用Phylip软件构建系统发生树的操作方法。

【实验原理】在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。

一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。

对于一个完整的进化树分析需要以下几个步骤:⑴ 要对所分析的多序列目标进行比对(alignment)。

⑵ 要构建一个进化树(phyligenetic tree)。

构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。

所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。

而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。

进化树枝条的长度代表着进化距离。

独立元素法包括最大简约性法(M aximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。

⑶ 对进化树进行评估,主要采用Bootstraping法。

进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。

如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的"进化树"。

系统发生树详解

系统发生树详解

系统发生树构建的步骤一般有下面几步:I,对文件10.8\protein sequence 的序列进行多序列比对,一般用clustalx/w软件完成.这里我们用软件BioEdit内置的clustalw来做多序列比对;II,对clustalw产生的多序列比对文件进行修剪,去掉比对后相似序列中没有对应的序列,前后全部对齐;III,将修剪后的多序列比对文件转换成系统发生软件所需的文件格式并保存.这里我们是采用mega来做系统发生树的,所以须将修剪后的多序列比对文件转成.meg的文件格式;IV,用系统发生软件构树(采用多种方法UPGMA,N-J, Maximum likelihood等);具体做法如下:①将protein sequence 的序列文件导入到BioEdit中做多序列比对,这里有好几种做法: a,将所有的序列文件全部保存在一个txt文件中,然后用BioEdit打开;(该方法比较麻烦) b,用DNASTAR中的Editseq工具将所有文件打开,然后用File菜单中Export all as one…按钮将所有的单蛋白质序列文件保存成一个多蛋白质序列文件,文件格式为.fastac,直接用BioEdit中File>new alignment>import>sequences alignment file(这里需要注意的是在导入序列文件时要将导入文件的类型选为All Files否则BioEdit将默认显示phy, gb, aln等文件而看不到其他文件);(推荐)导入后如图:alignment,如下图:比对后产生文件,其序列如下:③对clustalw产生的多序列比对文件进行修剪, 去掉比对后相似序列中没有对应的序列,前后全部对齐,可以直接用BioEdit的edit mode来做也可以用mega5>align>edit/buildalignment来做这里采用后者;format来导出文件,其文件内容如图:④用mega5建树.File>open a file打开已经转好的文件然后phylogeny下的不同方法UPGMA, N-J, Maximum likelihood得到各种树选择您感兴趣的基因,进行多物种的基因组搜索,将获得的序列进行基因序列特征分析,并构建多序列比对和系统发生树,请阐明选择基因的目的、试验步骤和进行结果分析。

mega操作过程-多序列比对、进化树、

mega操作过程-多序列比对、进化树、
据自己的需要选择合适的输出格式。
用ClustalW得到的多序列比对结果中,所有序列排列在一起,并
以特定的符号代表各个位点上残基的保守性,“*”号表示保守性 极高的残基位点;“.”号代表保守性略低的残基位点。
Progressive Alignment Method
Clustal W 使用
输入地址: 设置选项 (next)
用于描述一组同源序列之间的亲缘关系的远近,应用到 分子进化分析中。 序列同源性分析:是将待研究序列加入到一组与之 同源,但来自不同物种的序列中进行多序列同时比 较,以确定该序列与其它序列间的同源性大小。
其他应用,如构建profile,打分矩阵等
3、多序列比对的方法
手工比对 在运行经过测试并具有比较高的可信度的计算机程序(辅助 编辑软件如bioedit,seaview,Genedoc等)基础上,结合实 验结果或文献资料,对多序列比对结果进行手工修饰,应该 说是非常必要的。 为了便于进行交互式手工比对,通常使用不同颜色表示具有 不同特性的残基,以帮助判别序列之间的相似性。
Extremely slow computation.
Progressive Alignment Method
DbClustal: Poa (Partial order alignments):
2、Iterative Alignment
PRRN:
web-based program Nhomakorabea/
Uses a double nested iterative strategy for multiple alignment.
DCA (Divide-and-Conquer Alignment):a web-based program that is semiexhaustive /

课件第4讲_多序列比对和进化分析

课件第4讲_多序列比对和进化分析

渐进法的策略I.将序列两两比对II.根据相似值将序列分组III.进行组间比对,并继续分组,直至取得最终结果Principle:比对过程中,相似性高的序列先比对,距离远的序列添加其后值与分歧时间t呈非线性关系,原因之一:多个氨基酸替代出现在同一位点。

基于泊松分布对p进行校正,得两序列间每位paralogsorthologs paralogs orthologsErik L.L. Sonnhammer Orthology,paralogy and proposedand proposed classification for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2002UPGMA方法例:OTU1和OTU2都是原始类群,n1=1,n2=1 OTU r1含两个原始类群OTU1和OTU2 ,nr1=2,OTU3是原始类群,n3=1简明生物信息学,钟扬等主编,用UPGMA法构建的系统树常用构树法比较/phylip/s oftware.htmlHere are 386phylogeny packages and 52free servers, all that I know about. It is an attempt to be completely comprehensive. I have not made any attempt to exclude programs that do not meet some standard of quality or importance….Many of the programs in these pages are available on the web, and some of the older ones are also available from ftp server machines.。

分子进化树构建方法

分子进化树构建方法

5
genetic change
系统发生树术语
Rooted tree vs. Unrooted tree
无 A 有 根 根 树 B 树 two major ways to root trees:
A
10 3 2 5
C D
By midpoint or distance
d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9
animal
root
animal fungus
Monophyletic group
How to root a tree?
bacteria outgroup
archaea archaea archaea eukaryote
外群
选择外群 (Outgroup)
eukaryote
eukaryote eukaryote
(1,2): 1 change; (1,3) or (1,4): 2 changes (1,3): 1 change; (1,2) or (1,4): 2 changes (1,2): 1 change; (1,3) or (1,4): 2 changes
Position 2
If 1 and 3 are grouped a total of five changes are needed.
Bioinformatics: Sequence and Genome Analysis, 2nd edition, by David W. Mount. p254 /cgi/content/full/2008/5/pdb.ip49
Assessing tree reliability

四多序列联配及系统进化树构建

四多序列联配及系统进化树构建
1. Clustal W/ Clustal X 2. MUSCLE 3. MAFFT 4. T-Coffee 5. ProbCons 6. POA 7. DIALIGN
性能比较
• 1. ClustalW/X: 最经典、最被广泛接受的工具 • 2. MUSCLE: 目前最流行的多序列比对工具 • 3. DIALIGN: 序列相似性低时最准确 • 4. POA:性能接近T-Coffee和DIALIGN,速 度最快( ) • 5. ProbCons:目前综合性能比较好 • 6. T-Coffee:序列相似性高时最准确 • 7. MAFFT:综合性能比较好
实际应用中常进行氨基酸序列的多序列比对,然后转化成相应的DNA比对
多序列比对的定义
蛋白家族的特征是用存在一组同源序列的多重比对来定义的。 一个多重比对就是一组可以部分或整体对齐的蛋白质或核苷酸 序列(3个或3个以上)。 相同或相似的氨基酸残基排在同一列上,这些对齐的残基在 进化意义上是同源的:来自共同的祖先。并且还可假定从结构 角度看,这些残基也是同源的:在三维结构中,对齐的残基也 倾向于占据对应的位置。 对于关系很近的一组序列,很容易产生多序列比对,甚至可 以直接观察得到。但当序列间出现一些分歧时,多序列比对过 程中出现的问题就很难解决了,如gap数量和位置的估计就比 较困难。
b. profile比对模式
多序列比对实例
输入文件的格式(fasta):
>HvNIP2-1 MASNSRSNSRATFSSEIHDIGTVQNSTTPSMVYYTERSIADYFPPHLLKKVVSEVVSTFL LVFVTCGAAAISAHDVTRISQLGQSVAGGLIVVVMIYAVGHISGAHMNPAVTLAFAIFRH FPWIQVPFYWAAQFTGAICASFVLKAVLHPITVIGTTEPVGPHWHALVIEVVVTFNMMFV TLAVATDTRAVGELAGLAVGSSVCITSIFAGAVSGGSMNPARTLGPALASNRYPGLWLYF LGPVLGTLSGAWTYTYIRFEDPPKDAPQKLSSFKLRRLQSQSVAADDDELDHIPV >HvNIP2-2 MSVTSNTPTRANSRVNYSNEIHDLSTVQDGAPSLAPSMYYQEKSFADFFPPHLLKKVISE LVATFLLVFVTCGAASIYGADVTRVSQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLS FACFRHFPWIQVPFYWAAQFTGAMCAAFVLRAVLHPITVLGTTTPTGPHWHALVIEIIVT FNMMFITCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMNPARTLAPAVASGVYT GLWIYFLGPVIGTLSGAWVYTYIRFEEEPSVKDGPQKLSSFKLRRLQSQRSMAVDEFDHV >OsNIP2-1 MASNNSRTNSRANYSNEIHDLSTVQNGTMPTMYYGEKAIADFFPPHLLKKVVSEVVATFL LVFMTCGAAGISGSDLSRISQLGQSIAGGLIVTVMIYAVGHISGAHMNPAVTLAFAVFRH FPWIQVPFYWAAQFTGAICASFVLKAVIHPVDVIGTTTPVGPHWHSLVVEVIVTFNMMFV TLAVATDTRAVGELAGLAVGSAVCITSIFAGAISGGSMNPARTLGPALASNKFDGLWIYF LGPVMGTLSGAWTYTFIRFEDTPKEGSSQKLSSFKLRRLRSQQSIAADDVDEMENIQV >OsNIP2-2 MASTTAPSRTNSRVNYSNEIHDLSTVQSVSAVPSVYYPEKSFADIFPPNLLKKVISEVVA TFLLVFVTCGAASIYGEDMKRISQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFAF FRHFPWIQVPFYWAAQFTGAMCAAFVLRAVLYPIEVLGTTTPTGPHWHALVIEIVVTFNM MFVTCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMNPARTLAPAVASNVYTGLW IYFLGPVVGTLSGAWVYTYIRFEEAPAAAGGAAPQKLSSFKLRRLQSQSMAADEFDNV

系统发育树构建

系统发育树构建
目的
系统发育树的主要目的是揭示物种的进化历程,帮助科学家理解生物多样性的 起源、物种的演化路径以及生物进化的规律。
系统发育树的基本组成
01
02
03
04
节点
代表物种或共同祖先,节点间 的连线表示物种间的亲缘关系

分支
连接节点间的线段,代表物种 间的进化关系。
叶节点
代表可观测的物种,是系统发 育树的末端节点。
WENKU DESIGN
树的解读与注释
根部的位置
系统发育树的根部通常代表进化关系中最为原始的物种。
分支长度
分支长度可以反映物种之间的进化距离,较长的分支表示较大的 进化距离。
节点注释
节点注释包括该节点的物种名称、化石记录等信息,有助于理解 该节点在进化历史中的位置。
系统发育关系推断
同源性分析
通过比较不同物种的基因或蛋白质序 列,确定它们之间的同源性,进而推 断它们之间的进化关系。
03
通过比较不同物种在特定环境下的适应性特征,可以分析这些
特征的进化起源和演化过程。
PART 05
系统发育树的应用
REPORTING
WENKU DESIGN
物种分类与系统发生学研究
物种鉴定
系统发育树可以帮助确定物种间的亲缘关系,从而对未知物种进 行鉴定和分类。
生物多样性研究
通过构建系统发育树,可以了解生物多样性的起源、演化和分布, 为保护和利用生物资源提供科学依据。
分子钟假设
基于分子钟假设,通过比较不同物种 基因或蛋白质序列的进化速率,可以 推断它们之间的相对进化时间。
物种进化历史分析
物种起源与分化
01
系统发育树揭示了物种的起源和分化过程,有助于理解物种多

5 多序列同源比对和分子进化分析

5 多序列同源比对和分子进化分析

所谓简约就是使代价最小。
对于系统发生树最直观的代价计算就是沿着各个分 支累加特征变化的数目。





节点3 节点1 节点2
根节点
最大简约法的处理过程:
(1)针对待比较的物种,选择核酸或蛋白质序列。 有些分子比其它分子变化慢,适合于进行距离分析, 例如哺乳类的线粒体DNA、管家蛋白质等; (2)比较各个序列,产生序列的多重比对,确定各 个序列符号的相对位置;
Definitions: two types of homology
Paralogs
Homologous sequences within a single species that arose by gene duplication.
Orthologs
Homologous sequences in different species that arose from a common ancestral gene during speciation; may or may not be responsible for a similar function.
2. PAML (免费) (ML模型建立和系统树构建、评估)
/software/paml.html
Paralogs: members of a gene (protein) family within a species
Odorant-binding protein 2A
Lipocalin 1
10 changes
common carp
Orthologs:
zebrafish
rainbow trout
• 对于给定的分类单元数,有很多棵 可能的系统发生树,但是只有一棵 树是正确的。

生物信息学实验报告

生物信息学实验报告

生物信息学实验报告姓名:__ 王思____ __ _学号:___03_ ___指导老师:__ 宋晓峰_南京航空航天大学2013年4月ﻬ实验一生物信息数据库的检索一.实验目的:1.了解生物信息学的各大门户网站以及其中的主要资源。

2。

了解主要数据库的内容及结构,理解各数据库注释的含义。

3.以PubMed为例,学会文献数据库的基本查询检索方法。

二.实验内容:(1)国际与国内的生物信息中心国际NCBI、EBI、ExPASy,EMBL、SIB、TIGR以及国内CBI、BioSino网站的熟悉及内容的了解.核酸序列数据库:genbank/EMBL-bank/DDBJNCBI网址:EBI网址:EMBL网址:i。

ac.uk/embl蛋白质序列数据库:Swiss Prot 、ExPASy网址:Uniprot网址:蛋白质结构数据库:PDB网址:csb。

org/pdb/(2)数据库内容、结构与注释的浏览分别读取The spike proteinof SARS—Corona Virus在NCBI中的核酸序列、SWISS—PROT蛋白质序列以及PDB蛋白质结构序列,熟悉数据库记录的结构,学会看懂其中的注释。

核酸序列:SWISS-PROT蛋白质序列:PDB蛋白质结构序列:其PDB文件见附件SARS—Corona Virus。

PDB文件分别读取Heamagglutinin Genes ofH9N2 Subtype Influenza A V iruses(禽流感H9N2亚型HA基因)在NCBI中的核酸序列、SWISS-PROT蛋白质序列以及PDB蛋白质结构序列,熟悉数据库记录的结构,学会看懂其中的注释。

核酸序列:SWISS-PROT蛋白质序列PDB蛋白质结构序列其PDB文件见附件H9N2.PDB文件(3)文献信息的查找与管理有效地使用NCBI PubMed提供的各种主要功能,查询并下载相关课题或研究方向的论文文摘与文献全文。

序列搜索_比对以及进化树的构建

序列搜索_比对以及进化树的构建

Clustalx的输出结果
• .aln格式文件
– 这个文件是默认输出,可以转换成各种格式, 而且很多软件都支持这种格式。
• .dnd格式文件
– 引导树。就是根据两两序列相似值构建的一个 指导后面多重联配的启发树 – 不能做进化分析。进化分析要考虑的所有同源 位点的一个综合效应,因此应该用.aln格式文 件专门做进化分析。
• Blastn : 应该是出现较早的算法。比对的速度慢, 但允许更短序列的比对(如短到7个碱基的序列)。 • MEGABLAST : 主要用来鉴定一段新的核酸序列, 它并不注重比对各个碱基的不同和序列片断的同 源性,而只注重被比对序列是否是数据库未收录 的,是否为新的提交序列或基因。 速度快。同一 物种间的。 • Discontiguous MEGABLAST : 灵敏度 (sensitivity)更高,用于更精确的比对。主要用 于跨物种之间的同源比对。
• dnadist 计算核苷酸距离矩阵 • 把刚才的outfile改名,如dnadistinfile • 双击dnadist,输入dnadistinfile,回车
输入D,选择模型, 如改成kimura-2 输入M,然后输入 D,再输入1000, 和上面步骤要一致 即自举值 bootstrap=1000
• NCBI负责管理GenBank。 GenBank是
美国国立卫生研究院维护的基因序列数据库, 汇集并注释了所有公开的核酸序列。
• GenBank与日本DNA数据库(DNA Data Bank of Japan, DDBJ)以及欧洲生物信息研究所的欧洲 分子生物学实验室核苷酸数据库(European Molecular Biology Laboratory, EMBL),所有这 3个中心都可以独立地接受数据提交,而3个中心 之间则逐日交换信息,并制成相同的充分详细的 数据库向公众开放。因此他们是相等的。

生物信息学-06多序列比对和进化树分析

生物信息学-06多序列比对和进化树分析
第一、
第六章 多序列比对和分子系统
发育分析
第一节 序列间比对
Definitions
Pairwise alignment
The process of lining up two sequences to achieve maximal levels of identity (and conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology.
Pairwise sequence alignment programs
Multiple sequence alignment programs
How to get multiple sequences? Sequence BLAST Program
Two kinds of multiple sequence alignment resources
[1] Databases of multiple sequence alignments Text-based searches of CDD, Pfam (profile HMMs), PROSITE Database searches with a query sequence with BLAST, CDD, PFAM [2] Multiple sequence alignmentW, CLUSTAL X
Homology (同源性)
Similarity attributed to descent from a common ancestor.

生物信息学实验教程

生物信息学实验教程

生物信息学实验教程实验一、基因、蛋白质序列分析【实验目的】1、掌握基因、蛋白质序列检索的操作方法;2、熟悉蛋白质基本性质分析及其电子表达谱3、蛋白基因的引物设计【实验内容】1、使用Entrez或SRS信息查询系统检索人脂联素(adiponectin)蛋白质序列;2、使用网站对上述蛋白质序列进行分子质量、氨基酸组成、和疏水性等基本性质分析;3、蛋白基因的引物设计【实验方法】1、人脂联素基因、蛋白质序列的检索:(1)调用Internet浏览器并在其地址栏输入Entrez网址(/Entrez);(2)在Search后的选择栏中选择nucleartide\protein;(3)在输入栏输入homo sapiens adiponectin;(4)点击go后显示序列接受号及序列名称;(5)点击序列接受号NP_004788 (adiponectin precursor; adipose most abundant genetranscript 1 [Homo sapiens])后显示序列详细信息;(6)将序列转为FASTA格式保存(参考上述步骤使用SRS信息查询系统检索人脂联素蛋白质序列);(7)进入UNIGENE数据库分析其电子表达谱2、进入网站对人脂联素蛋白质序列进行分子质量、氨基酸组成和疏水性等基本性质分析:3、利用prime prime5.0设计此基因PCR引物4、独立完成NYGGF4、LYRM1两个基因的上述操作。

【作业】1、提交使用上述软件对人脂联素、NYGGF4、LYRM1蛋白质序列进行基本性质分析及其电子表达谱蛋白质实验二、序列结构预测【实验目的】1、熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测;2、了解蛋白质结构预测。

【实验内容】1、对人脂联素蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析;2、对人脂联素蛋白质序列进行motif结构分析;3、对人脂联素蛋白质序列进行二级结构和三维结构预测。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多重序列比对及系统发生树的构建作者:佚名来源:生物秀时间:2007-12-31【实验目的】1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识;2、掌握使用Clustalx进行序列多重比对的操作方法;3、掌握使用Phylip软件构建系统发生树的操作方法。

【实验原理】在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。

一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。

对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行比对(alignment)。

⑵要构建一个进化树(phyligenetic tree)。

构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。

所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。

而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。

进化树枝条的长度代表着进化距离。

独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。

⑶对进化树进行评估,主要采用Bootstraping法。

进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。

如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。

模拟的进化树需要一种数学方法来对其进行评估。

不同的算法有不同的适用目标。

一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。

如果分析的序列较多,有可能要花上几天的时间才能计算完毕。

UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。

这种算法得到的进化树相对来说不是很准确,现在已经很少使用。

邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。

其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。

另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。

CLUSTALX和PHYLIP软件能够实现上述的建树步骤。

CLUSTALX是Windows界面下的多重序列比对软件。

PHYLIP是多个软件的压缩包,功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。

ii,序列数据转变成距离数据后,对距离数据分析的软件。

iii,对基因频率和连续的元素分析的软件。

iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。

v,按照DOLLO简约性算法对序列进行分析的软件。

vi,绘制和修改进化树的软件。

【实验内容】1、使用CLUSTALX软件对已知八条DNA序列(如下)进行多重序列比对;M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT 2、使用PHYLIP 软件包构建上述DNA分子系统发生树。

实验方法】一、用CLUSTALX软件对已知DNA序列做多序列比对。

操作步骤:1、以FASTA格式准备8个DNA序列test.seq(或txt)文件。

2、双击进入CLUSTALX程序,点FILE进入LOAD SEQUENCE,打开test.seq(或txt)文件。

3、点ALIGNMENT,在默认alignment parameters下,点击Do complete Alignment 。

在新出现的窗口中点击ALIGN进行比对,这时输出两个文件(默认输出文件格式为Clustal格式):比对文件test.aln和向导树文件test.dnd。

4、点FILE进入Save sequence as,在format 框中选PHYLIP,文件在PHYLIP软件目录下以test.phy存在,点击OK。

5、将PHYLIP软件目录下的test.phy文件拷贝到EXE文件夹中。

用计事本方式打开的test.phy 文件的部分序列如下:图中的8和50分别表示8个序列和每个序列有50个碱基。

二、用PHYLIP软件推导进化树。

1、进入EXE文件夹,点击SEQBOOT软件输入test.phy文件名,回车。

图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条件就会发生改变。

D 选项无须改变。

J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。

文章上面提到用Bootstraping法对进化树进行评估,所谓Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。

这样,一个序列就可以变成了许多序列。

一个多序列组也就可以变成许多个多序列组。

根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。

将生成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。

Jackknife则是另外一种随机选取序列的方法。

它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。

Permute是另外一种取样方法,其目的与Bootstrap和Jackknife法不同,这里不再介绍。

R选项让使用者输入republicate的数目。

所谓republicate就是用Bootstrap 法生成的一个多序列组。

根据多序列中所含的序列的数目的不同可以选取不同的republicate,此处选200,输入Y确认参数并在Random number seed (must be odd) ?的下面输入一个奇数(比如3)。

当我们设置好条件后按回车,程序开始运行,并在EXE文件夹中产生一个文件outfile,Outfile用记事本打开如下:这个文件包括了200个republicate。

2、文件outfile改为infile。

点击DNADIST程序。

选项M是输入刚才设置的republicate的数目,输入D选择data sets,输入200。

设置好条件后,输入Y确认参数。

程序开始运行,并在EXE文件夹中产生outfile,部分内容如下:将outfile文件名改为infile,为避免与原先infile文件重复,将原先文件名改为infile1。

3、EXE文件夹中选择通过距离矩阵推测进化树的算法,点击NEIGHBOR程序。

输入M更改参数,输入D选择data sets。

输入200。

输入奇数种子3。

输Y确认参数。

程序开始运行,并在EXE文件夹中产生outfile和outtree两个结果输出。

outtree 文件是一个树文件,可以用treeview等软件打开。

outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。

部分内容如下:4、将outtree文件名改为intree,点击DRAWTREE程序,输入font1文件名,作为参数。

输Y 确认参数。

程序开始运行,并出现Tree Preview图。

5、点击DRAWGRAM程序,输入font1文件名,作为参数。

输Y确认参数。

程序开始运行,并出现Tree Preview图。

6、将EXE文件夹中的outfile文件名改为outfile1,以避免被新生成的outfile 文件覆盖。

点击CONSENSE程序。

输入Y确认设置。

EXE文件夹中新生成outfile和outtree。

Outfile文件用记事本打开,内容如下:7 、将EXE文件夹中的intree文件名改为intree1,将outtree改intree。

点击DRAWTREE程序,输入font1文件名,作为参数。

输Y确认参数。

程序开始运行,并出现Tree Preview图。

8、点击DRAWGRAM程序,输入font1文件名,作为参数。

输Y确认参数。

程序开始运行,并出现Tree Preview图。

【作业】1、提交使用CLUSTALX及PHYLIP软件进行多重序列比对及构建系统发生树的结果;2、总结多重序列比对及构建系统发生树的关键事项。

相关文档
最新文档