生物信息学-第四章-多序列比对与分子进化分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用于描述一组序列之间的相似性关系,以便了解一个基因家族 的基本特征,寻找motif,保守区域等。用于预测新序列的二 级和三级结构,进而推测其生物学功能。
Human Hox genes
为什么要做MSA?
用于描述同源序列之间的亲缘关系的远近,应用到分子进化 分析中。是构建分子进化树的基础。
Gene tree
用于构建进化树的序列必须是同源序列
分子进化树构建(ClustalW)
EBI的ClustalW分析网页 PHYLOGENETIC TREE栏目选择tree type 输入比对后的序列(或上载ALN文件)
页面下方 显示Cladogram Tree
点击“Show as Phylogram Tree”展示Phylogram Tree
在“Output layout”和“Output file or device”栏选择
修饰后的比对结果
可进一步对排列好的序列进行修饰(3) GeneDoc
http://www.nrbsc.org/gfx/genedoc
File – Import
选择输入文件的 格式(如ALN)
修饰排列结果
2. 系统发生分析(Phylogenetic analysis)
10 3 2 5
C B
2
D
outgroቤተ መጻሕፍቲ ባይዱp 外群、外围支
系统发育树构建步骤
多序列比对(自动比对、手工校正)
最大简约法 (maximum parsimony, MP) 距离法 选择建树方法(替代模型) (distance) 最大似然法 (maximum likelihood, ML) 贝叶斯法 (Bayesian inference) UPGMA
不推荐:仅提供距离法建树,且没有进行评估
看图工具
TreeView 进化树编辑打印软件 (在http://taxonomy.zoology.gla.ac.uk/rod/treeview.html) EBI的ClustalW分析网页 PHYLOGENETIC TREE栏目选择tree type 输入比对后的序列(或上载ALN文件)
Bioinformatics: Sequence and Genome Analysis, 2nd edition, by David W. Mount. p254 http://cshprotocols.cshlp.org/cgi/content/full/2008/5/pdb.ip49
MSA是构建分子进化树的关键步骤 MSA程序可对任何序列进行比对,选择 什么样的序列进行比对非常重要!!
a b
A B
Species tree
c
C
We often assume that gene trees give us species trees
注意概念:Paralogy(旁系同源/并系同源)& Orthology(直系同源)
怎么做MSA?
动态规划算法(dynamic programming):MSA 改进算法(启发式算法):
系统发生树术语
Rooted tree vs. Unrooted tree
有 根 树
无 A 根 树 B
C
D
two major ways to root trees:
By midpoint or distance
A
d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9
目标序列
参数设定
Jalview 结果下载
打开Jalview 图形显示界面
结果文件
点击Start Jalview打开java程序窗口
上机实习3:本地运行 ClustalX
17-RNASE1.fasta • 多序列比对
– (Multiple Alignment)
在 C:\zcni\shixi1\Clustalx2 文件夹下,找到clustalx.exe 双击打开
Clustal使用方法
Clustal:目前被最广泛应用的 MSA 方法
可在线分析
可在本地计算机运行 序列输入、输出格式
Input FASTA
NBRF/PIR EMBL/SWISSPROT ALN GCG/MSF GCG9/RSF GDE
>sequence 1 ATTGCAGTTCGCA … … >sequence 2 ATAGCACATCGCA… … >sequence 3 ATGCCACTCCGCC… …
monkey
dog hamster bovine
PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN
1. 渐进法(progressive methods):Clustal, T-Coffee, MUSCLE 2. 迭代法(iterative methods):PRRP, DIALIGN 3. 其它算法:Partial Order Algorithm、profile HMM、 meta-methods (MAFFT)… http://en.wikipedia.org/wiki/List_of_sequence_alignment_software Current Opinion in Structural Biology 2006, 16:368–373
分析基因或蛋白质的进化关系
系统发生(进化)树(phylogenetic tree)
A tree showing the evolutionary relationships among various biological species or other entities that are believed to have a common ancestor.
下载“Phylip tree file”(ph文件 ) 用TreeView软件打开上述文件 可以不同格式展示进化树(1、2、3)
Output ALN
NBRF/PIR GCG/MSF PHYLIP NEXUS GDE/FASTA
Clustal W/X算法基础
两两比对 构建距离矩阵
构建指导树 (guide tree)
将距离最近的两条 序列用动态规划的 算法进行比对; “渐进”的加上其 他的序列
多序列比对的目的
• 从物种的一些分子特性出发,从而了 解物种之间的生物系统发生的关系。 • 通过序列同源性的比较进而了解基因 的进化以及生物系统发生的内在规律。
可进一步对排列好的序列进行修饰(2)
ESPript 多种修饰 功能,突出相同或相似位点 http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi 在EBI ClustalW结果网页下载“Alignment file”(ALN文件)
在ESPript分析网页“Aligned Sequences”栏上载ALN文件
多序列比对及分子进化分析
多序列对位排列
Multiple Sequence Alignment (MSA)
chicken
xenopus human
PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN
ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN
Bring the greatest number of similar characters into the same column of the alignment
为什么要做MSA?
ClustalX窗口
点击File下拉菜单中 Load sequences选项, 打开序列文件17-RNASE1.fasta.txt
注意!ClustalX打开文件时文件所在路径 不能包含中文,否则会出现错误!
打开后的界面
可在Alignment下拉菜单中的Alignment Parameters中设定各个参数
ClustalW/X的运行
• 本地运行 – 命令行操作的Clustal W(linux & windows) – 窗口化操作的ClustalX(windows) 下载页面:ftp://ftp.ebi.ac.uk/pub/software/ • 欧洲生物学中心(EBI)还提供了Clustal W的网上运 行服务: http://www.ebi.ac.uk/Tools/msa/clustalw2/
在EBI ClustalW结果网页复制序列比对结果
在“Boxshade”网页粘贴序列,在“Input sequence format”栏目选择“ALN”,在“Output format”栏 目选择“RTF_new”
在结果网页点击“here is your output number 1”
修饰过的排列结果
no meaning 3 1
Phylogram
6 1 1
进化树
时间度量树
Ultrametric tree
Taxon B Taxon B Taxon C Taxon A Taxon D
time
Taxon C
Taxon A Taxon D
5
genetic change
系统发生树术语
进化树分 支的长度
Scaled branches : the length of the branch is proportional to the number of changes. The distance between 2 species is the sum of the length of all branches connecting them.
Newick format
HTU
系统发生树术语
A clade(进化支) is a group of organisms that includes an ancestor and all descendents of that ancestor. 分支树
Cladogram
Taxon B
Taxon C Taxon A Taxon D
比对参数设置
两两比对参数
多序列比对参数
点击进行多序列比对
比对结果 “*”、“:”、“.” 和空格依次代表改位点的序列一致性由高到低
第四步:比对完成,选择结果文件的保存格式
可进一步对排列好的序列进行修饰(1)
Boxshade 突出相同或相似位点 (http://www.ch.embnet.org/software/BOX_form.html)
多序列比对的应用: •系统发育分析(phylogenetic analysis) •结构预测(structure prediction) •序列基序鉴定(sequence motif identification) •功能预测(function prediction) ClustalW/ClustalX:一种全局的多序列 比对程序,可以用来绘制亲缘树,分析进化 关系。 MEGA5——分子进化遗传分析软件
研究系统发生的方法
经典进化生物学:
比较:形态、生理结构、化石
分子进化生物学:
比较DNA和蛋白质序列
系统发生树术语
分支 Branch 末端节点
可以是物种 B ,群体,或 者蛋白质、 C DNA、RNA D 分子等
OTU A
节点 Node
祖先节点/树 根
Root
内部节点/分歧点
该分支可能的祖先
E
= ((A, (B,C)), (D, E))
邻近法 (Neighbor-joining, NJ)
最小进化法 (minimum evolution)
建立进化树 进化树评估
统计分析 Bootstrap Likelihood Ratio Test ……
Choosing a Method for Phylogenetic Prediction
Molecular Biology and Evolution 2005 22(3):792-802
相关文档
最新文档