生物信息学系统发育分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
物种分化
动物祖先中发生基因复制,
产生A和B两个同源基因
生物信息学
14
Orthology, paralogy and proposed classification for paralog subtypes
[ Erik L.L. Sonnhammer & Eugene V. Koonin. TiG 18, 2002 ] “Koonin_2002_TIG_Orthology_paralogy.pdf” 课程页面下载
生物信息学
22
2. 序列比对
只有正确的比对结果才会/能推出正确的系统发育。错误的比 对结果会导致最后发育树在分类上的错误,甚至是整个树的 错误。
多序列比对的结果应该进行检验并找出一个最合理的结果。 序列自动比对的结果通常会存在错误,应该进行进一步的编 辑或是进行提炼。
对这些同源分子的序列进行多序列比对(multiple sequences alignment), 截取比对的最好的区域作为物种的代表序列。
生物信息学
25
小结(一)
一般情况下, 若有合适模型,ML的效果较好; 远缘序列,一般使用NJ或ML;但是对相似度很低的序列,
NJ 往往出现 Long-branch attraction(LBA,长枝吸引现 象),有时严重干扰进化树的构建。 贝叶斯的方法能得出最好的树,但是太慢。
对于近缘序列的大系统发育,通常用 NJ (P 距离法),结 果相同,时间少。
41
实例操作,请见上机ppt
1. cGAS protein sequences -> test.fa file
和《多序列比对》章节同一个FASTA文件
2. 多序列比对
ClustalX -> test.aln, test.dnd 3. 建树
Mega -> .meg, .nwk, .emf, .tiff
[ Erik L.L. Sonnhammer & Eugene V. Koonin. TiG 18, 2002 ] “Koonin_2002_TIG_Orthology_paralogy.pdf” 课程页面下载
物种分化
HA*
orthologs
WA*
Yeast 基因和 所有的 human/worm基 因是直系同源 关系
生物信息学
7
What phylogeny?
生物信息学
8
系统发育 phylogeny – 生物形成或进化的历史
系统发育学 phylogenetics – 研究物种之间的进化 关系
系统发育树 phylogenetic tree – 描述物种之间进 化关系的树
生物信息学
9
系统发育树
系统发育树就是一个用来表示一组对象之 间进化关系的树形结构。分有根(rooted)和 无根(unrooted)树。
[ Erik L.L. Sonnhammer & Eugene V. Koonin. TiG 18, 2002 ]
paralogs paralogs
物种分化
物种分化
动物祖先中发生基因复制,
产生A和B两个同源基因
生物信息学
16
The recombination problem
(many to many relationship)
若序列相似度高,各种方法均不错。
生物信息学
26
小结(二)
NJ 和 ML需要选择模型。(Nei) 以经验来说,
对于蛋白质的序列,一般选择Poisson Correction(泊松修正)模型。 对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。 不推荐初学者使用其他复杂的模型。
表明这个位置的branch分叉成两个子 branches的可信度;一般认为Boostrap value>70是可靠的;或者说这个位置出现 这样的分叉,在进化上是稳定的。
生物信息学
31
系统发育树中常用软件比较介绍
生物信息学
32
多序列比对的软件
ClustalX/W Tcoffee Mafft Proscons MUSCLE MAUVE, LAGAN, etc (Genome alignment) …
生物信息学
37
Kumar lab@Temple university
http://www.kumarlab.net/
生物信息学
38wk.baidu.com
Mega 界面
生物信息学
39
Draw tree 树的可视化软件
常用软件
MEGA
TreeView
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
genomics, Functional genomics,
Structural genomics, Metagenomics
生物信息学
6
系统发育的重要性
研究物种的进化历史 进化树的研究有助于基因功能的研究;基
因功能的预测可由基因的进化史中提炼出 来。 进化树的研究有助于了解病毒的起源、病 毒传播的方式。
系统发育分析
Phylogenetics
生物信息学
内容
系统发育的介绍 方法综述(序列比对,构树方法) 树的构建-MEGA 树的可视化 实例操作
生物信息学
2
Why phylogeny?
生物信息学
3
Species tree 物种树:研究物种的进化历史
生物信息学
4
Gene tree 基因树
速度快 ……
生物信息学
34
http://evolution.genetics.washington.edu/phylip/software.html
生物信息学
35
Mega
Latest version Mega X
http://www.megasoftware.net/
生物信息学
36
Useful guides: how to use Mega
生物信息学
17
How phylogeny?
生物信息学
18
进化树的构建
基本思想:
物种内同功能生物分子(如蛋白质或核酸分 子)的相似程度越高,则物种的亲缘关系越 近。
具体步骤:
生物信息学
19
1. 选择“特征分子”。原则是:a. 各个物种都有 的同源分子,b. 进化速率适当;
2. 对这些同源分子的序列进行多序列比对(multisequences alignment),截取比对的最好区域 作为物种的代表序列;
FigTree (Editable) http://tree.bio.ed.ac.uk/software/figtree/
iTOL
http://itol.embl.de/
生物信息学
40
Published trees
Circle 圆形的
Rectangular 矩形的
Radiation
生物信息学 辐射状的
基因复制
用于分子进化分析中的
序列必须是直系同源的, 才能真实反映进化过程。
物种分化
生物信息学
12
物种分化
基因a的系统发育树
a1
a a2
a1_species1 a1_species2
orthologs
a2_species1 a2_species2
orthologs
生物信息学
13
Orthology, paralogy and proposed classification for paralog subtypes
生物信息学
33
常用进化分析软件
PHYLIP:发布早,使用广泛 MEGA: 图形化界面,方便初学者使用 PAUP*: 商业软件 MrBayes: 能得出最可靠的树,但速度很慢 PAML: 不太合适构建进化树,但用于计算进化距离,替代
速率等,基于已知的进化树 PHYML: 常用ML算法软件,近似的最大似然法,耗时少,
如果基因树中的某种分支方式被序列中大多数的位点支持, 则从大多数自举样本得来的基因树会包含同样的分支方式。
high bootstrap value
但如果支持某种分支方式的位点数相对较少,则来自许多
自举样本的基因树将不包括这种分支方式。 low
bootstrap value
生物信息学
30
统计值 Bootstrap value:
Bootstrap必选。一般Bootstrap的值>70,则认为构建的进化树较 为稳定。如果Bootstrap的值太低,则有可能进化树的拓扑结构 有错误,进化树是不稳定的。
一般推荐用两种不同的方法构建进化树,如果所得到的进化树类 似,则结果较为可靠。
生物信息学
27
5. 自展-Bootstrap
4. Edit tree (本课程不讲授)
.nwk => Figtree 专业的系统发育树编辑软件 .emf => Canvas 适量图作图软件
生物信息学
42
掌握内容
直系同源(orthologs)和旁系同源 (paralogs)的概念,并能根据基因的系统 发育树进行判断。
列举多序列比对、构建系统发育树、树的 可视化相关的软件或工具。
HA* WA*
co-orthologs:
[ HA* <-> WA* ] also called lineage-specific expansions of paralogous families.
orthologs
物种分化
物种分化
动物祖先中发生基因复制,
产生A和B两个同源基因
生物信息学
15
Orthology, paralogy and proposed classification for paralog subtypes
有根树反映了树上物种或基因的时间顺序 无根树只反映分类单元之间的距离而不涉及谁
是谁的祖先问题。
生物信息学
10
无根树
有根树
生物信息学
11
直系同源与旁系同源
直系同源(orthologs):从共同的祖先基因进化而产生的 不同物种中的同源基因;
旁系同源(paralogs):同源的基因是由于基因复制产生的。
自展检验:用来推断树可靠性的检验。
Felsenstein (1985)提出
自展检验是放回式抽样统计法的一种,通 过对数据集多次重复取样,构建多个进化 树,用来检查给定树的分枝可信度。
生物信息学
28
生物信息学实验
29
Bootstrap步骤
通过随机选择位点,从实际数据中构造出100个(或者1000 个乃至更多)多序列比对的数据集,每个数据集构建一颗 基因树。自举抽样是以放回式抽样的方式进行的。
生物信息学
5
系统发育的重要性
Nothing in biology makes sense except in the light of evolution.
------ Theodosius Dobzhansky
基于系统发育分析的研究在生命科学领域 越来越重要。
Evolutionary genomics, Comparative
在大多数情况下,通过蛋白质序列研究要比 用核酸序列研究要好,因为蛋白质序列含有 更多相对保守的序列
生物信息学
21
1. 选择特征分子
由于蛋白质序列由20种氨基酸组成,而核 酸序列是由4种核酸组成,因此蛋白质序列 的比对比DNA序列的比对更灵敏。
大多数情况下以蛋白质为基础的发育树比 以DNA为基础的发生树更恰当。
生物信息学
23
3. 计算距离
本课程不讲授 与构建系统发育树的具体方法所
涉及到的算法有关。
生物信息学
24
4. 目前构建进化树的方法
主要有: 基于距离的方法
最小进化法 (ME) 邻接法(NJ) 类平均法(UPGMA)
基于性状的方法
最大简约法(MP) 最大似然法(ML)
贝叶斯方法 Bayesian method
Gene duplication, gene loss, gene conversion (基因 转换), and horizontal gene transfer (水平基因转移).
Multidomain (多结构域) proteins: partial homology
基因转换: The replacing of a block of DNA from one gene with the homologous residues in its paralog.
理解Bootstrap值的含义。
3. 按某种方法,算出代表序列两两之间的差异度
4. 基于这些差异度,绘制系统发育树
5. 对系统发育树进行可信度检验(自展值, bootstrap)
生物信息学
20
1. 选择特征分子
既可以用核酸序列又可以用蛋白序列
主要取决于序列的性质和研究的目的 核酸的分子钟速度快,适宜分析近缘种间的
进化
蛋白质进化缓慢,适于研究远源种间的系统 关系。