浅谈系统发育分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最大似然方法(ML, Maximum Likelihood)
ML期望能够搜寻出一种进化模型,使得这个模型所能 产生的数据与观察到的数据最相似。 可以计算出每个位点的似然值,所有位点的似然值相 乘就得到了整个进化树的似然值。 在模拟研究中,如果对由相同的模型产生的数据进行 数据分析的话,ML做得总是比ME和MP要好 (Huelsenbeck, 1995)。
PAUP
scavotto@或) ftp:///paup8
MEGA5 q
http://bioinfo.weizmann.ac.il/da tabases/info/mega.sof
MOLPHY
ftp://sunmh.ism.ac.jp/pub/molp hy /sof tware/paml.html"
理论依据(2)
模型组成:
6、样本序列之间的差异代表了感兴趣的宽组。 7、样本序列之间的差异包含了足以解决感兴趣的问题 的系统发育信号。 8、样本序列是随机进化的。 9、序列中的所有位点的进化都是随机的。 10、序列中的每一个位点的进化都是独立的。
系统发育数据分析步骤
比对 建立取代模型 建立进化树 进化树评估
距离建树方法
非加权配对组算术方法(UPGMA, unweighted pair group method with arithmetic mean) 相邻连接方法(NJ,neighbor joining) 最小进化方法(ME,Minimum Evolution)
Distance-based methods
软件的选择
ML还可以使用PAUP、PHYLIP(或BioEdit) 来构建。BioEdit集成了一些PHYLIP的程序, 用来构建进化树。Tree-puzzle是另外一个不 错的选择,不过该程序是命令行格式的,需要 学习DOS命令。 贝叶斯的算法以MrBayes为代表,不过速度 较慢。一般的进化树分析中较少应用。
评估进化树和数据
系统发育信号
数据信号和随机数据作对比实验(偏斜和排 列实验)
进化树的稳健性
对观察到的数据重新取样,进行进化树的支 持实验(非参数自引导和对折方法)
实际应用中应注意的问题
输入数据的质量; 从尽可能多的角度观察数据; 分类群(外围、内在)选择; 如何看待处理结果?
一个令人苦恼的问题:How to get a real tree?
距离法、简约法和最大似然法的差异
距离方阵方法
简单的计算两个序列的差异数量。这个数量被看 作进化距离,而其准确大小依赖于进化模型的选择。 然后运行一个聚类算法,从最相似的序列开始,通过 距离值方阵计算出实际的进化树。
最大简约方法
搜索进化树的原理是要求用最小的改变来解释所 要研究的分类群之间的观察到的差异。
特征符建树方法
最大简约方法(MP,Maximum Parsimony) 是一种优化标准:对数据最好的解释也是最简单 的,而最简单的所需要的特别假定也最少。 在实际应用中,MP进化树是最短的,也是变化 最少的进化。MP分析期望能够产生大量的(有时候 是成千上万个)具有相同分值的进化树 。
特征符建树方法
系统进化树构建常用软件
软件名称 PHYLIP 网址 http://evolution.genetics.washin /phylip/software.ht ml 说 明 目前发布最广,用户最多的通用系统树构建软 件,由美国华盛顿大学Felsenstein开发, 可免费下载,适用绝大多数操作系统 国际上最通用的系统树构建软件之一,美国 simthsonion institute开发,仅适用AppleMacintosh和UNIX操作系统% E4 |$ d+ Uv# P6 K 美国宾西法尼亚州立大学MasatoshiNei开发的 分子进化遗传学软件,图形化、集成的进 化分析工具,不包括ML 日本国立统计数理研究所开发,最大似然法构 树 英国University college London 开发,最大似 然法构树和分子进化模型6 m9 q1 \! X, w3 A# A+ [
PAML
软件名称 PUZZLE/ j/ u W@1 i8 y TreeView phylogeny PHYML MrBayes
网址 ftp://fx.zi.biologie.unimuenchen.de/pub/puzzle /rod/t reeview.html /biocat/phylogeny. html http://atgc.lirmm.fr/phyml/ /9
系统发育数据分析步骤(2)
3、建树方法 3.1 、基于算法和基于标准
相邻连接方法(NJ)是一个纯粹的基于算法的 建树方法,这个方法只得到一个进化树; 一个基于标准的距离建树方法,将得到多个进化 树并对所有可能的进化树(不管这些进化树是否产生) 进行评估。
3、建树方法
3.2、基于距离和基于特征符 距离建树方法 根据一些尺度计算出双重序列的距离,然后抛 开真实数据,只是根据固定的距离建立进化树; 基于特征符的建树方法 在建立进化树时,优化了每一个特征符的真实 数据模式的分布,于是双重序列的距离不再固 定,而是取决于进化树的拓扑结构。——最常用 的基于特征符的建树方法包括MP和ML。
Phylogenomic approach(whole-genome based phylogenetics):
1. 序列分析 2.非序列分析 基于“全基因组特征(whole-genome features, WGFs)”; “罕有的基因组改变(rare genomic changes, RGCs)”( Delsuc F, et al,2005;YU Li,et al,2006)。
Thank you!!!
说 明 应用quarter puzzling方法(一种最大 简约法)构建系统树 英国University of Glasgow开发,进 化树显示工具; 欧洲生物信息研究所(EBI)的系统发 育分析软件9 快速的ML建树工具 基于贝叶斯方法的建树工具
MAC50 E) /software/mac5/ V+ L' 7 W s# f* f0 ] Tree of Life. F9 x( p% O2 k6 u# Q% @
理论依据(1)
理论依据(1)
中性理论:
“在生物分子层次上的进化改变不是由自然选择作用 于有利突变引起的,而是在连续的突变压之下由选择 中性或非常接近中性的突变的随机固定造成的,中性 突变是指对当前适应度无影响的突变。” 否认自然选择在生物进化中的作用,认为生物大分子 的进化的主要因素是机会和突变压力。6个分类单元ຫໍສະໝຸດ 距离矩阵NJ法构造的系统发育树
究竟哪一个基于距离的建树程序最好?
模拟研究表明ME最好(Huelsenbeck, 1995)。 对于绝大多数数据集而言, 一般理想模型会 比MEGA方法要好些。
究竟哪一个基于距离的建树程序最好?
模拟研究指出,对于一个大范围的进化树形 状空间,UPGMA的可操作性很差 (Huelsenbeck, 1995)。 NJ是最快的程序,并且所产生的进化树同ME 进化树相比,非常相近(Rzhetsky and Nei, 1992; Li, 1997)。
系统发育数据分析步骤(1)
1、建立数据模型(比对) 基本步骤包括: 选择合适的比对程序(计算机依赖性;系统发 育标准 ;比对参数评估 ;利用基本结构或者 高级结构进行比对 ;数学优化 ) 从比对结果中提取数据集(注意:空位分值的 处理)
系统发育数据分析步骤(2)
2、决定取代模型 :
碱基取代速率模型 在DNA中四种转换的频率比八种颠换的频率要 高;这些偏向会影响两个序列之间的预计的分歧。 位点内速率差异模型 关于位点之间的速率差异(或者叫做位点异质 性),有一个最明显的例子,就是在一个编码序列中, 三联体编码的位点差异 。
基于贝叶斯方法的建树工具
/tree/progr am/program.html
美国University of Arizona建立的系 统发育方面网站
软件的选择
构建NJ树,可以用PHYLIP或者MEGA。 构建MP树,最好的工具是PAUP,但该程序 属于商业软件,并不对科研学术免费。 MEGA和PHYLIP也可以用来构建MP树。 构建ML树可以使用PHYML,速度较快。也 可使用Tree-puzzle,该程序做蛋白质序列 的进化树效果比较好。
理论依据(2)
进化及遗传模型(Penny et al., 1994) 模型组成:
1、序列有指定的来源并且正确无误。 2、序列是同源的,而序列不是“paralog“的混合物。 3、序列比对中,不同序列的同一个位点都是同源的 4、在接受分析的一个序列组中,序列之间的系统发育史 是相同的。 5、样本足以解决感兴趣的问题。
距离法、简约法和最大似然法的差异
最大似然进化模型
可能只是简单地假定所有核苷酸(或者氨基酸)之间相互 转变的概率一样。 程序会把所有可能的核苷酸轮流置于进化树的内部节点 上,并且计算每一个这样的序列产生实际数据的可能性。 所有可能的再现的几率被加总,产生一个特定位点的似然 值,然后这个数据集的所有比对位点的似然值的加和就是 整个进化树的似然值。
浅谈系统发育分析
任航行、哈斯、何晓红 2008年1月13日
主要内容
一、理论依据 二、系统发育分析步骤 三、注意及存在问题
理论依据(1)
分子时钟假说:
对于每一个给定的基因(或者蛋白质),其分子 进化大致是恒定的。
意义:
如果蛋白质序列的进化保持一个恒定的速率,那么 这个速率就能被用于推算不同物种序列的发生分化的时 间。 分子时钟假说并不适用于所有的蛋白质。分子时钟 只能用于在长期进化历程中仍保持其生物学功能的那些 基因。
ML期望能够搜寻出一种进化模型,使得这个模型所能 产生的数据与观察到的数据最相似。 可以计算出每个位点的似然值,所有位点的似然值相 乘就得到了整个进化树的似然值。 在模拟研究中,如果对由相同的模型产生的数据进行 数据分析的话,ML做得总是比ME和MP要好 (Huelsenbeck, 1995)。
PAUP
scavotto@或) ftp:///paup8
MEGA5 q
http://bioinfo.weizmann.ac.il/da tabases/info/mega.sof
MOLPHY
ftp://sunmh.ism.ac.jp/pub/molp hy /sof tware/paml.html"
理论依据(2)
模型组成:
6、样本序列之间的差异代表了感兴趣的宽组。 7、样本序列之间的差异包含了足以解决感兴趣的问题 的系统发育信号。 8、样本序列是随机进化的。 9、序列中的所有位点的进化都是随机的。 10、序列中的每一个位点的进化都是独立的。
系统发育数据分析步骤
比对 建立取代模型 建立进化树 进化树评估
距离建树方法
非加权配对组算术方法(UPGMA, unweighted pair group method with arithmetic mean) 相邻连接方法(NJ,neighbor joining) 最小进化方法(ME,Minimum Evolution)
Distance-based methods
软件的选择
ML还可以使用PAUP、PHYLIP(或BioEdit) 来构建。BioEdit集成了一些PHYLIP的程序, 用来构建进化树。Tree-puzzle是另外一个不 错的选择,不过该程序是命令行格式的,需要 学习DOS命令。 贝叶斯的算法以MrBayes为代表,不过速度 较慢。一般的进化树分析中较少应用。
评估进化树和数据
系统发育信号
数据信号和随机数据作对比实验(偏斜和排 列实验)
进化树的稳健性
对观察到的数据重新取样,进行进化树的支 持实验(非参数自引导和对折方法)
实际应用中应注意的问题
输入数据的质量; 从尽可能多的角度观察数据; 分类群(外围、内在)选择; 如何看待处理结果?
一个令人苦恼的问题:How to get a real tree?
距离法、简约法和最大似然法的差异
距离方阵方法
简单的计算两个序列的差异数量。这个数量被看 作进化距离,而其准确大小依赖于进化模型的选择。 然后运行一个聚类算法,从最相似的序列开始,通过 距离值方阵计算出实际的进化树。
最大简约方法
搜索进化树的原理是要求用最小的改变来解释所 要研究的分类群之间的观察到的差异。
特征符建树方法
最大简约方法(MP,Maximum Parsimony) 是一种优化标准:对数据最好的解释也是最简单 的,而最简单的所需要的特别假定也最少。 在实际应用中,MP进化树是最短的,也是变化 最少的进化。MP分析期望能够产生大量的(有时候 是成千上万个)具有相同分值的进化树 。
特征符建树方法
系统进化树构建常用软件
软件名称 PHYLIP 网址 http://evolution.genetics.washin /phylip/software.ht ml 说 明 目前发布最广,用户最多的通用系统树构建软 件,由美国华盛顿大学Felsenstein开发, 可免费下载,适用绝大多数操作系统 国际上最通用的系统树构建软件之一,美国 simthsonion institute开发,仅适用AppleMacintosh和UNIX操作系统% E4 |$ d+ Uv# P6 K 美国宾西法尼亚州立大学MasatoshiNei开发的 分子进化遗传学软件,图形化、集成的进 化分析工具,不包括ML 日本国立统计数理研究所开发,最大似然法构 树 英国University college London 开发,最大似 然法构树和分子进化模型6 m9 q1 \! X, w3 A# A+ [
PAML
软件名称 PUZZLE/ j/ u W@1 i8 y TreeView phylogeny PHYML MrBayes
网址 ftp://fx.zi.biologie.unimuenchen.de/pub/puzzle /rod/t reeview.html /biocat/phylogeny. html http://atgc.lirmm.fr/phyml/ /9
系统发育数据分析步骤(2)
3、建树方法 3.1 、基于算法和基于标准
相邻连接方法(NJ)是一个纯粹的基于算法的 建树方法,这个方法只得到一个进化树; 一个基于标准的距离建树方法,将得到多个进化 树并对所有可能的进化树(不管这些进化树是否产生) 进行评估。
3、建树方法
3.2、基于距离和基于特征符 距离建树方法 根据一些尺度计算出双重序列的距离,然后抛 开真实数据,只是根据固定的距离建立进化树; 基于特征符的建树方法 在建立进化树时,优化了每一个特征符的真实 数据模式的分布,于是双重序列的距离不再固 定,而是取决于进化树的拓扑结构。——最常用 的基于特征符的建树方法包括MP和ML。
Phylogenomic approach(whole-genome based phylogenetics):
1. 序列分析 2.非序列分析 基于“全基因组特征(whole-genome features, WGFs)”; “罕有的基因组改变(rare genomic changes, RGCs)”( Delsuc F, et al,2005;YU Li,et al,2006)。
Thank you!!!
说 明 应用quarter puzzling方法(一种最大 简约法)构建系统树 英国University of Glasgow开发,进 化树显示工具; 欧洲生物信息研究所(EBI)的系统发 育分析软件9 快速的ML建树工具 基于贝叶斯方法的建树工具
MAC50 E) /software/mac5/ V+ L' 7 W s# f* f0 ] Tree of Life. F9 x( p% O2 k6 u# Q% @
理论依据(1)
理论依据(1)
中性理论:
“在生物分子层次上的进化改变不是由自然选择作用 于有利突变引起的,而是在连续的突变压之下由选择 中性或非常接近中性的突变的随机固定造成的,中性 突变是指对当前适应度无影响的突变。” 否认自然选择在生物进化中的作用,认为生物大分子 的进化的主要因素是机会和突变压力。6个分类单元ຫໍສະໝຸດ 距离矩阵NJ法构造的系统发育树
究竟哪一个基于距离的建树程序最好?
模拟研究表明ME最好(Huelsenbeck, 1995)。 对于绝大多数数据集而言, 一般理想模型会 比MEGA方法要好些。
究竟哪一个基于距离的建树程序最好?
模拟研究指出,对于一个大范围的进化树形 状空间,UPGMA的可操作性很差 (Huelsenbeck, 1995)。 NJ是最快的程序,并且所产生的进化树同ME 进化树相比,非常相近(Rzhetsky and Nei, 1992; Li, 1997)。
系统发育数据分析步骤(1)
1、建立数据模型(比对) 基本步骤包括: 选择合适的比对程序(计算机依赖性;系统发 育标准 ;比对参数评估 ;利用基本结构或者 高级结构进行比对 ;数学优化 ) 从比对结果中提取数据集(注意:空位分值的 处理)
系统发育数据分析步骤(2)
2、决定取代模型 :
碱基取代速率模型 在DNA中四种转换的频率比八种颠换的频率要 高;这些偏向会影响两个序列之间的预计的分歧。 位点内速率差异模型 关于位点之间的速率差异(或者叫做位点异质 性),有一个最明显的例子,就是在一个编码序列中, 三联体编码的位点差异 。
基于贝叶斯方法的建树工具
/tree/progr am/program.html
美国University of Arizona建立的系 统发育方面网站
软件的选择
构建NJ树,可以用PHYLIP或者MEGA。 构建MP树,最好的工具是PAUP,但该程序 属于商业软件,并不对科研学术免费。 MEGA和PHYLIP也可以用来构建MP树。 构建ML树可以使用PHYML,速度较快。也 可使用Tree-puzzle,该程序做蛋白质序列 的进化树效果比较好。
理论依据(2)
进化及遗传模型(Penny et al., 1994) 模型组成:
1、序列有指定的来源并且正确无误。 2、序列是同源的,而序列不是“paralog“的混合物。 3、序列比对中,不同序列的同一个位点都是同源的 4、在接受分析的一个序列组中,序列之间的系统发育史 是相同的。 5、样本足以解决感兴趣的问题。
距离法、简约法和最大似然法的差异
最大似然进化模型
可能只是简单地假定所有核苷酸(或者氨基酸)之间相互 转变的概率一样。 程序会把所有可能的核苷酸轮流置于进化树的内部节点 上,并且计算每一个这样的序列产生实际数据的可能性。 所有可能的再现的几率被加总,产生一个特定位点的似然 值,然后这个数据集的所有比对位点的似然值的加和就是 整个进化树的似然值。
浅谈系统发育分析
任航行、哈斯、何晓红 2008年1月13日
主要内容
一、理论依据 二、系统发育分析步骤 三、注意及存在问题
理论依据(1)
分子时钟假说:
对于每一个给定的基因(或者蛋白质),其分子 进化大致是恒定的。
意义:
如果蛋白质序列的进化保持一个恒定的速率,那么 这个速率就能被用于推算不同物种序列的发生分化的时 间。 分子时钟假说并不适用于所有的蛋白质。分子时钟 只能用于在长期进化历程中仍保持其生物学功能的那些 基因。