细菌的系统发育分析与基因组注释
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Acinetobacter baumannii MDR-TJ Acinetobacter baumannii ACICU Acinetobacter venetianus strain ATCC 31012
96
Acinetobacter junii strain ATCC 17908 Acinetobacter oleivorans DR1
系统发育树的介绍:
• 系统发育树主要是它的拓扑结构和分支长度。 • 根据拓扑结构的不同系统发育树可以分为有根树 和无根树。 有根树有一个根节点,代表所有其它节点的共同祖 先,从根节点只有唯一路径经进化到达其他任何节 点; 无根树只表明了节点之间的关系,没有进化方向, 但是通过引入外群(outgroup)或外部参考物种可 以在无根树中指派根节点。
• 系统 发育 树 也称 系 统 进化 树 ( phylogenetic tree), 它是用类似树状分支的图来表示各种( 类) 生 物之间的亲缘关系, 通过对生物序列的研究来推测 物种的进化历史 。主要是通过 DNA 序列,蛋白质序 列,蛋白质结构等来构建系统发育树,或者通过蛋白 质结构比较包括刚体结构叠合和多结构特征比较等 方法建立结构进化树 。
2.基于全基因组的系统发育树的构建
根据所采用的全基因组数据的类型, 这些方 法可以分为以下 5 类: • 多基因联合方法; • 基于基因含量的方法; • 基于基因排列信息的方法; • 基于序列短串含量特征信息的方法; • 基于代谢途径的方法。
基于序列短串含量特征信息的方法:
• 该方法基于一定的数学模型, 利用核酸或蛋白质序列短 串的频率信息构建系统发育树。如 Hao和Qi提出的组 分矢量(Composition vector)法,Otu等提出的基于 Lempel–Ziv复杂度的建树方法等。 CVTree是利用组 分矢量法实现系统发育树构建的在线工具。 • CVTree方法由郝柏林教授研究组建立,它将全基因组或 者蛋白质组序列中特定长度的片段按排序结果定义为 不同的短串,然后以短串为单位统计其在物种中出现的 频率,进而转化为物种间的距离,并以此构建系统发育树。
MP树:
93 38
83
Acinetobacter venetianus strain ATCC 31012 Acinetobacter junii strain ATCC 17908 Acinetobacter oleivorans DR1 Acinetobacter baumannii ACICU Acinetobacter baumannii strain ATCC 19606
75
Acinetobacter baumannii strain ATCC 19606 Acinetobacter baumannii Nava-81
利用MEGA6 构建系统发 育树:
77 100
Acinetobacter baumannii MDR-TJ
Acinetobacter baumannii ACICU Acinetobacter venetianus strain ATCC 31012
95
Acinetobacter junii strain ATCC 17908 Acinetobacter oleivorans DR1
2.基于全基因组的系统发育树的构建
• 在过去的几十年中, 基于单个或少数几个基因序列构建系统 发育树的方法被研究得较为透彻, 并得到了广泛应用。但由 于存在横向基因转移、并系同源基因及类群间基因进化速率 差异等因素, 基于单基因构建的基因树有时并不能代表真实 的物种树。而且利用不同基因构建的系统发育树在很多情况 下并不一致。 • 随着一些模式生物基因组测序完成, 人们陆续提出了几种基 于全基因组数据构建系统发育树的方法, 形成了一个新的研 究领域——系统发育基因组学。这些方法尽管原理不一样, 但由于都同时利用基因组中多个基因或多数序列信息构建系 统发育树, 因此或多或少地解决了上述基于单基因构建系统 发育树存在的问题。
Acinetobacter baumanii ACICU 的系统发育分析与全基因组注释
Contents:
基于ACICU 16s rRNA基因 的系统发育树 的构建
MEGA6.06
基于ACICU全 基因组的系统 发育树构建
ACICU全基因 组的基因注释
CVTree3.0
RAST2.0
系统发育树的介绍:
基于离散特征的方法 最大似然法 (maximum likelihood)
• 系统发育树
基于距离的方法
贝叶斯法 (Bayesian)
邻接法(neighbor-joining)
非 加 权 组 平 均(UPGMA)
1.基于16s rRNA基因的系统发育树的构建
16S rRNA是所有原核生物蛋白质合成必需的1种 核糖体RNA,其具有以下特点: • 1.多拷贝。每个细菌含5~1O个16S rRNA拷贝, 这使得检测敏感性较高。 • 2.多信息。16S rRNA基因内部结构由可变区和 保守区组成 。 保守区为所有细菌所共有,可 变区在不同细菌之间存在不 同程度的差异, 具有属或种的特异性,可变区与保守区交错排 列。 • 3.长度适中。16S rRNA 编码基因长度1500bp, 包含大约5O个功能域。
0.005
最大简约法(maximum parsimony method)
• 最大简约法首先是由Camin & Sokal( 1965)提出来的,经 过 Hein( 1990,1993)的研究发展使得用最大简约法来建 立进化树得到极大的发展及应用。 • 最大简约法是基于奥卡姆剃刀原则 ( Occam‘s razor)而发 展起来的一种进化树重构的方法,即突变越少的进化关系 就越有可能是物种之间的真实的进化关系,系统发生突变 越少得到的系统发生结论就越可信。 • 用简约法推断系统发生关系,首先判断信息位点。信息位 点是那些产生突变能把其中的一棵树同其他树区别开来的 位点。简约法中只考虑信息位点而不考虑非信息位点。
使用CVTree3.0构建系统发育树:
Acinetobacter baumannii AYE Acinetobacter baumannii AB0057 Acinetobacter baumannii AB307 0294 Acinetobacter baumannii 1656 2 Acinetobacter baumannii ACICU Acinetobacter baumannii TCDC Acinetobacter baumannii MDR TJ Acinetobacter baumannii MDR ZJ06 Acinetobacter baumannii BJAB07104 Acinetobacter baumannii BJAB0868 Acinetobacter baumannii TYTH 1
95
Acinetobacter junii strain ATCC 17908 Acinetobacter oleivorans DR1
ห้องสมุดไป่ตู้
77 79 100
Acinetobacter baumannii strain ATCC 19606 Acinetobacter baumannii Nava-81
构建NJ树
3.A.baumanii 的全基因组注释
• 使用RAST(Rapid Annotation using Subsystem Technology)
自定义页(可选)
(设计好之后可以删掉这个文本框哦)
Questions will be appreciated
0. 01
CVTree计算步骤:
短串长度 K的选择是影响结果 的最重要的因素 , 研究表明 , K 在6~18, 对DNA序列能获得 较好的结果 ,在3~7对蛋白质 序列能获得较好的结果。
计算长度为 K的不同短串的出现概率
通过K-1和K-2串出现的概率值来预测K串出现的概率值
通过比较不同物种的组分矢量得到物种间的距离
74
Acinetobacter baumannii Nava-81 Acinetobacter baumannii MDR-TJ
NJ树:
100
75 77
Acinetobacter baumannii strain ATCC 19606 Acinetobacter baumannii Nava-81 Acinetobacter baumannii MDR-TJ Acinetobacter baumannii ACICU Acinetobacter venetianus strain ATCC 31012
系统发育树构建一般过程:
.fasta格式
• 序列比对提供一种衡量核酸 或蛋白质序列之间相关性的 度量方法。将两条或多条序 列写成两行或多行,使尽可 能多的相同字符出现在同一 列中,将不同序列中的每一 位点进行逐一比对,构建一 个打分矩阵来表示序列间的 相似性或同源性。
评估的目的是对已 经得出的系统发育 树的置信度进行评 估,常用的方法是 自举检验法 ( bootstrap methods)。
邻接法(neighbor-joining):
• Kidd & Sgaramelh-Zonta(1971)最早提出基 于距离数据的系统发育树重构算法,从所有 可能的进化树中选择进化分支长度总和最小 的那棵树。 • 距离法通常不能找到精确的最小进化树,只 能找到近似的最小进化树,但是它的计算速 度非常快,而且准确率较高,因此被广泛应 用于系统发育分析。
即将所有的序列组用某种算法生 成多个新的进化树。将生成的许 多进化树进行比较,把所有新的 树中相同拓扑结构最多的树认为 是最真实的树,树中分支位置的 数值表示该种结构占所有树中的 百分比值,该值小于 75 通常都 认为是置信度较低的分支。
最大简约法 系统发育树的构建方法以及种类:(maximum parsimony)