核苷酸配对差异分析与中性检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章 古DNA数据分析
主要内容
• • • • 系统发育分析 遗传多维尺度分析 主成分分析 群体遗传学分析
系统发育分析
• 系统发育(phylogeny)是指一群有机体发生或进化 的历史。 • 系统发育树(phylogenetic tree),也称为谱系发 育树、谱系树、系统发生树、系统树)就是描述这 一群有机体发生或进化顺序的拓扑结构 。 • 系统发育分析(phylogenetic analysis)就是指利用 现有生物的形态或分子生物学数据重建 (reconstruction)系统发育树推断系统发生的过程。
P距离
• P-距离模式最简单的距离模型,将2个序列 间核苷酸差异率作为彼此间的遗传距离, 其计算公式为:
p nd / n
式中nd和n分别为所检测的两序列间的核苷 酸差异数和配对总数。
Jukes-cantor距离模型
• Jukes-cantor模型假定任一位点的4种核苷 酸A、T、G和C间的替代频率都是相同的, 其遗传距离为:
距离法常用的聚类算法
• 算术平均不加权的组对法(unweighted pair group method with arithmatic mean, UPGMA)、 • FM法(Fitch-Margoliash)、 • 最小进化法(minimum evolution, ME) • 邻接法(neighbor-joining, NJ)
3 4 d log(1 p ) 4 3
式中P为两个序列间核苷酸的差异率。
Kimura双参数距离模型
• 事实上,在DNA 序列中4种核苷酸的替代频 率是不同的,通常核苷酸转换的比率要高 于颠换,Kimura双参数模型考虑了转换和 颠换速率的不同,其遗传距离为:
1 1 d log(1 2 p Q) log(1 2 Q) 2 4
系统发育树
系统发育树形式
• 有根树(rooted tree)和无根树(unrooted tree)
当n=10时,有根树的数目是34 459 425、无根树是2 027 025。
系统发育树形式
• 标度树和非标度树
系统发育树形式
• 基因树和物种树
基因树与物种树之间的不同 图(a)基因的分歧时间早于物种的分歧时间 (b)基因的分歧时间晚于物种的分歧时间
距离模型的选择
• 当序列分歧比较大时,不同距离测度获的结果差 异比较大;但序列分歧比较小时,各种模型所得 的数据十分相近。目前古DNA研究的对象多为10 万年内的人、动植物等,其序列分歧度都不是很 大,因此无论选择哪种距离模型,对实验的分析 结果影响都比较小。 • 在古DNA研究中一般选用Kimura双参数距离模型, 在实际应用中,此遗传距离模型和其它模型相差 不大。
系统发生树的构建
• (1)序列比对与排序; • (2)系统发育树的重建; • (3)结果的检验。
序列比对与排序
• 序列比对与排序是构建系统发育树、进行系统发 育分析的前提和必要条件。在古DNA研究中,序 列比对的目的就是建立起所检测序列与其他序列 的同源关系,提取系统发育分析数据集。 • 序列比对有各种不同的方法,这些方法都是将同 源序列位点上相同或相似残基(称匹配位点)与 不相似残基(称不匹配位点)按一定的记分规则 转化成序列之间相似性或差异性(距离)数值进 行比较。 • ClustalX (ClustalW) 是进行此项工作的经典程序。
系统发育树的重建
• 在古DNAБайду номын сангаас究中,主要的系统发育树重建方 法有3类: 距离法 简约法 似然法
距离法
• 距离法(distance method)首先根据距离模型估算 出分类群间的进化距离,然后根据不同的聚类算 法,从进化距离最短的开始依次聚类,利用距离值矩 阵计算出最优树,或将总的树枝长度最小化而优化 出进化树 。 • 计算个体间遗传距离的替代模型有很多,最基本 的核苷酸序列替代模型是P-距离模型、Jukes— Cantor单参数模型(JC69)、Kimura双参数模型 (K2P,也称为K80),在此基础上衍生出其它 一系列模型,如Tajima-Nei模型、Tamura模型、 Tamura-Nei模型等。
式中P 和Q 分别为序列中核苷酸转换和颠换的比率
群体之间的遗传距离
• 对于群体之间的遗传距离,常用以下公式 计算:
D dij [(di d j ) / 2]
其中 dij 是指种群i和j间的平均配对差异(raw mean nucleotide pairwise difference),而d i 和 dj则分别为种群i和j内的平均配对差异。
NJ法
• NJ法在系统发育树构建中应用最为广泛,其 原理是逐步寻找新的近邻种类(序列),使最终 生成的分子树的遗传距离总长度为最小。所 谓“近邻”是指在谱系树上两个分类单元只 通过一个内部节点相连。 • 对于古DNA研究来说,通常选用NJ法构树。
简约法
• 简约法(parsimony methods)中最有影响的是最大 简约法(Maximum Parsimony, MP),该方法源于 形态性状的研究,运用最相近的生物间性状变化 量最少的演化原理确定最短的进化树,该树仅需 要最少的进化步骤就能解释所有DNA序列之间的 变异 。 • 构建最简约谱系树的位点被称为简约信息点 (informative site)当无论有多少条序列进行比 对后,如果一个位点是信息位点,那么在这个位 点上它至少要包含两种不同的核苷酸,而且每种 核苷酸至少在两个序列中出现。
最大简约树的构建
• 最大简约法应用于序列数据构建包括以下 几个步骤: ⑴ 确定所有的信息位点, ⑵ 对所有可能的树型,计算每个信息位点 上的发生核苷酸替代的最低次数,并对所 有信息位点的最低替代数目求和, ⑶ 选择核苷酸替代次数总和最小的树作为 最简约谱系树。
一致树consensus tree
• 在简约法中会产生多颗等价的简约树是很常 见的,大量近源序列组成的数据集有时会产 生成百上千棵树,无法得到准确的系统发育 信息。此时最好的办法是将所有的谱系树合 成为一个谱系树,即一致树。 • 一致树可分为: 严格一致树(strict consensus tree) 多数一致树(majority-rule consensus tree)
主要内容
• • • • 系统发育分析 遗传多维尺度分析 主成分分析 群体遗传学分析
系统发育分析
• 系统发育(phylogeny)是指一群有机体发生或进化 的历史。 • 系统发育树(phylogenetic tree),也称为谱系发 育树、谱系树、系统发生树、系统树)就是描述这 一群有机体发生或进化顺序的拓扑结构 。 • 系统发育分析(phylogenetic analysis)就是指利用 现有生物的形态或分子生物学数据重建 (reconstruction)系统发育树推断系统发生的过程。
P距离
• P-距离模式最简单的距离模型,将2个序列 间核苷酸差异率作为彼此间的遗传距离, 其计算公式为:
p nd / n
式中nd和n分别为所检测的两序列间的核苷 酸差异数和配对总数。
Jukes-cantor距离模型
• Jukes-cantor模型假定任一位点的4种核苷 酸A、T、G和C间的替代频率都是相同的, 其遗传距离为:
距离法常用的聚类算法
• 算术平均不加权的组对法(unweighted pair group method with arithmatic mean, UPGMA)、 • FM法(Fitch-Margoliash)、 • 最小进化法(minimum evolution, ME) • 邻接法(neighbor-joining, NJ)
3 4 d log(1 p ) 4 3
式中P为两个序列间核苷酸的差异率。
Kimura双参数距离模型
• 事实上,在DNA 序列中4种核苷酸的替代频 率是不同的,通常核苷酸转换的比率要高 于颠换,Kimura双参数模型考虑了转换和 颠换速率的不同,其遗传距离为:
1 1 d log(1 2 p Q) log(1 2 Q) 2 4
系统发育树
系统发育树形式
• 有根树(rooted tree)和无根树(unrooted tree)
当n=10时,有根树的数目是34 459 425、无根树是2 027 025。
系统发育树形式
• 标度树和非标度树
系统发育树形式
• 基因树和物种树
基因树与物种树之间的不同 图(a)基因的分歧时间早于物种的分歧时间 (b)基因的分歧时间晚于物种的分歧时间
距离模型的选择
• 当序列分歧比较大时,不同距离测度获的结果差 异比较大;但序列分歧比较小时,各种模型所得 的数据十分相近。目前古DNA研究的对象多为10 万年内的人、动植物等,其序列分歧度都不是很 大,因此无论选择哪种距离模型,对实验的分析 结果影响都比较小。 • 在古DNA研究中一般选用Kimura双参数距离模型, 在实际应用中,此遗传距离模型和其它模型相差 不大。
系统发生树的构建
• (1)序列比对与排序; • (2)系统发育树的重建; • (3)结果的检验。
序列比对与排序
• 序列比对与排序是构建系统发育树、进行系统发 育分析的前提和必要条件。在古DNA研究中,序 列比对的目的就是建立起所检测序列与其他序列 的同源关系,提取系统发育分析数据集。 • 序列比对有各种不同的方法,这些方法都是将同 源序列位点上相同或相似残基(称匹配位点)与 不相似残基(称不匹配位点)按一定的记分规则 转化成序列之间相似性或差异性(距离)数值进 行比较。 • ClustalX (ClustalW) 是进行此项工作的经典程序。
系统发育树的重建
• 在古DNAБайду номын сангаас究中,主要的系统发育树重建方 法有3类: 距离法 简约法 似然法
距离法
• 距离法(distance method)首先根据距离模型估算 出分类群间的进化距离,然后根据不同的聚类算 法,从进化距离最短的开始依次聚类,利用距离值矩 阵计算出最优树,或将总的树枝长度最小化而优化 出进化树 。 • 计算个体间遗传距离的替代模型有很多,最基本 的核苷酸序列替代模型是P-距离模型、Jukes— Cantor单参数模型(JC69)、Kimura双参数模型 (K2P,也称为K80),在此基础上衍生出其它 一系列模型,如Tajima-Nei模型、Tamura模型、 Tamura-Nei模型等。
式中P 和Q 分别为序列中核苷酸转换和颠换的比率
群体之间的遗传距离
• 对于群体之间的遗传距离,常用以下公式 计算:
D dij [(di d j ) / 2]
其中 dij 是指种群i和j间的平均配对差异(raw mean nucleotide pairwise difference),而d i 和 dj则分别为种群i和j内的平均配对差异。
NJ法
• NJ法在系统发育树构建中应用最为广泛,其 原理是逐步寻找新的近邻种类(序列),使最终 生成的分子树的遗传距离总长度为最小。所 谓“近邻”是指在谱系树上两个分类单元只 通过一个内部节点相连。 • 对于古DNA研究来说,通常选用NJ法构树。
简约法
• 简约法(parsimony methods)中最有影响的是最大 简约法(Maximum Parsimony, MP),该方法源于 形态性状的研究,运用最相近的生物间性状变化 量最少的演化原理确定最短的进化树,该树仅需 要最少的进化步骤就能解释所有DNA序列之间的 变异 。 • 构建最简约谱系树的位点被称为简约信息点 (informative site)当无论有多少条序列进行比 对后,如果一个位点是信息位点,那么在这个位 点上它至少要包含两种不同的核苷酸,而且每种 核苷酸至少在两个序列中出现。
最大简约树的构建
• 最大简约法应用于序列数据构建包括以下 几个步骤: ⑴ 确定所有的信息位点, ⑵ 对所有可能的树型,计算每个信息位点 上的发生核苷酸替代的最低次数,并对所 有信息位点的最低替代数目求和, ⑶ 选择核苷酸替代次数总和最小的树作为 最简约谱系树。
一致树consensus tree
• 在简约法中会产生多颗等价的简约树是很常 见的,大量近源序列组成的数据集有时会产 生成百上千棵树,无法得到准确的系统发育 信息。此时最好的办法是将所有的谱系树合 成为一个谱系树,即一致树。 • 一致树可分为: 严格一致树(strict consensus tree) 多数一致树(majority-rule consensus tree)