遗传距离 PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总替换分歧度
• 总替换分歧度:根据序列之间的所有类型的差 异计算的未校正的遗传距离。仅适用于相似性 较高的序列。
• p=nd/n; nd为两条序列之间不匹配的位点数目, n为比对后序列长度
• 注意事项: 1)序列末端长度变异的处理 2)空位处理:作为性状;两两删除;完全删除 3)相同残基位点数目的确定:严格定义;宽松 定义(嘧啶、嘌呤)
未校正遗传距离
• 未校正遗传距离:将两个序列的所有同源位点逐一 比较,对差异绝对值求和,可以直接获得两序列间发 生的总替换数,也可以对indel、转换和颠换分别计数, 求出两条序列之间发生的indel数、转换数和颠换数。 这些数据除以序列长度就是各自的差异百分比,即未 校正的遗传距离(p-distance)。
• 贝叶斯系统发生推论法:贝叶斯推断的显著特征是,
为了得到一个统计结论能够利用先验信息和样本信息。
• 1980-2010年系统发生分析文献数量、分析方法及软件使用情况的
统计结果
系统树构建
基于距离矩阵的系统树
• 聚类分析方法:非加权配对算数平均法UPGMA • 邻接法(NJ):无根树中一个节点所连接的两个
4)模Biblioteka Baidu残基处理
转换/颠换替换分歧度
• 转换距离:序列对之间发生的转换位点数/ 序列长度。
• 颠换距离:序列对之间发生的颠换位点数/ 序列长度
同义/非同义替换分歧度
• 同义替换:蛋白质编码基因序列没有引起氨基酸取代的核 苷酸突变。
• 同义替换距离(dS)、非同义替换距离(dN)计算方法: 1)突变比例法:计算每条序列的同义替换位点数S和非同义 替换位点数N——两序列间的同义替换差异数Sd和非同义替换 差异数Nd——多重替换校正算出dS , dN, P80, MY80, NG86, I95, ZRN98, YN00 2)简并位点法:计算两条序列间无简并位点、二重简并位点、 四重简并位点差异数目——算出dS , dN;LWL85, PB93, L93, C95, MP97 3) 密码子模型法:最大似然法计算61个有义密码子间的同义 和非同义替换速率(Ks, Ka)——计算dS , dN; MG94, GY94, M96, YN98
校正的遗传距离
• 随着分歧时间延长,DNA序列上突变的固定数目增加,某些快速 进化位点上发生多重替换的概率增大,多重替换位点中后来发 生的变化将消除早期变化的任何痕迹,这可通过进化过程的假 设估计多重替换的数目来校正。
• 注意事项:
1) JC69距离≤ 0.1:JC69, K80 2) 0.1 <JC69距离< 0.3:转换频率高K80,反之JC69 3) 0.3 <JC69距离< 1.0: 碱基替换速率虽不同位点强烈变化Γ距离, 4种碱基组成频率相差较大Tajima和Nei(1984) 4)JC69距离>1.0:放弃序列,删除快速进化序列;转换成氨基酸 5)分析氨基酸序列:近缘物种,且同义替换遗传距离<1.0,用同 义替换遗传距离;远缘物种,非同义替换遗传距离
分类群互为邻居;使用最广泛的距离树,适用于 大数据集 • 最小进化法 • 叠加树法
• 距离树可靠性检验:自举检验、自举内部分支检验
• 距离树优点: 1)简单 2)稳定 • 缺点: 1)信息丢失 2)无比较次优树能力 3)统计学分析困难
• 建树软件: PAUP、MEGA、PHYLIP等
• Begin paup; bootstrap nreps=1000 search=nj; end;
遗传距离计算方法
• 未校正的遗传距离 1)总替换分歧度 2)转换/颠换替换分歧度 3)同义/非同义替换分歧度 4)indel距离 • 校正的遗传距离 1)独立估计方法: 解析公式法(JC69; K80)、最大似然法; 2)同步估计方法 • LogDet距离(考虑进化过程中碱基组成的不稳定性) • 基因组距离 • 蛋白质遗传距离(类型类似核苷酸)
• 简约法:简约法利用系统发生学上的离散资料作为特征所
构成的矩阵估计一个或多个最佳的系统发生树,而这些资料 来源可能是有遗传关系的多个物种或多个族群,之后最大简 约法在可能的亲缘树中挑选需最少步骤可形成者作为所估计 的亲缘关系树。
• 最大似然法:最大似然法明确地使用概率模型, 其目标
是寻找能够以较高概率产生观察数据的系统发生树。 最大似 然法是一类完全基于统计的系统发生树重建方法的代表。该 方法在每组序列比对中考虑了每个核苷酸替换的概率。
基因组距离
• 基因组距离:从一个基因组进化到另一个 基因组所发生的遗传改变事件的最小数目。 包含基因含量距离、基因重复距离、基因 重排距离、字符串向量距离、蛋白结构距 离
计算遗传距离的软件
• PAUP、MEGA6、TREECON、DAMBE、DnaSP、 TREE-PUZZLE
系统树构建
• 距离矩阵法
• 将序列数据转化为距离分析的优点: 1)序列本身很少有直观意义,距离能直观而具 体的表达序列之间差异; 2)将序列转换成距离,能够对各自对应的不同 进化时间的距离作相应校正。 3)距离矩阵方法运算速度快,可用于大规模数 据集的系统分析。 • 缺点: 1)转化过程中部分系统发生信息丢失; 2)转化成距离数据后无法与其他类型性状数据 联合分析; 3)只有通过性状分析才能识别特定的有用性状 (即序列位点),距离数据无法做到。
begin paup; dset dist=jc; showdist; nj; End;
第四讲 遗传距离与距离树
概念
• 遗传距离:以任何对象(序列、基因次序、基 因有无、蛋白质结构域等)采用各种方法估计 的两个OTU(个体、群体、物种、种上分类单 元或基因家族序列)之间的差异值。与距离相 对的是相似性。
• 距离矩阵:假设有n个OUT,则需要计算的成对 距离有n(n-1)/2个,通常以上三角或下三角表示。
相关文档
最新文档