遗传距离
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
遗传距离计算方法
• 未校正的遗传距离 1)总替换分歧度
2)转换/颠换替换分歧度
3)同义/非同义替换分歧度 4)indel距离 • 校正的遗传距离 1)独立估计方法: 解析公式法(JC69; K80)、最大似然法;
2)同步估计方法
• LogDet距离(考虑进化过程中碱基组成的不稳定性) • 基因组距离
• Begin paup; bootstrap nreps=1000 search=nj; end;
begin paup; dset dist=jc; showdist; nj; End;
校正的遗传距离
基因组距离
• 基因组距离:从一个基因组进化到另一个 基因组所发生的遗传改变事件的最小数目。 包含基因含量距离、基因重复距离、基因 重排距离、字符串向量距离、蛋白结构距 离
计算遗传距离的软件
• PAUP、MEGA6、TREECON、DAMBE、DnaSP、 TREE-PUZZLE
系统树构建
是寻找能够以较高概率产生观察数据的系统发生树。 最大似 然法是一类完全基于统计的系统发生树重建方法的代表。该 方法在每组序列比对中考虑了每个核苷酸替换的概率。 为了得到一个统计结论能够利用先验信息和样本信息。
• 贝叶斯系统发生推论法:贝叶斯推断的显著特征是,
• 19Leabharlann Baidu0-2010年系统发生分析文献数量、分析方法及软件使用情况的 统计结果 系统树构建
第四讲 遗传距离与距离树
概念
• 遗传距离:以任何对象(序列、基因次序、基 因有无、蛋白质结构域等)采用各种方法估计 的两个OTU(个体、群体、物种、种上分类单 元或基因家族序列)之间的差异值。与距离相 对的是相似性。
• 距离矩阵:假设有n个OUT,则需要计算的成对 距离有n(n-1)/2个,通常以上三角或下三角表示。
基于距离矩阵的系统树
• 聚类分析方法:非加权配对算数平均法UPGMA • 邻接法(NJ):无根树中一个节点所连接的两个 分类群互为邻居;使用最广泛的距离树,适用于 大数据集 • 最小进化法 • 叠加树法
• 距离树可靠性检验:自举检验、自举内部分支检验
• 距离树优点: 1)简单 2)稳定 • 缺点: 1)信息丢失 2)无比较次优树能力 3)统计学分析困难 • 建树软件: PAUP、MEGA、PHYLIP等
• 距离矩阵法 • 简约法:简约法利用系统发生学上的离散资料作为特征所
构成的矩阵估计一个或多个最佳的系统发生树,而这些资料 来源可能是有遗传关系的多个物种或多个族群,之后最大简 约法在可能的亲缘树中挑选需最少步骤可形成者作为所估计 的亲缘关系树。
• 最大似然法:最大似然法明确地使用概率模型, 其目标
总替换分歧度
• 总替换分歧度:根据序列之间的所有类型的差 异计算的未校正的遗传距离。仅适用于相似性 较高的序列。 • p=nd/n; nd为两条序列之间不匹配的位点数目, n为比对后序列长度 • 注意事项: 1)序列末端长度变异的处理 2)空位处理:作为性状;两两删除;完全删除 3)相同残基位点数目的确定:严格定义;宽松 定义(嘧啶、嘌呤) 4)模糊残基处理
• 蛋白质遗传距离(类型类似核苷酸)
未校正遗传距离
• 未校正遗传距离:将两个序列的所有同源位点逐一 比较,对差异绝对值求和,可以直接获得两序列间发 生的总替换数,也可以对indel、转换和颠换分别计数, 求出两条序列之间发生的indel数、转换数和颠换数。 这些数据除以序列长度就是各自的差异百分比,即未 校正的遗传距离(p-distance)。
转换/颠换替换分歧度
• 转换距离:序列对之间发生的转换位点数/ 序列长度。 • 颠换距离:序列对之间发生的颠换位点数/ 序列长度
同义/非同义替换分歧度
• 同义替换:蛋白质编码基因序列没有引起氨基酸取代的核 苷酸突变。 • 同义替换距离(dS)、非同义替换距离(dN)计算方法: 1)突变比例法:计算每条序列的同义替换位点数S和非同义 替换位点数N——两序列间的同义替换差异数Sd和非同义替换 差异数Nd——多重替换校正算出dS , dN, P80, MY80, NG86, I95, ZRN98, YN00 2)简并位点法:计算两条序列间无简并位点、二重简并位点、 四重简并位点差异数目——算出dS , dN;LWL85, PB93, L93, C95, MP97 3) 密码子模型法:最大似然法计算61个有义密码子间的同义 和非同义替换速率(Ks, Ka)——计算dS , dN; MG94, GY94, M96, YN98
• 将序列数据转化为距离分析的优点: 1)序列本身很少有直观意义,距离能直观而具 体的表达序列之间差异; 2)将序列转换成距离,能够对各自对应的不同 进化时间的距离作相应校正。 3)距离矩阵方法运算速度快,可用于大规模数 据集的系统分析。 • 缺点: 1)转化过程中部分系统发生信息丢失; 2)转化成距离数据后无法与其他类型性状数据 联合分析; 3)只有通过性状分析才能识别特定的有用性状 (即序列位点),距离数据无法做到。