核苷酸或氨基酸很
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序列分析(四)
一一分子进化 (系统发生分析2)
3.2 最大简约法(MP)
最大简约法(maximum parsimony,MP)最 早源于形态性状研究,现在已经推广到分子 序列的进化分析中。最大简约法的理论基础 是奥卡姆(Ockham)哲学原则,这个原则认 为:解释一个过程的最好理论是所需假设数 目最少的那一个。
进化树的可靠性分析:
自展法(Bootstrap Method)
1. 从排列的多序列中随机有放回的抽取某一序列,
构成新的排列序列;
2. 重复上面的过程,得到多组新的序列; 3. 对这些新的序列进行建树,再观察这些树与原始
树是否有差异,以此评价建树的可靠性。
4. 氨基酸与DNA的进化 距离
(1)位点不存在回复突变、平行突变; (2)被分析的序列较长,核苷酸或氨基酸数目很大;
(3)序列的相似度较高;
(4)核苷酸或氨基酸替代速率较稳定。
优点: 不需要在处理核苷酸或者氨基酸替代的时 候引入假设(替代模型)。 此外,最大简约法对于分析某些特殊的分 子数据如插入、缺失等序列有用。 缺点:
在分析序列上存在较多的回复突变或平行 突变,而被检验的序列位点数又比较少的时候, 最大简约法可能会给出一个不合理的甚至错误 的进化树推导结果。
1. Position 5, 7, 9为信息位点; 2. 基于position 5的三个MP树: Tree 1长度是1,Tree 2和Tree 3的长度是2; 3. Tree 1更为简约:总长:4; Tree 2长5;Tree 3长6;
4. 计算结果:MP tree的最优结果为Tree 1.
MP法适用的问题
3.3 最大似然法(ML)
利用ML构建进化树的步骤: 1. 选取一个特定的替代模型来分析给定的一组序列 数据; 2. 使得获得的每一个拓扑结构的似然率都为最大值 ; 3. 然后再挑出其中似然率最大的拓扑结构作为最优 树。 缺点:巨大的计算量 优点:具有很好的统计学理论基础,在当样本量很 大的时候,似然法可以获得参数统计的最小方差。 只要使用了一个合理的、正确的替代模型,最大 似然法可以推导出一个很好的进化树结果。
最大简约法利用的是信息位点,所谓信息位点就 是指能由位点产生的突变数目把一棵树与其它树区分
开来的位点。
信息位点必须是至少存在2种不同碱基且每种碱 基至少出现两次的位点。
根据信息位点可构建不同的拓扑进化树,对所有
可能的拓扑结构进行最小核苷酸替换数总和的计算,
算出所需替代数最小的那个拓扑结构,作为最优树。
3.4 构建进化树的一般原则
一般采用两种以 上方法构建进化 树,无显著区别 可接受。
选择外群(Outgroup)
1. 选择一个或多个已知与分析序列关系较远
的序列作为外群;
2.外群可以辅助定位树根; 3.外群序列必须与剩余序列关系较近,但外
群序列与其他序列间的差异必须比其他序列 之间的差异更显著。
P距离
nd p n
所有的插入/缺 失都要删除!
不同物种的血红蛋白α链中不同氨基酸的数目及比例。长度:140aa
泊松校正
1. 序列差异的百分比( p )与分歧时间 t 的关系:t 较
短的时候,回复突变较少,两者大致成线性关系; 当 t 较大时,回复突变增多,二者成非线性关系; 2. 令 r 为某一位点每年的氨基酸替代率,并假设所 有位点的 r 都相同:基本假设; 3. 在时间 t 年之后,每个位点替代的平均数为:rt; 给定一个位点,氨基酸替代数 k (k=0,1,2,3,…)的可 能性遵循泊松分布,即 e rt (rt ) k P(k ; t ) k! rt 4. 因此,某一位点氨基酸不变的概率为 P(0; t ) e
1. 祖先序列未知:不知道当前的序列从何演化而来。
2. 解决方案:对两条已经有 t 年分化的序列,一条序 e rt ,两条序列则为: q (ert )2 e2rt 列无替代的概率为:
3. 则发生突变的概率为p=1-q;
4. 泊松校正距离d=2rt 5. 因此,
q (e rt ) 2 e 2 rt 1 p e d d ln(1 p ) d ln(1 p )
4.2 DNA的演化距离
1. 基因组上存在着多种多样的DNA区域,例
如蛋白质编码区,非编码区,内含子,侧翼 区,重复片断以及插入序列等;
2. 考虑编码区的DNA序列的进化演变模型; 3. Jukes-Cantor法与Kimura两参数法
1. 对于两条长度为n的DNA序列,不同的碱基对为nd;
4.1 氨基酸的演化距离
1. 分子进化的分析:基于氨基酸序列的分析
早于DNA序列。 2. 优势:氨基酸序列更为保守,对年代跨度 大的进化分析有帮助;数学模型较DNA更为 简单; 3. p距离:p-distance; 4. 泊松校正,d距离; 5. Г距离;
P-distance
令两条蛋白质序列之间的氨基酸差异数为nd, 所有序列的氨基酸数目相同为n,则
d=-ln(1-p),即泊松距离。
ห้องสมุดไป่ตู้
P-距离 vs. 泊松距离
Г距离
1. p-距离和泊松距离:氨基酸替代率在所有位点是
相同的; 2. 实际情况:功能次要的位点比功能重要的位点替 代率更高; 3.氨基酸替代率的实际观测与Г分布近似符合。 Г距离是: a需要估算,一般在0.2-3.5之间。一般来说,p>0.2 并且a<0.65的时候,用Г分布能够得到较好的结果
最大似然法(ML)的创始人 ————杨子恒 2006年英国皇家科学院,大陆旅 英学者中获此殊荣的第一人,现 为伦敦大学学院统计遗传学教授。 出生在甘肃定西地区的通渭县, 1980年他考进甘肃农业大学,学 的是畜牧专业,“误入”生物领 域。后来在北京农业大学读研究 生时,选择了与数学关系密切的 统计遗传学。
2. 核苷酸的改变p:转换P、颠换Q,则:p=P+Q
3. 当p较小时,如果核苷酸替代是随机发生的,通常
转换比颠换出现频率高; Jukes-Cantor法得到的两条DNA序列的距离:
一一分子进化 (系统发生分析2)
3.2 最大简约法(MP)
最大简约法(maximum parsimony,MP)最 早源于形态性状研究,现在已经推广到分子 序列的进化分析中。最大简约法的理论基础 是奥卡姆(Ockham)哲学原则,这个原则认 为:解释一个过程的最好理论是所需假设数 目最少的那一个。
进化树的可靠性分析:
自展法(Bootstrap Method)
1. 从排列的多序列中随机有放回的抽取某一序列,
构成新的排列序列;
2. 重复上面的过程,得到多组新的序列; 3. 对这些新的序列进行建树,再观察这些树与原始
树是否有差异,以此评价建树的可靠性。
4. 氨基酸与DNA的进化 距离
(1)位点不存在回复突变、平行突变; (2)被分析的序列较长,核苷酸或氨基酸数目很大;
(3)序列的相似度较高;
(4)核苷酸或氨基酸替代速率较稳定。
优点: 不需要在处理核苷酸或者氨基酸替代的时 候引入假设(替代模型)。 此外,最大简约法对于分析某些特殊的分 子数据如插入、缺失等序列有用。 缺点:
在分析序列上存在较多的回复突变或平行 突变,而被检验的序列位点数又比较少的时候, 最大简约法可能会给出一个不合理的甚至错误 的进化树推导结果。
1. Position 5, 7, 9为信息位点; 2. 基于position 5的三个MP树: Tree 1长度是1,Tree 2和Tree 3的长度是2; 3. Tree 1更为简约:总长:4; Tree 2长5;Tree 3长6;
4. 计算结果:MP tree的最优结果为Tree 1.
MP法适用的问题
3.3 最大似然法(ML)
利用ML构建进化树的步骤: 1. 选取一个特定的替代模型来分析给定的一组序列 数据; 2. 使得获得的每一个拓扑结构的似然率都为最大值 ; 3. 然后再挑出其中似然率最大的拓扑结构作为最优 树。 缺点:巨大的计算量 优点:具有很好的统计学理论基础,在当样本量很 大的时候,似然法可以获得参数统计的最小方差。 只要使用了一个合理的、正确的替代模型,最大 似然法可以推导出一个很好的进化树结果。
最大简约法利用的是信息位点,所谓信息位点就 是指能由位点产生的突变数目把一棵树与其它树区分
开来的位点。
信息位点必须是至少存在2种不同碱基且每种碱 基至少出现两次的位点。
根据信息位点可构建不同的拓扑进化树,对所有
可能的拓扑结构进行最小核苷酸替换数总和的计算,
算出所需替代数最小的那个拓扑结构,作为最优树。
3.4 构建进化树的一般原则
一般采用两种以 上方法构建进化 树,无显著区别 可接受。
选择外群(Outgroup)
1. 选择一个或多个已知与分析序列关系较远
的序列作为外群;
2.外群可以辅助定位树根; 3.外群序列必须与剩余序列关系较近,但外
群序列与其他序列间的差异必须比其他序列 之间的差异更显著。
P距离
nd p n
所有的插入/缺 失都要删除!
不同物种的血红蛋白α链中不同氨基酸的数目及比例。长度:140aa
泊松校正
1. 序列差异的百分比( p )与分歧时间 t 的关系:t 较
短的时候,回复突变较少,两者大致成线性关系; 当 t 较大时,回复突变增多,二者成非线性关系; 2. 令 r 为某一位点每年的氨基酸替代率,并假设所 有位点的 r 都相同:基本假设; 3. 在时间 t 年之后,每个位点替代的平均数为:rt; 给定一个位点,氨基酸替代数 k (k=0,1,2,3,…)的可 能性遵循泊松分布,即 e rt (rt ) k P(k ; t ) k! rt 4. 因此,某一位点氨基酸不变的概率为 P(0; t ) e
1. 祖先序列未知:不知道当前的序列从何演化而来。
2. 解决方案:对两条已经有 t 年分化的序列,一条序 e rt ,两条序列则为: q (ert )2 e2rt 列无替代的概率为:
3. 则发生突变的概率为p=1-q;
4. 泊松校正距离d=2rt 5. 因此,
q (e rt ) 2 e 2 rt 1 p e d d ln(1 p ) d ln(1 p )
4.2 DNA的演化距离
1. 基因组上存在着多种多样的DNA区域,例
如蛋白质编码区,非编码区,内含子,侧翼 区,重复片断以及插入序列等;
2. 考虑编码区的DNA序列的进化演变模型; 3. Jukes-Cantor法与Kimura两参数法
1. 对于两条长度为n的DNA序列,不同的碱基对为nd;
4.1 氨基酸的演化距离
1. 分子进化的分析:基于氨基酸序列的分析
早于DNA序列。 2. 优势:氨基酸序列更为保守,对年代跨度 大的进化分析有帮助;数学模型较DNA更为 简单; 3. p距离:p-distance; 4. 泊松校正,d距离; 5. Г距离;
P-distance
令两条蛋白质序列之间的氨基酸差异数为nd, 所有序列的氨基酸数目相同为n,则
d=-ln(1-p),即泊松距离。
ห้องสมุดไป่ตู้
P-距离 vs. 泊松距离
Г距离
1. p-距离和泊松距离:氨基酸替代率在所有位点是
相同的; 2. 实际情况:功能次要的位点比功能重要的位点替 代率更高; 3.氨基酸替代率的实际观测与Г分布近似符合。 Г距离是: a需要估算,一般在0.2-3.5之间。一般来说,p>0.2 并且a<0.65的时候,用Г分布能够得到较好的结果
最大似然法(ML)的创始人 ————杨子恒 2006年英国皇家科学院,大陆旅 英学者中获此殊荣的第一人,现 为伦敦大学学院统计遗传学教授。 出生在甘肃定西地区的通渭县, 1980年他考进甘肃农业大学,学 的是畜牧专业,“误入”生物领 域。后来在北京农业大学读研究 生时,选择了与数学关系密切的 统计遗传学。
2. 核苷酸的改变p:转换P、颠换Q,则:p=P+Q
3. 当p较小时,如果核苷酸替代是随机发生的,通常
转换比颠换出现频率高; Jukes-Cantor法得到的两条DNA序列的距离: