多序列比对_I

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
全局比对: Needleman-Wunsch- Sellers O(n2) 利用线形空位处罚
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
要点大纲(续)
多序列比对: MSA, Clustal 阻断分析 特殊位置得分矩阵 (PSSM)
例子 O ( NK )是“多项式时间”只要 K<3… … 就 容易处理 考虑到非空位点阵全局比对:
…… 本质上是一个 O(mn) 矩阵
好的例子
O (n) 比 O(n log(n)) ,O(n2), O(n3) 更好。
7.91 –Lecture #2 Michael Yaffe
更多的成对序列比对
— 和 多序列比对 —
阅读: 文献: Mount pp. 8-9, 65-89, 96-115, 140-155, 161-170
www.bbioo.com
要点大纲
递归和动力学设计 动力学设计应用:全局比对: NeedlemanWunsch 动力学设计应用:局部比对: SmithWaterman 置换矩阵: PAM, BLOSUM, Gonnet 空位— 线形和 affine 序列比对统计学 要优化一个序列比对需要知道什么
BLOSUM 62 得分矩阵
得分系统应该:支持匹配识别或是相关氨基酸处罚错误匹配和 空位。 为了得到好的得分系统需要明确:在相关蛋白质与它的偶然产 生相比较中,特殊氨基酸对被发现的几率。替代矩阵中就包含 有这些信息……并且当有空位时,会有更好的选择。 真实替代矩阵的起源: 首先要知道在相关蛋白质中一个氨基酸替代另一个氨基酸的频 率 [=P(ab)] c/w 。另一个氨基酸偶然产生替代的机会,是以蛋 白质中每个氨基酸的相对频率为基础的,即 q(a) 和 q(b) 。这 称为“不均几率”: P(ab)/q(a)q(b) 如果在比对中所有位置都进行了这种处理,那么总概率将会 是每个位置不均几率的乘积……但是乘法耗费计算空间…… 因此… .. 取 log ( 不均几率 ) 再把它们相加,用此来代替。 像 PAM 和 BLOSUM 矩阵就是取了不均几率的对数。也包 含了反映相关蛋白质中的氨基酸替代的可能性的正数和负数 。
糟糕的例子
O(kn) = 指数时间…… . 恐怖!!!!
NP 问题 — 不知道多项式时间解决办法 = 非确定性多项式问题。
递归和动力学设计
比对两个没有空位的蛋白序列 — 大概是一个 O(mn) 问题。 没有空位 — 适合于计算天文学,直接比对方法不能做。 (= 22L/√(2πL); L= 序列长度 )
PAM30 矩阵,用非空位比对得分最高的一个
替代氨基酸矩阵
Dayhoff 的问题: • 基于氨基酸,不是核苷酸。 • 假定进化模型具有直接系统发生关系,循环讨论:序列→ 矩阵 ; 矩阵→ 新的序列 • 基于一小部分关系紧密的分子 • Gonnett, Cohen & Benner • 所有的模型是用达尔文的 1,700,000 匹配对所有的数据库极性 匹配 直接在不同 PAM 编译进化矩阵 • BLOSUM = 空位氨基酸替代矩阵- Henikoff&Henikoff 1992 基于一个较大的数据库,该数据库从 ~500Prosite 家族得到,这些 家族用用每个家族定义的保守氨基酸模式” 块”由 Bairoch 确认 典型的用多序列比对 AA 替代注释,得到对数几率比率 例如…块模式 60 %确认得到 Blosum60 矩阵,等等 … 如:基于非缺口比对的保守函数块。 Blosum62 -在信息内容和数据量最优匹配 不是基于直接的进化模型
** 进化模型 ** 以一个小数据库为基础。
假设是对称的: 假设短时间周期的氨基酸替代模型能够推测出长时间周 期的替代模型。 71 组蛋白质序列, 1572 个相似氨基酸 85% 发生改 变。 功能蛋白质→由自然选择“接受”变异 PAM1 矩阵意味着在蛋白质之间有 1% 的分歧 – 也就是说每 100 个残基中有 1 个氨基酸变异。一些文章也重述了这个情况 ,每个氨基酸变成另一个氨基酸的概率是 ~1% ,而不变的概 率是 ~99% 。
M’ab 的相对概率定义为:
步骤 3 :依比例确定相对概率,即获得任意一 个氨基酸变成另一个不同的氨基酸 1% 总机会
i.s. 测量 M’ 来确定 :
步骤 4 :定义“相对易变性” 给每个氨基酸指定 ma
含有氨基酸 a 的突 变数量
‘a’ 变异的方向 Prob(a)* 每 100 个位点中加权变异的 总数
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
源追踪 :
当正方形比对完成之后,从较低的右边开始,以后的工作 根据箭头观察怎样到那儿……
源追踪引起的比 对 :
只有向后看才能理解生活,但是要生活好,必须向前看。 — Søren Kierkegaard
局部比对
Temple Smith 和 Michael Waterman , 1981— 修改了 Needleman-Wunsch-Sellers
接下来,假定在每个位置的变异独立于前面的变异。因此 计算关系稍远的相关蛋白的变化,该蛋白质进行了 N 次变异, 每一百个氨基酸通过乘以 PAM1 矩阵对其变异次数 N 的值 例子: PAM2 矩阵:
PAM250 矩阵
• 将 PAM1 自乘 250 次!
有 Mab 个值。如进化 互相关联的蛋白质在 PAM250 中一个氨基 酸取代另一个氨基酸 的几率
步骤 1 :在相关蛋白质家族内测量每个氨基酸 的成对替代频率
构建 Dayhoff 矩阵: PAM1
900 个 Phe (F)….+ 另外 100 个可能的 Phe 但是… 100 个 Phe (F) → 80 Tyr (Y), 3 Trp (W), 2 His (H)….
给了 fab, 也就是
…… 通过进化!
PAM250 矩阵表中数据的来源? 步骤 6 :计算关联几率 序列比对中两个氨基酸来自于由进化的相关蛋白几率,和它们来自于 两个不相关的蛋白质比对的几率 Mab =相关蛋白中 b 取代 a 的几率 - vs - Paran =非相关蛋白中 b 取代 a 的几率 …… 它们是随机的
现在, Paran = fa ,氨基酸 a 发生的频率
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
注意 — 线形空位处罚: γ(n)=nA ,其中 A= 空位处罚
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
因此得到 Sij 必须知道 S(i-1, j-1) 和 S(i, j1) and S(i-1, j)…… 因此需要回归。我们用 解决小问题的方法解决大问题。我们必须 记录怎样得到 Sij 。例如表格式矩阵中的中 间解答。计算机科学家称这为动力学设计 ,其中“设计”即矩阵,并不是某种计算 机编码。
局部比对是从 x 序列子列到 y 序列子列比对中得分最好的 。 重要的并不是比对到序列结束。
对序列 x ,残基 1 , 2 , 3……N ,能够得到 ~N2 个子链,也 就是说启始点 a= 1,2….N ,结束点 b= 1, 2….n 。 Y 序列也一 样,得到 ~M 2 个子链。对于任意两个子链,由于有旧的 O(mn) 比对问题,所以可能比对的总数目是 ~ N2M 2(NM)=O(M 3N3)— 很不好!!!!在多项式时间 中是可以 解决的,但需要一个大的多项式。
局部比对

再一次地,动力学设计可以补救!
动力学设计的基本设置与以前一样…… 错配时相似矩阵 MUST 产生负值 -- 和 -**** 在得分矩阵中,计算位置的值是负数时,这个 值就被设置成 0 。
比对就此结束
SmithWaterman:
首先沿着侧边从上到下写下一个序列。
空位 空位
局部比对: 最大:
记住…
看上次怎样使用这些数字 + 动态规划程序 来得到比对分值
怎样使用正确的矩阵! PAM 250 矩阵- 250 %期望变化 序列仍然有 ~15-30 %序列相似性, 如,苯丙氨酸与苯丙氨酸 有 ~ 32% 的匹配概率 丙氨酸与丙氨酸 有 ~ 13% 的匹配概率 期望值 %相似性 其它的 PAM 矩阵: PAM120 - 40% PAM80 - 50% 相似性序列的使用 PAM60 - 60% PAM250 – 15-30% 相似性 用正确的 PAM 矩阵比对是基于比对序列的相似性。但是等等 …我们怎样知道序列间的关系呢?通常我们不知道!!!! 所以……尝试 PAM200 , PAM120 , PAM60 , PAM80 和
对所有 20 个氨基酸的处 理
给定 fab = 配对交换频率
直接假设 — 第一顺序马尔柯夫链转化模型
步骤 2 : 计算 a 率
Pa = 氨基酸 a 的概率
b 交换对的相对概
fab = a 和 b 之间的替代数量 fa = 含有氨基酸 a 的替代模式总 数
f = 在相关序列组中产生变异的总数量 =
GAPS
• 线性罚分矩阵 Wn = nγ, n= 缺口数 , γ = 空位罚分 • 亲缘空位罚分 Wn= g + nγ,
=缺口数, γ = 空位拓展罚分 g = 空位开放罚分
简化比对统计
我们怎样告诉别人基于分值的比对的好坏?当两个随机序列在比对时得 到近似的分值的可能性有多大? 考虑一个简单的问题-在随机的硬币投掷过程中,获得头像 l 的最大可 能概率? 均匀的硬币 p = 0.5 且 ErdÖs and Rén yi – 最大可能概率= log1/p(n) 这里 log2(n). 如果 n=100, 最大可能概率是 6.65 对长度分别为 n 和 m 的两个序列,我们做 nm 比对,这样预测的最长序 列匹配将是 log1/p(mn) 更确确的说,期望值,或者最长匹配的平均值将是 E(M)~=log1/p(Kmn) 这里 K 是依赖于氨基酸组成的常数。
可选择的办法是比对所有可能的特征对 ( 配对和错配,也很好 的考虑到了空位,保持比对的数量的易处理性。 ) 这种方法也 叫动力学设计。在算术上证明了产生最佳比对。 需要置换或相似矩阵和考虑到空位的方法。 怎样记下比队得分的例子:写下两条序列
序列 #1 序列 #2 置换矩阵得分
得分 =Σ ( AA 配对得分) - 缺口处罚 =15
步骤 5 :计算进化距离尺度 只有 1/1000 的氨基酸产生变化
M aa 表示氨基酸守衡
实例
( Phe 突变的调整概率)
** 用尺度因子 λ , M aa 是 ~0.99 也就是变异概率是 ~1%
也就是定义 PAM1 矩阵… .
λ 是进化尺度因子
…… 对于任何特别的突变概率, λMab 反应了 在 1PAM 上氨基酸 b 替代氨基酸 a 的可能性的 标准尺度。
PAM250 矩阵表中数据的来源?
步骤 6 :计算关联几率
进化的关联几率而不是偶然几率
PAM250 矩阵表中数据的来源?
步骤 7 :计算对数值 ( 关联几率 ) 和乘以十来清楚碎片值 例子: Phe→Tyr ( 必须= Tyr→ Phe)
因此平均值= (5.7+8.3)/2=7…PAM250 中的数据
对角线 从左到右 从上到下
全局和局部比对程序 生物工作平台: http://workbench.sdsc.edu/ Bill Pearson 的网页 http://fasta.bioch.virginia.edu/ NCBI, Expassy
氨基酸替代矩阵
Margaret Dayhoff, 1978, PAM 矩阵
PAM 250 矩阵- 250 %期望变化
序列仍然有 ~15-30 %序列相似性, 如,苯丙氨酸与苯丙氨酸 有 ~ 32% 的匹配概率 丙氨酸与丙氨酸 有 ~ 13% 的匹配概率
Βιβλιοθήκη Baidu
期望值 %相似性 其它的 PAM 矩阵: PAM120 - 40% PAM80 - 50% PAM60 - 60% PAM250 – 15-30% 相似性 相似性序列的使用
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
全局比对: Needleman-WunschSellers O(n2) 利用线形空位处罚
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
全局比对: Needleman-WunschSellers O(n2) 利用线形空位处罚
相关文档
最新文档