生物信息学概论第二章数据库搜索与两两比对
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 当一种残基转变成为另一种残基时,根据编码它们的密码子所 对应的核苷酸必须被替换的最小数目来为残基打分
• 为了得到打分矩阵,更常用的方法是统计自然界各种氨基 酸参加的相互替换率。如果两者特定的氨基酸间替换发生 的比较频繁,那么对这两种残基比对位点的打分会比较优 待;反之就要被罚分了
• 常用氨基酸打分矩阵
– 仅仅获取最佳比对值
– 仅仅获取与最佳比对值相对应的序列
• 我们可以用动态规划解决这个问题,即把一个问题分解成 计算量合理的子问题,并使用这些子问题的结果来计算最 终答案。
• S. Needleman与C. Wunsch首次运用动态规划方法来进行 序列分析。
• 假设两条序列比对:CACGA和CGA,使用统一的空位和失配 罚分 ,则对于第一个元素比对时,有以下3种可能:
-1-1=-2,表示在横向序列中插 入一个空位,然后与纵向序列 中的A比较,空位罚分-1。 0+1=1,表示两序 列的第一个A进行 对比,匹配奖励1。 -1-1=-2,表示在纵 向序列中插入一个 空位,然后与横向 序列中的A比较, 空位罚分-1。 A C A G T A G A
0 -1 -2 -3 -4 -5 -1
等等……
2.3.1 简单空位罚分
• 对含有空位的比对打分时,空位罚分就必须包含到 打分函数中,空位比对的简单打分公式如下:
例如:假设匹配得分为1,失配得分为0,空位罚分为-1
三种空位比对的得分从左至右分别是1、3、3
2.3.2 起始罚分与长度罚分
• 使用简单空位罚分对两条序列进行比对时,经常能找到若 干同是最优的比对。 • 进一步区分这些比对的方法是找出哪些比对包含较多的不 连续空位,哪些包含数量较少而长度较长的空位片段。
动态规划算法通过计算部分序列比对得分并填入一个表格, 直到整个序列比对被计算出来, 由此得到最优比对。
动态规划
比对ACAGTAG与ACTCG 空位罚分为 -1 匹配奖励为 +1 失配得分为 0 A
0 -1
C
-2
T
-3
C
-4
G
-5
用空位罚分的倍数 对表格第一行与第 一列进行初始化
A C A G T A G
空位罚分(由两部分相加组成)
• 起始罚分:由序列中产生的新空位串引起 • 长度罚分:根据缺少的字符数而定的。 • 预设长度罚分小于起始罚分,以此建立的打分函数便能奖励空位连在 一起的比对。
• 假设起始罚分为-2,长度罚分为-1,匹配得分为+1, 失配得分为0,则对于
这三个比对,从左至右比对的得分分别是 -3,-1,+1
C
-2
T
-3
C
-4
G
-5
A C A G T A G
-1 -2 -3 -4 -5
-6 -7
-1+0=-1,表示横向 序列的C与纵向序 列的A进行比较, 失配得分0。 1-1=0,表示在纵 向序列中插入一个 空位,然后与横向 序列中的C比较, 空位罚分-1。
在后两种比对在使用简单空位罚分时,最后得分都是 +3,现在却得到了不同的分数。
2.4 打分矩阵
• 正如空位罚分可以奖励与进化相关的的比对,失配罚分也可以 用来进一步区分相似比对。 • 统计结果表明,两条同源的序列比对时,某些替换比其他替换 常见的多。
• 例:
两条蛋白质序列,其中一条在某一个位置上是丙氨酸,如果该位点被替 换成另一个较小的且疏水的氨基酸,比如缬氨酸对蛋白质的影响很小, 如果被替换成较大且带电的残基,比如赖氨酸,那么对蛋白质的影响可 能就会非常大。直观的讲,比较保守的替换比随机替换更可能维持蛋白 质的功能,更不容易被淘汰,因此在打分上更倾向于丙氨酸而不是赖氨 酸。
– – – 给第一条序列加一个空位 给第二条序列加一个空位 两条序列都不加空位
CACGA CGA CACGA CGA CACGA CGA
(匹配得分为1,失配得分为0,空位罚分为-1)
第一位点
C C C C -
得分
+1 -1 -1
待对比的剩余序列
ACGA GA CACGA GA ACGA CGA
如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的 得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得 分,就可以计算出起始位点的不同的三种比对得分。
(a)
(b)
(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋 白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球 蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈 值为8。
2.2 简单比对
• 比对就是两条序列字符间简单的两两匹配。比对可以反映 出两条或多条同源序列间的进化关系。两天序列的相似度 可以用一个数值来衡量
– 点接受突变(PAM)矩阵:(Point Accepted Mutation)一种 基于统计替换率的常用打分矩阵 – BLOSUM矩阵:通过统计聚类技术来对相关蛋白质的无空位比对 进行分类
• PAM矩阵构建:
– 构建一个序列间相似度很高(>85%)的比对
– 计算每个氨基酸j的相对突变率mj
• 相对突变率:某种氨基酸被其他任意氨基酸替换的次数
AATCTATA和AAGATA
不考虑空位的简单比对,它的打分函数是由对比奖励和罚分的和来决定
匹配得分:1
失配得分:0
上例中三个比对从左至右分别是 4、 1、 3
2.3 空位
• 两条或多条序列比对时,如果考虑到插入与删除事件发生 的可能性,那么候选的比对数量就会大大增加,也就导致 了比对的复杂性。上节中两条核苷酸序列,在不考虑空位 时仅有三种比对,而较短的那条加入了两个空位后,变产 生了28种不同的比对,例如:
-1 -2 -3 -4 -5
-6 -7
每一个格子保存子序列最优比对值
填充表格
横向移动
A
0 -1
C
-2
T
-3
C
-4
G
-5
纵 向 移 动
A C A G T A G
-1 -2 -3 -4 -5 -6 -7
表格中横向移动表示在 纵轴序列中加入一个空 位
纵向移动表示在横轴序 列中加入一个空位
斜对角向移动表示两序 列各自相应的核苷酸进 行了比对
• 序列给定位置可能发生的3种变异:
– 插入 – 删除
– 替换
• 由于在被比较的序列中没有与被插入或删除核苷酸序列同 源的序列,因此通常在比对时加入空位来反映此类变化
• 最简单的情况下即不考虑空位,当两条序列对比时,
要做的仅是为较短的序列选择比对的起始点。 • 考虑这样的两条核苷酸序列:
– 仅有三种比对方式
– 针对每个氨基酸对i和j,计算氨基酸j被氨基酸i替换的次数Aij
m j Aij
i
i j
– 将替换次数Aij除以相对替换率mj – 利用每个氨基酸出现的频度对其进行标准化,并将以上结果取自 然对数,于是得到PAM-1矩阵中的元素Rij
1 Rij lg( f j * Aij ) mj
– 对矩阵中元素进行标准化可以使PAM矩阵通过一个进化的固定单 位反映氨基酸间替换发生的可能性。对于PAM-1,这个单位就是每 100个残基发生一次替换,即一个PAM单位
• 然而,BLOSUM矩阵的意义与PAM矩阵正好相反:低 阶BLOSUM矩阵更多是用来比较亲缘较远的序列。一 般来说,BLOSUM-62矩阵适用于比较大约62%相似度 的序列;BLOSUM-80更适用于比较相似度为80%左右 的序列
2.5 动态规划: Needleman 和 Wunsch 算法
• 一旦选定了序列比对打分的方法,就可以为寻找最佳比对 设计算法了。 • 最显而易见的方法就是对每个可能的比对进行穷举搜索, 但这一般是不可行的。 • 比对的目的:在给定打分矩阵的情况下,
相同区域
A G T C C T G A
C T G A A G T C
具有连续相似区域的两条DNA序列的简单点阵图
滑动窗口技术
当对长且相似的序列进行比较时,这样的点阵图很 快就会变得非常复杂和拥挤。使用滑动窗口代替一次 一个位点的比较是解决这个问题的有效方法。 假设窗口大小为10,相似度阈值为8,则每次比较 取10个连续的字符,如相同的字符超过8个,则标记 为圆点 基于滑动窗口的点矩阵方法可以明显地降低点阵图 的噪声,并且明确无误的指示出了两条序列间具有显 著相似性的区域。
第二章 数据搜索与 两两比对
序列的比对、比较以及相似序列的数据库搜索等 技术已经成为了生物学的基础
任何两条或多条核苷酸或氨基酸序列之间的比对,从 真正意义上讲,代表着有关这些序列进化历史的明确 假设。 直接对相关氨基酸和核苷酸序列比较的结果 ,使得 近来对基因序列的信息含量以及功能的了解有了新的 进展。 序列比对为解决许多关键性的问题提供了重要的信息, 这些问题包括:确定新发现基因的功能;确定基因间、 蛋白质间乃至物种之间的进化关系;预测蛋白质的结 构和功能等
• 在不知道原始父辈序列的情况下,无法判断导致空位 的原因是由于一条序列的插入事件还是另一条的删除 事件,通常把这类事件称为插入/删除事件。
• 多联核苷酸的插入删除事件相对于单个核苷酸来说会较经 常发生。
• 统计结果表明,两条序列长度上的差异更可能是单个三联 核苷酸的插入删除事件导致的,而多个不连续核苷酸插入 删除事件的可能性比较小。 • 具有较长连续空位的比对更能体现进化的观点,所以在建 立比对打分函数时偏向于通过降低空位罚分来进行奖励
C
G
0
0
0
0
1
0
0
1
C
G
-4 -4
5
-4
C
G
-5 -1 1
-5
-4 5
-5 1
• 为氨基酸序列比对设计打分矩阵时,要考虑若干个因素。化 学/物理的相似性以及替换率是最常见的两个: • 打分矩阵统一可以根据残基的疏水性、带电性、电负性 以及大小来得到。
• 例如,具有芳香族功能基团的氨基酸之间配对可能得 分很高,而具有非极性功能基团的氨基酸与具有带电 功能基团的氨基酸配对时,就要罚分。 • 另一种基于相似度的矩阵是根据遗传编码来得到:
本章内容
点阵图——图形方式、直观地、不考虑空位 简单比对——数值方式比较两序列相似度
空位 打分矩阵
动态规划——高效地序列比对 全局比对与局部比对——根据特定需要,对动态规划的改进方法 数据库搜索 多重序列比对
2.1 点阵图
评估两条序列相似度最简单的方法之一是利用点阵图。
• 第一条被比较的序列排列在点阵图空间的横轴, • 第二条序列则排列在纵轴。 • 点阵空间中两条序列中的残基相同时,在对应的位点上画 上圆点,两条序列间连续相同的区域在图中会形成由圆点 组成的上斜线。
将PAM矩阵与自身相乘,可以近似得到高阶 PAM矩阵:PAM2,PAM3… 针对不同的进化距离选择PAM 矩阵
序列相似度 = 40% | 打分矩阵 = PAM120 50% | PAM80 60% | PAM 60
PAM250
→ 14% - 27%
• BLOSUM矩阵
• 另一种常用打分矩阵,通过统计聚类技术来对相关蛋 白质的无空位比对进行分类 • 与PAM矩阵类似,可以根据亲缘关系的不同来选择不 同的BLOSUM矩阵进行序列比较。
打分矩阵(Scoring Matrix)
核酸打分矩阵设DNA序列所用的字母表为 = { A,C,G,T }
a. 单位矩阵 b. BLAST矩阵 c. 转换-颠换矩阵(transition,transversion) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
单位矩阵
A A T 1 0 T 0 1 C 0 0 G 0 0 A T BLAST矩阵 A 5 -4 -4 T -4 5 -4 C G A T -4 -4 -4 -4 转换-颠换矩阵 A 1 -5 -1 T -5 1 -5 C G -5 -1 -1 -5
• 考虑到竞争假说,那些不可能事件出现较少的比对就最可 能是正确的比对。
插入/删除事件
• 假设两条序列长度分别是12和9 • 假设这两条序列是真正的同源序列,那么它们之间长 度的差异可以解释为
– (1)较长的序列有核苷酸的插入,或者
– (2) 较短的序列发生了核苷酸的删除,或者 – (3) 两者都发生了3
C
-4
G
-5
-6 -7
1-1=0,表示在横向序列中插入 一个空位,然后与纵向序列中 的C比较,空位罚分-1。 -1+0=-1,表示横向 序列的A与纵向序 列的C进行比较, 失配得分0。 -2-1=-3,表示在纵 向序列中插入一个 空位,然后与横向 序列中的A比较, 空位罚分-1。 A
0 -1
• 为了得到打分矩阵,更常用的方法是统计自然界各种氨基 酸参加的相互替换率。如果两者特定的氨基酸间替换发生 的比较频繁,那么对这两种残基比对位点的打分会比较优 待;反之就要被罚分了
• 常用氨基酸打分矩阵
– 仅仅获取最佳比对值
– 仅仅获取与最佳比对值相对应的序列
• 我们可以用动态规划解决这个问题,即把一个问题分解成 计算量合理的子问题,并使用这些子问题的结果来计算最 终答案。
• S. Needleman与C. Wunsch首次运用动态规划方法来进行 序列分析。
• 假设两条序列比对:CACGA和CGA,使用统一的空位和失配 罚分 ,则对于第一个元素比对时,有以下3种可能:
-1-1=-2,表示在横向序列中插 入一个空位,然后与纵向序列 中的A比较,空位罚分-1。 0+1=1,表示两序 列的第一个A进行 对比,匹配奖励1。 -1-1=-2,表示在纵 向序列中插入一个 空位,然后与横向 序列中的A比较, 空位罚分-1。 A C A G T A G A
0 -1 -2 -3 -4 -5 -1
等等……
2.3.1 简单空位罚分
• 对含有空位的比对打分时,空位罚分就必须包含到 打分函数中,空位比对的简单打分公式如下:
例如:假设匹配得分为1,失配得分为0,空位罚分为-1
三种空位比对的得分从左至右分别是1、3、3
2.3.2 起始罚分与长度罚分
• 使用简单空位罚分对两条序列进行比对时,经常能找到若 干同是最优的比对。 • 进一步区分这些比对的方法是找出哪些比对包含较多的不 连续空位,哪些包含数量较少而长度较长的空位片段。
动态规划算法通过计算部分序列比对得分并填入一个表格, 直到整个序列比对被计算出来, 由此得到最优比对。
动态规划
比对ACAGTAG与ACTCG 空位罚分为 -1 匹配奖励为 +1 失配得分为 0 A
0 -1
C
-2
T
-3
C
-4
G
-5
用空位罚分的倍数 对表格第一行与第 一列进行初始化
A C A G T A G
空位罚分(由两部分相加组成)
• 起始罚分:由序列中产生的新空位串引起 • 长度罚分:根据缺少的字符数而定的。 • 预设长度罚分小于起始罚分,以此建立的打分函数便能奖励空位连在 一起的比对。
• 假设起始罚分为-2,长度罚分为-1,匹配得分为+1, 失配得分为0,则对于
这三个比对,从左至右比对的得分分别是 -3,-1,+1
C
-2
T
-3
C
-4
G
-5
A C A G T A G
-1 -2 -3 -4 -5
-6 -7
-1+0=-1,表示横向 序列的C与纵向序 列的A进行比较, 失配得分0。 1-1=0,表示在纵 向序列中插入一个 空位,然后与横向 序列中的C比较, 空位罚分-1。
在后两种比对在使用简单空位罚分时,最后得分都是 +3,现在却得到了不同的分数。
2.4 打分矩阵
• 正如空位罚分可以奖励与进化相关的的比对,失配罚分也可以 用来进一步区分相似比对。 • 统计结果表明,两条同源的序列比对时,某些替换比其他替换 常见的多。
• 例:
两条蛋白质序列,其中一条在某一个位置上是丙氨酸,如果该位点被替 换成另一个较小的且疏水的氨基酸,比如缬氨酸对蛋白质的影响很小, 如果被替换成较大且带电的残基,比如赖氨酸,那么对蛋白质的影响可 能就会非常大。直观的讲,比较保守的替换比随机替换更可能维持蛋白 质的功能,更不容易被淘汰,因此在打分上更倾向于丙氨酸而不是赖氨 酸。
– – – 给第一条序列加一个空位 给第二条序列加一个空位 两条序列都不加空位
CACGA CGA CACGA CGA CACGA CGA
(匹配得分为1,失配得分为0,空位罚分为-1)
第一位点
C C C C -
得分
+1 -1 -1
待对比的剩余序列
ACGA GA CACGA GA ACGA CGA
如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的 得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得 分,就可以计算出起始位点的不同的三种比对得分。
(a)
(b)
(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋 白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球 蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈 值为8。
2.2 简单比对
• 比对就是两条序列字符间简单的两两匹配。比对可以反映 出两条或多条同源序列间的进化关系。两天序列的相似度 可以用一个数值来衡量
– 点接受突变(PAM)矩阵:(Point Accepted Mutation)一种 基于统计替换率的常用打分矩阵 – BLOSUM矩阵:通过统计聚类技术来对相关蛋白质的无空位比对 进行分类
• PAM矩阵构建:
– 构建一个序列间相似度很高(>85%)的比对
– 计算每个氨基酸j的相对突变率mj
• 相对突变率:某种氨基酸被其他任意氨基酸替换的次数
AATCTATA和AAGATA
不考虑空位的简单比对,它的打分函数是由对比奖励和罚分的和来决定
匹配得分:1
失配得分:0
上例中三个比对从左至右分别是 4、 1、 3
2.3 空位
• 两条或多条序列比对时,如果考虑到插入与删除事件发生 的可能性,那么候选的比对数量就会大大增加,也就导致 了比对的复杂性。上节中两条核苷酸序列,在不考虑空位 时仅有三种比对,而较短的那条加入了两个空位后,变产 生了28种不同的比对,例如:
-1 -2 -3 -4 -5
-6 -7
每一个格子保存子序列最优比对值
填充表格
横向移动
A
0 -1
C
-2
T
-3
C
-4
G
-5
纵 向 移 动
A C A G T A G
-1 -2 -3 -4 -5 -6 -7
表格中横向移动表示在 纵轴序列中加入一个空 位
纵向移动表示在横轴序 列中加入一个空位
斜对角向移动表示两序 列各自相应的核苷酸进 行了比对
• 序列给定位置可能发生的3种变异:
– 插入 – 删除
– 替换
• 由于在被比较的序列中没有与被插入或删除核苷酸序列同 源的序列,因此通常在比对时加入空位来反映此类变化
• 最简单的情况下即不考虑空位,当两条序列对比时,
要做的仅是为较短的序列选择比对的起始点。 • 考虑这样的两条核苷酸序列:
– 仅有三种比对方式
– 针对每个氨基酸对i和j,计算氨基酸j被氨基酸i替换的次数Aij
m j Aij
i
i j
– 将替换次数Aij除以相对替换率mj – 利用每个氨基酸出现的频度对其进行标准化,并将以上结果取自 然对数,于是得到PAM-1矩阵中的元素Rij
1 Rij lg( f j * Aij ) mj
– 对矩阵中元素进行标准化可以使PAM矩阵通过一个进化的固定单 位反映氨基酸间替换发生的可能性。对于PAM-1,这个单位就是每 100个残基发生一次替换,即一个PAM单位
• 然而,BLOSUM矩阵的意义与PAM矩阵正好相反:低 阶BLOSUM矩阵更多是用来比较亲缘较远的序列。一 般来说,BLOSUM-62矩阵适用于比较大约62%相似度 的序列;BLOSUM-80更适用于比较相似度为80%左右 的序列
2.5 动态规划: Needleman 和 Wunsch 算法
• 一旦选定了序列比对打分的方法,就可以为寻找最佳比对 设计算法了。 • 最显而易见的方法就是对每个可能的比对进行穷举搜索, 但这一般是不可行的。 • 比对的目的:在给定打分矩阵的情况下,
相同区域
A G T C C T G A
C T G A A G T C
具有连续相似区域的两条DNA序列的简单点阵图
滑动窗口技术
当对长且相似的序列进行比较时,这样的点阵图很 快就会变得非常复杂和拥挤。使用滑动窗口代替一次 一个位点的比较是解决这个问题的有效方法。 假设窗口大小为10,相似度阈值为8,则每次比较 取10个连续的字符,如相同的字符超过8个,则标记 为圆点 基于滑动窗口的点矩阵方法可以明显地降低点阵图 的噪声,并且明确无误的指示出了两条序列间具有显 著相似性的区域。
第二章 数据搜索与 两两比对
序列的比对、比较以及相似序列的数据库搜索等 技术已经成为了生物学的基础
任何两条或多条核苷酸或氨基酸序列之间的比对,从 真正意义上讲,代表着有关这些序列进化历史的明确 假设。 直接对相关氨基酸和核苷酸序列比较的结果 ,使得 近来对基因序列的信息含量以及功能的了解有了新的 进展。 序列比对为解决许多关键性的问题提供了重要的信息, 这些问题包括:确定新发现基因的功能;确定基因间、 蛋白质间乃至物种之间的进化关系;预测蛋白质的结 构和功能等
• 在不知道原始父辈序列的情况下,无法判断导致空位 的原因是由于一条序列的插入事件还是另一条的删除 事件,通常把这类事件称为插入/删除事件。
• 多联核苷酸的插入删除事件相对于单个核苷酸来说会较经 常发生。
• 统计结果表明,两条序列长度上的差异更可能是单个三联 核苷酸的插入删除事件导致的,而多个不连续核苷酸插入 删除事件的可能性比较小。 • 具有较长连续空位的比对更能体现进化的观点,所以在建 立比对打分函数时偏向于通过降低空位罚分来进行奖励
C
G
0
0
0
0
1
0
0
1
C
G
-4 -4
5
-4
C
G
-5 -1 1
-5
-4 5
-5 1
• 为氨基酸序列比对设计打分矩阵时,要考虑若干个因素。化 学/物理的相似性以及替换率是最常见的两个: • 打分矩阵统一可以根据残基的疏水性、带电性、电负性 以及大小来得到。
• 例如,具有芳香族功能基团的氨基酸之间配对可能得 分很高,而具有非极性功能基团的氨基酸与具有带电 功能基团的氨基酸配对时,就要罚分。 • 另一种基于相似度的矩阵是根据遗传编码来得到:
本章内容
点阵图——图形方式、直观地、不考虑空位 简单比对——数值方式比较两序列相似度
空位 打分矩阵
动态规划——高效地序列比对 全局比对与局部比对——根据特定需要,对动态规划的改进方法 数据库搜索 多重序列比对
2.1 点阵图
评估两条序列相似度最简单的方法之一是利用点阵图。
• 第一条被比较的序列排列在点阵图空间的横轴, • 第二条序列则排列在纵轴。 • 点阵空间中两条序列中的残基相同时,在对应的位点上画 上圆点,两条序列间连续相同的区域在图中会形成由圆点 组成的上斜线。
将PAM矩阵与自身相乘,可以近似得到高阶 PAM矩阵:PAM2,PAM3… 针对不同的进化距离选择PAM 矩阵
序列相似度 = 40% | 打分矩阵 = PAM120 50% | PAM80 60% | PAM 60
PAM250
→ 14% - 27%
• BLOSUM矩阵
• 另一种常用打分矩阵,通过统计聚类技术来对相关蛋 白质的无空位比对进行分类 • 与PAM矩阵类似,可以根据亲缘关系的不同来选择不 同的BLOSUM矩阵进行序列比较。
打分矩阵(Scoring Matrix)
核酸打分矩阵设DNA序列所用的字母表为 = { A,C,G,T }
a. 单位矩阵 b. BLAST矩阵 c. 转换-颠换矩阵(transition,transversion) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
单位矩阵
A A T 1 0 T 0 1 C 0 0 G 0 0 A T BLAST矩阵 A 5 -4 -4 T -4 5 -4 C G A T -4 -4 -4 -4 转换-颠换矩阵 A 1 -5 -1 T -5 1 -5 C G -5 -1 -1 -5
• 考虑到竞争假说,那些不可能事件出现较少的比对就最可 能是正确的比对。
插入/删除事件
• 假设两条序列长度分别是12和9 • 假设这两条序列是真正的同源序列,那么它们之间长 度的差异可以解释为
– (1)较长的序列有核苷酸的插入,或者
– (2) 较短的序列发生了核苷酸的删除,或者 – (3) 两者都发生了3
C
-4
G
-5
-6 -7
1-1=0,表示在横向序列中插入 一个空位,然后与纵向序列中 的C比较,空位罚分-1。 -1+0=-1,表示横向 序列的A与纵向序 列的C进行比较, 失配得分0。 -2-1=-3,表示在纵 向序列中插入一个 空位,然后与横向 序列中的A比较, 空位罚分-1。 A
0 -1