第四章-序列比对与算法-1解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
2. 空位罚分
不允许有空位
1 GTGATAGACAC ||| 1 GTGCATAGACAC
Score: -21
match = 5 mismatch = -4
允许空位但不罚分
1 GTG-ATAGACAC ||| |||||||| 1 GTGCATAGACAC
?
Score: 55
1 GTG--ATAGACAC ||| |||||||| 1 GTGC-ATAGACAC
C T A T G A C A
Window=3 Word Size = 3
T A C G G T A T G
A C A G T A T C T A C G G T A T G A C A G T A T C
T A C G G T A T G
18
A T A C T A C A A G A C A C G T A C C G
G C G A T G C A T
T G A G T A T C A T A
相似的序列可能具有相似的功能与结构;
发现一个基因或蛋白哪些区域容易发生突 变,哪些位点突变后对功能没有影响;
发现生物进化方面的信息。
5
1. 序列比对两种类型
全局序列比对 定义:在全局范围内对两条序列进行比对打分 的方法。 适合于非常相似且长度近似相等的序列。 局部序列比对 定义:一种寻找匹配子序列的序列比对方法。 适合于一些片段相似而另一些片段相异的序列。
6
1. 序列比对两种类型
7
2. 空位罚分(Gap Penalties)
空位为了获得两个序列最佳比对,必须使用空位和空 位罚分。 空位罚分分类:
空位开放罚分(Gap opening penalty) 空位扩展罚分(Gap extension penalty)
最优的序列比对通常具有以下两下特征: 尽可能多的匹配 尽可能少的空位 插入任意多的空位会产生较高的分数,但找到的并不 一定是真正相似序列。
insertion / deletion
Wx= 3 + 0.1*(3 -1) = 3.2
score:8 - 3.2 = 4.8
10
3. 双序列比对方法
点阵序列比较 (Dot Matrix Sequence Comparison)
动态规划算法 (Dynamic Programming Algorithm)
Window size = 5
Stringency = 3
G C G A T G C A T
T G A G T A T C A T A
20
A T A C T A C A A G A C A C G T A C C G
Mቤተ መጻሕፍቲ ባይዱtch = 1 Mismatch = 0
Window size = 5
Stringency = 3
12
I I O
O
N
I
Z
A
T
I
O
N
N
I Z A
T
I O N
13
点阵分析的应用
自身比对
寻找序列中的正向或反向重复序列 蛋白质的重复结构域(domain) 相同残基重复出现的低复杂区(Low Complexity)
RNA二级结构中的互补区域等
对两条序列的相似性作整体的估计
14
点阵分析中的插入或删除
Match = 1 Mismatch = 0
Window size = 5
Stringency = 3
G C G A T G C A T
T G A G T A T C A T A
19
A T A C T A C A A G A C A C G T A C C G
Match = 1 Mismatch = 0
9
2. 空位罚分公式
Wx=g+r(x-1)
Wx: g: r: x:
参数:
匹配= 1 非匹配= 0
g= 3 r = 0.1 x=3
A T G T T A T A C T A T G T G C G T A T A
空位总记分 空位开放罚分 空位扩展罚分 空位长度
Score=4
A T G T - - - T A T A C T A T G T G C G T A T A
4. 记分矩阵
3
1. 什么是序列比对?
序列比对(Sequence Alignment)是通过在序 列中搜索一系列单个性状或性状模式来比较 2个(双序列比对)或更多(多重序列比对) 序列的方法。
按比对序列条数分类
双序列比对:两条序列的比对 多序列比对:三条或以上序列的比对
4
1. 我们为什么关注序列比对?
词或K串方法 (Word or K-tuple Methods)
11
3.1 点阵序列比较
点阵 (Dot Matrix) 分析是一种简单的 图形显示序列相似性的方法。
沿X轴上序列 1中的每一个单元(核苷酸 或氨基酸)与沿Y轴的第二个序列中的每 一个单元进行比较,相同的区域在点阵 图中显示为由点组成的对角线,对角线 之外零散的点为背景噪音。
具有连续相似区域的两条 DNA序列的简单点阵图
16
点阵分析实例
编 码 噬 菌 体 λcⅠ (水平轴)和噬菌 体 P22 c2 ( 垂 直 轴)的氨基酸序列 间的点阵分析 相同的点全部打印, 很难找到有用的信 息
17
使用滑动窗口技术降低噪声
T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C
Sequence 2 T
A C T G T C A T
T A C T G T T
插入空位
C
A
T
Sequence 1
T A C T G - T C A T | | | | | | | | | T A C T G T T C A T
15
点阵分析的应用
正向重复
人类低脂受体(human lowdensity lipoprotein receptor)自 身比对发现正向重复序列
第四章 序列比对与算法
第一节 双序列比对 第二节 多序列比对 第三节 常用序列比对软件的使用
1
第一节 双序列比对
1. 序列比对基本概念 2. 空位罚分 3. 双序列比对方法
点阵序列比较(Dot Matrix Sequence Comparison)
动态规划算法(Dynamic Programming Algorithm)
2. 空位罚分
不允许有空位
1 GTGATAGACAC ||| 1 GTGCATAGACAC
Score: -21
match = 5 mismatch = -4
允许空位但不罚分
1 GTG-ATAGACAC ||| |||||||| 1 GTGCATAGACAC
?
Score: 55
1 GTG--ATAGACAC ||| |||||||| 1 GTGC-ATAGACAC
C T A T G A C A
Window=3 Word Size = 3
T A C G G T A T G
A C A G T A T C T A C G G T A T G A C A G T A T C
T A C G G T A T G
18
A T A C T A C A A G A C A C G T A C C G
G C G A T G C A T
T G A G T A T C A T A
相似的序列可能具有相似的功能与结构;
发现一个基因或蛋白哪些区域容易发生突 变,哪些位点突变后对功能没有影响;
发现生物进化方面的信息。
5
1. 序列比对两种类型
全局序列比对 定义:在全局范围内对两条序列进行比对打分 的方法。 适合于非常相似且长度近似相等的序列。 局部序列比对 定义:一种寻找匹配子序列的序列比对方法。 适合于一些片段相似而另一些片段相异的序列。
6
1. 序列比对两种类型
7
2. 空位罚分(Gap Penalties)
空位为了获得两个序列最佳比对,必须使用空位和空 位罚分。 空位罚分分类:
空位开放罚分(Gap opening penalty) 空位扩展罚分(Gap extension penalty)
最优的序列比对通常具有以下两下特征: 尽可能多的匹配 尽可能少的空位 插入任意多的空位会产生较高的分数,但找到的并不 一定是真正相似序列。
insertion / deletion
Wx= 3 + 0.1*(3 -1) = 3.2
score:8 - 3.2 = 4.8
10
3. 双序列比对方法
点阵序列比较 (Dot Matrix Sequence Comparison)
动态规划算法 (Dynamic Programming Algorithm)
Window size = 5
Stringency = 3
G C G A T G C A T
T G A G T A T C A T A
20
A T A C T A C A A G A C A C G T A C C G
Mቤተ መጻሕፍቲ ባይዱtch = 1 Mismatch = 0
Window size = 5
Stringency = 3
12
I I O
O
N
I
Z
A
T
I
O
N
N
I Z A
T
I O N
13
点阵分析的应用
自身比对
寻找序列中的正向或反向重复序列 蛋白质的重复结构域(domain) 相同残基重复出现的低复杂区(Low Complexity)
RNA二级结构中的互补区域等
对两条序列的相似性作整体的估计
14
点阵分析中的插入或删除
Match = 1 Mismatch = 0
Window size = 5
Stringency = 3
G C G A T G C A T
T G A G T A T C A T A
19
A T A C T A C A A G A C A C G T A C C G
Match = 1 Mismatch = 0
9
2. 空位罚分公式
Wx=g+r(x-1)
Wx: g: r: x:
参数:
匹配= 1 非匹配= 0
g= 3 r = 0.1 x=3
A T G T T A T A C T A T G T G C G T A T A
空位总记分 空位开放罚分 空位扩展罚分 空位长度
Score=4
A T G T - - - T A T A C T A T G T G C G T A T A
4. 记分矩阵
3
1. 什么是序列比对?
序列比对(Sequence Alignment)是通过在序 列中搜索一系列单个性状或性状模式来比较 2个(双序列比对)或更多(多重序列比对) 序列的方法。
按比对序列条数分类
双序列比对:两条序列的比对 多序列比对:三条或以上序列的比对
4
1. 我们为什么关注序列比对?
词或K串方法 (Word or K-tuple Methods)
11
3.1 点阵序列比较
点阵 (Dot Matrix) 分析是一种简单的 图形显示序列相似性的方法。
沿X轴上序列 1中的每一个单元(核苷酸 或氨基酸)与沿Y轴的第二个序列中的每 一个单元进行比较,相同的区域在点阵 图中显示为由点组成的对角线,对角线 之外零散的点为背景噪音。
具有连续相似区域的两条 DNA序列的简单点阵图
16
点阵分析实例
编 码 噬 菌 体 λcⅠ (水平轴)和噬菌 体 P22 c2 ( 垂 直 轴)的氨基酸序列 间的点阵分析 相同的点全部打印, 很难找到有用的信 息
17
使用滑动窗口技术降低噪声
T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C
Sequence 2 T
A C T G T C A T
T A C T G T T
插入空位
C
A
T
Sequence 1
T A C T G - T C A T | | | | | | | | | T A C T G T T C A T
15
点阵分析的应用
正向重复
人类低脂受体(human lowdensity lipoprotein receptor)自 身比对发现正向重复序列
第四章 序列比对与算法
第一节 双序列比对 第二节 多序列比对 第三节 常用序列比对软件的使用
1
第一节 双序列比对
1. 序列比对基本概念 2. 空位罚分 3. 双序列比对方法
点阵序列比较(Dot Matrix Sequence Comparison)
动态规划算法(Dynamic Programming Algorithm)