序列比对与算法和软件使用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

A
T
A
C
T
A
C
Match = 1
A
A
Mismatch = 0
G
A C
Window size = 5
A
Stringency = 3
C
G
T
A
C
C
G
G C G A T G C A T T G A G T A T C A T A 22
A
T
A
C
T
A
C
Match = 1
A
A
Mismatch = 0
G
A C
Window size = 5
7
1. 序列比对两种类型
8
2. 空位罚分(Gap Penalties)
空位为了获得两个序列最佳比对,必须使用空位和空 位罚分。
空位罚分分类:
空位开放罚分(Gap opening penalty) 空位扩展罚分(Gap extension penalty)
最优的序列比对通常具有以下两下特征: 尽可能多的匹配 尽可能少的空位
点阵分析中的插入或删除
Sequence 2 T A
C
T
插入空位
G
T
C
A
T
TACTGTTCAT
Sequence 1
TACTG-TCAT ||||| |||| TACTGTTCAT
点阵分析的应用
正向重复
人类低脂受体(human lowdensity lipoprotein receptor)自
身比对发现正向重复序列
ATGTTATAC TATGTGCGTATA
Score=4
ATGT---TATAC TATGTGCGTATA
insertion / deletion
score:8 - 3.2 = 4.8
11
3. 双序列比对方法
点阵序列比较 (Dot Matrix Sequence Comparison)
动态规划算法 (Dynamic Programming Algorithm)
Score: 55
? 1 GTG--ATAGACAC ||| |||||||| 1 GTGC-ATAGACAC
10
2. 空位罚分公式
Wx=g+r(x-1)
Wx: 空位总记分
g: 空位开放罚分
r:
空位扩展罚分
x: 空位长度
参数:
匹配= 1 非匹配= 0
g= 3
r = 0.1
x=3
Wx= 3 + 0.1*(3 -1) = 3.2
TACGGTATG A CA G T A T C
TACGGTATG
A C AG T A T C
Window=3 Word Size = 3
C
T
A
T
G
A
C
A
TACGGTATG
19
A
T
A
C
T
A
C
Match = 1
A
A
Mismatch = 0
G
A C
Window size = 5
A
Stringency = 3
13
I ON I ZAT I ON I O N I Z A T I O N
点阵分析的应用
自身比对
寻找序列中的正向或反向重复序列 蛋白质的重复结构域(domain) 相同残基重复出现的低复杂区(Low Complexity) RNA二级结构中的互补区域等
对两条序列的相似性作整体的估计
15
A
Stringency = 3
C
G
T
A
C
C
G
G C G A T G C A T T G A G T A T C A T A 23
A T A C T A C A A G A C A C G T A C C G
G C G A T G C A T T G A G T A T C A T A 24
A T A C T A C A A G A C A C G T A C C G
序列比对与算法和 软件使用
第一节 双序列比对 第二节 多序列比对 第三节 常用序列比对软件的使用
2
第一节 双序列比对
1. 序列比对基本概念 2. 空位罚分 3. 双序列比对方法
点阵序列比较(Dot Matrix Sequence Comparison)
动态规划算法(Dynamic Programming Algorithm)
插入任意多的空位会产生较高的分数,但找到的并不 一定是真正相似序列。
9
2. 空位罚分
不允许有空位
1 GTGATAGACAC |||
1 GTGCATAGACAC
Score: -21
match = 5 mismatch = -4
允许空位但不罚分
1 GTG-ATAGACAC ||| ||||||||
1 GTGCATAGACAC
C
G
T
A
C
C
G
G C G A T G C A T T G A G T A T C A T A 20
A
T
A
C
T
A
C
Match = 1
A
A
Mismatch = 0
G
A C
Window size = 5
A
Stringency = 3
C
G
T
A
C
C
G
G C G A T G C A T T G A G T A T C A T A 21
相似的序列可能具有相似的功能与结构; 发现一个基因或蛋白哪些区域容易发生突
变,哪些位点突变后对功能没有影响; 发现生物进化方面的信息。
6
1. 序列比对两种类型
全局序列比对 定义:在全局范围内对两条序列进行比对打分 的方法。 适合于非常相似且长度近似相等的序列。
局部序列比对 定义:一种寻找匹配子序列的序列比对方法。 适合于一些片段相似而另一些片段相异的序列。
词或K串方法 (Word or K-tuple Methods)
12
3.1 点阵序列比较
点阵(Dot Matrix)分析是一种简单的 图形显示序列相似性的方法。
沿X轴上序列1中的每一个单元(核苷酸 或氨基酸)与沿Y轴的第二个序列中的每 一个单元进行比较,相同的区域在点阵 图中显示为由点组成的对角线,对角线 之外零散的点为背景噪音。
4. 记分矩阵
4
1. 什么是序列比对?
序列比对(Sequence Alignment)是通过在序 列中搜索一系列单个性状或性状模式来比较 2个(双序列比对)或更多(多重序列比对) 序列的方法。
按比对序列条数分类
双序列比对:两条序列的比对 多序列比对:三条或以上序列的比对
5Βιβλιοθήκη Baidu
1. 我们为什么关注序列比对?
具有连续相似区域的两条 DNA序列的简单点阵图
17
点阵分析实例
编 码 噬 菌 体 λcⅠ (水平轴)和噬菌 体 P22 c2 ( 垂 直 轴)的氨基酸序列 间的点阵分析
相同的点全部打印, 很难找到有用的信 息
18
使用滑动窗口技术降低噪声
TACGGTATG ACAGTATC
TACGGTATG ACAGTATC
相关文档
最新文档