序列分析(一)一一序列比对

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例5:不同序列的比对
P KD F CKA LV
P1 0 0 0 0 0 0 0 0
K 10001000
F
0100000
T
00000
K1
1000
A
100
I
00
V
1
PKDFCKALV PK - FTKAIV
字符的关系: 1. 匹配 2. 删除或插入 3. 替换
对于例五中的情况:
PKDFCKALV PK – FTKA I V 1 1 -11 0 1 1 0 1 Score=1+1+(-1)+1+0+1+1+0+1
序列分析内容
与DNA和protein序列相关的研究都可称为 序列分析。
主要包括:
1.序列比对 2.基因组序列分析 3.蛋白质序列分析 4.综合序列分析
为什么要进行序列比对???
序列拼接 数据库搜索方面 进化方面 功能方面
与进化相关的几个概念
同源性Fra Baidu bibliotek相似性:极易被混淆的两个概念!!!
同源性(homology):
点阵序列比对的缺点
滑动窗口和阈值的选择过于经验化, 信噪比较低 , 不适合进行高通量的数据分析, 对长序列,计算时间长。
作为双序列比对的第一步,点阵图提供了 一个大尺度的轮廓信息
http://www.ebi.ac.uk/Tools/emboss/align/
序列相似性打分矩阵
简单的得分函数: p(a, a)=1 p(a, b)=0 p(a, -)=p(-, b)=-1
中级层面:
利用数理统计方法和相关的工具,研究生物信息学 问题
——概率、数理统计基础 ——现有的数理统计和科学计算工具(EXCEL、SPSS等)
高级层面:
提出有重要意义的生物信息学问题;自主创新, 发展新方法,开发新工具,引领生物信息学领域研 究方向。
——面向生物学领域,解决重要生物学问题 ——利用数学、物理、化学、计算科学等思想和方法 ——建立模型,发展算法 ——自行编程,开发软件
核酸矩阵二
转移矩阵
A
T
是指序列们是由共同祖先进化而来,讲两条序列
的同源关系,只有两种情况:同源、不同源。
相似性:指序列间的差别,是一个度量。
同源与相似的关系:一般认为序列相似性达到一 定程度,即可认为是同源,但不绝对。
Ortholog (直系同源):
两个基因通过 物种形成 的事件而产生,或源于不同物 种的具有共同祖先的两个基因,或者两个物种中的同一基因, 一般具有相同的功能。
G
1000100
C
101000
A
10000
C
1 1001
G
1
100
U1
10
C
1
例4:RNA stem/loop
AUGUAGCAU
A1 0 0 0 1 0 0 10
U 10100001
G
1001000
C
000001
U
00001
A
0010
C
100
A
10
U
1
例5:不同序列的比对
P KD F CKA LV
Paralog (旁系同源):
指相同的基因组内因 基因复制 形成的多个具有不同功 能的基因。
Xenolog (异同源):
由某一个 水平基因转移 事件而得到的同源序列。
Convergence(趋同):
序列的相似性是由 随机因素 产生。
第一节、双序列比对
点阵分析 动态规划
1. 点阵分析
用途:
1. 寻找两条序列间所有可能的比对; 2. 寻找蛋白质、DNA序列上正向或反向的重复序列; 3. 发现RNA上可能存在的互补区域。
优点:
1. 可以找到两个序列间所有可能的残基匹配; 2. 简单、易懂 3. 直观、整体性强
工具:
http://www.ebi.ac.uk/Tools/emboss/index.html
例1:自身的比对
AKG F KC A D E
A1 0 0 0 0 0 1 0 0
K 10010000
G
1000000
Sequence 2#
m
寻找两条序列的最佳比对,实际 上就是寻找在矩阵标记图中找非 重叠平行斜线最长的组合。
实例
序 列 对于较长的 序列,有很 多匹配的字 符,点阵图 变得非常复 杂和模糊。
→ 2→
→ 序列1 →
点阵法的滑动窗口技术:
使用滑动窗口代替一次一个位点的比较,是解 决这个问题的有效方法。
F
100000
K
10000
C
1000
A
100
D
10
E
1
例2:重复序列
AKGF DKGF E
A1 0 0 0 0 0 0 0 0
K 10001000
G
1000100
F
100010
D
10000
K1
1000
G
1
100
F
1
10
E
1
例3:反向重复/回文
AUGCACGUC
A1 0 0 0 1 0 0 00
U 10000010
假设窗口大小为10,相似度阈值为8,则每 次比较取10个连续的字符,如相同的字符超 过8个,则标记,
基于滑动窗口的点矩阵方法可以明显地降低 点阵图的噪声,并且明确无误的指示出了两 条序列间具有显著相似性的区域。
(a)
(b)
(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β 球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对 以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为 10个核苷酸,相似度阈值为8。
P1 0 0 0 0 0 0 0 0
K 10001000
F
0100000
T
00000
K1
1000
A
100
I
00
V
1
PKDFCKALV PK - FTKAIV
字符的关系: 1. 匹配 2. 删除或插入 3. 替换
点阵法的序列比对
Sequence 1#
1
n
1
“-” Insertion
“-” Insertion
序列分析(一)
一一序列比对
生物信息学研究的三个层面
初级层面:
基于现有的生物信息数据库和资源,利用成熟的生 物信息学工具(专业网站、软件)解决生物信息学 问题
——生物信息数据库(NCBI、EBI、DDBJ、UniProt等) ——基因组序列分析、序列比对软件(BLAST、CLUSTAL 等) ——系统发育树构建软件的简单使用(PHYLIP、PALM等) ——搜集、整理有特色的生物信息学数据库
=5 由于序列长度不同,因此相对长度的得分更有意义:
Sim(s,t)=2×Score/(m+n)=2×5/(9+8)=0.588
注意:
不同类型的字符替换,其 代价是不同的。
核酸矩阵一
BLAST矩阵
A
T
C
G
A
5
-4
-4
-4
T
-4
5
-4
-4
C
-4 -4
5
-4
G
-4 -4
-4
5
目前最流行的序列比较程序BLAST使用的矩阵
相关文档
最新文档