第三章序列比对
第三章序列比对共46页
多序列的目的:用于比较基因组研究
1) 用于描述一组序列(基因家族)之间的 相似性关系, 以便了解一个基因家族的基本 特征,寻找motif,保守区域等。 2) 可构建HMM模型,搜索更多的同源序列, Pfam,prints,prosite,interPro等 3) 分析结构用于构建进化树
第二节 序列比对的基本概念
9
9
8
8
7
P
3
3
4
4
6
6
7
8
8
8
8
8
9
9
9 10 10 10
9
9
9
8
7
V
3
3
4
4
5
5
7
7
7
8
8
8
8
8
9 10 10 10 10 10
9
8
7
L
3
3
3
3
5
5
7
7
7
7
8
8
8
8
9
9
9 10 10 10
9
9
8
I
3
3
3
3
5
5
7
7
7
7
8
8
8
8
9
9
9 10 10 10
9
9
8
Y
2
2
3
3
4
4
6
6
6
6
7
7
7
7
8
8
9
9
9
9 10 10
(BLOck SUbstitution Matrix,BLOSUM)
第三章 序列比对
第三章序列比对1 序列比对的概念序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。
2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。
核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。
即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。
我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。
正是通过序列比对找出序列之间的相似性。
序列比对找到的是相似性,可用这相似性去进行同源性分析。
后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。
序列比对的一个用途就是用于搜索相似序列。
当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。
现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。
在基因组测序中,序列比对更是有重要作用。
基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。
序列比对还可以寻找序列中的特定位点。
当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。
同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。
第三章 序列比对
英文名
Glycine Alanine
缩写 简称
Gly Ala G A
中文名
苏氨酸 半胱氨酸
英文名
Threonine Cystine
缩写 简称
Thr Cys T C
缬氨酸
亮氨酸 异亮氨酸 脯氨酸 苯丙氨酸 酪氨酸 色氨酸
Valine
Leucine Isoleucine Proline Phenylalanine Tyrosine Tryptophan
并系同源(paralogy)基因是指同一基因组(或同系物种的 基因组)中,由于始祖基因的加倍而横向(horizontal)产生 的几个同源基因
直系与并系的共性是同源,都源于各自的始祖基因。区别在 于:
在进化起源上,直系同源是强调在不同基因组中的垂直传递,并系 同源则是在同一基因组中的横向加倍;
PAM矩阵的制作步骤:
构建序列相似(99%)的比对 计算氨基酸 j 的相对突变率mj(j被其它氨基酸替换的 次数) 针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 替换次数除以相对突变率(mj) 利用每个氨基酸出现的频度对j 进行标准化 取常用对数,得到PAM-1(i, j) 将PAM-1自乘N次,可以得到PAM-N
3 0 1 0 0 0 0 -1 -1 -1 0 -1 0 -2 0 -3 -3 -5 T
6 1 -1 -1 -1 -1 0 0 0 -1 -2 -2 -3 -1 -5 -5 -6 P 2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 -6 A 5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -1 -5 -7 -7 G 2 2 1 1 2 0 1 -2 -2 -3 -2 -2 -2 -4 N
第三章序列比对
生物软件网: /
• 当然,DNAStar、DNAMan等软件也 可以进行比对。
• 载入的序列必须是fasta格式, 存储在记事本(.txt)中。
参数可以选择,或者默 认。
Clustal比对后的结果
3.3 多条序列比对方法
3.3.1 序列对数据库的比对检索分析 3.3.2 多重序列的本地化软件对齐 3.3.3 Clustal比对结果的编辑
Clustal的工作原理
Clustal输入多个序列
快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。
采用邻接法(NJ)构建一个树(引导树)
根据引导树,渐进比对多个序列。
Clustal的输入输出格式
• 输入序列的格式比较灵活,可以是前面介 绍过的FASTA格式,还可以是PIR、 SWISS-PROT、GDE、Clustal、 GCG/MSF、RSF等格式。
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同 DNA碱基或氨基酸残基顺序所占比例的高低。
• 相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的 远近、甚至于结构与功能有什么联系。
• 当相似程度高于50%时,比较容易推测检测序列和目标序列可能是 同源序列;而当相似性程度低于20%时,就难以确定或者根本无法 确定其是否具有同源性。
• “Bl2Seq”是NCBI上Blast程序的一部分, 允许两条序列之行局部双序列比对,使 用这个程序执行蛋白质(或DNA序列) 的双序列比对非常容易。
• 网络服务如NCBI的“bl2seq”程序,地址: /Blast.cgi
点!
特殊BLAST
10
20
30
40
50
第三章 序列两两比对
4
序
言
识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列 的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果 这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广 到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未 知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著 相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序 列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两 条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条 序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列 出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖 先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能 从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其 它的方法识别了。
7
序
言
序列相似(similarity)与序列一致(identity)
序列比对中用到的另一对相关术语是序列相似与序列一致。这两个 概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常 不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同 残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具 有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进 行标准化。第一种方法用如下公式计算序列相似度: S=[(Ls*2)/(La+Lb)]*100 其中S是序列相似的百分比,Ls是相似的残基数目,La和Lb分别是两条 序列的长度。
8
序
言
序列相似(similarity)与序列一致(identity)
3序列比对原理
100个残基发生一次替换的Dayhoff’s PAM-1矩阵
针对不同的进化距离采用PAM 矩阵
序列相似度 = 40% | 打分矩阵 = PAM120
50% | PAM80
60% | PAM 60
PAM250
→ 14% - 27%
第三节 序列比对算法 Dotplot算法
评估两条序列相似度最简单的方法之一是利用点阵图。
• 假设两条序列:CACGA和CGA,使用统一的空位和 失配罚分 • 则:1、给第一条序列加一个空位
2、给第二条序列加一个空位 3、两条序列都不加空位
如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的 得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得 分,就可以计算出起始位点的不同的三种比对得分。
(a)Leabharlann (b)(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋 白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球 蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈 值为8。
常用对比软件:BLAST(bl2seq)
动态规划: Needleman 和 Wunsch 算法
第三章 序列 比对原理
Principles of Sequence Alignment
• Biology
- What is the biological question or problem?
• Data
-What is the input data? -What other supportive data can be used ?
• 考虑这样的两条核苷酸序列: AATCTATA和AAGATA 仅有三种比对方式
生物信息学 第三章:序列比对原理
blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query
tblastx
Search translated nucleotide database using a translated nucleotide query
一、序列比对打分
序列分析的目的是揭示核苷酸或氨基酸序列编码的 高级结构或功能信息目的。
二、打分矩阵
稀疏矩阵、相似性打分矩阵
(一)DNA打分矩阵
即两个序列中相应的核苷酸相同,计1分;否则计0分。 如果考虑颠换和置换,可采用以下打分矩阵
(二) 氨基酸序列打分矩阵
1.PAM矩阵(Dayhoff突变数据矩阵)
(二)直系同源、旁系同源
直系同源基因(orthologous gene)是指在不同物种 中有相同功能的同源基因,它是在物种形成过程中 形成的。
旁系同源基因(paralogous gene)是指一个物种内 的同源基因。
直系同源基因和旁系同源基因统称为同源基因 (homolog)。
第二节 序列比对打分方法
ClustalX的比对步骤: 1.加载要比对的序列文件 序列格式可以支持NBRF/PIR、EMBL/Swiss-Ppot、 FASTA、GDE、Clustal、MSF、RSF等。
2.多序列比对
3.比对结果输出
(二)T-Coffee工具 (三)MultAlin工具 (四)MAFFT工具
比对结果
(二)高级BLAST工具 1、PSI-BLAST(position specific interated BLAST)
第三章 双序列比对
计分方法
• 记分规则是比对的重要条件,记分方法的 生物学意义常常决定了比对所反映的生物 学特征。不同的记分方法会得到差异较大 的比对结果。
编辑距离(edit distance)
相似性得分
不同编辑操作的代价不同
为编辑操作定义函数w,它表示“代价 (cost)”或“权重(weight)”。
对字母表中的任意字符a、b,定义 w (a, a) = 0 w (a, b) = 1 ab w (a, -) = w ( -, b) = 1
•本质问题:优化
•动态规划寻优策略
•动态规划算法(Dynamic Programming)
双序列比对的算法
动态规划算法:
是把大的问题分割成多级的小问题,逐级求每 个小问题的最优答案,各级小问题的最优答案 加起来就是这个大问题的最优答案。
– Global: Needleman-Wunsch – Local: Smith-Waterman
空位罚分
• 1. 线性罚分:d, 每次罚分的分数;g,空位数
r ( g ) gd
• 2. 修正的罚分:d, 第一次罚分的分数;g,空 位数;e, 修正后的参数
r ( g ) d ( g 1)e
两两比对算法
•直接方法 — 生成两个序列所有可能的比对,分 别计算代价函数,然后挑选一个代价最小的比对 作为最终结果。
第三章 双序列比对
为什么要双序列比对
• 问题: 两个序列是相关的吗? • 方法:比较这两个序列,看它们是否相似。 • 目的: 相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系
同源物定义
• 如果多条序列是由共同的祖先序列进化而 来的,则称它们是同源的。
生物信息学应用:序列比对与数据库搜索
Y
6
W
VEDQK L S K CN VENK L TRPKCD
对齐:
VEDQKLS
KCN
VEN KLTRPKCD
VEDQK L SKCN V6 4 3 2 3 5 2 3 2 2 E4654413403 N2 3 5 3 4 1 5 4 2 6 K3434623604 L5112262221 T3323425424 R2 2 2 3 5 2 3 5 2 2 P3323234222 K3434623604 C2 0 1 1 0 2 4 0 6 2 D3 5 6 4 3 1 3 3 1 5
一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择
打分系统---空位罚分
序列的改变不仅可由点突变造成,也可 因残基的插入和缺失引起。所以引入空 位以产生序列比对是有生物学基础的。 引入空位罚分来代表比对中加入空位的 有效性
ACTACGT
A_ _ _CGT
空位罚分的计算:
k: 空位长度; r: 开放空位罚分值; δ: 扩展空位罚分值, δ<r
序列同源性
两序列来自一个共同的祖先序列
序列比较
• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST)
(heuristic)
Dot Matrix
The amino acid sequences of the phage λcI (horizontal sequence) and phage P22 c2 (vertical sequence) repressors. The window size and stringency are both 1.
生物信息学2016-9-序列比对
然后点击W按钮或通过菜单栏Alignment >> Alignment by ClustalW
出现参数页面,可以调整参数,一般都使用默认参数,点击OK进行序 列比对
Bioinformatics
Liaoning University
Bioinformatics
Liaoning University
Bioinformatics
Liaoning University
序列比对软件使用方法介绍
Bioinformatics
Liaoning University
内容回顾
• • 一致性:一致性指两个序列相同的程度。 保守性:某一氨基酸残基或序列的改变(突变)保持 了原始氨基酸残基的物理化学特征,那么这个突变就 是保守的。 相似性:相似性表示序列之间相关联的程度。与一致 性比较相似性进一步考虑了发生保守突变的氨基酸的 数目,即考虑了相似氨基酸的数目。 同源性:如果两个序列是来源于一个共同的祖先,那 么他们是同源的。
序列分别为人的载脂蛋 白D,人视黄醇结合蛋白 4,孕激素相关子宫内膜 蛋白,补体8(γ肽), lipocalin1,人气味结合 蛋白2A, α-1微球蛋白, 嗜中性明胶酶相关蛋白, 前列腺素D2合成酶 通过多序列比对可以发 现人这些旁系同源物序 列高度趋异,互相之间 的相似度并不高。 但都存在一个保守的模 体:GXW,即甘氨酸-任 意氨基酸-色氨酸。
第三章 序列比较
第三章序列比较序列比较是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。
序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。
在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。
一个普遍的规律是序列决定结构,结构决定功能。
研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。
这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。
这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。
研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。
这里,将序列看成由基本字符组成的字符串,无论核酸序列还是蛋白质序列,都是特殊的字符串。
本章着重介绍通用的序列比较方法。
序列的相似性3.13.1序列的相似性序列的相似性可以是定量的数值,也可以是定性的描述。
相似度是一个数值,反映两条序列的相似程度。
关于两条序列之间的关系,有许多名词,如相同、相似、同源、同功、直向同源、共生同源等。
在进行序列比较时经常使用“同源”(homology)和“相似”(similarity)这两个概念,这是两个经常容易被混淆的不同概念。
两条序列同源是指它们具有共同的祖先。
在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。
而相似则是有程度的差别,如两条序列的相似程度达到30%或60%。
一般来说,相似性很高的两条序列往往具有同源关系。
但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。
直向同源(orthologous)序列是来自于不同的种属同源序列,而共生同源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。
结构生物信息学3-序列比对
生物信息学培训班
蛋白质的打分矩阵 -- PAM
71个蛋白质家族的1572种变化; 序列相似性 > 85%
序列比对算法
功能同源的蛋白质 通过中性进化,引入 可接受的点突变; 进化模型:
A. 基本假设:中性进化,Kimura,1968; B. 进化的对称性: A->B = B->A; C. 扩展性:通过对较短时间内氨基酸替代关系 的计算来计算较长时间的氨基酸替代关系;
生物信息学培训班
基因的进化
生物学意义
直系同源(Orthologs):具有共同祖先与相似功能的 同源基因(无基因复制事件)。 旁系同源(Paralogs):两个物种A和B的同源基因, 分别是共同祖先基因组中由复制事件而产生的不同 拷贝的后代。 趋同进化(Convergent evolution):序列中的相似区 域可能不具有共同的祖先,而是通过两条进化路径 独立获得相同的功能
序列比对算法
生物信息学培训班
蛋白质的打分矩阵
疏水矩阵
序列比对算法
主要利用蛋白质统计信息和氨基酸与疏水级映射关系,提 出一种基于亲疏水性的替代矩阵HB62,解决蛋白质疏水 级序列相似性计算问题
生物信息学培训班
蛋白质的打分矩阵 -- 疏水矩阵
序列比对算法
生物信息学培训班
蛋白质的打分矩阵 -- PAM
空位权值恒定模型:
不允许有空位 Score: -21
序列比对算法
1 GTGATAGACAC ||| 1 GTGCATAGACAC
允许空位但不罚分 Score:
匹配 = 5 错配 = -4
55
1 GTG-ATAGACAC ||| |||||||| 1 GTGCATAGACAC
生物信息学基础第三章
对字母表中的任意字符a、b,定义
w (a, a) = 0
w (a, b) = 1
a b
w (a, -) = w ( -, b) = 1
也可以使用得分(score)函数来评价编辑操作
p (a, a) = 1 p (a, b) = 0 a b p (a, -) = w ( -, b) = -1
(1)两条长度相近的序列相似 找出序列的差别
(2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列
2、编辑距离(Edit Distance)
GCATGACGAATCAG
TATGACAAACAGC
GCATGACGAATCAG
?
反向互补序列
RNA发夹式二级结构
3、通过点矩阵进行序列比较
“矩阵作图法” 或 “对角线作图”
实例
序 列
→ 2→
→ 序列1 →
自我比较
→ 序列1 →
→ 1→
序 列
滑动窗口技术
两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。
滑动窗口技术
• 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。
Match(C, C)
Match(A, A)
Match(A, A)
Match(C, C)
Match(C, C)
Replace(A, T)
Insert( -, T)
Delete(C, -)
Match(A, A)
Match(A, A)
图3.6 序列AGCACACA和ACACACTA的两种比对结果
生物信息学-第三章
我们说它们一致性为39.4%.
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND
6
所以, 相似性的数值一定比一致性的要( 大 or 相等 or 小 )
7
生物序列的同源性
PAM250、PAM120、PAM80和PAM60矩阵可用于相似性 分别为20%、40%、50%和60%的序列比对
34
PAM250
A R N D C Q E G H I L K M F P S T W Y V 2 •各个氨基酸本身的替换频率最大 -2 6 0 0 2 •氨基酸本身的替换频率越高表示该氨基酸 0 -1 2 4 在自然界中比较少 -2 -4 -4 -5 12 •正值表示氨基酸之间的替换频率大 0 1 1 2 -5 4 0 -1 1 3 -5 2 4 •负值表示氨基酸之间的替换频率小 1 -3 0 1 -3 -1 0 5 -1 2 2 1 -3 3 1 -2 6 -1 -2 -2 -2 -2 -2 -2 -3 -2 5 -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 -1 3 1 0 -5 1 0 -2 0 -2 -3 5 -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 35 -2 4 A R N D C Q E G H I L K M F P S T W Y V
chap3-序列比对
2012/09/11 Huizhi Zhao
2021/4/6
1
内容
生物问题 动态规划算法 两序列比对(联配) 算法扩展
2021/4/6
2
生物问题
新基因位置推断
统计方法 序列比对
新基因功能推断
致癌基因vsis 囊性纤维化基因的发现
2021/4/6
3
基因位置预测
统计方法:密码子选择的偏倚性 基于相似性基因预测:新测序的基因通常会与
2021/4/6
20
备忘录方法
备忘录方法的控制结构与直接递归方法的控制 结构相同
备忘录方法为每个解过的子问题建立了备忘录 以备需要时查看,避免了相同子问题的重复求 解
2021/4/6
21
内容
生物问题 动态规划 两序列比对(联配) 算法扩展
2021/4/6
22
序列比对中动态规划描述
指定所有点阵元素间的打分值 对于点阵中的每一个单元,检查回到序列起点
的所有可能途径(允许插入和删除)并给出单 元最大打分途径的值 在点阵中构建一个比对,从最后一个单元(或 最高分值单元)回溯给出最高打分的比对
2021/4/6
23
编辑距离与比对
DNA的突变是进化过 程
DNA复制错误引起核 苷酸的替换、插入和 缺失
2021/4/6
24
比对
联配
2021/4/6
街区的景点数目 出发点(源点):西北点 目的点(汇点):东南点 从源点到汇点的一条路的权
重和最大
1/4/6
14
曼哈顿游客问题
2021/4/6
15
曼哈顿游客问题
2021/4/6
16
有向无环图最长路线
第三章 序列两两比对
序列比对的方法
比对算法
比对算法,不管是全局比对还是局部比对,基本上是相似的,只是 比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法 的:点阵方法,动态规划方法和基于单词的方法。点阵法和动态规划算 法在这章讲,而基于单词的方法将在下一章讲。
11
序列比对的方法
点阵方法
最基本的序列比对方法是点阵法,也叫点平面图法。这是一种在二 维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横 轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所 有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位 置画一个点。而矩阵的其它位置保持空白。如果两条序列有大量的相似 区域,就用直线沿着对角线将连续的点连接起来。如果对角线的中间出 现断点,就表明有残基的插入和删除。矩阵中平行的对角线代表序列中 的重复区域。
8
序
言
序列相似(similarity)与序列一致(identity)
第一种方法用如下公式计算序列一致度: I=[(Li*2)/(La+Lb)]*100 其中I是序列一致的百分比,Li是一致的残基数目,La和Lb分别是两条序 列的长度。 第二种方法利用如下公式计算序列的一致/相似度: I(S)%=Li(S)/La% 其中La是较短序列的长度。
20
序列比对的方法
动态规划方法
动态规划是一种通过匹配两条序列中所有可能的字符对来确定最 优比对的方法。它和点阵法基本相似,就是也需要构造一个二维的矩 阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来 找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的 找到最佳联配
21
序列比对的方法
Dotmatcher(bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html) Dottup(bioweb.pasteur.fr/seqanal/interfaces/dottup.html) Dothelix(www.genebee.msu.su/services/dhm/advanced.html) MatrixPlot(www.cbs.dtu.dk/service/MatrixPlot/ )
3生物化学
《生物信息学》第三章:序列比较(第三部分)在线多序列比对工具:TCOFFEE - ExpressoTCOFFEE是一个非常流行的多序列比对工具。
TCOFFEE与CLUSTAL系列在所使用的算法上类似,准确度上比CLUSTAL系列略高,但计算耗时也比CLUSTAL系列略高。
最关键的是TCOFFEE有很多种变形,也就是说它有更多的功能。
许多网站都提供TCOFFEE 的在线使用,比如EMBL的多序列比对工具里就有TCOFFEE。
但是这次,我们从TCOFFEE 的网站做多序列比对。
TCOFFEE本身是一个标准的多序列比对工具,跟CLUSTAL没有什么区别。
我们来看它的变形,也就是根据比对序列种类的不同,TCOFFEE网站下特有的比对工具(图1)。
图1. TCOFFEE网站下特有的比对工具针对蛋白质序列的比对工具,除了TCOFFEE以外,还有Expresso,M-Coffee, TM-Coffee 以及PSI-Coffee。
其中,Expresso最有特色,它是为序列加入结构信息后再做多序列比对的工具。
因为有结构信息的辅助,它可以大大提高比对的准确度。
M-Coffee可以把多个比对的结果整合成一个。
TM-Coffee专为穿膜蛋白打造,PSI-Coffee专为远源序列打造。
同样的还有针对RNA和DNA序列的Coffee。
抱歉不能一一品尝,我们就挑他家的特色招牌咖啡,Expresso尝一下。
也就是做加入结构信息的蛋白质多序列比对。
做Expresso的序列我们选用网站提供的示例序列(图2)。
Show more options下,可以通过各种方式给入输入序列的结构信息。
如果你有这些序列现成的结构文件,也就是PDB 文件,可以直接把它们上传上来。
三条序列对应三个上传链接。
可以上传的结构文件不只限于PDB数据库下载的,也包括还未正式发表的解析结构或者计算机预测的结构,只要是用PDB文件格式保存的,都可以。
图2. TCOFFEE Expresso序列和结构信息输入界面如果没有现成的结构文件,但是这些序列在PDB数据库里有对应结构的话,你可以从接下来的输入框里,按照规定的写法,指定哪条序列对应PDB数据库中的哪个结构(图3)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节 引言
序列比对的分类:双序列比对,多序列比对
双序列比对的目的:
同源物鉴定,功能预测
基本假设:
1)所有的生物都起源于同一个祖先 (物种间序列存在同 源关系,同源序列功能往往是相似的) 2)序列不是随机产生,而是在进化上不断发生着演变 (同源的序列存在高度相似性) 3)序列的相似性可以判断 序列的同源性,进而可以利用 同源物功能的相似性 来进行推断
BLAST结果综述
BLAST结果表述
Bl2Seq双序列比对举例
特殊BLAST
蛋白质序列比对用blastp,DNA序列比对用blastn
例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对
粘贴 sequence1
粘贴 sequence2
竖线:一致性 (identities)
缺口(gap):不同之处
>gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus Hemagglutinin GLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVG KEFNNLERRIENLNKKVDDGFLDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGN GCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR
直系同源和旁系同源
直系同源(orthology)是指不同物种内的同源序列, 它们来源于物种形成时的共同祖先基因。
旁系同源(paralogy)是指同一物种中,由于基因的 复制而产生的几个同源基因。
直系同源和旁系同源的图示:
相似性分数的计算
1)编辑距离:两条序列对应位置上不同字符的个数 2)相似性得分:两条序列对应位置上相同字符的个数
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• (ii) 遗传密码矩阵(genetic code matrix,GCM ) • (iii)疏水性矩阵 (hydrophobic matrix) • (iv)PAM矩阵(point accepted matrix,PAM) • (v) BLOSUM矩阵
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix)
(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
表3.1 等价矩阵表 AT CG
A10 0 0 T01 0 0 C0 0 1 0 G0 0 0 1
选择“进行完全比对”,输出的文件路径自动与原始 的序列文件的路径一致。
Clustal比对结果 星号:完全一致
峰:表示一致程度高 谷:表示一致程度低
Cluster可进行双序列比对
第七节 全基因组比对
1) UCSC genome browser 2) Ensembl genome browser
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它们 是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标 序列之间相同DNA碱基或氨基酸残基顺序所占比例的 高低。
• 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时, 就难以确定是否具有同源性。
•利用每个氨基酸出现的频度对j 进行标准化 •取常用对数,得到PAM-1(i, j) •将PAM-1自乘N次,可以得到PAM-n
PAM矩阵与BLOSUM矩阵的选择
第四节 序列比对的算法
双序列比对的三种算法: • 点阵分析法 • 动态规划法:Needleman-Wunsch、Smith-Waterman • 词或K串法(BLAST or FASTA中应用,后面会提到)
9
9
8
8
8
8
7
7
5
T
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
8
8
8
8
7
7
5
H
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
9
8
8
8
7
7
5
A
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
9
8
8
8
7
7
5
C
4
4
5
5
6
6
8
8
8
8
9
9
9
9 10 10
9
9
9
9
8
8
5
M
3
3
4
4
6
6
8
8
8
8
9
9
9
9 10 10 10 10
The end
7
7
6
6
6
5
5
5
4
4
3
S
6
6
7
7
8
8 10 10 10 10
9
9
9
9
8
8
7
7
7
7
6
6
4
N
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
Q
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
G
5
5
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
8
7
7
6
6
5
X
5
5
5
5
7
7
9
9
9
9 10 10 10 10
(BLOck SUbstitution Matrix,BLOSUM)
• 遗传密码矩阵
遗传密码矩阵通过计算一个氨基酸变成另一 个氨基酸所需的密码子变化的数目而得到。 通常为1 或 2,只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
K
D
E
B
Z
S
N
Q
G
X
T
H
A
C
MP
V
L
I
Y
F
W
R 10 10
表3.2 BLAST矩阵 AT CG
A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5
表3.3 转移矩阵 AT CG
A 1 -5 -5 -1 T -5 1 -1 -5 C -5 -1 1 -5 G -1 -5 -5 1
(2)蛋白质打分矩阵
• (i)等价矩阵
8
F
1
1
2
2
4
4
6
6
6
6
7
7
7
7
8
8
8
8
9
9 10 10
9
W
0
0
1
1
3
3
4
4
4
5
5
5
5
5
6
7
7
7
8
8
8
9 10
PAM & BLOSOM
• 这类矩阵列出同源蛋白质在进化过程中氨基酸变 化的可能性(统计学inference)是基于进化原理 的依据,更科学
PAM矩阵( point accepted mutaion)
2)蛋白质比对通常比DNA比对具有更丰富的信息
i) DNA序列的许多改变(特别是密码子的第三位)不会 改变对应的氨基酸
ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸 碱等),在打分系统中会认为是相似的(positive), 而不是不同
第五节 双序列比对的常用工具
数据库搜索:在分子生物学研究中,对于新测定的 碱基序列或由此翻译得到的氨基酸序列,往往需要 通过数据库搜索,找出具有一定相似性的同源序列, 以推测该未知序列可能属于哪个基因家族,具有哪 些生物学功能。 数据库搜索的基础是序列的相似性比对,即双序列 比对,因此,数据库搜索是双序列比对的特例 BLAST, FASTA等常用的数据库搜索程序均采用局部相 似性比对的方法,具有较快的运行速度
• 基于氨基酸进化的点突变模型
如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得 分就高
PAM矩阵的制作步骤 •构建序列相似(大于85%)的比对 •计算氨基酸 j 的相对突变率mj(j被其他氨基酸替换的次数) •针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 •替换次数除以相对突变率(mj)
9
9
8
8
7