第5章 序列比对与数据库相似性搜索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
发现多个序列的共性
发现与结构和功能相关的保守序列片段
多序列比对的用途
对在系统发生与进化分析中发挥着重要作用 可以用于功能预测(同源预测法) 可应用于蛋白质结构预测 有助于发现基因家族或蛋白质家族的序列特 征
多序列比对工具 -clustalX
Clustal是一个单机版的基于渐进比对的 多序列比对工具,由Higgins D.G. 等开发。 有应用于多种操作系统平台的版本,包括 linux版,DOS版的clustlw,windows版 本的clustalx等。
同源性与相似性间的关系
同源性(homology)
由某一共同祖先经趋异进化而成。包括 直向/直系同源(Orthologs)与横向/旁系 同源(paralogs)
描述对象:染色体—“同源染色体”
基因—“同源基因” DNA片断—“同源片段”
相似性(similarity)
序列比对过程中,用来描述检测序列
ACGCCTG
序列比对的打分系统
(1)核酸打分矩阵
设DNA序列的字母表为 = { A,C,G,T }
a. 等价矩阵 b. BLAST矩阵 c. 转移矩阵
表3.1 等价矩阵表 A A T C G 1 0 0 0 T 0 1 0 0 C 0 0 1 0 G 0 0 0 1 A T C G 表3.2 BLAST矩阵 A 5 -4 -4 -4 T -4 5 -4 -4 C G A T C G 表3.3 转移矩阵 A 1 -5 -5 -1 T -5 1 -1 -5 C -5 -1 1 -5 G -1 -5 -5 1
1、局部比对
----AGCT---ATGCAGCTGCTT
目标: 使序列最大匹配,不计前缀的得分, 也不计删除后缀的得分
序列S: 序列t: - - - - AGCT - - - ATGCAGCTGCTT
2、准全局比对
准全局比较:在评价序列比对时不计终端“空缺” (end space,或空位)的得分或代价
映序列间相似性关系及其生物学特征。
序列比对的根本任务:
寻找序列之间的相似性 辨别序列之间的差异
序列比对的目的:
相似序列 相似的结构,相似的功能 判别序列之间的同源性
推测序列之间的进化关系
序列同源性与相似性
同源性(homology)
相似性(similarity)
定义 描述方法
-4 -4 -4 -4 5 -4 -4 5
(2)蛋白质打分矩阵(替换矩阵)
PAM矩阵 PAM矩阵
BLOSUM矩阵 BLOSUM矩阵
PAM30
BLOSUM45 BLOSUM62 BLOSUM80
PAM70
PAM250
PAM矩阵(Point accepted mutation matrices)
Smith-Waterman算法:在Needleman-Wunsch
算法基础上发展而来的一种局部比对算法。
两种算法均可以用于核酸和蛋白质序列。在给定空位罚值和替换矩阵情况 下,它们总是能给出具有最高比对值的排列。
双序列比对及基本操作
双序列全局比对工具——Needle的使用
1、输入序列
2、设置参数
BLOSUM矩阵(Blocks Amino Acid Substitution Matrices)
基于蛋白质模块数据库,以序列片段为基础 为解决序列的远距离相关,从蛋白质模块数 据库BLOCKS中找出一组替换矩阵 分析蛋白的功能保守区域的可能性。
通过设置不同的百分比,产生了不同矩阵。
>=80%相同的序列组成的串对应BLOSUM80矩阵
|
打分矩阵 = PAM120
|
PAM80
|
PAM 60
|
PAM250
PAM250
A R N D C Q E G H I L K M F P S T W Y V
•各个氨基酸本身的替换频率最大
2 •氨基酸本身的替换频率越高表示该氨基酸 -2 6 在自然界中比较少 0 0 2 0 -1 2 4 •正值表示氨基酸之间的替换频率大 -2 -4 -4 -5 12 0 1 1 2 -5 4 •负值表示氨基酸之间的替换频率小 0 -1 1 3 -5 2 4 1 -3 0 1 -3 -1 0 5 -1 2 2 1 -3 3 1 -2 6 -1 -2 -2 -2 -2 -2 -2 -3 -2 5 -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 -1 3 1 0 -5 1 0 -2 0 -2 -3 5 -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 A R N D C Q E G H I L K M F P S T W Y V
ACTGTTCCGAA… ACGCCTG
…100kbp… …AGCCTGA…
…100kbp… …ACTACTG
全局优化
ACTGTTCCGAA… …100kbp… …AGCCTGA… …100kbp… …ACTACTG
AC---…---GCC---…---TG
局部优化
ACTGTTCCGAA… …100kbp… …A-GCCTGA… …100kbp… …ACTACTG
例如: s: t: cost=-2
AGCACACA ACACACTA
s: AGCACACA t: ACACACTA score (s,t)= 5
序列比对的目的是寻找一个得分最大(或代价最小)的比对。
序列两两比对的基本算法
首先生成两个序列所有可能的比对 分别计算代价函数 挑选一个代价最小的比对作为最终结果 本质问题:优化 策 略:动态规划算法
序列比对的基本过程
序列比对的数学模型
序列比对的经典算法
序列比对的实施方法
序列比对的数学模型
序列比对依赖于数学模型(Model)
不同的模型,从不同角度反映序列的特性,如结构、功能、 进化关系等。不能说一个模型一定比另一个模型好,只能说 它们是从某个角度反映了序列的生物学特性。
此外,同一模型的不同参数,也可能导致比对结果的不同
其中 •G是空位开放罚分(gap-opening penalty) •L是空位延伸罚分(gap-extension penalty)
•n是空位长度
•G>L
第二节
概述
序列两两比对
基本算法
局部比对 准全局比对 空位
序列的两两比对
序列两两比对(Pairwise Sequence Alignment) 按字符位置重组两个序列,使得两个序列达到一样 的长度。
相似度>50%,可推测检测序列和目标序列同源 相似度<20%,难以确定或者根本无法确定其是否具 有同源性
相似性不等同于同源性
进化趋同
相似性和同源性
判
断
A. X DQ681076与DQ681075具50%同源性
B. DQ681076与DQ681075具50%相似性 C. DQ681076与DQ681075高度相似 D. X DQ681076与DQ681075高度同源
基于进化的点突变模型
证据:编码相同蛋白质的基因随着进化发生分歧,相似度降低。
PAM1就是一个进化的变异单位, 即1%的氨基酸改变,PAM120矩阵用 于比较相距120个PAM单位的序列。
分析同源蛋白在进化中氨基酸变化的可能性 根据进化距离采用相应的PAM 矩阵
序列相似度 = 40% 50% 60% 14-27%
举例:
比对结果:
HEAGAWGHE-E P-A--W-HEAE
记分方法:
–残基或碱基相同得分: +2
–残基或碱基不同得分: -1
–插入空位: -1
分值SCORE计算为: SCORE=5 * 2 + 1 * (-1) + 5 * (-1) = 4
HEAGAWGHE-E SCORE=5*2+1*(-1)+5*(-1)= 4
序列1 长度为18 序列2 长度为8
(a)准全局比对:6个匹配,
1个错配,1个空位
(b)全局比对:8个
3、连续空位
K 阶空位 — K个连续的空位字符 “-” ATG-A-T-C-A-G ATG-----ATCAG ATGCAGTGCAATG ATGTTTTTATCAG 空位罚分 生物学意义 “插入” 或“删除” 突变 突变次数 连续空位可能对应于一次突变 非连续空位对应于 多次突变
P-A--W-HEAE
序列比对结果分值计算过程:
考虑比对的残基是否相同 打分矩阵 空位罚分
考虑比对的残基是否相似
空位插入需要赋予不同分数
序列比对的经典算法
算法(Algorithm):为解决一个问题而采取的方法和步骤,
就称为算法。
Needleman-Wunsch算法:整体比对算法,最佳
比对中包括了全部的最短匹配序列。
>=62%相同的序列组成的串对应BLOSUM62矩阵
BLOSUM62矩阵
空位罚分 Gap penalties
线性空位罚分(linear gap penalty)
罚分公式: G * n
其中 • • G 是空位罚分值 n 空位的长度
仿射空位罚分(affine gap penalty)
罚分公式: G+L*n
Human genetics, SNPs
DBD
Therapeutics, drug design
insertion domain
Therapeutics, drug discovery LBD
Julie Thompson – IGBMC
binding sites / mutations
多重序列比对目的:
3、提交
双序列局部比对工具——Matcher的使用
第三节
序列多重比对
序列多重比对概述 多重比对软件
Central role of multiple alignments
Comparative genomics Phylogenetic studies Hierarchical function annotation:
Байду номын сангаас类数学模型:
全局比对(Global alignment): 序列的整体
局部比对(Local alignment): 序列部分区域
局部比对的生物学基础:
蛋白质功能位点往往由较短的序列片段组成,这些序列相
当保守,尽管在序列的其它部位可能有插入、删除或突变。 局部比对往往比整体比对具有更高的灵敏度,其结果更具 生物学意义。
与目标序列之间相同DNA碱基或氨基
酸残基所占比例。
相似性本身,并不要求比较对象之间是否存在进化起源、 不考虑亲缘关系的远近以及结构与功能间的联系。
序列相似性描述的方式 定性描述 定量描述
相似度similarity:其值越大,序列越相似
相似性与同源性间的关系
同源序列一般相似 相似性可以反映同源性
第五章 序列比对与数据库相似性搜索
第一节 第二节 第三节 第四节
序列比对概述 序列两两比对 序列多重比对 数据库搜索-BLAST
第一节
序列比对
比对的概述 序列同源性与相似性
序列比对的基本过程
序列比对的主要用途
序列比对(Sequence alignment)
是为了确定两条或者多条序列之间的相似性, 运用某种特定的数学模型或算法,并依据特定的打 分规则,将它们按照一定的方式排列在一起,找出 两条或多条序列之间的最大匹配碱基或残基数,反
homologs, domains, motifs
Gene identification, validation
Multiple alignment
Structure comparison, modelling
RNA sequence, structure, function
Interaction networks
发现与结构和功能相关的保守序列片段
多序列比对的用途
对在系统发生与进化分析中发挥着重要作用 可以用于功能预测(同源预测法) 可应用于蛋白质结构预测 有助于发现基因家族或蛋白质家族的序列特 征
多序列比对工具 -clustalX
Clustal是一个单机版的基于渐进比对的 多序列比对工具,由Higgins D.G. 等开发。 有应用于多种操作系统平台的版本,包括 linux版,DOS版的clustlw,windows版 本的clustalx等。
同源性与相似性间的关系
同源性(homology)
由某一共同祖先经趋异进化而成。包括 直向/直系同源(Orthologs)与横向/旁系 同源(paralogs)
描述对象:染色体—“同源染色体”
基因—“同源基因” DNA片断—“同源片段”
相似性(similarity)
序列比对过程中,用来描述检测序列
ACGCCTG
序列比对的打分系统
(1)核酸打分矩阵
设DNA序列的字母表为 = { A,C,G,T }
a. 等价矩阵 b. BLAST矩阵 c. 转移矩阵
表3.1 等价矩阵表 A A T C G 1 0 0 0 T 0 1 0 0 C 0 0 1 0 G 0 0 0 1 A T C G 表3.2 BLAST矩阵 A 5 -4 -4 -4 T -4 5 -4 -4 C G A T C G 表3.3 转移矩阵 A 1 -5 -5 -1 T -5 1 -1 -5 C -5 -1 1 -5 G -1 -5 -5 1
1、局部比对
----AGCT---ATGCAGCTGCTT
目标: 使序列最大匹配,不计前缀的得分, 也不计删除后缀的得分
序列S: 序列t: - - - - AGCT - - - ATGCAGCTGCTT
2、准全局比对
准全局比较:在评价序列比对时不计终端“空缺” (end space,或空位)的得分或代价
映序列间相似性关系及其生物学特征。
序列比对的根本任务:
寻找序列之间的相似性 辨别序列之间的差异
序列比对的目的:
相似序列 相似的结构,相似的功能 判别序列之间的同源性
推测序列之间的进化关系
序列同源性与相似性
同源性(homology)
相似性(similarity)
定义 描述方法
-4 -4 -4 -4 5 -4 -4 5
(2)蛋白质打分矩阵(替换矩阵)
PAM矩阵 PAM矩阵
BLOSUM矩阵 BLOSUM矩阵
PAM30
BLOSUM45 BLOSUM62 BLOSUM80
PAM70
PAM250
PAM矩阵(Point accepted mutation matrices)
Smith-Waterman算法:在Needleman-Wunsch
算法基础上发展而来的一种局部比对算法。
两种算法均可以用于核酸和蛋白质序列。在给定空位罚值和替换矩阵情况 下,它们总是能给出具有最高比对值的排列。
双序列比对及基本操作
双序列全局比对工具——Needle的使用
1、输入序列
2、设置参数
BLOSUM矩阵(Blocks Amino Acid Substitution Matrices)
基于蛋白质模块数据库,以序列片段为基础 为解决序列的远距离相关,从蛋白质模块数 据库BLOCKS中找出一组替换矩阵 分析蛋白的功能保守区域的可能性。
通过设置不同的百分比,产生了不同矩阵。
>=80%相同的序列组成的串对应BLOSUM80矩阵
|
打分矩阵 = PAM120
|
PAM80
|
PAM 60
|
PAM250
PAM250
A R N D C Q E G H I L K M F P S T W Y V
•各个氨基酸本身的替换频率最大
2 •氨基酸本身的替换频率越高表示该氨基酸 -2 6 在自然界中比较少 0 0 2 0 -1 2 4 •正值表示氨基酸之间的替换频率大 -2 -4 -4 -5 12 0 1 1 2 -5 4 •负值表示氨基酸之间的替换频率小 0 -1 1 3 -5 2 4 1 -3 0 1 -3 -1 0 5 -1 2 2 1 -3 3 1 -2 6 -1 -2 -2 -2 -2 -2 -2 -3 -2 5 -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 -1 3 1 0 -5 1 0 -2 0 -2 -3 5 -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 A R N D C Q E G H I L K M F P S T W Y V
ACTGTTCCGAA… ACGCCTG
…100kbp… …AGCCTGA…
…100kbp… …ACTACTG
全局优化
ACTGTTCCGAA… …100kbp… …AGCCTGA… …100kbp… …ACTACTG
AC---…---GCC---…---TG
局部优化
ACTGTTCCGAA… …100kbp… …A-GCCTGA… …100kbp… …ACTACTG
例如: s: t: cost=-2
AGCACACA ACACACTA
s: AGCACACA t: ACACACTA score (s,t)= 5
序列比对的目的是寻找一个得分最大(或代价最小)的比对。
序列两两比对的基本算法
首先生成两个序列所有可能的比对 分别计算代价函数 挑选一个代价最小的比对作为最终结果 本质问题:优化 策 略:动态规划算法
序列比对的基本过程
序列比对的数学模型
序列比对的经典算法
序列比对的实施方法
序列比对的数学模型
序列比对依赖于数学模型(Model)
不同的模型,从不同角度反映序列的特性,如结构、功能、 进化关系等。不能说一个模型一定比另一个模型好,只能说 它们是从某个角度反映了序列的生物学特性。
此外,同一模型的不同参数,也可能导致比对结果的不同
其中 •G是空位开放罚分(gap-opening penalty) •L是空位延伸罚分(gap-extension penalty)
•n是空位长度
•G>L
第二节
概述
序列两两比对
基本算法
局部比对 准全局比对 空位
序列的两两比对
序列两两比对(Pairwise Sequence Alignment) 按字符位置重组两个序列,使得两个序列达到一样 的长度。
相似度>50%,可推测检测序列和目标序列同源 相似度<20%,难以确定或者根本无法确定其是否具 有同源性
相似性不等同于同源性
进化趋同
相似性和同源性
判
断
A. X DQ681076与DQ681075具50%同源性
B. DQ681076与DQ681075具50%相似性 C. DQ681076与DQ681075高度相似 D. X DQ681076与DQ681075高度同源
基于进化的点突变模型
证据:编码相同蛋白质的基因随着进化发生分歧,相似度降低。
PAM1就是一个进化的变异单位, 即1%的氨基酸改变,PAM120矩阵用 于比较相距120个PAM单位的序列。
分析同源蛋白在进化中氨基酸变化的可能性 根据进化距离采用相应的PAM 矩阵
序列相似度 = 40% 50% 60% 14-27%
举例:
比对结果:
HEAGAWGHE-E P-A--W-HEAE
记分方法:
–残基或碱基相同得分: +2
–残基或碱基不同得分: -1
–插入空位: -1
分值SCORE计算为: SCORE=5 * 2 + 1 * (-1) + 5 * (-1) = 4
HEAGAWGHE-E SCORE=5*2+1*(-1)+5*(-1)= 4
序列1 长度为18 序列2 长度为8
(a)准全局比对:6个匹配,
1个错配,1个空位
(b)全局比对:8个
3、连续空位
K 阶空位 — K个连续的空位字符 “-” ATG-A-T-C-A-G ATG-----ATCAG ATGCAGTGCAATG ATGTTTTTATCAG 空位罚分 生物学意义 “插入” 或“删除” 突变 突变次数 连续空位可能对应于一次突变 非连续空位对应于 多次突变
P-A--W-HEAE
序列比对结果分值计算过程:
考虑比对的残基是否相同 打分矩阵 空位罚分
考虑比对的残基是否相似
空位插入需要赋予不同分数
序列比对的经典算法
算法(Algorithm):为解决一个问题而采取的方法和步骤,
就称为算法。
Needleman-Wunsch算法:整体比对算法,最佳
比对中包括了全部的最短匹配序列。
>=62%相同的序列组成的串对应BLOSUM62矩阵
BLOSUM62矩阵
空位罚分 Gap penalties
线性空位罚分(linear gap penalty)
罚分公式: G * n
其中 • • G 是空位罚分值 n 空位的长度
仿射空位罚分(affine gap penalty)
罚分公式: G+L*n
Human genetics, SNPs
DBD
Therapeutics, drug design
insertion domain
Therapeutics, drug discovery LBD
Julie Thompson – IGBMC
binding sites / mutations
多重序列比对目的:
3、提交
双序列局部比对工具——Matcher的使用
第三节
序列多重比对
序列多重比对概述 多重比对软件
Central role of multiple alignments
Comparative genomics Phylogenetic studies Hierarchical function annotation:
Байду номын сангаас类数学模型:
全局比对(Global alignment): 序列的整体
局部比对(Local alignment): 序列部分区域
局部比对的生物学基础:
蛋白质功能位点往往由较短的序列片段组成,这些序列相
当保守,尽管在序列的其它部位可能有插入、删除或突变。 局部比对往往比整体比对具有更高的灵敏度,其结果更具 生物学意义。
与目标序列之间相同DNA碱基或氨基
酸残基所占比例。
相似性本身,并不要求比较对象之间是否存在进化起源、 不考虑亲缘关系的远近以及结构与功能间的联系。
序列相似性描述的方式 定性描述 定量描述
相似度similarity:其值越大,序列越相似
相似性与同源性间的关系
同源序列一般相似 相似性可以反映同源性
第五章 序列比对与数据库相似性搜索
第一节 第二节 第三节 第四节
序列比对概述 序列两两比对 序列多重比对 数据库搜索-BLAST
第一节
序列比对
比对的概述 序列同源性与相似性
序列比对的基本过程
序列比对的主要用途
序列比对(Sequence alignment)
是为了确定两条或者多条序列之间的相似性, 运用某种特定的数学模型或算法,并依据特定的打 分规则,将它们按照一定的方式排列在一起,找出 两条或多条序列之间的最大匹配碱基或残基数,反
homologs, domains, motifs
Gene identification, validation
Multiple alignment
Structure comparison, modelling
RNA sequence, structure, function
Interaction networks