3序列比对原理
3_1.序列比对基础与BLAST入门
一、序列比对(alignment)的概念、目的
序列比对的主要目的在于阐明序列之间的同源 性关系,以及从已知序列预测新序列的结构和 功能。
序列比对基于一种生物学推断(进化论): 相似性 同源性 相似的结构和功能
序列的全长进行比对。 局部比对(local alignment)对两条核苷酸或氨基酸序
列的一部分进行比对。
TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
序列比对要考虑的问题 2
2、是否存在插入和缺失?(gap,空位罚分的问题 教材Page71)
连字号(-)标记插入或缺失的事件。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | |
算法(构建打分矩阵) 数学
编程
计算机
打分
搜索数据库
计算机
给出比对结果(比对分数、显著性检验)
问题
什么是序列比对? 概念、目的、比对形式、 基本原理
序列比对有何用? 应用
怎样进行序列比对? 算法、程序
四、序列比对(alignment)的应用
序列比对的主要目的在于阐明序列之间的同源性关 系,以及从已知序列预测新序列的结构和功能。 评价实验结果(鉴定一条序列的身份) 为实验提供新思路指导进一步的实验设计 寻找和鉴定新基因的重要手段 蛋白质结构预测和分子设计的基础(同源建模) 研究生物进化和种属分类的基本方法(系统发生分析) 基因组信息分析
3.序列比对和数据库搜索(生物信...
3.序列比对和数据库搜索(生物信...文章目录• 3.1 序列两两比对• 3.2 多序列比对生物信息学教程系列第三章3 序列比对和数据库搜索比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。
在生物信息学研究中,比对是最常用和最经典的研究手段。
最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。
进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。
此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。
比对还是数据库搜索算法的基础,将查询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。
近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。
3.1 序列两两比对序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。
在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。
但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。
课件第3讲 序列比对与数据库搜索
两序列比对位置上的元素(核酸或氨基酸)大部分相同 两序列比对位置上的元素(氨基酸)相似 两序列来自一个共同的祖先序列
序列同源性
序列比较
• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST) (heuristic)
words.
The main assumption in a word-based method assumes that related sequences are more likely to share several common Increasing the word size, enables searches to be performed faster, but reduces the sensitivity
矩阵名中的数字代表产生矩阵所用序列集的相似度
BLOSUM62 (lower part)
PAM矩阵和BLOSUM矩阵的比较
PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基 酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋 白质的关系则可用外推过程建立模型,但BLOSUNM矩阵 却是通过直接观测保守区域中氨基酸的替换几率建立的 PAM矩阵基于序列全局比对观测到的突变,包括了保守区域 和可变区域,而BLOSUM矩阵仅基于高度保守的序列,不允 许有空位的出现 一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择
FASTA
找出高相似短序列
打分,精细匹配
拼接,去除不可能区段
第三章 序列比对
英文名
Glycine Alanine
缩写 简称
Gly Ala G A
中文名
苏氨酸 半胱氨酸
英文名
Threonine Cystine
缩写 简称
Thr Cys T C
缬氨酸
亮氨酸 异亮氨酸 脯氨酸 苯丙氨酸 酪氨酸 色氨酸
Valine
Leucine Isoleucine Proline Phenylalanine Tyrosine Tryptophan
并系同源(paralogy)基因是指同一基因组(或同系物种的 基因组)中,由于始祖基因的加倍而横向(horizontal)产生 的几个同源基因
直系与并系的共性是同源,都源于各自的始祖基因。区别在 于:
在进化起源上,直系同源是强调在不同基因组中的垂直传递,并系 同源则是在同一基因组中的横向加倍;
PAM矩阵的制作步骤:
构建序列相似(99%)的比对 计算氨基酸 j 的相对突变率mj(j被其它氨基酸替换的 次数) 针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 替换次数除以相对突变率(mj) 利用每个氨基酸出现的频度对j 进行标准化 取常用对数,得到PAM-1(i, j) 将PAM-1自乘N次,可以得到PAM-N
3 0 1 0 0 0 0 -1 -1 -1 0 -1 0 -2 0 -3 -3 -5 T
6 1 -1 -1 -1 -1 0 0 0 -1 -2 -2 -3 -1 -5 -5 -6 P 2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 -6 A 5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -1 -5 -7 -7 G 2 2 1 1 2 0 1 -2 -2 -3 -2 -2 -2 -4 N
第三章序列比对
基因家族的基本特征,寻找motif,保守区域等。 • 用于描述一个同源基因之间的亲缘关系的远近,应用
到分子进化分析中。 • 其他应用,如构建profile,打分矩阵等。
3.3.1 序列对数据库的比对检索分 析
• 一条序列对整个数据库进行相似性分析,以发 现其同源性是生物信息学分析中一个极重要的 方面。本质上,这种分析方法类似于将序列两 两对齐重复成百上千次。
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它 们是同源的。这里不存在同源性的程度问题。 这两条序列之间要么是同源的,要么是不同源 的。
• 所谓同源序列,简单地说,是指从某一共同祖 先经趋异进化而形成的不同序列。
• 同源蛋白质的氨基酸序列具有明显的相似性,这 种相似性称为序列同源性。
生物软件网: /
• 当然,DNAStar、DNAMan等软件也 可以进行比对。
• 载入的序列必须是fasta格式, 存储在记事本(.txt)中。
参数可以选择,或者默 认。
Clustal比对后的结果
3.3 多条序列比对方法
3.3.1 序列对数据库的比对检索分析 3.3.2 多重序列的本地化软件对齐 3.3.3 Clustal比对结果的编辑
• 对于DNA序列需要具有75%以上的同源性才可 能具有潜在的生物学意义。
3.2.2 采用本地化软件进行两条序列比 对
• 做多重比对分析的本地软件也可以做 两两比对分析,如clustalX软件等。
• Clustal是一个单机版的基于渐进比对 的多序列比对工具。其基本思想就是 基于相似序列通常具有进化相关性的 这一假设。
• BioEdit软件不能识别“.aln”格式,但可识别 “.pir”或“.phy”格式文件。
第三讲 序列比对
•替换次数除以相对突变率(mj)
•利用每个氨基酸出现的频度对j 进行标准化 •取常用对数,得到PAM-1(i, j) •将PAM-1自乘N次,可以得到PAM-n
PAM矩阵与BLOSUM矩阵的选择
序列比对的算法
双序列比对的三种算法: • 点阵分析法 • 动态规划法:Needleman-Wunsch、Smith-Waterman • 词或K串法(BLAST or FASTA中应用,后面会提到)
不同的blast命令:blastn、blastp、 blastx、tblastn、tblastx/blastall –p *
升级数据库:update_blastdb.pl
Makeblastdb主要参数 makeblastdb.exe [-h] [-help] [-in input_file] [-
input_type type]-dbtype molecule_type [-title
database_title] [-parse_seqids][-hash_index] [-
mask_data mask_data_files] [-gi_mask][gi_mask_name gi_based_mask_names] [-out
等价矩阵表 A A T 1 0 T 0 1 C 0 0 G 0 0 A T BLAST矩阵 A 5 -4 -4 T -4 5 -4 C G A T -4 -4 -4 -4 转移矩阵 A 1 -5 -1 T -5 1 -5 C G -5 -1 -1 -5
C
G
0
0
0
0
1
0
0
1
C
G
-4 -4
5
-4
C
G
-5 -1 1
序列比对
第二节序列比对1引言序列比对是生物信息学的基本组成和重要基础。
序列比对的基本思想是,基于生物学中序列决定结构,结构决定功能的普遍规律,将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性,发现生物序列中的功能、结构和进化的信息。
序列比对包括双序列比对(pair alignment)和多序列比对(multiple alignment),主要有三个方面的应用。
1.序列功能预测:了解未知序列和已知序列的相同和不同点,可以推测未知序列的结构和功能。
2.分子进化分析:通过多序列比对,分析序列的相似性,判别序列之间的同源性,推测不同序列在结构、功能以及进化上的联系,进行分子进化上的研究。
3.搜索序列数据库,找到已发布的相似性和同源性序列。
值得注意的是,在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。
一级结构序列相似的分子在高级结构和功能上并不必然有相似性,反之,序列不相似的分子,可能折叠成相同的空间形状,并具有相同的功能。
一般的序列比对主要是针对一级结构序列上的比较。
序列和结构之间的比对方面也已经有不少研究,有兴趣的读者可以参考“文献“中的”序列和结构之间的比对“部分。
1部分内容取自Weir B.S.Genetic Data AnalysisⅡ—Methods for Discrete Population Genetic Data, Sunderland:Sinauer Associates Inc.Publishes,1996双序列比对双序列比对的算法主要分为两类:1.整体比对(global alignment)从全长序列出发,考虑序列的整体相似性,即。
Needleman-Wunsch算法是一种经典的基于动态规划的整体比对算法,其最佳比对中包括了全部的最短匹配序列。
2.局部比对(Local alignment)考虑序列部分区域的相似性,即有时两个序列总体并不很相似,但某些局部片断相似性很高。
3序列比对原理
100个残基发生一次替换的Dayhoff’s PAM-1矩阵
针对不同的进化距离采用PAM 矩阵
序列相似度 = 40% | 打分矩阵 = PAM120
50% | PAM80
60% | PAM 60
PAM250
→ 14% - 27%
第三节 序列比对算法 Dotplot算法
评估两条序列相似度最简单的方法之一是利用点阵图。
• 假设两条序列:CACGA和CGA,使用统一的空位和 失配罚分 • 则:1、给第一条序列加一个空位
2、给第二条序列加一个空位 3、两条序列都不加空位
如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的 得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得 分,就可以计算出起始位点的不同的三种比对得分。
(a)Leabharlann (b)(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋 白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球 蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈 值为8。
常用对比软件:BLAST(bl2seq)
动态规划: Needleman 和 Wunsch 算法
第三章 序列 比对原理
Principles of Sequence Alignment
• Biology
- What is the biological question or problem?
• Data
-What is the input data? -What other supportive data can be used ?
• 考虑这样的两条核苷酸序列: AATCTATA和AAGATA 仅有三种比对方式
3-1,序列比对
E -22 S -33
Needleman-Wunsch算法;
L -44
Sij = max of Si-1, j-1 + σ(xi, yj)
C -55
Si-1, j - d左到右)
Needleman-Wunsch算法
Gap V D S C Y Gap 0 4 -11 -22 -33 -44 -55
1,点阵法
1970年,Gibbs & McIntyre; 寻找两条序列间所有可能的比对; 发现蛋白质或者DNA序列上正向或者反向的
重复; 发现RNA上可能存在的互补区域。 工具:
http://myhits.isb-sib.ch/cgi-bin/dotlet /molkit/dnadot/
FASTA和BLAST算法
第二节:打分矩阵及其含义 第三节:多序列比对
第一节,双序列比对算法
1. Dot Matrix,点阵法 2. 动态规划算法:
Global: Needleman-Wunsch Local: Smith-Waterman
3. Word or k-tuple算法:FASTA, BLAST
例1:比对结果得分
序列1:
VDS–CY
序列2:
VESLCY
替代矩阵中的分数: 4 2 4 -11 9 7
两序列比对的总分: Score=Σ(AA pair scores) – gap penalty = 15
本例:线性罚分
r(g) gd
S… L
- - V .. VESLCY
C
- - - V ..
Y
VES-LCY
Needleman-Wunsch算法
Gap V D S C Y
生物信息学 第三章:序列比对原理
blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query
tblastx
Search translated nucleotide database using a translated nucleotide query
一、序列比对打分
序列分析的目的是揭示核苷酸或氨基酸序列编码的 高级结构或功能信息目的。
二、打分矩阵
稀疏矩阵、相似性打分矩阵
(一)DNA打分矩阵
即两个序列中相应的核苷酸相同,计1分;否则计0分。 如果考虑颠换和置换,可采用以下打分矩阵
(二) 氨基酸序列打分矩阵
1.PAM矩阵(Dayhoff突变数据矩阵)
(二)直系同源、旁系同源
直系同源基因(orthologous gene)是指在不同物种 中有相同功能的同源基因,它是在物种形成过程中 形成的。
旁系同源基因(paralogous gene)是指一个物种内 的同源基因。
直系同源基因和旁系同源基因统称为同源基因 (homolog)。
第二节 序列比对打分方法
ClustalX的比对步骤: 1.加载要比对的序列文件 序列格式可以支持NBRF/PIR、EMBL/Swiss-Ppot、 FASTA、GDE、Clustal、MSF、RSF等。
2.多序列比对
3.比对结果输出
(二)T-Coffee工具 (三)MultAlin工具 (四)MAFFT工具
比对结果
(二)高级BLAST工具 1、PSI-BLAST(position specific interated BLAST)
生物信息学序列比对
生物信息学发展的3个主要阶段
生物信息学
萌芽期(60-70年代) 计算生物学 Dayhoff矩阵 Neelleman-Wunsch算法 Fasta算法 过渡期 过渡时期 (80-90年代) blast算法 基因组分析
高速发展时期 2000年-至今
序列比对的过程
建立评分矩阵
Pam250 blosum62
序列比较是如何进行的?
要对两个序列进行排比,必须首先打出其相似 性的定量分值,于是需要一个打分矩阵。 打分矩阵(Scoring Matrices):
给不同的氨基酸配对定义的一系列相似性分值。而一 个突变打分方案(mutation data matrix)则是根据排 比时序列中点突变的情况设计出的打分方案。对氨 基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮 氨酸相似性的定量标准,可以以多种方式来定义。
序列比较是如何进行的?
• 打分矩阵(Scoring Matrices)
对氨基酸配对相似性的尺度衡量,例如苯丙氨酸 和异亮氨酸相似性的定量标准,可以以多种方式 来定义。因此,设计一个打分矩阵,首先必须确 定用什么算法模型。在序列排比分析中,打分矩 阵只是某个算法模型的量化表现,比对的结果只 在该算法模型所划定的范围内有意义。
答案是不能确定的。
匹配率 (identity)
两个蛋白质有一定数量的氨基酸在排比的位点上是相同 的,即如果38个氨基酸的蛋白质中15个位点相同,我们 说它们39.4%相同(39.4%)
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRIS FYKSG -------------PRNGTIKIYENPARTFTRPYSAKNIT IYKEND
The Concepts of Orthology and Paralogy
结构生物信息学3-序列比对
生物信息学培训班
蛋白质的打分矩阵 -- PAM
PAMn矩阵的构建
1. 2. 3. 4. 5. 6. 7.
序列比对算法
选取多个家族的相似性>85%的保守序列; 根据匹配计分进行多重比对(不含空位); 以比对结果构建进化树,反映氨基酸替换关系; 计算每种氨基酸转换成其它氨基酸的次数; 计算每种氨基酸突变率; 计算每对氨基酸突变率,得到突变概率矩阵,将此矩阵 自乘n次; 将突变概率矩阵转化为PAMn矩阵。
等价矩阵 (unitary matrix) BLAST矩阵 转移矩阵(transition,transversion)
等价矩阵表 A T 0 1 C 0 0 G 0 0 A T BLAST矩阵 A 5 -4 -4 T -4 5 -4 C G A T A 1 -5 -1 -4 -4 -4 -4 转移矩阵 T -5 1 -5 C G -5 -1 -1 -5
Sequence 1 Sequence 2
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
A A 1
G 0
C 0
T 0
匹配: 1 错配: 0 分值:5
G 0
C 0 T 0
1
0 0
0
1 0
0
0 1
生物信息学培训班
DNA转换和颠换
生物信息学培训班
基因的进化
生物学意义
生物信息学培训班
基因的进化
生物学意义
生物信息学培训班
基因进化过程中的变异
变异:主要有三种类型:
生物学意义
替代(substitution) 插入或删除(insertion or deletion),通称indel 重排(rearrangement) 进化距离,一个序列变 Sequence A 成另一个序列所需的步 骤数 x steps 如A变为B的进化距离为 :x+y
生物信息学中序列比对算法研究
生物信息学中序列比对算法研究一、前言生物学是现代科学中发展最为迅速的领域之一,而生物信息学则是其中最为重要的分支之一。
生物信息学是应用计算机科学技术来研究生物学问题的新兴领域。
其研究的核心问题之一是序列比对算法,即如何在生物序列中找出相似的部分。
本文就生物信息学中序列比对算法进行阐述和探究。
二、什么是序列比对算法?序列比对算法是生物信息学中的一种重要算法,其主要作用是判断两个序列(DNA序列或蛋白质序列)是否相似。
此外,序列比对算法还可以用于比较多个序列之间的相似性,并发现相似区域中的片段以及不同片段之间的特异性点。
三、序列比对算法的分类序列比对算法主要分为全局比对和局部比对两类。
全局比对是指将整个序列进行比对,通常用于比较较长序列之间的相似性,以及亲缘关系较近的不同物种或同一物种的亚种之间的比对。
常用的全局比对算法包括Needleman-Wunsch算法和Smith-Waterman算法。
局部比对则是指仅从相似片段开始比对,这种比对方式通常用于比较较短序列或者在长序列中寻找特定片段的相似性,例如寻找蛋白质家族结构中的保守区域。
常用的局部比对算法包括FASTA算法和BLAST算法。
四、常用的序列比对算法1. Needleman-Wunsch算法Needleman-Wunsch算法是一种广泛应用的序列比对算法,它的主要思想是将两个序列对应的字符分别进行两两比较,得到它们之间的匹配程度。
这种算法的缺点是时间复杂度较高,但是可以保证全局最优解。
2. Smith-Waterman算法Smith-Waterman算法是局部比对算法中的经典算法。
它的主要思想是将两个序列对应的字符分别进行两两比较,并将匹配程度与前一位置的匹配程度和字符插入/删除情况进行比较,从而得到当前位置的最优解。
这种算法可以保证局部最优解,但也存在时间复杂度较高的缺点。
3. FASTA算法FASTA算法是进行局部比对的一种快速算法,其主要思想是利用m-tuple匹配和随机性比对来提高匹配速度,使用类似于Smith-Waterman算法的方式,找到序列中的局部最优段。
第3章序列比对[1]
contents
3.1概述 3.2两条序列比对方法 3.3多条序列比对方法
3.1概述
3.1.1序列比对的概念 3.1.2生物序列之间的关系
3.1.1序列比对的概念
⑴序列比对(Sequence
alignment)
序列比对是序列相似性分析的常用方法,又称序 列联配。 通过将两个或多个核酸序列或蛋白序列进行比 对,显示其中相似的结构域,这是进一步相似性 分析的基础。通过比较未知序列与已知序列的一 致性或相似性,可以预测未知序列功能。
Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 |||||||| |||| |||||| ||||| | ||||||||||||||||||||||||||||||| Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247
一致性(identity)
Identity: The extent to which two (nucleotide or amino acid) sequences are invariant. 当两条序列同源时,它们的氨基酸序列或核苷酸序列通常 有显著的一致性(identity)。 一致性反映的是两个氨基酸序列(或核苷酸序列)之间相 同的程度。 因此,同源性是序列同源或不同源的一种论断,而一致性 和相似性是一种描述序列相关性的量。
⑵同源性、相似性、一致性
同源性(homology)
Homology: Similarity attributed to descent from a common ancestor.
第3讲-序列比对
0
0
0
0
0
BLOSUM45
PAM30
PAM120
PAM180
PAM240
高相似度
低相似度
小鼠和大鼠RBP
小鼠和细菌的lipocalin
相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大, 采用BLOSUM矩阵时,后面的数字越小。
30/ 77
3,空位罚分体系
• 一般有两种罚分方法:
• 1,线性罚分
22
12/ 77
• 记分矩阵(scoring matrix),即记分规则。 • Raw Score和Bit score:比对得分。
A T CG A1 0 0 0 0 T0 1 0 0 0 C0 0 1 0 0 G0 0 0 1 0 - 0 0 0 0╳
• 记分矩阵不同,可能得到不同的结果。
13/ 77
• 全局比对:序列全长进行比对,寻找一个最佳的配对。 • 局部比对:子序列比对,只需要寻找局部的最佳匹配。 • 比对的统计显著性E值。 • Algorithm算法。
AATCTATA AAGATA
14/ 77
序列比对的关键问题: 记分矩阵 算法
15/ 77
3、序列比对的意义
• 序列比对(alignment)是序列分析的基础,其他一切都建立在序列比对 的基础上。
的一段序列,包括0长度和全长的序列。 • 随机序列:每个位置出现ATGC中任何一个字符的概率都是1/4。也就
没有什么生物学方面的意义。非随机序列也就是有生物学意义的序列。 • 距离:两序列之间差异程度的一个量化数字,如两个序列完全相同则
距离为0。
9/ 77
• 序列比对(alignment),是根据特定的计分规则,将两个或 多个符号序列按位置比较排列后,得到最具相似性的排列 的过程。
3多重序列比对
Sreal − Srand Snorm = Sident − Srand
据此计算距离相似性得分DistanceAB为 据此计算距离相似性得分 DistanceAB=-log(Snorm) 完全不相似: Snorm=0 导出 DistanceAB=∞ 完全不相似: ∞ 完全相似: 完全相似: Snorm=1 导出 DistanceAB=0
3.生物信息学可以分成三个层次: 3.生物信息学可以分成三个层次: 生物信息学可以分成三个层次 第一个层次是实验者的应用, 第一个层次是实验者的应用,主要是根据实验工作者具体的需要 应用相应的网站来分析其实验中获取的数据, 应用相应的网站来分析其实验中获取的数据,如找新的蛋白质的功能 位点等。 位点等。 其次是一些从事生物信息学方法研究的需要某个生物信息学方法 的结果,在些基础上建立新的方法,如应用PSIBLAST方法构建相应 的结果,在些基础上建立新的方法,如应用 方法构建相应 的位置专一化得分矩阵即PSSM,这就需要将相应的软件下载并组合 的位置专一化得分矩阵即 , 到某个程序中; 到某个程序中; 其三是重建该方法,找出其中的不足, 其三是重建该方法,找出其中的不足,然后对它作出相应的改进
构建导向树方法: 构建导向树方法:
有邻位加入法( 有邻位加入法(Neighbour-Joining Method) ) 算术平均非加权配对组法( 算术平均非加权配对组法(Unweighted Pari Group Method of Arithmetic Averages UPGMA) )
W1=1.0+(3.25-1.0)/2=2.125 ( ) W2=1.0+(3.25-1.0)/2=2.125 W3=2.25+(3.25-2.25)/3=2.583 W4=1.5+(2.25-1.5)/2+(3.25-2.25)/3=2.208 W5=1.5+(2.25-1.5)/2+(3.25-2.25)/3=2.208
序列比对PPT课件
本章提要:介绍了序列相似性的概念,列举了
描述DNA和蛋白质序列相似性的计分矩阵。介绍 了序列比较的基本操作—“比对”的概念,以双序 列比对为例详细学习了序列整体比对的 Needleman-Wunsch 算 法 , 序 列 局 部 比 对 的 SmithWaterman算法。介绍了多序列比对的概念,简要 介绍了几种多序列比对的算法,学习了一个常用 的多序列比对软件—ClustalW的使用和用途。
数
理
与
生
物
工
程
学
院
2021/1/5
BIOINFORMATICS
22
不同类型的字符替换,其代价或得分是不一
样的,特别是对于蛋白质序列。某些氨基酸可以
很容易地相互取代而不用改变它们的理化性质。
例如,考虑这样两条蛋白质序列,其中一条在某
一位置上是丙氨酸,如果该位点被替换成另一个
较小且疏水的氨基酸,比如缬氨酸,那么对蛋白 数
点阵图的噪声,并且可以明确地指出两条序列间具有显著
物 工
相似性的区域。
程
学
院
2021/1/5
BIOINFORMATICS
19
以上讨论了如何利用单元矩阵来构建点阵
图。更加复杂的点阵图可基于不同的计分规则
而构建。这些计分规则规定了不同残基之间相
似性程度的分值。例如,可以根据不同残基之
间在进化关系、空间结构、理化性质等方面的
口沿X轴向右移动一个字符的位置,比较X轴序列的第2
11个字符与Y轴序列的第110个字符。不断重复这个过程,
直到X轴上所有长度为10的子串都与Y轴第110个字符组
成的子串比较过为止。
然后,将Y轴的窗口向上移动一个字符的位置,重复 数
【生物信息学第二版】序列比对
生物信息学
第二章
序列比对
南方医科大学 吉on 1
言
Introduction
一 、同源、相似与距离
(一) 同源
两个序列享有一个共同的进化上的祖先,则这两 个序列是同源的。 对于两个序列,他们或者同源或者不同源,不能 说他们70%或80%同源。
列比对具有较高效率。最流行的渐进多序列比对软 件是Clustal家族。
ClustalW有以下特点:
首先,在比对中对每个序列赋予一个特殊的权值以
降低高度近似序列的影响和提高相距遥远的序列的 影响(如下图)。
ClustalW中对序列赋权的方法
其次,根据序列间进化距离的离异度(divergence) 在比对的不同阶段使用不同的氨基酸替换矩阵; 第三,采用了与特定氨基酸相关的空缺(gap)罚分 函数,对亲水性氨基酸区域中的空缺予以较低的罚分; 第四,对在早期配对比对中产生空缺的位置进行较少 的罚分,对引入空缺和扩展空缺进行不同的罚分。
三、BLAT
BLAT(The BLAST-Like Alignment Tool)与 BLAST搜索原理相似,但发展了一些专门针对全 基因组分析的技术。 BLAT的优点在于速度快,其比对速度要比BLAST 快几百倍,其根本原因在于: BLAST是将查询序列
索引化,而BLAT则是将搜索数据库索引化,
二、相似与距离的定量描述
相似性可定量地定义为两个序列的函数,即它可有
多个值,值的大小取决于两个序列对应位置上相同 字符的个数,值越大则表示两个序列越相似。 编辑距离(edit distance)也可定量地定义为两个 序列的函数,其值取决于两个序列对应位置上差异 字符的个数,值越小则表示两个序列越相似。