3_1.序列比对基础与BLAST入门
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
一、序列比对(alignment)的概念、目的
序列比对的主要目的在于阐明序列之间的同源 性关系,以及从已知序列预测新序列的结构和 功能。
序列比对基于一种生物学推断(进化论): 相似性 同源性 相似的结构和功能
序列的全长进行比对。 局部比对(local alignment)对两条核苷酸或氨基酸序
列的一部分进行比对。
TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
序列比对要考虑的问题 2
2、是否存在插入和缺失?(gap,空位罚分的问题 教材Page71)
连字号(-)标记插入或缺失的事件。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | |
算法(构建打分矩阵) 数学
编程
计算机
打分
搜索数据库
计算机
给出比对结果(比对分数、显著性检验)
问题
什么是序列比对? 概念、目的、比对形式、 基本原理
序列比对有何用? 应用
怎样进行序列比对? 算法、程序
四、序列比对(alignment)的应用
序列比对的主要目的在于阐明序列之间的同源性关 系,以及从已知序列预测新序列的结构和功能。 评价实验结果(鉴定一条序列的身份) 为实验提供新思路指导进一步的实验设计 寻找和鉴定新基因的重要手段 蛋白质结构预测和分子设计的基础(同源建模) 研究生物进化和种属分类的基本方法(系统发生分析) 基因组信息分析
Step1:选择一个BLAST搜索类型
2、
Protein BLAST ( blastp ) 1、确认一条蛋白质序列的身份 2、寻找与查询序列相似的蛋白质序列
Step1:选择一个BLAST搜索类型
Translated nucleotide query vs. protein database ( blastx ) 查询一条DNA序列是否可能编码某种蛋白质
计算机
给出比对结果(比对分数、显著性检验)
序列比对要考虑的问题 1
1、如何排列比较?(寻求序列之间最大相似性匹配!) 我们不能够简单的将两个序列头尾对应的排比,而是对各
种可能ATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | |
CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT
序列比对要考虑的问题 3
3、是否存在氨基酸的保守性替换?(相似性打分的问题) 通常在某些位点上有一些氨基酸被另外一些理化特性相
似的氨基酸所代替,这种突变可称为保守性替换。保守性 替换一般不会影响蛋白质的结构和功能。
相似性与同源性的关系
注意: 序列相似不一定同源(相似可能是偶然的) 序列不相似不一定不同源(高级结构相似)
总结: 一般来说序列间的相似性越高的话,它们是同
源序列的可能性就越大,所以经常可以通过序 列的相似性来推测序列是否同源(统计学推 断)。
二、序列比对的形式
双序列比对(pairwise alignment)
序列比对基础与BLAST入门
授课教师:罗杰 授课专业:医学生物技术
序列比对基础与BLAST入门
教材 Page 68,第五章
本次课重点讲BLAST的使用 下次课上机实习BLAST 再下一次课对本次课的内容进行总结、补充和
深化
问题
什么是序列比对? 概念、目的、比对形式、 基本原理
序列比对有何用? 应用
与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残 基是否相同,还要考虑残基是否相似以及相似的不同程度。
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸
arginine histidine lysine
甘氨酸 丙氨酸 缬氨酸 亮氨酸 异亮氨酸 苯丙氨酸 脯氨酸
氨基酸分类
Gly Ala Val Leu Ile Phe Pro
色氨酸
Trp
丝氨酸
Ser
酪氨酸
Tyr
半胱氨酸
Cys
甲硫氨酸
Met
天冬酰氨
Asn
谷氨酰胺
Gln
苏氨酸
Thr
天冬氨酸
Asp
谷氨酸
Glu
5、
Step1:选择一个BLAST搜索类型
Step1:选择一个BLAST搜索类型
Align two sequences ( bl2seq ) 简单的两条序列的比对
6、
Step1: 选择一个BLAST搜索类型
blastn (Nucleotide-nucleotide BLAST) blastp (Protein-protein BLAST) blastx (Translated query vs. protein database) tblastn (Protein query vs. translated database) tblastx (Translated query vs. translated database) bl2seq (Align two sequences )
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | |
Step1: 选择一个BLAST搜索类型
Program Input 1
blastn DNA 1
blastp protein 6
blastx DNA 6
tblastn protein 36
tblastx DNA
Database DNA protein protein
DNA DNA
DNA 可能编码六种蛋白质
问题:为什么要将DNA序列翻译成蛋白质序列后进行比对? 蛋白质序列比对能提供更多的信息,较之DNA序列比对,更
能发现序列间的同源关系。 1. 密码子的简并性决定了蛋白质序列比对更符合实际情况; 2. 氨基酸的打分系统比碱基的复杂,因此其比对更为灵敏; 3. 蛋白质比DNA进化慢,也就是说DNA序列变化较快,蛋白
2.碱性氨基酸
glycine alanine valine leucine isoleucine phenylalanine proline
tryptophan serine tyrosine cysteine methionine asparagine glutarmine threonine
aspartic acid glutarmic acid
精氨酸
Arg
组氨酸
His
赖氨酸
Lys
G
A
V L
非极性疏水性
I
氨基酸
F
P (芳香族氨基酸
W F、W、Y )
S
Y
C M
极性中性氨基酸
N
Q
(含硫氨基酸
T
C、M )
D E
酸性氨基酸
R
H
碱性氨基酸
K
序列比对要考虑的问题 4
4、全局比对还是局部比对? 全局比对(global alignment)对两条核苷酸或氨基酸
LPKLAGTWHSMA 局部比对通常比全局比对 VNKYLGTWYEIE 更有意义
因为它能发现序列中的保 守区域
序列比对要考虑的问题
综上所述,序列比对并非简单的事情,比对之 前需考虑诸多问题。这些问题的解决依赖于数 学及计算机科学的帮助。
三、序列比对的基本原理
提出比对要考虑的问题 专业
3、
Step1:选择一个BLAST搜索类型
Protein query vs. translated nucleotide database ( tblastn ) 查询一个DNA数据库中是否存在某些DNA序列, 它们编码与查询序列相同或相似的蛋白。
4、
Step1:选择一个BLAST搜索类型
Translated nucleotide query vs. translated nucleotide database ( tblastx ) 查询一个DNA数据库中是否存在某些DNA序列, 它们与查询序列编码相同或相似的蛋白。
(问题:相似性等于同源性吗?)
相似性与同源性的关系
相似性( similarity ) 是指两个序列之间的相关程度。比如说,A
序列和B序列的相似性是85%。这是个量化的 关系。 同源性( homology ):
是指两个序列具有共同的祖先,属于质的判 断。就是说A和B的关系上,只有是同源序列, 或者非同源序列两种关系。而说A和B的同源 性为85%则是不科学的。
今天你BLAST了吗?
NCBI-BLAST
Basic Local Alignment Search Tool 基本局部比对搜索工具(1990)
The BLAST algorithm is fast, accurate, and webaccessible. (教材 Page 74)
一、BLAST搜索的基本步骤
简单的双序列比对 序列对库的双序列比对
BLAST
多重序列的比对(Multiple sequence alignment)
3条或3条以上的序列进行比对。主要用于构建系 统发生树和蛋白质结构域研究等。
三、序列比对的基本原理
提出比对要考虑的问题 专业
算法(构建打分矩阵) 数学
编程
计算机
打分
搜索数据库
1. 选择一个BLAST搜索类型 2. 输入你要查询的序列 3. 选择要搜索的数据库 4. 选择可选参数
Step1: 选择一个BLAST搜索类型
Step1:选择一个BLAST搜索类型
Step1:选择一个BLAST搜索类型
1、
Nucleotide BLAST ( blastn ) 1、确认一条DNA序列的身份 2、寻找与查询序列相似的DNA序列
怎样进行序列比对? 算法、程序
一、序列比对(alignment)的概念、目的
比对(联配) 将两条或多条(核苷酸或氨基酸)序列排列
在一起,通过一定的算法找出序列之间最大相 似性匹配的过程。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC |||||||||| ||||||
5’ CAT CAA… 5’ ATC AAC… 5’ TCA ACT…
5’ CATCAACTACAA...AAACCTACCCAC 3’ 3’ GTAGTTGATGTT...TTTGGATGGGTG 5’
5’ GTG GGT… 5’ TGG GTA… 5’ GGG TAG…
Step1: 选择一个BLAST搜索类型
问题
什么是序列比对? 概念、目的、比对形式、 基本原理
序列比对有何用? 应用
怎样进行序列比对? 算法、程序
五、局部序列比对的工具
FASTA
BLAST
1. 简单的双序列比对
2. 序列对库的双序列比对
一般认为, BLAST运行速度快,对蛋白质序列 的搜寻更为有效,FASTA速度较慢,对核酸序列 更为敏感。
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC
|| | || | || |
| | | | | | | | | | || | | | | || | | | | | | | | | || | | | | |
质序列变化较慢,可用于远源关系序列的比较研究; 4. 蛋白质序列的长度比相应的DNA序列要短许多,蛋白质序
列数据库比DNA序列数据库小得多,这样随机序列的干扰 就少。
Step1: 选择一个BLAST搜索类型
一、序列比对(alignment)的概念、目的
序列比对的主要目的在于阐明序列之间的同源 性关系,以及从已知序列预测新序列的结构和 功能。
序列比对基于一种生物学推断(进化论): 相似性 同源性 相似的结构和功能
序列的全长进行比对。 局部比对(local alignment)对两条核苷酸或氨基酸序
列的一部分进行比对。
TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
序列比对要考虑的问题 2
2、是否存在插入和缺失?(gap,空位罚分的问题 教材Page71)
连字号(-)标记插入或缺失的事件。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | |
算法(构建打分矩阵) 数学
编程
计算机
打分
搜索数据库
计算机
给出比对结果(比对分数、显著性检验)
问题
什么是序列比对? 概念、目的、比对形式、 基本原理
序列比对有何用? 应用
怎样进行序列比对? 算法、程序
四、序列比对(alignment)的应用
序列比对的主要目的在于阐明序列之间的同源性关 系,以及从已知序列预测新序列的结构和功能。 评价实验结果(鉴定一条序列的身份) 为实验提供新思路指导进一步的实验设计 寻找和鉴定新基因的重要手段 蛋白质结构预测和分子设计的基础(同源建模) 研究生物进化和种属分类的基本方法(系统发生分析) 基因组信息分析
Step1:选择一个BLAST搜索类型
2、
Protein BLAST ( blastp ) 1、确认一条蛋白质序列的身份 2、寻找与查询序列相似的蛋白质序列
Step1:选择一个BLAST搜索类型
Translated nucleotide query vs. protein database ( blastx ) 查询一条DNA序列是否可能编码某种蛋白质
计算机
给出比对结果(比对分数、显著性检验)
序列比对要考虑的问题 1
1、如何排列比较?(寻求序列之间最大相似性匹配!) 我们不能够简单的将两个序列头尾对应的排比,而是对各
种可能ATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | |
CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT
序列比对要考虑的问题 3
3、是否存在氨基酸的保守性替换?(相似性打分的问题) 通常在某些位点上有一些氨基酸被另外一些理化特性相
似的氨基酸所代替,这种突变可称为保守性替换。保守性 替换一般不会影响蛋白质的结构和功能。
相似性与同源性的关系
注意: 序列相似不一定同源(相似可能是偶然的) 序列不相似不一定不同源(高级结构相似)
总结: 一般来说序列间的相似性越高的话,它们是同
源序列的可能性就越大,所以经常可以通过序 列的相似性来推测序列是否同源(统计学推 断)。
二、序列比对的形式
双序列比对(pairwise alignment)
序列比对基础与BLAST入门
授课教师:罗杰 授课专业:医学生物技术
序列比对基础与BLAST入门
教材 Page 68,第五章
本次课重点讲BLAST的使用 下次课上机实习BLAST 再下一次课对本次课的内容进行总结、补充和
深化
问题
什么是序列比对? 概念、目的、比对形式、 基本原理
序列比对有何用? 应用
与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残 基是否相同,还要考虑残基是否相似以及相似的不同程度。
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸
arginine histidine lysine
甘氨酸 丙氨酸 缬氨酸 亮氨酸 异亮氨酸 苯丙氨酸 脯氨酸
氨基酸分类
Gly Ala Val Leu Ile Phe Pro
色氨酸
Trp
丝氨酸
Ser
酪氨酸
Tyr
半胱氨酸
Cys
甲硫氨酸
Met
天冬酰氨
Asn
谷氨酰胺
Gln
苏氨酸
Thr
天冬氨酸
Asp
谷氨酸
Glu
5、
Step1:选择一个BLAST搜索类型
Step1:选择一个BLAST搜索类型
Align two sequences ( bl2seq ) 简单的两条序列的比对
6、
Step1: 选择一个BLAST搜索类型
blastn (Nucleotide-nucleotide BLAST) blastp (Protein-protein BLAST) blastx (Translated query vs. protein database) tblastn (Protein query vs. translated database) tblastx (Translated query vs. translated database) bl2seq (Align two sequences )
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | |
Step1: 选择一个BLAST搜索类型
Program Input 1
blastn DNA 1
blastp protein 6
blastx DNA 6
tblastn protein 36
tblastx DNA
Database DNA protein protein
DNA DNA
DNA 可能编码六种蛋白质
问题:为什么要将DNA序列翻译成蛋白质序列后进行比对? 蛋白质序列比对能提供更多的信息,较之DNA序列比对,更
能发现序列间的同源关系。 1. 密码子的简并性决定了蛋白质序列比对更符合实际情况; 2. 氨基酸的打分系统比碱基的复杂,因此其比对更为灵敏; 3. 蛋白质比DNA进化慢,也就是说DNA序列变化较快,蛋白
2.碱性氨基酸
glycine alanine valine leucine isoleucine phenylalanine proline
tryptophan serine tyrosine cysteine methionine asparagine glutarmine threonine
aspartic acid glutarmic acid
精氨酸
Arg
组氨酸
His
赖氨酸
Lys
G
A
V L
非极性疏水性
I
氨基酸
F
P (芳香族氨基酸
W F、W、Y )
S
Y
C M
极性中性氨基酸
N
Q
(含硫氨基酸
T
C、M )
D E
酸性氨基酸
R
H
碱性氨基酸
K
序列比对要考虑的问题 4
4、全局比对还是局部比对? 全局比对(global alignment)对两条核苷酸或氨基酸
LPKLAGTWHSMA 局部比对通常比全局比对 VNKYLGTWYEIE 更有意义
因为它能发现序列中的保 守区域
序列比对要考虑的问题
综上所述,序列比对并非简单的事情,比对之 前需考虑诸多问题。这些问题的解决依赖于数 学及计算机科学的帮助。
三、序列比对的基本原理
提出比对要考虑的问题 专业
3、
Step1:选择一个BLAST搜索类型
Protein query vs. translated nucleotide database ( tblastn ) 查询一个DNA数据库中是否存在某些DNA序列, 它们编码与查询序列相同或相似的蛋白。
4、
Step1:选择一个BLAST搜索类型
Translated nucleotide query vs. translated nucleotide database ( tblastx ) 查询一个DNA数据库中是否存在某些DNA序列, 它们与查询序列编码相同或相似的蛋白。
(问题:相似性等于同源性吗?)
相似性与同源性的关系
相似性( similarity ) 是指两个序列之间的相关程度。比如说,A
序列和B序列的相似性是85%。这是个量化的 关系。 同源性( homology ):
是指两个序列具有共同的祖先,属于质的判 断。就是说A和B的关系上,只有是同源序列, 或者非同源序列两种关系。而说A和B的同源 性为85%则是不科学的。
今天你BLAST了吗?
NCBI-BLAST
Basic Local Alignment Search Tool 基本局部比对搜索工具(1990)
The BLAST algorithm is fast, accurate, and webaccessible. (教材 Page 74)
一、BLAST搜索的基本步骤
简单的双序列比对 序列对库的双序列比对
BLAST
多重序列的比对(Multiple sequence alignment)
3条或3条以上的序列进行比对。主要用于构建系 统发生树和蛋白质结构域研究等。
三、序列比对的基本原理
提出比对要考虑的问题 专业
算法(构建打分矩阵) 数学
编程
计算机
打分
搜索数据库
1. 选择一个BLAST搜索类型 2. 输入你要查询的序列 3. 选择要搜索的数据库 4. 选择可选参数
Step1: 选择一个BLAST搜索类型
Step1:选择一个BLAST搜索类型
Step1:选择一个BLAST搜索类型
1、
Nucleotide BLAST ( blastn ) 1、确认一条DNA序列的身份 2、寻找与查询序列相似的DNA序列
怎样进行序列比对? 算法、程序
一、序列比对(alignment)的概念、目的
比对(联配) 将两条或多条(核苷酸或氨基酸)序列排列
在一起,通过一定的算法找出序列之间最大相 似性匹配的过程。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC |||||||||| ||||||
5’ CAT CAA… 5’ ATC AAC… 5’ TCA ACT…
5’ CATCAACTACAA...AAACCTACCCAC 3’ 3’ GTAGTTGATGTT...TTTGGATGGGTG 5’
5’ GTG GGT… 5’ TGG GTA… 5’ GGG TAG…
Step1: 选择一个BLAST搜索类型
问题
什么是序列比对? 概念、目的、比对形式、 基本原理
序列比对有何用? 应用
怎样进行序列比对? 算法、程序
五、局部序列比对的工具
FASTA
BLAST
1. 简单的双序列比对
2. 序列对库的双序列比对
一般认为, BLAST运行速度快,对蛋白质序列 的搜寻更为有效,FASTA速度较慢,对核酸序列 更为敏感。
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC
|| | || | || |
| | | | | | | | | | || | | | | || | | | | | | | | | || | | | | |
质序列变化较慢,可用于远源关系序列的比较研究; 4. 蛋白质序列的长度比相应的DNA序列要短许多,蛋白质序
列数据库比DNA序列数据库小得多,这样随机序列的干扰 就少。
Step1: 选择一个BLAST搜索类型