BLAST数据库检索.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 /90
矩阵集合----- PAM-N 如,PAM60矩阵用于比较相距60个PAM单位的 序列。计算方法是PAM1自乘60次。 思考题:经过100次PAM后,是否每个氨 基酸都发生了变化?为什么?
4 /90
模块氨基酸替换矩阵
BLOSUM 62
5 /90
BLOSUM90
BLOSUM80 BLOSUM62
BLOSUM45
PAM30
PAM120
PAM180
PAM240
低趋异度
高趋异度
小鼠和大鼠RBP
小鼠和细菌的lipocalin
相似度越低的序列,在比对的时候,采 用PAM矩阵时,后面的数字越大,采用 BLOSUM矩阵时,后面的数字越小。
6 /90
序列相似性搜索
BLAST
7
主要内容
• 一、BLAST简介 • 二、BLAST算法 • 三、BLAST一般使用方法 • 四、BLAST搜索实例
Altschul et al. (1990)
15 /90
这个算法可以描述为3个步骤
• 第一步: 编译一组阈值高于T的 word pairs (w=3)。 • 例: 对于人 RBP 查询序列…FSGTWYAMAKKDP… • 得到一列 words (w=3) : • FSG SGT GTW TWY WYA YAM AMA …
• 假设我们现在得到了一个比对结果,那么在这个 结果的基础上,搜索的数据库越大,比对的E值应 该是越小还是越大?(作业)
• E值与哪些参数有关?
27 /90
三、BLAST一般使用方法
• (1) 得到并输入查询序列 • (2) 选择BLAST程序 • (3) 选择搜索的数据库 • (4) 选项选择 • Then click “BLAST”
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
19 /90
第三步
“字”对命中后,向两端延伸,一直到得分( 按照某个打分矩阵)下降到某个阈值,由此就 得到一定长度的保持最好得分的序列串,称高 记分片段对(high-scoring pair,HSP)。
“>”开始的单行加分行的序列字符串,中间不允许空行。
http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml
36 /90
37 /90
2)Bare Sequence
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP
思考题:如果查询序列有100个字符,那么应 该会得到多少个“字”?
16 /90
模块氨基酸替换矩阵
BLOSUM 62
17 /90
(T=11)
第一步
GTW
GTW 6,5,11 22
GSW 6,1,11 18
ATW 0,5,11 16
NTW 0,5,11 16
GTY 6,5,2 13
GNM
10
DAW
10
10 /90
BLAST的应用
• 确定直系同源序列或旁系同源序列。如当一个新的细菌基 因组被测序后,几千种蛋白质被确定,其中有多少蛋白质 是同源的?从这里面预测出的基因中有多少是在GenBank 中找不到显著性同源物的?
• 确定哪些蛋白质和基因在特定的物种中出现。植物中是否 也存在象RBP这样的脂质运载蛋白?鱼类中是否有反转录 酶基因(如HIV-1 pol基因)?
9 /90
网站上的简单说明
• The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families. (作业:翻译)
24 /90
• BLAST中一般用一个E值 (Expectation value)来表示比 对的显著性。
• E值【 P值】表示如果数据库是随 机序列,那么得到同样(得分) 或者更好比对结果的序列的频率 【概率】。这个值越小越好,说 明越有生物学意义。
25 /90
E值与p值的关系
26 /90
E值的问题
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
extend
extend
Hit!
20 /90
搜索量
T值
21 /90
• 最初是不考虑空位插入,但在生物的进化过程中碱基的插 入或缺失突变是普遍存在的,因此比对结果通常会出现一 些无空位但不连续的区域,若将有些高分分值片段对通过 一些相似性较低且有空位的片段连接起来,就能组成一些 更长的或许更有实际生物学意义的比对。
1 /90
回顾——双序列比对
• 双序列比对有三种情况:匹配(得分为正),不匹配(蛋 白质有保守性问题),空位(罚分)。空位罚分一般采用 仿射罚分。
• 双序列比对可以帮助我们发现两条序列一致性位点的百分 比,或者保守性位点(蛋白质)的百分比。
• 动态规划法比对两条序列可以获得数学上的最佳值(wenku.baidu.com打 分矩阵影响)。
• 由于现在数据库信息量很大,这样简单重复的分析非常耗 时。所以开发了一些近似的算法以提高速度,目前使用最 广泛的序列对数据库相似性搜索的应用程序是FASTA和 BLAST。
• BLAST算法跟之前讲的动态规划法算法有所不同,处理速 度更快。
13 /90
BLAST
14 /90
二、BLAST算法
“The central idea of the BLAST algorithm is to confine attention to segment pairs that contain a word pair of length w with a score of at least T.”
8 /90
一、BLAST简介与意义
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
33 /90
输入序列
可以输入序列的ACCN号,gi号或者FASTA格式的序列
34 /90
输入说明
点红圈的“more”可以更多的说 明
35 /90
输入格式说明
• 1)FASTA格式
>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMC MNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLP QMKIEEKYNLTS
• 研究可能存在多种剪接方式的表达序列标签。 • 寻找对于一个蛋白质的功能和/或结构起关键作用的氢键氨
基酸残基。 • 发现“新基因”。例如,一个对于全基因组DNA的
BLAST搜索可能会发现一个DNA所编码的蛋白质是以前 所没有报道过的。
12 /90
数据库搜索相似序列的算法
• 数据库搜索相似序列的基础是序列的相似性比对,就是将 查询序列与数据库里面的序列逐一的两两比对分析。
回顾——数据库搜索
• 互联网上存放大量免费的生物学数据库,并有基本的数据 分析工具。
• NCBI包含生物大分子序列的各种最基本数据库。 • Entrez是NCBI的检索系统,提供关键词检索功能,可检
索该网站所有的子数据库。 • 参考序列数据库(RefSeq)包括核酸和蛋白质序列,是
高质量的非冗余的数据库。 • GenBank数据格式(GBFF)包含序列大量的相关信息。
• 可以进行全局(长度接近)和局部的比对。 • 相似性是查找确认同源序列的最基本步骤。同源序列一般
具有统计显著的相似性。
2 /90
课堂练习
• 应用动态规划法算法,打分系统是否对双序列比对结果有 影响?为什么?
• 双序列比对的动态规划算法的时间复杂度? • 用点阵法确认一条rna序列是否具有发夹状结构。 • 点阵法为什么要进行去噪处理,用什么方法?
28 /90
进入BLAST界面
http://blast.ncbi.nlm.nih.gov/Blast.cgi
29 /90
help
30 /90
选择BLAST程序
• 程序
• • blastn • • blastp • • blastx • • tblastn • • tblastx
输入
数据库
DNA
没有开始的带“>”的单行,只有序列数据,中间不允许空 行。
38 /90
2)Bare Sequence
1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek 121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp 也可以是GBFF格式中的序列数据,即可以带数字和空格,但序列中间也不 允许空行。
1
DNA
protein
1
protein
DNA
6
protein
protein
6
DNA
DNA
36
DNA
31 /90
文献
• http://scholar.google.com.hk/
32 /90
• 三、BLAST一般使用方法 • (1) 得到并输入查询序列 • (2) 选择BLAST程序 • (3) 选择搜索的数据库 • (4) 选项选择 • Then click “BLAST”
• 基于上述思路,改进的BLAST算法允许空位出现,在多个 HSP中,找一个最好的得分最高的片段对(maximal segment pair,MSP),以此为基础运行动态规划法将这 一片段向序列的两端延伸,最终产生一个记分较高的最佳 比对结果,且可能有空位插入。
22 /90
BLAST算法小结
• word pairs——segment pair——high-scoring pair,HSP— —maximal segment pair,MSP——动态规划法。
• 确定一个DNA或者蛋白质序列身份。如通过芯片实验得到 一个感兴趣的基因,那么就可以通过将这个DNA序列在一 个蛋白质数据库中进行搜索,来寻找哪些蛋白质与该DNA 编码的蛋白质具有相关性。
11 /90
• 确定一个特定基因或者蛋白质有哪些已经发现的变种。例 如,很多病毒都具有极强的突变能力。HIV-1 pol有哪些已 知的变异体?
23 /90
随机事件与统计显著意义的事件
• HSP是否有生物学意义呢?序列相似性不一定就是有生物 学意义的,随机也会产生一定的相似性序列。
• 一段序列的出现是不是随机事件? • 简单的一个模型:假设一个数据库有100条数据,每个数
据长度是4,随机给一条长度为4的序列(GGAC)在数据库 中能找到的概率有多大呢?(大约32%,这个值叫P 【probability】值)。【每个字符(ATGC)出现的概率 同等:1/4】。
Fig. 4.13 pa1g8 e/90101
第二步
• 扫描数据库,得到与编译列表匹配的记录,称为序列片段 对(segment pair)。它是两条给定序列中的一对子序列, 它们的长度相等,且形成无空位的完全匹配。由于在序列 片段对查找过程中不考虑空位字符,即不考虑插入和删除 操作,所以运行速度非常快。
矩阵集合----- PAM-N 如,PAM60矩阵用于比较相距60个PAM单位的 序列。计算方法是PAM1自乘60次。 思考题:经过100次PAM后,是否每个氨 基酸都发生了变化?为什么?
4 /90
模块氨基酸替换矩阵
BLOSUM 62
5 /90
BLOSUM90
BLOSUM80 BLOSUM62
BLOSUM45
PAM30
PAM120
PAM180
PAM240
低趋异度
高趋异度
小鼠和大鼠RBP
小鼠和细菌的lipocalin
相似度越低的序列,在比对的时候,采 用PAM矩阵时,后面的数字越大,采用 BLOSUM矩阵时,后面的数字越小。
6 /90
序列相似性搜索
BLAST
7
主要内容
• 一、BLAST简介 • 二、BLAST算法 • 三、BLAST一般使用方法 • 四、BLAST搜索实例
Altschul et al. (1990)
15 /90
这个算法可以描述为3个步骤
• 第一步: 编译一组阈值高于T的 word pairs (w=3)。 • 例: 对于人 RBP 查询序列…FSGTWYAMAKKDP… • 得到一列 words (w=3) : • FSG SGT GTW TWY WYA YAM AMA …
• 假设我们现在得到了一个比对结果,那么在这个 结果的基础上,搜索的数据库越大,比对的E值应 该是越小还是越大?(作业)
• E值与哪些参数有关?
27 /90
三、BLAST一般使用方法
• (1) 得到并输入查询序列 • (2) 选择BLAST程序 • (3) 选择搜索的数据库 • (4) 选项选择 • Then click “BLAST”
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
19 /90
第三步
“字”对命中后,向两端延伸,一直到得分( 按照某个打分矩阵)下降到某个阈值,由此就 得到一定长度的保持最好得分的序列串,称高 记分片段对(high-scoring pair,HSP)。
“>”开始的单行加分行的序列字符串,中间不允许空行。
http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml
36 /90
37 /90
2)Bare Sequence
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP
思考题:如果查询序列有100个字符,那么应 该会得到多少个“字”?
16 /90
模块氨基酸替换矩阵
BLOSUM 62
17 /90
(T=11)
第一步
GTW
GTW 6,5,11 22
GSW 6,1,11 18
ATW 0,5,11 16
NTW 0,5,11 16
GTY 6,5,2 13
GNM
10
DAW
10
10 /90
BLAST的应用
• 确定直系同源序列或旁系同源序列。如当一个新的细菌基 因组被测序后,几千种蛋白质被确定,其中有多少蛋白质 是同源的?从这里面预测出的基因中有多少是在GenBank 中找不到显著性同源物的?
• 确定哪些蛋白质和基因在特定的物种中出现。植物中是否 也存在象RBP这样的脂质运载蛋白?鱼类中是否有反转录 酶基因(如HIV-1 pol基因)?
9 /90
网站上的简单说明
• The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families. (作业:翻译)
24 /90
• BLAST中一般用一个E值 (Expectation value)来表示比 对的显著性。
• E值【 P值】表示如果数据库是随 机序列,那么得到同样(得分) 或者更好比对结果的序列的频率 【概率】。这个值越小越好,说 明越有生物学意义。
25 /90
E值与p值的关系
26 /90
E值的问题
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
extend
extend
Hit!
20 /90
搜索量
T值
21 /90
• 最初是不考虑空位插入,但在生物的进化过程中碱基的插 入或缺失突变是普遍存在的,因此比对结果通常会出现一 些无空位但不连续的区域,若将有些高分分值片段对通过 一些相似性较低且有空位的片段连接起来,就能组成一些 更长的或许更有实际生物学意义的比对。
1 /90
回顾——双序列比对
• 双序列比对有三种情况:匹配(得分为正),不匹配(蛋 白质有保守性问题),空位(罚分)。空位罚分一般采用 仿射罚分。
• 双序列比对可以帮助我们发现两条序列一致性位点的百分 比,或者保守性位点(蛋白质)的百分比。
• 动态规划法比对两条序列可以获得数学上的最佳值(wenku.baidu.com打 分矩阵影响)。
• 由于现在数据库信息量很大,这样简单重复的分析非常耗 时。所以开发了一些近似的算法以提高速度,目前使用最 广泛的序列对数据库相似性搜索的应用程序是FASTA和 BLAST。
• BLAST算法跟之前讲的动态规划法算法有所不同,处理速 度更快。
13 /90
BLAST
14 /90
二、BLAST算法
“The central idea of the BLAST algorithm is to confine attention to segment pairs that contain a word pair of length w with a score of at least T.”
8 /90
一、BLAST简介与意义
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
33 /90
输入序列
可以输入序列的ACCN号,gi号或者FASTA格式的序列
34 /90
输入说明
点红圈的“more”可以更多的说 明
35 /90
输入格式说明
• 1)FASTA格式
>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMC MNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLP QMKIEEKYNLTS
• 研究可能存在多种剪接方式的表达序列标签。 • 寻找对于一个蛋白质的功能和/或结构起关键作用的氢键氨
基酸残基。 • 发现“新基因”。例如,一个对于全基因组DNA的
BLAST搜索可能会发现一个DNA所编码的蛋白质是以前 所没有报道过的。
12 /90
数据库搜索相似序列的算法
• 数据库搜索相似序列的基础是序列的相似性比对,就是将 查询序列与数据库里面的序列逐一的两两比对分析。
回顾——数据库搜索
• 互联网上存放大量免费的生物学数据库,并有基本的数据 分析工具。
• NCBI包含生物大分子序列的各种最基本数据库。 • Entrez是NCBI的检索系统,提供关键词检索功能,可检
索该网站所有的子数据库。 • 参考序列数据库(RefSeq)包括核酸和蛋白质序列,是
高质量的非冗余的数据库。 • GenBank数据格式(GBFF)包含序列大量的相关信息。
• 可以进行全局(长度接近)和局部的比对。 • 相似性是查找确认同源序列的最基本步骤。同源序列一般
具有统计显著的相似性。
2 /90
课堂练习
• 应用动态规划法算法,打分系统是否对双序列比对结果有 影响?为什么?
• 双序列比对的动态规划算法的时间复杂度? • 用点阵法确认一条rna序列是否具有发夹状结构。 • 点阵法为什么要进行去噪处理,用什么方法?
28 /90
进入BLAST界面
http://blast.ncbi.nlm.nih.gov/Blast.cgi
29 /90
help
30 /90
选择BLAST程序
• 程序
• • blastn • • blastp • • blastx • • tblastn • • tblastx
输入
数据库
DNA
没有开始的带“>”的单行,只有序列数据,中间不允许空 行。
38 /90
2)Bare Sequence
1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek 121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp 也可以是GBFF格式中的序列数据,即可以带数字和空格,但序列中间也不 允许空行。
1
DNA
protein
1
protein
DNA
6
protein
protein
6
DNA
DNA
36
DNA
31 /90
文献
• http://scholar.google.com.hk/
32 /90
• 三、BLAST一般使用方法 • (1) 得到并输入查询序列 • (2) 选择BLAST程序 • (3) 选择搜索的数据库 • (4) 选项选择 • Then click “BLAST”
• 基于上述思路,改进的BLAST算法允许空位出现,在多个 HSP中,找一个最好的得分最高的片段对(maximal segment pair,MSP),以此为基础运行动态规划法将这 一片段向序列的两端延伸,最终产生一个记分较高的最佳 比对结果,且可能有空位插入。
22 /90
BLAST算法小结
• word pairs——segment pair——high-scoring pair,HSP— —maximal segment pair,MSP——动态规划法。
• 确定一个DNA或者蛋白质序列身份。如通过芯片实验得到 一个感兴趣的基因,那么就可以通过将这个DNA序列在一 个蛋白质数据库中进行搜索,来寻找哪些蛋白质与该DNA 编码的蛋白质具有相关性。
11 /90
• 确定一个特定基因或者蛋白质有哪些已经发现的变种。例 如,很多病毒都具有极强的突变能力。HIV-1 pol有哪些已 知的变异体?
23 /90
随机事件与统计显著意义的事件
• HSP是否有生物学意义呢?序列相似性不一定就是有生物 学意义的,随机也会产生一定的相似性序列。
• 一段序列的出现是不是随机事件? • 简单的一个模型:假设一个数据库有100条数据,每个数
据长度是4,随机给一条长度为4的序列(GGAC)在数据库 中能找到的概率有多大呢?(大约32%,这个值叫P 【probability】值)。【每个字符(ATGC)出现的概率 同等:1/4】。
Fig. 4.13 pa1g8 e/90101
第二步
• 扫描数据库,得到与编译列表匹配的记录,称为序列片段 对(segment pair)。它是两条给定序列中的一对子序列, 它们的长度相等,且形成无空位的完全匹配。由于在序列 片段对查找过程中不考虑空位字符,即不考虑插入和删除 操作,所以运行速度非常快。