06_蛋白质序列比对与分子进化分析_2014-1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这两段序列的局部比对程度最大,且比对分值
达到或超过界值(或截止分值)。
在BLAST比对分析中,每对HSP由一来自于 待检索序列的片段与一来自于数据库序列的片 段构成。
BLAST程序所采用的相似性检索过程,首先 是在待检索序列与数据库序列之间查找相似的 片段(HSP),然后对任何找到的匹配片段进 行统计学意义的评估(期望值E),最后只报
如不同残基的分值越高,则
表示其在进化过程中越容易 发生相互突变,相似性越高; 如不同残基的分值为负数, 则表示其在进化过程中不易 发生相互替换,相似性较低。
第二类为突变数据矩阵(mutation
data
matrix,MD),主要来自于单个残基之间 的相似性,它是基于可接受突变点(point accepted mutation,PAM)的概念。
输入蛋白质序列
3.
数据库、检索程序使用默认值,运算参数中调整“ Max target sequence”为10。
4. 点击“blast”按纽提交。
点击按纽
5. 等待结果返回(屏幕将会自动刷新)。
6. 结果解读(将网页向下拖动)。
①检索程序简介及一般信息
②匹配序列的图形化总结
③匹配序列的在线描述
substitution matrix,BLOSUM),该矩阵 是由Henikoff夫妇于1992年建立的,它以序 列片段为基础,基于蛋白质模块数据库 BLOCKS,考虑了序列片段中相邻残基之间 的关系。
BLOSUM Score Matrix
在进行相似性比对时,如相 同残基的分值越高,则表示 其越保守,越不易发生突变;
① ②
③
⑴ BLAST Assembled Refseq Genomes(基 因组参考序列BLAST)
允许用户检索与特定种属的生物相关的序列,包括人 类基因组、大鼠和小鼠基因组、果蝇基因组、微生物 基因组、植物基因组等。 主要用于:
① 对待检索序列作图;
② 决定基因组的结构;
③ 鉴定新的基因。
⑵ Basic BLAST(基本BLAST) 基本BLAST检索服务程序包括: ① Nucleotide BLAST(blastn)
6.1.2 序列格式 为了将待检索序列与数据库序列进行比对,用 户必须按照一定的格式提交欲比对的序列。 ⑴ FASTA Format 即贮存蛋白质或核苷酸序列的文本文件格式, 首行为描述行。
⑵ Net Sequence Format 纯序列格式是不带有FASTA格式描述行定义 的序列数据,不允许出现空行,但可嵌入空格 和/或数字。 ⑶ Sequence Identifier Format 序列标识格式即只输入注册号或GI,不允许出 现空格符。
④实际的序列比对结果
⑤检索参数及其他统计学资料
考核作业题(第九次) 自行在UNIPROT蛋白质数据库内检索并选择 一段蛋白质序列,使用Blastp程序与蛋白质数
据库进行比对分析,报告评分值最高或期望值
最低的10段序列,并对这些匹配的序列进行分
析评估(10分)。
请将作业的电子文档发送至:lihong7188@126.com
Chapter 6
Analysis of Sequence Alignment —— Part One
and Molecular Evolution of Proteins
利用网络数据库资源,将用户所测定的蛋白
质序列与已知序列进行相似性比对,是推断
该序列的结构、功能以及同源关系的强有力
的手段。 序列相似性比对包括全局序列比对(整体比 对)与局部序列比对。 由于局部序列相似性比对更能反映蛋白质片
由于二者的实际检索过程具有许多相似之处,
故这里仅介绍BLAST服务程序。
6.1.1 BLAST检索服务程序 局部比对基本检索工具(Basic Local Alignment Search Tool,BLAST),是由 NCBI开发的一种局部序列比对检索系统,主
要用于将用户所提交的核苷酸或蛋白质序列
告满足用户所选择的统计学界值的匹配片段。
6.1.7 运算参数
在进行BLAST检索比对时,用户可根据自己
的检索目的,按一定的格式输入待检索序列,
选择并设定必要的参数。
需要注意的是,相关的运算参数可因BLAST 程序不同,或因程序或网页的更新而改变。
Blastp程序的运算参数(可选)
显示目标序列最大值(可改为10)
即将用户提交的核苷酸序列全部翻译为
蛋白质序列,并与NCBI的蛋白质序列 数据库进行比对。
遗传密码选择
④ Protein query vs. translated database (tblastn) 蛋白质检索序列-核苷酸序列翻译数据
库,即将用户提交的蛋白质序列与
NCBI核苷酸数据库按全部读码框动态 翻译的序列进行比对。
段序列在结构与功能上的同源关系,故更具
有实际意义。
序列相似性与序列同源性是两个不同的概念。
序列相似性(similarity)是一量化参数,反映序列之
间相似或相同的程度。也可用序列一致性(identity)
来表示。
序列同源性(homБайду номын сангаасlogy)则是反映序列之间在进化
上亲缘关系的远近。
一般说来,序列相似性或一致性越大,则序列之间具 有同源关系的可能性越大。
6.1.3 BLAST比对数据库的选择 用户应根据自己的检索目的,选择不同的 NCBI数据库以用于待检索序列的比对分析。 可供用户选择的数据库包括核苷酸序列数据库、
多肽序列数据库及人类基因组序列数据库等。
需注意某些数据库对蛋白质或核苷酸序列是有 选择的,不能与某一特定的 BLAST 检索服务 程序相结合使用。 例如,不能使用 BLASTN 程序检索 UniProt 蛋
与已知的数据库序列资料进行相似性比对。
相对于全序列比对而言,BLAST采用启发式
比对方式进行局部序列比对,因而能够检测出 存在于各个不同区段的、具有相似性的序列。
直接利用Web浏览器获得BLAST服务是最便捷
的途径之一。
用户在启动IE浏览器后,在地址栏中输入
“http://blast.ncbi.nlm.nih.gov/Blast.cgi”并 回车,即可进入BLAST服务程序的主页。此时, 用户可以根据自己的检索目的,选择不同的 BLAST检索服务程序。
白质序列数据库。
6.1.4 遗传密码表
对于需进行翻译的序列,可供选 择的遗传密码表及其相关联的值 有:
1 —— Standard(标准密码); 2 —— Vertebrate Mitochondrial(脊椎动物线 粒体密码);
3 —— Yeast Mitochondrial (酵母线粒体密码);
期望值阈值 启发式检索最小初始值
评分矩阵系统 缺口值(终止/延伸)
6.1.8
检索结果
所有BLAST程序以大致相同的格式输出检索
结果,其内容依次为: ① 检索程序简介及一般信息; ② 匹配序列的图形化总结; ③ 匹配序列的在线描述; ④ 实际的序列比对结果; ⑤ 检索参数及其他统计学资料。
Blastp蛋白质序列比对操作实例 1.用浏览器打开Blastp检索界面:
1个PAM表示在一定进化距离中,1%的残
基发生突变的频数。
Relationship of BLOSUM with PAM Matrixes
6.1.6 检索策略 BLAST比对结果输出的基本单位是高分值片 段对(High-scoring Segment Pair,HSP)。
HSP由两段任意的、长度相等的序列片段构成,
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BL AST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch&SHOW_ DEFAULTS=on&LINK_LOC=blasthome
2. 在文本框中输入待分析的蛋白质序列。
标准的核苷酸 - 核苷酸比对服务程序,用
于单条待检索序列的鉴定,或查找与之相 似的核苷酸序列。
② Protein BLAST(blastp) 标准的蛋白质 - 蛋白质 BLAST ,用于待检 索序列的鉴定,或查找与之相似的蛋白质 序列。
序列输入区
数据库选择
检索程序选择
运算参数选择
③ Translated query vs. protein database (blastx) 翻译的核苷酸检索序列-蛋白质数据库,
⑤ Translated query vs. translated database (tblastx) 翻译的核苷酸检索序列-核苷酸序列翻译数
据库,即将用户提交的核苷酸序列按6个
读码框翻译为蛋白质序列,再与NCBI核苷 酸数据库的6个读码框翻译序列进行比对。
⑶ Specialized BLAST(特殊的BLAST)
4 —— Mold Mitochondrial and Mycoplasma/ Spiroplasma(霉菌线粒体和 支原体/螺旋体密码)等。
6.1.5 评分系统
BLASTP、BLASTX、TBLASTN 和TBLASTX 程序所使用的评分系统为评分矩阵,主要有两大 类:
第一类为模块替换矩阵(blocks
6.1 局部序列相似性的两两比对
局部序列相似性的两两比对就是将用户提交的
一段蛋白质序列,与数据库中已知的蛋白质序
列进行局部序列相似性比对,以确定二者在序
列结构与功能上的同源关系。
目前,进行局部序列相似性比对十分有用的网 络工具软件是 NCBI 的 BLAST 服务程序和 EBI 的FASTA服务程序。
达到或超过界值(或截止分值)。
在BLAST比对分析中,每对HSP由一来自于 待检索序列的片段与一来自于数据库序列的片 段构成。
BLAST程序所采用的相似性检索过程,首先 是在待检索序列与数据库序列之间查找相似的 片段(HSP),然后对任何找到的匹配片段进 行统计学意义的评估(期望值E),最后只报
如不同残基的分值越高,则
表示其在进化过程中越容易 发生相互突变,相似性越高; 如不同残基的分值为负数, 则表示其在进化过程中不易 发生相互替换,相似性较低。
第二类为突变数据矩阵(mutation
data
matrix,MD),主要来自于单个残基之间 的相似性,它是基于可接受突变点(point accepted mutation,PAM)的概念。
输入蛋白质序列
3.
数据库、检索程序使用默认值,运算参数中调整“ Max target sequence”为10。
4. 点击“blast”按纽提交。
点击按纽
5. 等待结果返回(屏幕将会自动刷新)。
6. 结果解读(将网页向下拖动)。
①检索程序简介及一般信息
②匹配序列的图形化总结
③匹配序列的在线描述
substitution matrix,BLOSUM),该矩阵 是由Henikoff夫妇于1992年建立的,它以序 列片段为基础,基于蛋白质模块数据库 BLOCKS,考虑了序列片段中相邻残基之间 的关系。
BLOSUM Score Matrix
在进行相似性比对时,如相 同残基的分值越高,则表示 其越保守,越不易发生突变;
① ②
③
⑴ BLAST Assembled Refseq Genomes(基 因组参考序列BLAST)
允许用户检索与特定种属的生物相关的序列,包括人 类基因组、大鼠和小鼠基因组、果蝇基因组、微生物 基因组、植物基因组等。 主要用于:
① 对待检索序列作图;
② 决定基因组的结构;
③ 鉴定新的基因。
⑵ Basic BLAST(基本BLAST) 基本BLAST检索服务程序包括: ① Nucleotide BLAST(blastn)
6.1.2 序列格式 为了将待检索序列与数据库序列进行比对,用 户必须按照一定的格式提交欲比对的序列。 ⑴ FASTA Format 即贮存蛋白质或核苷酸序列的文本文件格式, 首行为描述行。
⑵ Net Sequence Format 纯序列格式是不带有FASTA格式描述行定义 的序列数据,不允许出现空行,但可嵌入空格 和/或数字。 ⑶ Sequence Identifier Format 序列标识格式即只输入注册号或GI,不允许出 现空格符。
④实际的序列比对结果
⑤检索参数及其他统计学资料
考核作业题(第九次) 自行在UNIPROT蛋白质数据库内检索并选择 一段蛋白质序列,使用Blastp程序与蛋白质数
据库进行比对分析,报告评分值最高或期望值
最低的10段序列,并对这些匹配的序列进行分
析评估(10分)。
请将作业的电子文档发送至:lihong7188@126.com
Chapter 6
Analysis of Sequence Alignment —— Part One
and Molecular Evolution of Proteins
利用网络数据库资源,将用户所测定的蛋白
质序列与已知序列进行相似性比对,是推断
该序列的结构、功能以及同源关系的强有力
的手段。 序列相似性比对包括全局序列比对(整体比 对)与局部序列比对。 由于局部序列相似性比对更能反映蛋白质片
由于二者的实际检索过程具有许多相似之处,
故这里仅介绍BLAST服务程序。
6.1.1 BLAST检索服务程序 局部比对基本检索工具(Basic Local Alignment Search Tool,BLAST),是由 NCBI开发的一种局部序列比对检索系统,主
要用于将用户所提交的核苷酸或蛋白质序列
告满足用户所选择的统计学界值的匹配片段。
6.1.7 运算参数
在进行BLAST检索比对时,用户可根据自己
的检索目的,按一定的格式输入待检索序列,
选择并设定必要的参数。
需要注意的是,相关的运算参数可因BLAST 程序不同,或因程序或网页的更新而改变。
Blastp程序的运算参数(可选)
显示目标序列最大值(可改为10)
即将用户提交的核苷酸序列全部翻译为
蛋白质序列,并与NCBI的蛋白质序列 数据库进行比对。
遗传密码选择
④ Protein query vs. translated database (tblastn) 蛋白质检索序列-核苷酸序列翻译数据
库,即将用户提交的蛋白质序列与
NCBI核苷酸数据库按全部读码框动态 翻译的序列进行比对。
段序列在结构与功能上的同源关系,故更具
有实际意义。
序列相似性与序列同源性是两个不同的概念。
序列相似性(similarity)是一量化参数,反映序列之
间相似或相同的程度。也可用序列一致性(identity)
来表示。
序列同源性(homБайду номын сангаасlogy)则是反映序列之间在进化
上亲缘关系的远近。
一般说来,序列相似性或一致性越大,则序列之间具 有同源关系的可能性越大。
6.1.3 BLAST比对数据库的选择 用户应根据自己的检索目的,选择不同的 NCBI数据库以用于待检索序列的比对分析。 可供用户选择的数据库包括核苷酸序列数据库、
多肽序列数据库及人类基因组序列数据库等。
需注意某些数据库对蛋白质或核苷酸序列是有 选择的,不能与某一特定的 BLAST 检索服务 程序相结合使用。 例如,不能使用 BLASTN 程序检索 UniProt 蛋
与已知的数据库序列资料进行相似性比对。
相对于全序列比对而言,BLAST采用启发式
比对方式进行局部序列比对,因而能够检测出 存在于各个不同区段的、具有相似性的序列。
直接利用Web浏览器获得BLAST服务是最便捷
的途径之一。
用户在启动IE浏览器后,在地址栏中输入
“http://blast.ncbi.nlm.nih.gov/Blast.cgi”并 回车,即可进入BLAST服务程序的主页。此时, 用户可以根据自己的检索目的,选择不同的 BLAST检索服务程序。
白质序列数据库。
6.1.4 遗传密码表
对于需进行翻译的序列,可供选 择的遗传密码表及其相关联的值 有:
1 —— Standard(标准密码); 2 —— Vertebrate Mitochondrial(脊椎动物线 粒体密码);
3 —— Yeast Mitochondrial (酵母线粒体密码);
期望值阈值 启发式检索最小初始值
评分矩阵系统 缺口值(终止/延伸)
6.1.8
检索结果
所有BLAST程序以大致相同的格式输出检索
结果,其内容依次为: ① 检索程序简介及一般信息; ② 匹配序列的图形化总结; ③ 匹配序列的在线描述; ④ 实际的序列比对结果; ⑤ 检索参数及其他统计学资料。
Blastp蛋白质序列比对操作实例 1.用浏览器打开Blastp检索界面:
1个PAM表示在一定进化距离中,1%的残
基发生突变的频数。
Relationship of BLOSUM with PAM Matrixes
6.1.6 检索策略 BLAST比对结果输出的基本单位是高分值片 段对(High-scoring Segment Pair,HSP)。
HSP由两段任意的、长度相等的序列片段构成,
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BL AST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch&SHOW_ DEFAULTS=on&LINK_LOC=blasthome
2. 在文本框中输入待分析的蛋白质序列。
标准的核苷酸 - 核苷酸比对服务程序,用
于单条待检索序列的鉴定,或查找与之相 似的核苷酸序列。
② Protein BLAST(blastp) 标准的蛋白质 - 蛋白质 BLAST ,用于待检 索序列的鉴定,或查找与之相似的蛋白质 序列。
序列输入区
数据库选择
检索程序选择
运算参数选择
③ Translated query vs. protein database (blastx) 翻译的核苷酸检索序列-蛋白质数据库,
⑤ Translated query vs. translated database (tblastx) 翻译的核苷酸检索序列-核苷酸序列翻译数
据库,即将用户提交的核苷酸序列按6个
读码框翻译为蛋白质序列,再与NCBI核苷 酸数据库的6个读码框翻译序列进行比对。
⑶ Specialized BLAST(特殊的BLAST)
4 —— Mold Mitochondrial and Mycoplasma/ Spiroplasma(霉菌线粒体和 支原体/螺旋体密码)等。
6.1.5 评分系统
BLASTP、BLASTX、TBLASTN 和TBLASTX 程序所使用的评分系统为评分矩阵,主要有两大 类:
第一类为模块替换矩阵(blocks
6.1 局部序列相似性的两两比对
局部序列相似性的两两比对就是将用户提交的
一段蛋白质序列,与数据库中已知的蛋白质序
列进行局部序列相似性比对,以确定二者在序
列结构与功能上的同源关系。
目前,进行局部序列相似性比对十分有用的网 络工具软件是 NCBI 的 BLAST 服务程序和 EBI 的FASTA服务程序。