序列比对和数据库搜索讲解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
nr中过去30天内的最新序列 SWISS-PROT数据库 PDB结构数据库中的蛋白质序列 酵母基因组中编码的全部蛋白质 大肠杆菌基因组中编码的全部蛋白质 Kabat的免疫学相关蛋白质序列 由REPBASE中的Alu重复序列翻译而来,用来遮蔽
查询序列中的重复片段
表3. BLAST的核酸数据库:
数据库
FASTA 的计算说明了一个重要事实:即使两条序列匹配的 p值较低,大数据库中对应的E值可以相当大。由于这个原 因,E值往往比p值更能反映实际情况。
敏感性和特异性
敏感性和特异性评价数据库搜索结果的最佳标准 是两个互补的测度。
假如E或p的阈值已经选定,则认为比阈值低的E 或p值的序列相似度是由意义的。通常我们把有意义 的相似序列叫做击中项。数据库搜索把数据库分割成 两个子集。击中项(阳性)和非击中项(阴性)。
序列相似性分析一般使用两种动态规划算法。 即Needleman-Wunsch 算法(全局联配) 和 Smith-Waterman算法(局部联配) 。
Needleman-Wunsch 算法查找的是序列间的全局相似 性,试图尽可能地覆盖整条序列,从某条序列的最 左端开始到最右端结束。
Smith-Waterman算法查找的是局部相似性,得出的联配 结果可能是只覆盖了每条序列的一小部分(局部)。
仿射法(A+ Bl):A为空位开放罚分,B为空 位扩展罚分
蛋白质序列由表示20个天然存在的氨 基酸的字母组成。和核苷酸一样,蛋白质 序列也可以进行联配。
但由于蛋白质在进化过程中,不同氨基酸替代对蛋白 质功能和结构所造成的影响是不同的,所以粗糙的比对方 法仅仅用相同/不同来描述两个残基的关系,显然这种方 法无法描述残基取代对结构和功能的不同影响效果,缬氨 酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予 不同的打分。
表1. BLAST程序:
程序 数据库
查询
简述
blastp 蛋白质 blastn 核酸 blastx 蛋白质 tblastn 核苷酸(翻译) tblastx 核酸(翻译)
蛋白质 核苷酸 核酸(翻译) 蛋白质 核酸(翻译)
可能找到具有远源进化关系的 匹配序列
适合寻找分值较高的匹配,不 适合远源关系
适合新DNA序列和EST序列的 分析
M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6
I -3 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5
L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6
V -2 -2 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4
BLAST对序列格式的要求是常见的FASTA格式。FASTA格式第一 行是描述行,第一个字符必须是“>”字符;随后的行是序列 本身,一般每行序列不要超过80个字符,回车符不会影响程 序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核 酸代码代表;小写字符会全部转换成大写;单个“-”号代表 不明长度的空位;在氨基酸序列里允许出现“U”和“*”号; 任何数字都应该被去掉或换成字母(如,不明核酸用“N”, 不明氨基酸用“X”)。此外,对于核酸序列,除了A、C、G、 T、U分别代表各种核酸之外,R代表G或A(嘌呤);Y代表T或 C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G 或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H 代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。 对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之 外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln; X代表任意氨基酸;“*”代表翻译结束标志。
统计分值
序列相似性搜索的一个重大突破就是发展了联配分值 的统计学原理。
在序列相似性搜索中, p值是指获得至少与两条不相关序列间的偶然相似性一样高 的分值的概率。低p值表明有意义的 匹配:在这些情况下, 分值几乎不可能是偶然得到的,而只可能是由真实的生物学 或进化学关系得出。 E(期望)值是至少与所识别的相似性记同样高分值的偶然 事件的期望频率。
第二步运算是寻找与最初识别的单词匹配的扩展。试图找到序 列的无空位联配,该联配含有高密度的最初识别的单词匹配,然后 再把这些联配加入到高分值的 有空位的联配中去。最后在识别了 序列间的高分值联配之后,通过动态规划联配全部序列高打分区域, 得出最终联配及其分值。
BLAST搜索
BLAST 是 目 前 常 用 的 数 据 库 搜 索 程 序 , 它 是 Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索 工具”[Altschul, 1990, 1997]。
序列比对和数据库搜索
生物医学工程中心2008级 余琪琪
比较是科学研究中最常见的方法,通过将研究 对象相互比较来寻找对象可能具备的特性。在生 物信息学研究中,比对是最常用和最经典的研究 手段。
序列两两比对
多序列比对
序列两两比对
蛋白质序列之间或核酸序列之间的两两比 对,通过比较两个序列之间的相似区域和保守 性位点,寻找二者可能的分子进化关系。
适合寻找数据库中尚未标注的 编码区
适合分析EST序列
表2. BLAST的蛋白swissprot pdb yeast E.coli Kabat alu
简述
汇集了SWISS-PROT,PIR,PRF以及从GenBank序列编 码区中得到的蛋白质和PDB中拥有原子坐标的蛋 白质,并去除了冗余的序列
F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9
Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10
W -8 -2 -5 -6 -6 -7 4 7 7 5 3 2 -3 -4 -5 -2 -6 0 0 17
BLAST运算的第一步是寻找打分比某一特定阈值(T)高且 长度是W的单词。对于蛋白质序列W值一般是3,而核苷酸序列的 W值一般是11.使用者可以设置W和T值,但一般都使用默认值。
BLAST的第二步运算都是寻找与最初识别的单词匹配的扩展。 BLAST将个别单词匹配扩展,直到联配总分值从最高值跌落一段数 量,产生无空位的联配。而改进后的BLAST程序允许空位的插入。 这些高分值局部联配的BLAST术语是高分值片段对(high-scoring segment paris,HSPs)
D -5 0 0 -1 0 1 2 4
E -5 0 0 -1 0 0 1 3 4
Q -5 -1 -1 0 0 -1 1 2 2 4
H -3 -1 -1 0 -1 -2 2 1 4 3 6
R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6
K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5
两序列间相似度低p值对应于大数据库搜索的高E值。
FASTA和BLAST采用了稍微有点不同的方法来 计算全数据库的p值和E值。
FASTA软件给出的E值是和p值相关的,等式E=Np给出了它们 间的关系,其中N是数据库中序列的数目(即E指数据库搜 索,p指单独的序列)。 BLAST的E值计算是把数据库看作是一条非常长的序列。
相似的序列有可能同源。
同源的序列常常具有相似的生物学功能(垂直同原体),
但基因复制机制使得同源序列进化出不同功能(水平同源 体)。
数据库搜索的基础是序列的相似性比对, 而寻找同源序列则是数据库搜索的主要目的 之一。
SEQ1:AATTGATTGCGCATTTAAAGGG SEQ2:AACTGA CGCATCTTAAGGG
序列1: MILVKP - VVLKGDFG 序列2: MILLKP A I I I RAEY-
位点分值:656256 044231370
C 12 S02
总联配分值=位点分值和-空位罚分
T -2 1 3 P -1 1 0 6
=54-1=53
A -2 1 1 1 2
G -3 1 0 -1 1 5
N -4 1 0 -1 0 0 2
FASTA搜索
FASTA算法是由Lipman和Pearson于1985年发表的(Lipman 和Pearson,1985)。
FASTA的基本思路是第一步识别与代查序列相匹配的很短的 序列片段,称为k-tuple。使用者可以改变ktup值,蛋白质序列的 ktup默认值是2,DNA序列的ktup默认值是6,一般也很少改变。
序列比对的理论基础是进化学说,如果两个 序列之间具有足够的相似性,就推测二者可能有 共同的进化祖先,经过序列内残基的替换、残基 或序列片段的缺失、以及序列重组等遗传变异过 程分别演化而来。
序列相似和序列同源是不同的概念,序列 之间的相似程度是可以量化的参数,而序列是 否同源需要有进化事实的验证。
任何序列之间均存在相似,只有当序列是 从一个共同祖先进化分歧而来的,它们才是同 源的。
两条序列上下叠放,其中垂直上下放置的相应字母(碱 基)被联配。
序列1中的第7~9字母与序列2中的任何字母都没有配上,当这 种情况发生时,我们说引入了一个空位。空位的引入是为了得 到一个更好的两序列联配,使联配中有更多字母的配对。
联配中的空位可以被解释成与祖先序列相关的序列中有一条 序列发生了插入或缺失。
替代记分矩阵:这些矩阵给进化中所有可 能的氨基酸替代记分。分值越高,意味着 替代的可能性越大。
国际上常用的取代矩阵有PAM和BLOSUM等,它们来源于不同的 构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90、 BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更 多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对 同源性较低的序列可采用BLOSUM30矩阵。
CSTPAGNDEQHRKMILVFYW
数据库搜索:FASTA和BLAST
Genbank、SWISS-PROT等序列数据库提供的序列 搜索服务都是以序列两两比对为基础的。不同之处在于为 了提高搜索的速度和效率,通常的序列搜索算法都进行了 一定程度的优化,如最常见的FASTA工具和BLAST工具。 它们通常要比动态规划法快上5-50倍。与动态规划法不同 的是这些方法并不能保证找得到最佳联配,因此它们的准 确性比较低。但在实际应用中,增加的运算速度往往能够 弥补精度上的不足。
敏感性是指以击中项的形式显示出来的真实生物 序列关系在数据库中的比例,可以记为:
Sn=ntp/(ntp+nfn) 其中ntp为真阳性的数目,nfn为假阴性的数目。
特异性是指击中项中具有真实生物学关系的击中 项比例。可以记为:
Sp=ntp/(ntp+nfp) 其中nfp为假阳性的数目
BLAST是现在应用最广泛的序列相似性搜索工具, 相比FASTA有更多改进,速度更快,并建立在严格的统 计学基础之上。NCBI提供了基于Web的BLAST服务,用户 可以把序列填入网页上的表单里,选择相应的参数后提 交到数据服务器上进行搜索,从电子邮件中获得序列搜 索的结果。BLAST包含五个程序和若干个相应的数据库, 分别针对不同的查询序列和要搜索的数据库类型。其中 翻译的核酸库指搜索比对时会把核酸数据按密码子按所 有可能的阅读框架转换成蛋白质序列。
因为真正的生物学序列往往不是在全长上相似,而是 局部相似,所以Smith-Waterman算法使用最为广泛。
空位罚分是为了补偿插入和缺失对序列相 似性的影响,由于没有什么合适的理论模型能 很好地描述空位问题,因此空位罚分缺乏理论 依据而更多的带有主观特色。
常数罚分(A):A为空位数
按比例罚分(Bl):B为空位数,l为空位长度
nr
month dbest dbsts htgs yeast E.coli pdb kabat vector mito alu
gss
简述
非冗余的GenBank+EMBL+DDBJ+PDB序列,除了EST、STS、 GSS和0,1,2阶段的HTGS序列 nr中过去30天的最新序列 非冗余的Genbank+EMBL+DDBJ+PDB的EST部分 非冗余的Genbank+EMBL+DDBJ+PDB的STS部分 0,1,2阶段的高产量基因组序列(3阶段完成的HTG序列在nr库里) 酵母的全基因组序列 大肠杆菌的全基因组序列 由三维结构库来的核酸序列 Kabat的免疫学相关序列库 Genbank的载体子集 线粒体核酸序列 REPBASE中Alu重复序列翻译而来,用来遮蔽查询序列中的重复片 段 基因组勘测序列(Genome Survey Sequence)
相关文档
最新文档