第三章序列对比与数据库搜索(下)
序列比对和数据库
序列比对和数据库搜索Gregory D.SchulerNationalCenterfor Biotechnology InformationNational Library of Medicine.National Institutes of HealthBethesda. Maryland引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。
达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。
今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。
在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。
在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。
分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。
在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。
今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。
相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。
课件第3讲 序列比对与数据库搜索
两序列比对位置上的元素(核酸或氨基酸)大部分相同 两序列比对位置上的元素(氨基酸)相似 两序列来自一个共同的祖先序列
序列同源性
序列比较
• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST) (heuristic)
words.
The main assumption in a word-based method assumes that related sequences are more likely to share several common Increasing the word size, enables searches to be performed faster, but reduces the sensitivity
矩阵名中的数字代表产生矩阵所用序列集的相似度
BLOSUM62 (lower part)
PAM矩阵和BLOSUM矩阵的比较
PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基 酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋 白质的关系则可用外推过程建立模型,但BLOSUNM矩阵 却是通过直接观测保守区域中氨基酸的替换几率建立的 PAM矩阵基于序列全局比对观测到的突变,包括了保守区域 和可变区域,而BLOSUM矩阵仅基于高度保守的序列,不允 许有空位的出现 一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择
FASTA
找出高相似短序列
打分,精细匹配
拼接,去除不可能区段
序列比对与数据库搜索
Genomics and Bioinformatics 2011-2012, TMMU
Pairwise Sequence Alignment
Query: catcaactacaactccaaagacacccttacacccactaggatatcaacaa |||||||| |||| |||||| ||||| | ||||||||||||||||||||| Sbjct: catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaa
18
红岭创投
注册“红岭创投”P2P理财平台,请输入 官方优惠码21253直接成为VIP会员 12%-18%固定收益
VIP会员100%本息担保
Genomics and Bioinformatics 2011-2012, TMMU
全局比对和局部比对
全局比对(Global Alignment):
Genomics and Bioinformatics 2011-2012, TMMU
氨基酸打分矩阵:BLOSUM
BLOSUM:BLOcks SUbstitution Matrix
A R N D C Q E G H I L K M F P S T W Y V 4 -1 5 -2 0 6 -2 -2 1 6 0 -3 -3 -3 9 -1 1 0 0 -3 5 -1 0 0 2 -4 2 5 BLOSUM62打分矩阵 0 -2 0 -1 -3 -2 -2 6 -2 0 1 -1 -3 0 0 -2 8 -1 -3 -3 -3 -1 -3 -3 -4 -3 4 -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V
第三章 序列比对
第三章序列比对1 序列比对的概念序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。
2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。
核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。
即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。
我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。
正是通过序列比对找出序列之间的相似性。
序列比对找到的是相似性,可用这相似性去进行同源性分析。
后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。
序列比对的一个用途就是用于搜索相似序列。
当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。
现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。
在基因组测序中,序列比对更是有重要作用。
基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。
序列比对还可以寻找序列中的特定位点。
当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。
同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。
12研究生第三章 序列对比和数据库搜索
搜索蛋白基序;同样包括蛋白的完全匹
配的短序列搜索。
3、已翻译蛋白的BLAST搜索
包括[blastx],[tblastn],[tblastx]
程序
数据库
查询
简述 可能找到具有远源进化关系的匹配序 列 适合寻找分值较高的匹配,不适合远 源关系
blastp
蛋白质
Query: 61 CFENRKRQTSILIQKSGPC 79 CFENRK TSI IQ+ G C Sbjct: 61 CFENRKFGTSIRIQRRGLC 79
在残基-残基对比中,很明显,某些位置 的氨基酸残基相对于其它位置的残基具 有较高的保守性,这个信息揭示了某些 残基对于一个蛋白质的结构和功能是极 为重要的。如图3.1所示,处于活性位点 的残基都是极为保守的,比如形成二硫 键的半胱氨酸,参与电子传递的氨基酸 残基以及决定底物特异性的氨基酸残基。 这些保守的残基对于保持蛋白的结构与 功能非常重要,另一方面,由于历史原 因,某些保守位置对蛋白功能并无太大 的重要性。
1、核酸数据库搜索
组合基因组检索; 分为标准的核酸与核酸数据库搜索; MEGABLAST提供大量长序列的比较; 完全匹配的短序列搜索; 特殊搜索。
2、蛋白数据库搜索
分为标准的蛋白与蛋白数据库搜索;PSIand PHI-BLAST,其中PSI用于搜索证实
远源进化关系的存在与否和进一步获取
无法描述残基取代对结构和功能的不同
影响效果,缬氨酸对异亮氨酸的取代与
谷氨酸对异亮氨酸的取代应该给予不同
的打分。
因此如果用一个取代矩阵来描述氨基酸残基 两两取代的分值会大大提高对比的敏感性和 生物学意义。虽然针对不同的研究目标和对 象应该构建适宜的取代矩阵,但国际上常用 的取代矩阵有PAM和BLOSUM等,它们来源 于不同的构建方法和不同的参数选择,包括 PAM250、BLOSUM62、BLOSUM90、 BLOSUM30等。对于不同的对象可以采用不 同的取代矩阵以获得更多信息,例如对同源 性较高的序列可以采用BLOSUM90矩阵,而 对同源性较低的序列可采用BLOSUM30矩阵。
第三章序列比对
• 遗传密码矩阵
遗传密码矩阵通过计算一个氨基酸变成另一 个氨基酸所需的密码子变化的数目而得到。 通常为1 或 2,只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
K
D
E
B
Z
S
N
Q
G
X
T
H
A
C
MP
V
L
I
Y
FWຫໍສະໝຸດ R 10 10• 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时, 就难以确定是否具有同源性。
直系同源和旁系同源
直系同源(orthology)是指不同物种内的同源序列, 它们来源于物种形成时的共同祖先基因。
旁系同源(paralogy)是指同一物种中,由于基因的 复制而产生的几个同源基因。
将核酸序列按6条链 翻译成蛋白质序列 后搜索蛋白质序列 数据库
用检测序列蛋白质 搜索由核酸序列数 据库按6条链翻译成 的蛋白质序列数据 库
将核酸序列按6条链 翻译成蛋白质序列 后搜索由核酸序列 数据库按6条链翻译 成的蛋白质序列数 据库
多结构域蛋白 (H1N1) 的BLAST检索
H1N1聚合酶序列
9
9
8
8
6
6
6
5
5
5
5
5
4
3
3
3
3
3
2
1
0
K 10 10
9
9
8
8
6
6
6
5
5
5
5
5
实验二_数据库相似性搜索与序列比对
实验二_数据库相似性搜索与序列比对实验二数据库相似性搜索与序列比对实验原理:数据库相似性搜索以两两序列比对为基础,将感兴趣的基因序列与序列数据库中的每个序列进行比较,鉴别出相似的序列。
搜索结果显示出与最佳匹配序列的对位排列及匹配记分。
序列数据库搜索对发现基因的功能非常有效。
fasta和blast是两个著名的用于数据库相似性搜索的软件包。
其中blast(basiclocala1ignmentsearchtool)基于局部比对的搜索工具,是一种启发式搜索算法服务软件,包括blastp,blastn,blastx,tblastn 和tblastx程序。
实验目的和要求:学习数据库相似性检索和序列比对的程序的使用,能够理解程序给出的结果,从中获取有关功能和结构的信息。
(1)要求学生使用所学的数据库检索方法检索数据库中的特定基因(2)掌握数据库相似性搜索工具blast的基本比对方法,参数设置及结果分析(3)掌握核酸和蛋白质序列的比对方法、参数设置和结果分析实验材料:未知核酸序列;未知氨基酸序列;SOD基因工具软件:(1)数据库检索工具Entrez一、利用blast中的special类下的aligntwosequences(bl2seq)比较人与老鼠的sod基因蛋白质序列的相似性程度(1)人类aab27818是通过NCBI 1的ntrez和小鼠3gtt_E的SOD基因氨基酸序列或登录号(SOD分为SOD1或SOD2等,检索时注意选择完全相同的SOD基因)搜索蛋白质数据库获得的。
(2)进入NCBI的blast网页,然后选择specializedlast下的align two sequences(bl2seq)程序来比较这两个序列(3)选择blastp子程序,将序列或登录号分别粘贴到序列框中(4)其他选项采用默认的设置,运行程序(5)分析结果,并回答以下问题NCBI的Entrez搜索中使用了哪些关键词?humanandsodmouseandsod人和小鼠SOD基因蛋白质序列的注册号是多少?人aab27818 1和鼠标3gtt_e两序列比对得到的一致性百分比和相似性百分比分别为多少?识别127/153(83%)阳性135/153(88%)两序列比对结果中哪些区域出现了gap?差距0/153(0%)二、利用specielizedblast的conserveddomain进行蛋白质保守结构域分析(1)进入ncbi的blast网页(2)选择specialize last to enter下的保守域超链接(3)在cazy数据库查找一个糖苷水解酶glycosidehydrolases(gh+学号),获得其蛋白质序列或蛋白质序列的genbank登录号aek59386.1(4)在保守域页面的输入框中输入糖苷水解酶的登录号或蛋白质(5),选择默认参数,点击提交进行提交分析(6)阅读得到的结果,点击各hit的超链接了解找到的结构域的功能(7)将结构域图形和表格记录在实验报告中三、利用blast在数据库中搜索不同物种的同源基因(1)利用文献检索工具检索clostridiumthermocellum嗜热梭菌与其纤维素降解功能相关的基因,例如糖苷水解酶glycosidehydrolases(gh+学号)或多糖裂解酶polysaccharidelyases(pls)或碳水化合物酯酶carbohydrateesterases(ces)等(2)利用ncbi的entrez检索该基因获得其核酸序列ab125373或者使用(2)中的蛋白质注册号通过NCBI数据库中的相关信息链接到核酸数据库,以获得基因的核酸注册号或序列(3)利用blastn进行数据库相似性搜索搜索其他微生物中的同源基因(4)分析blast结果,并回答以下问题检索获得基因名称是?chi19-1该基因的登录号是多少?ab125373进行blastn搜索的数据库选项为?nr请列出其他3-5种具有该基因及其同源基因的微生物的注册号?ap009493.1。
第三章 序列比较
第三章序列比较序列比较是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。
序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。
在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。
一个普遍的规律是序列决定结构,结构决定功能。
研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。
这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。
这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。
研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。
这里,将序列看成由基本字符组成的字符串,无论核酸序列还是蛋白质序列,都是特殊的字符串。
本章着重介绍通用的序列比较方法。
序列的相似性3.13.1序列的相似性序列的相似性可以是定量的数值,也可以是定性的描述。
相似度是一个数值,反映两条序列的相似程度。
关于两条序列之间的关系,有许多名词,如相同、相似、同源、同功、直向同源、共生同源等。
在进行序列比较时经常使用“同源”(homology)和“相似”(similarity)这两个概念,这是两个经常容易被混淆的不同概念。
两条序列同源是指它们具有共同的祖先。
在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。
而相似则是有程度的差别,如两条序列的相似程度达到30%或60%。
一般来说,相似性很高的两条序列往往具有同源关系。
但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。
直向同源(orthologous)序列是来自于不同的种属同源序列,而共生同源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。
第三章 序列两两比对
序列比对的方法
比对算法
比对算法,不管是全局比对还是局部比对,基本上是相似的,只是 比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法 的:点阵方法,动态规划方法和基于单词的方法。点阵法和动态规划算 法在这章讲,而基于单词的方法将在下一章讲。
11
序列比对的方法
点阵方法
最基本的序列比对方法是点阵法,也叫点平面图法。这是一种在二 维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横 轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所 有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位 置画一个点。而矩阵的其它位置保持空白。如果两条序列有大量的相似 区域,就用直线沿着对角线将连续的点连接起来。如果对角线的中间出 现断点,就表明有残基的插入和删除。矩阵中平行的对角线代表序列中 的重复区域。
8
序
言
序列相似(similarity)与序列一致(identity)
第一种方法用如下公式计算序列一致度: I=[(Li*2)/(La+Lb)]*100 其中I是序列一致的百分比,Li是一致的残基数目,La和Lb分别是两条序 列的长度。 第二种方法利用如下公式计算序列的一致/相似度: I(S)%=Li(S)/La% 其中La是较短序列的长度。
20
序列比对的方法
动态规划方法
动态规划是一种通过匹配两条序列中所有可能的字符对来确定最 优比对的方法。它和点阵法基本相似,就是也需要构造一个二维的矩 阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来 找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的 找到最佳联配
21
序列比对的方法
Dotmatcher(bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html) Dottup(bioweb.pasteur.fr/seqanal/interfaces/dottup.html) Dothelix(www.genebee.msu.su/services/dhm/advanced.html) MatrixPlot(www.cbs.dtu.dk/service/MatrixPlot/ )
序列比对与数据库搜索汇总
1.1 序列的相似性描述
➢定性的描述 ➢定量的数值
❖相似度 ❖距离
序列比较的基本操作是比对(Alignment)
两个序列的比对是寻找这两个序列中各个字符的一种一一对应 关系,或字符的对比排列 。分析序列同源性和相似性的过程。
相似性和同源性
数据库搜索的基础是序列的相似性比对,而寻 找同源序列则是数据库搜索的主要目的之一。
所谓同源序列,简单地说,是指从某一共同祖先 经趋异进化而形成的不同序列。同源性可以用来 描述染色体—“同源染色体”、基因—“同源基因” 和基因组的一个片断—“同源片断”
必须指出,相似性(similarity)和同源性 (homology)是两个完全不同的概念。
第四章 序列比较与数据库搜索
主讲:张宏 西北农林科技大学农学院遗传教研组
第一节 序 列 比 对
❖ 序列比较的根本任务是:
寻找序列之间的相似性 辨别序列之间的差异 是进行序列相似性与同源性分析的一种研究方法
❖ 目的:
相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系
局部相似性比对往往比整体比对具有更高的灵敏度, 其结果更具生物学意义。
1.4 序列比对的经典算法
计算两条序列间的最适比对的经典算法: ➢算法:做任何事情都有一定的步骤。为解决一个问题而采取的
方法和步骤,就称为算法。
➢Needleman-Wunsch算法:整体比对算法,最佳比对
(两条蛋白质序列具有最多匹配残基)中包括了全部的最短匹配 序列。
基于滑动窗口的点矩阵方法可以明显地降低点 阵图的噪声,并且明确无误的指示出了两条序列间 具有显著相似性的区域。
实验三:相似性搜索与序列比对
实验三:相似性搜索与序列比对一:实验目的1. 能够熟练使用NCBI网站的BLAST系列工具和EMBL的BLAST和FASTA工具,掌握一定的数据库搜索相似序列的技巧。
2. 能够熟练运用Clustalx软件进行双序列和多序列比对。
3. 学会使用EMBL上的Clustalw工具进行比对二:实验内容及操作步骤1.BLAST和FASTA的使用Blastna)进入NCBI主页下载关于H5N1核酸序列或其它你感兴趣的核酸序列(Fasta格式)b)进入/BLAST/c)选择Nucleotide→Nucleotide-nucleotide BLAST (blastn)进行核酸相似性数据库搜索d)在search对话框中粘贴入下载的H5N1核酸序列或其它你感兴趣的核酸序列(Fasta格式)e)调整各参数值,直到获得最佳比对f)点击进行比对g)点击Format!对结果进行格式化,可在下面的选项中自行设计结果的显示方式h)查看比对结果,看在数据库中找到的序列与你的序列是否相似或相同Blastpa)进入NCBI主页下载某一蛋白质序列(Fasta格式),如amineb)选择Protein→Protein-protein BLAST (blastp)进行蛋白质相似性数据库搜索c)在search对话框中粘贴入下载的蛋白质序列(Fasta格式)d)调整各参数值,直到获得最佳比对e)点击进行比对f)点击Format!对结果进行格式化,可自行设计结果的显示方式g)查看比对结果,看在数据库中找到的序列与你的序列是否相似或相同Bl2seqa)进入NCBI主页下载某两条核酸或蛋白质序列(Fasta格式)b)进入/BLAST/c)点击Special目录下的Align two sequences (bl2seq)d)将两条序列分别输入Sequence 1和Sequence 2区域e)点Align进行比对EMBL-BLASTa)进入/b)点击ToolBox下的Blast2 - NCBIc)自行练习EMBL-BLAST,并比较与NCBI上的BLAST有何区别FASTA1.进入EMBL主页:/2.点击Services,点击ToolBox下的FASTA3.设置好参数点击Run4.点击结果中Summary Table下的按钮查看不同的结果显示2.Clustalx软件和在线Clustalw的使用使用Clustalx软件进行双序列比对:a)在NCBI中,搜索H5N1或任何你感兴趣的核酸或蛋白序列,选中两条序列,并一起存为FASTA文件,文件名为newname.fasta, 文件内容例如:>xxxxATTTCGGGTGCTCGATGCTAGG>xxxxxATATTATCATAGAGGGATACCCCCTGGGGb)点击软件的File→Load Sequences,加载保存的fasta文件c)点击Alignment→Do Alignment,进行默认参数的双序列比对d)将比对后的文件存到指定的目录,并用记事本打开并查看你保存的文件e)点击Alignment→Alignment Parameters→Pairwise Alignment Parameters,设置各个参数,再进行第3步看结果有何不同f)点击Alignment→Output Format Options,将存储的文件格式进行修改(默认为xxx.aln),执行c、d步骤,看不同文件格式的文件内容有何不同使用Clustalx软件进行多序列比对:a)在NCBI中,搜索H5N1或任何你感兴趣的核酸或蛋白序列,选中三条或三条以上序列,并一起存为FASTA文件,文件名为newname.fasta, 文件内容举例如下:>xxxxATTTCGGGTGCTCGATGCTAGG>xxxxxATATTATCATAGAGGGATACCCCCTGGGG>xxxxxATATTATCATAGAGGGATACCCCCTGGGG...…b)点击软件的File→Load Sequences,加载我们存的fasta文件c)点击Alignment→Do Alignment,进行默认参数的多序列比对d)将比对后的文件存到指定的目录,并用记事本打开你保存的文件e)点击Alignment→Alignment Parameters→Multiple Alignment Parameters,设置各个参数,再进行第c步看结果有何不同使用EMBL的Clustalw工具进行多序列比对:a)在NCBI中下载三条或三条以上核酸或蛋白质序列(Fasta格式)b)进入EMBL主页:/c)点击Services, 点击ToolBox→Sequence Analysis→ClustalWd)在对话框中输入下载的核酸或蛋白序列,点击Run进行默认参数的比对e)点击查看Results of search下的内容f)进入c步骤所在页面,修改Clustalw中的各参数并重复d步骤,看比对结果有何不同g)进入c步骤所在页面,在输入你的E-mail,并在选择E-mail,查看邮箱中的结果三、作业1.了解什么是BLAST,它有哪些应用。
序列比对和数据库搜索讲解
查询序列中的重复片段
表3. BLAST的核酸数据库:
数据库
FASTA 的计算说明了一个重要事实:即使两条序列匹配的 p值较低,大数据库中对应的E值可以相当大。由于这个原 因,E值往往比p值更能反映实际情况。
敏感性和特异性
敏感性和特异性评价数据库搜索结果的最佳标准 是两个互补的测度。
假如E或p的阈值已经选定,则认为比阈值低的E 或p值的序列相似度是由意义的。通常我们把有意义 的相似序列叫做击中项。数据库搜索把数据库分割成 两个子集。击中项(阳性)和非击中项(阴性)。
序列相似性分析一般使用两种动态规划算法。 即Needleman-Wunsch 算法(全局联配) 和 Smith-Waterman算法(局部联配) 。
Needleman-Wunsch 算法查找的是序列间的全局相似 性,试图尽可能地覆盖整条序列,从某条序列的最 左端开始到最右端结束。
Smith-Waterman算法查找的是局部相似性,得出的联配 结果可能是只覆盖了每条序列的一小部分(局部)。
仿射法(A+ Bl):A为空位开放罚分,B为空 位扩展罚分
蛋白质序列由表示20个天然存在的氨 基酸的字母组成。和核苷酸一样,蛋白质 序列也可以进行联配。
但由于蛋白质在进化过程中,不同氨基酸替代对蛋白 质功能和结构所造成的影响是不同的,所以粗糙的比对方 法仅仅用相同/不同来描述两个残基的关系,显然这种方 法无法描述残基取代对结构和功能的不同影响效果,缬氨 酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予 不同的打分。
序列比对与数据库搜索90页PPT
6、纪律是自由的第一条件。——黑格 尔 7、纪律是集体的面貌,集体的声音, 集体的 动作, 集体的 表情, 集体的 信念。 ——马 卡连柯
8、我们现在必须完全保持党的纪律, 否则一 切都会 陷入污 泥中。 ——马 克思 9、学校没有纪律便如磨坊没有水。— —夸美 纽斯
10、一个人应该:活泼而守纪律,天 真而不 幼稚, 勇敢而 鲁莽, 倔强而 有原则 ,热情 而不冲 动,乐 观而不 盲目。 ——马 克思
谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
三序列查询与比对搜索
DNA RNA protein
Rs7079946
NP_006735
Four ways to access DNA and protein sequences
[1] Entrez Gene with RefSeq [2] UniGene [3] European Bioinformatics Institute (EBI) and Ensembl (separate from NCBI) [4] ExPASy Sequence Retrieval System (separate fr important RefSeq project: best representative sequences
RefSeq (accessible via the main page of NCBI) provides an expertly curated accession number that corresponds to the most stable, agreed-upon “reference” version of a sequence. RefSeq identifiers include the following formats: Complete genome Complete chromosome Genomic contig mRNA (DNA format) Protein NC_###### NC_###### NT_###### NM_###### e.g. NM_006744 NP_###### e.g. NP_006735
This is a gene with 10 ESTs associated; the cluster size is 10
Cluster sizes in UniGene (Human)
序列比对(生物数据库搜索)
数据库查询
所谓数据库查询 数据库查询,是指对序列、结构以及各种二 数据库查询 次数据库中的注释信息进行关键词匹配查找。数 据库查询有时也称数据库检索,它和互联网上通 过搜索引擎 (Search engine) 查找需要的信息是 一个概念。
请大家操作! 请大家操作!
利用NCBI中的查询工具Entrez找出蛋白质序列数 据库SwissProt中有关人(HOMO)的 HOMO)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较高,符合限定要求 的序列结果,根据这些结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因
三、BLAST介绍(主要的BLAST程序)
程序名 Blastn Blastp Blastx Tblastn TBlastx 查询序列 核酸 蛋白质 核酸 蛋白质 核酸 数据库 核酸 蛋白质 蛋白质 核酸 核酸 搜索方法 核酸序列搜索逐一核酸数据库中的序列 蛋白质序列搜索逐一蛋白质数据库中的序列 核酸序列6框翻译成蛋白质序列后和蛋白质 数据库中的序列逐一搜索。 蛋白质序列和核酸数据库中的核酸序列6框 翻译后的蛋白质序列逐一比对。 核酸序列6框翻译成蛋白质序列,再和核酸 数据库中的核酸序列6框翻译成的蛋白 质序列逐一进行比对。
生物信息学实验
实验二 Blast介绍及应用
一、实验目的
了解和掌握数据库搜索工具BLAST, 并能熟练运用。
生物信息学应用:序列比对与数据库搜索汇总
250PAM突变概率矩阵(Dayhoff等,1979)
*表中数值均乘以了100;
BLOSUM矩阵
BLOSUM( Blocks substitution matrix)矩阵
Dayhoff模型假设基于全序列,且蛋白质序列各部位进化的 速率 是均等的。但事实上并非如此,因为保守区的进化速率
分析物种的进化
48条染色体〔24对) 黑猩猩细胞色素C的氨基酸顺序与人类的相同
Pan troglodytes chr22
神经功能相关基因NCAM2和GRIK1黑猩猩中大片段DNA缺失
语言能力相关基因FOXP2序列在人-黑猩猩间存在两个氨基酸的差异
Homo Sapiens chr21 46条染色体〔23对)
序列1(待测序列): 序列2(目标序列):
ATCTG ||| | ATCAG
序列比对目的和实现方法
目的:通过寻找序列间的最佳匹配,判断序列间 的相似性程度
实现方法:依据打分系统,利用算法寻找最佳匹配
打分系统
打分矩阵 空位罚分
寻找最佳匹配的算法
打分系统---打分矩阵
打分矩阵(scoring matrix)
9 match
Key point 2,打分方式
序列1(待测序列): 序列2(目标序列):
ATCTG ATCAG
Match 2, mismatch -1, gap 0
8分
Match 2, gap -1, mismatch 0
序列1(待测序列): 序列2(目标序列):
ATC_TG ||| | ATCA_G
Global vs. Local
序列比对中的两个关键点
Key point 1,对齐方式
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.2 BLAST 程序及其数据库名称和意义 1) BLAST 程序
BLAST 蛋白质数据库
BLAST 的核酸数据库
4.3 BLAST搜索格式
• BLAST搜索框中允许3种输入格式: FASTA 格式 单纯序列输入格式 标识符格式
FASTA格式
• FASTA格式第1行是描述行,第1个字符必须是">"字 符;随后的行是序列本身,一般每行序列不要超过80 个字符,各行之间不允许有空行,回车符不会影响程 序对序列连续性。序列由标准的IUB/IUPAC氨基 酸和核酸代码代表;小写字符会全部转换成大写,序 列可由基因库中调出,亦可输入。如:
行列比较
• 因申请者提交的要求不同,行列可有不同的输出形式,系统 默认的是配对行列输出格式,即查询序列与数据库中匹配 的序列垂直对应。
• 针对蛋白质查询而言,相同的残基排在二序列之间,用“+” 表示保守性残基
• 针对DNA而言,垂直线连接相同的碱基。空位部分代表查 询序列与检索匹配序列不一致。
• 由于过滤作用,在低复杂区氨基酸查询序列可以包含Xs(核 酸包含NS)。HPSs中可列出每个检索数据库中的多个行列。
第三章
序列对比和数据库搜索
(下)
4 BLAST程序简介
• BLAST是现在应用最广泛的序列相似性搜索工具, 相比FASTA有更多改进,速度更快。
• 它建立在严格的统计学基础之上。
• /blast/
BlAST 工具主页面
4.1 BLAST搜索主界面
• 1 qikdllvsss tdldttlviv naiyfkgmwk tafruedtre mpfhvtkqes kpvqmmcmm • 61 sfnvatlpae lmkilelpfa sgdlsmlvll pdevsdleri ektideklt ewtnpImek • 121 rrvkvylpqm kieelqnlts vlmalgmtdl fipsanltgi ssaesikhq avhgafmels • 181 edgemagst gviedikhsp eseqfradhp flflildnpt ntivyfgryw sp
结果总览图-----核酸
结果总览图-----蛋白质
显著性序列列表
最有显著性(同源性 最高)的行排在最上 面,其E值最低,排列 行按E值增加排序,每 行有4部分描述内容: ①数据序列标识符 ②对该序列简单描述 ③在每个数据库 中搜索得到的分数 ④E值,点击序列标 识符可以连接到 GenBank, 点击分数可连接到对 应的序列比较行
• 注意:3种输入格式输入时,蛋白质必须对应搜索蛋白质的 程序,核酸必须对应搜索核酸的程序
5 同源性分析
•5.1 待检核酸序列与整个核酸序列库中的序列进行类比
• 以检索E-Cadherin部分序列为例: 打开BLAST搜索主页按以下选择: NCBI→BLAST→Nucleotide Nucleotid-nucleotide BLAST[blastn] 进入搜索界面,在"Search"框输入 基因的标识符、单纯序列格式或 FASTA格式,并可限制序列的起点 和终点,根据需要选择数据类型 (本例选nr),在高级选项中可进一 步限定条件,设定好后点击BLAST
• BLAST 2.2.12, 具体功能包括:
(1)核酸数据库搜索:分为标准的核酸与核酸数 据库搜索,MEGABLAST提供大量长序列的比较, 完全匹配的短序列的搜索。
(2)蛋白数据库搜索:分为标准的蛋白与蛋白数据 库搜索;PSI-and PHI-BLAST,其中PSI用于 搜索证实远源进化关系是否存在,进一步获取这 个蛋白家族中的功能信息。而PHI用于搜索蛋白 基序;同样包括蛋白的完全匹配的短序列搜索。
V valine(缬氨酸)
• H histidine(组氨酸)
W tryptophan(色氨酸〉
• I isoleucine(异亮氨酸)
Y tyrosine(酪氨酸)
• K lysine (赖氨酸)
Z glutamate or glutamine
• L leucine (亮氨酸)
X any(任何一种氨基酸)
对包含LCR的序列进行对比是不妥当的,因为这些序列不符合残基 一残基序列守恒的模型。有些时候与功能相关的属性可能仅仅是 周期性或组成结构,而没有任何特异的序列。
• 使用BLAST时,缺省情况下可以实行自动过滤。如果对比的序列 中有LCR,查询序列中会出现不明确的字符串(在原序列中没有出 现)。操作者可以使用BLAST程序来进行低复杂度区域的屏蔽。 当一个低复杂度区域被屏蔽掉的序列作为查询序列被提交给数据 库进行检索时,在BLAST对比输出结果中,可能也会包括一些被 屏蔽的分段序列。这些过滤可以由BLAST程序完成。
标识符格式
• 通常只输入NCBI存取号、存取号版号或基因库 中的标识符号,如: p01013、AAA68881.1、129295
• 亦可有NCBI中带有分隔竖线的序列标识符,如:
1 gcttgcggaa gtcagttcag actccagecc gctccagecc ggcccgaccc gaccgcaccc 61 ggcgcctgcc ctcgctcggc gtccccggcc ageeatgggc ccttggagec gcagectctc 121 ggcgctgctg ctgctgctgc aggtctcctc ttggctctgc caggagecgg ageectgcca 181 ccctggcttt gacgccgaga gctacacgtt cacggtgccc
PSI-BLAST 选项
4.6 低复杂度区域与重复元件
低复杂度区域
• 不管是蛋白还是核酸都包含一些特殊的区域--低复杂度区域 (LCRs),在进行序列数据库搜索时,这些区域可能会导致一些令人 迷惑的结果。数据库中的蛋白质有一半以上拥有至少一个LCR。 LCRs的进化、功能和结构 性质并不清楚。在DNA中,有许多种简 单的重复,其中一些已经知道是高度多态性的,并且在作基因图谱 时经常使用的。
4.5 PSI-BLAST程序简介
PSI-BLAST----位点特异性反复比较BLAST(蛋白质) PSI-BLAST的特色是每次用Profile搜索数据库后再利用搜 索的结果重新构建Profile,然后用新的Profile再次搜索数 据库,如此反复直至没有新的结果产生为止。PSI-BLAST 先用带空位的BLAST搜索数据库,将获得的序列通过多序 列比较来构建第一个Profile。 PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列 中的隐含模式,这种方法可以有效地找到很多序列差异较 大,而结构功能相似的相关蛋白,甚至可以与一些结构比 较方法如Threading媲美,在BLAST查询页面有选择项。 也可以在FTP服务器上下载PSI--BLAST的独立程序。
按钮提交。提示提交成功,进 一步点击Format 可看结 果。
分别输入两个基因的标识符或FASTA格式的序列,碱基数不要超 过150kb,可进一步限定条件,然后点击BLAST按钮即可提交等待结果。
选择FORMAT 按钮显示结果
4.3 蛋白质与蛋白质数据库或蛋白质两两比较
• (1)蛋白质与蛋白质数据库比较:选Protein BLAST中 的Protein-Protein BLAST [blastp]与蛋白质数据库 比较
• >gi|129295|splP01013|OVAX-CHICK GENE X PROTEIN (OVALBUMIN-
RE-LATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVL LPDEVSDLERIEIKTINFEIKLTEJTNPNTMEIKRRVIKVYLPQMIKIEEIKYNVL MALGMTDLFIPSANLIBSQAVEHfGAFMELSEDGIEMAGSTGVIEDIHIK
蛋白质行列比较结果
核酸行列比较结果
参数E的意义
• 相关的参数值E代表随机比较分值不低于实际比较 分值的概率。对于严格的比较, E值必须低于一 定阈值,才能说明比较的结果具有足够的统计学 显著性。
• 界定值在搜索设置,系统默认为10,搜索的严谨度 越高,E值越小。若要比较短序列,获得更多的信息, 则可增加E值到1000或更高;或降低字符大小(W), 经验之法是查询序列至少是W的2倍,或禁止过滤 功能的使用,或改变矩阵以优化搜索序列。
• 输入方法基本与核酸比较相同,存取号或序列内容必 须是蛋白质库中的。
• (2)蛋白质的两两比较: 在Alignment View 中选 Pairwise , Matrix 选择比较矩阵(BLOSUM62)进行比 较
• 序列输入格式同上。其输出搜索结果,进一步点击 C cystine(胱氨酸)
R arginine(精氨酸)
• D aspartate(天冬氨酸)
S serine(丝氨酸)
• E glutamate(谷氨酸盐)
T threonine(苏氨酸)
• F phenylalanine(苯丙氨酸)
U selenocysteine(晒代半胺氨酸)
• G glycine(甘氨酸)
• M methionine(蛋氨酸)
*translation stop(翻译终止符)
• N asparagine(天冬酰胺)
-gap of indeterminate length
2.单纯序列数据输入格式
• 该格式无FASTA描述定义行,亦可是GenBank/GMPept中的单纯文本 格式。如:
核酸表示字符:
符号 含义
G
G
A
A
T
T
C
C
U
U