生物序列的同源性搜索-blast简介及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.其他站点:
http://life.zsu.edu.cn/blast/ http://nema.cap.ed.ac.uk/ncbi_blast.html http://www.fruitfly.org/blast/(果蝇)

12
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较 高,符合限定要求的序列结果,根据这些 结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 … 这些信息都可以应用到后续分析中。
单机版 单机版的blast可以通过NCBI的ftp站点获得, 有适合不同平台的版本(包括linux,dos 等)。获得程序的同时必须获取相应的数 据库才能在本地进行blast分析。单机版的 优点是可以处理大批的数据,可以自己定 义数据库,但是需要耗费本地机的大量资 源,此外操作也没有网络版直观、方便, 需要一定的计算机操作水平。
2
内容提要
1.基本概念 相似性,同源性 2.Blast介绍 Blast资源和相关问题 3.Blast的应用 网络版,单机版 4.深入了解Blast(改进程序,算法基础) 5.其他的序列相似性搜索工具(fasta)
3
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部 分相同或相似的百分比或其它一些合适 的度量。比如说,A序列和B序列的相似 性是80%,或者4/5。这是个量化的关 系。当然可进行自身局部比较。
4
生物序列的同源性
同源性(homology): 指从一些数据中推断出的两个基因或蛋 白质序列具而共同祖先的结论,属于质的 判断。就是说A和B的关系上,只有是同 源序列,或者非同源序列两种关系。而说 A和B的同源性为80%都是不科学的。
5
相似性和同源性关系
序列的相似性和序列的同源性有一定的关系,一 般来说序列间的相似性越高的话,它们是同源序 列的可能性就更高,所以经常可以通过序列的相 似性来推测序列是否同源。 正因为存在这样的关系,很多时候对序列的 相似性和同源性就没有做很明显的区分,造成经 常等价混用两个名词。所以有出现A序列和B序 列的同源性为80%一说。
生物序列的相似性搜索
-blast简介及其应用
2010年6月 科教信息科
生物信息学常见的应用与软件
序列数据的保存格式与相关数据库资源 在数据库中进行序列相似性搜索
多序列比对
进化树构建与分子进化分析 Motif的寻找与序列的模式识别 RNA二级结构,蛋白质二、三级结构的预测 基因芯片的数据分析
13
两种版本的Blast比较(一)
网络版本 包括NCBI在内的很多网站都提供了在线 的blast服务,这也是我们最经常用到的 blast服务。网络版本的blast服务就有方便, 容易操作,数据库同步更新等优点。但是 缺点是不利于操作大批量的数据,同时也 不能自己定义搜索的数据库。
14
Байду номын сангаас
两种版本的Blast比较(二)
6
序列相似性比较和序列同源性分析
序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较, 用于确定该序列的生物属性,也就是找出与此序列相似 的已知序列是什么。完成这一工作只需要使用两两序列 比较算法。常用的程序包有BLAST、FASTA等;
序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种 的序列中进行多序列同时比较,以确定该序列与其它序 列间的同源性大小。这是理论分析方法中最关键的一步。 完成这一工作必须使用多序列比较算法。常用的程序包 有CLUSTAL等;
下表列出了主要的blast程序。
9
主要的blast程序
程序名 Blastn Blastp Blastx Tblastn TBlastx 查询序列 核酸 蛋白质 核酸 蛋白质 核酸 数据库 核酸 蛋白质 蛋白质 核酸 核酸 搜索方法 核酸序列搜索逐一核酸数据库中的序列 蛋白质序列搜索逐一蛋白质数据库中的序 列 核酸序列6框翻译成蛋白质序列后和蛋白 质数据库中的序列逐一搜索。 蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。 核酸序列6框翻译成蛋白质序列,再和核 酸数据库中的核酸序列6框翻译成的蛋 白质序列逐一进行比对。
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
7
Blast简介(一)
BLAST 是由美国国立生物技术信息 中心(NCBI)开发的一个基于序列 相似性的数据库搜索程序。 BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。
8
Blast简介(二)
Blast 是一个序列相似性搜索的程序包, 其中包含了很多个独立的程序,这些程序 是根据查询的对象和数据库的不同来定义 的。比如说查询的序列为核酸,查询数据 库亦为核酸序列数据库,那么就应该选择 blastn程序。
10
Blast相关的问题
怎么获得blast服务,怎么使用的问题?
为什么使用blast,可以获得什么样的信息? 其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
11
Blast资源
1.NCBI主站点:
http://www.ncbi.nlm.nih.gov/BLAST/(网络版) ftp://ftp.ncbi.nlm.nih.gov/blast/ (单机版)
15
本地WEB版的Blast
在NCBI的FTP上,在blast程序的目录 下,还提供了一种供用户在自己的服务器 上建立Blast网页服务的软件包(wwwblast)。 使用该软件包,用户可以建立一个简 易的进行Blast运算的网站供实验室人员使 用。用于搜索的数据库同样可以灵活的定 义。
16
Blast程序评价序列相似性的两个数据
相关文档
最新文档