数据检索—文本搜索

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据检索—文本搜索

∙Entrez —对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白,包括了来自〉70000个物种的序列序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和

PubMed MEDLINE的访问。Entrez包含了对每个数据库记录的预先计算

好的相似搜索,产生一个相关序列,结构,和MEDLINE记录的表。Entrez 可以用很广泛的文本方式来搜索,比如作者名字,杂志名字,基因或蛋白名字,物种,唯一的标号(如:accession number,序列ID,PubMed ID,MEDLINE UID),和其他的术语,根据被搜索的数据库来确定。使用新

的Linkout服务,外部资源可以被链接到Entrez纪录。

∙批量Entrez —允许你用一批的方式来用Entrez检索大量的核酸或蛋白序列,并把他们保存在你计算机的磁盘上。有三种方法来提交一个查询:1)输入一个含有GI或accession number列表的文件,2)指定一个物种名字或更高的分类来检索那个类的所有序列。3)输入一个Entrez搜索查询。

搜索结果将被直接保存到你的计算机上。

∙查询E-Mail服务器—用Entrez PubMed查询引擎来检索核酸序列,蛋白序列,三维结构,和PubMed MEDLINE纪录。如果要获得帮助文件,给

query@写一封只有内容为HELP的E-Mail。

∙网络Entrez —一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。数据以二进制的方式来

传输,减少网络传输的带宽要求。有PC,Mac,Unix,版本的客户软件。

∙dbEST, dbGSS, dbSTS搜索叶面—EST, GSS, 和STS序列可以从两种方法获得:GenBank(通过Entrez)的EST/GSS/STS部分,和分开的但相关的数据库dbEST/dbGSS/dbSTS。两种来源的序列和accession number是一致的,但是纪录的格式不一样,dbEST/dbGSS/dbSTS纪录包括了一些基

于BLAST搜索结果增加的注解,包括上至15最佳匹配的核酸和蛋白。

dbEST, dbSTS, dbGSS搜索叶面还允许用克隆号码来搜索。

∙引用匹配—允许你找到任何一篇在PubMed数据库中的文章的PubMed ID或MEDLINE UID,给出书目信息(杂志,卷,页码等)。

∙单篇文章的引用匹配。

∙许多文章的批量引用匹配。

∙E-mail引用匹配也是可以的,也可以用于单篇或许多文章。如果要获得帮助文件,给citation_matcher@写一封只有内容为HELP的E-Mail。

序列相似搜索

∙BLAST主页—访问BLAST程序,概要,帮助文件,和FAQs。

∙Gapped BLAST (2.0)—一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。统计有效性的评估是基于使用随机序列的优

先模拟。在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。

∙QBLAST —一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。这个系

统也使NCBI更有效的使用计算资源,更好的为大家服务。到1999年秋

季,QBLAST系统用于所有的BLAST搜索。

∙PSI-BLAST —位点特异迭代BLAST —用蛋白查询来搜索蛋白数据库的一个程序。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索数据库,以找到额外的显著对齐,这个过程可能被反复迭代一直

到没有新的对齐可以被发现。

∙PHI-BLAST —模式发现迭代BLAST —用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。

∙BLAST两个序列—一个基于BLAST的工具,对齐两个核酸或蛋白的序列,产生一个成对的DNA-DNA或蛋白—蛋白序列比较。

∙IgBLAST —IgBLAST被开发出来以便于分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr数据库或一个由免疫球蛋白

生殖系变化区基因的特殊的数据库。搜索可以限制在人类或小鼠的基因。

IgBLAST执行三个主要的功能:1)报告与查询序列最相似的可变,D,

或J区,2)根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对于搜索核酸或蛋白nr数据库,通过匹配IgBLAST的发现和最接近

的生殖系变化区基因来简化识别相关序列的过程。

∙PowerBLAST —PowerBLAST是一个程序,允许对非常长的序列进行快速的gapped BLAST搜索,它把序列分割开,对每个部分搜索,然后把结果组装起来。包含在Sequin中的PowerBlast版本使用了新的强大的gapped BLAST算法,过滤和物种特异的输出特点还仍旧保留。

∙BLAST E-mail服务器—基于e-mail的序列相似搜索服务,接受FASTA格式的核酸或蛋白序列。如果要获得帮助文件,给blast@写一封只有内容为HELP的E-Mail。

∙网络BLAST —一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。有PC,Mac,Unix,版本的客户软件。

∙单独的BLAST —下载可用于本地执行使用的BLAST。二进制版本有IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. 4.0d), LINUX, 和Win32系统。

BLAST数据库同样可以下载。

专门的BLAST页面

∙BLAST人类染色体—人类染色体测序页面的一部分。

∙BLAST against Drosophila melanogaster genome sequence - see additional information on the Drosophila genome above.

相关文档
最新文档