第八章 生物信息学资源检索
生物信息学相关数据库资源介绍
CSNDB - Cell Signaling Networks db
DNA和蛋白质相互作用数据库
DPInteract - DNA-Proteins interactions db
特定基因或蛋白质的数据库
AAA - AAA family of ATPases server Acetylcholinesterases ALDH - Aldehyde dehydrogenase (醛脱氢酶, 醛氧化酶)gene superfamily db Aminoacyl-tRNA synthetases in SWISS-PROT List of aminoacyl-tRNA synthetases in SWISSPROT AARSDB - Aminoacyl-tRNA synthetases db Allergens in SWISS-PROT - Nomenclature and index(命名和索引) of allergens(过敏原) in SWISS-PROT
tmRDB - tmRNA dB
tRNA - tRNA compilation(编辑) from the University of Bayreuth
uRNADB - uRNA db
5)其他核酸数据库
RNA editing - RNA editing site
RNAmod db - RNA modification db
5)其它核酸数据库
PlantCARE - Plant cis-acting regulatory DNA elements db
生物信息检索工具
HIV not HCV
(2)截词检索 利用截词符进行的检索,截词符号一般为 * 、?、#,依具体检索系统而定。截词检索能 自动地对同一概念检索词的不同词尾变化、词根 相同等一类提问词进行检索,并自动用 OR 连结 各词的检出结果,避免了文献的漏检和逐词键入 的麻烦。截词方式有右截词(如 cell* )和左截 词(如 *mycin )。
HIV and HCV
布尔逻辑检索
②逻辑“或”:用“OR”或“+”表示。用于连接 并列关系的检索词,其检索结果将包括所有带有 A或B两个检索词中任意一个检索词的记录。可以 扩大检索范围,防止漏检,有利于提高查全率。
HIV or HCV
布尔逻辑检索
③逻辑“非”:用“NOT”或“-”号表示,用于 连接排除关系的检索词,其检索结果将包括所有 带A检索词而不带B检索词的记录。可以排除不需 要的和影响检索结果的概念,以提高查准率。但 在检索词为英文时,建议使用“NOT”,以避免 与词间的分隔符“-”混淆。
Google打破了传统网络分类概念,以
Open Directory Project (ODP)为分类目的基础,
采用独特的网页级别(page rank)新技术,依据
互联网的链接结构对网站进行分类,任何一个网
页均可快速链接到另一网页上, 并将网页链接数量 和相连网页的重要性作为网页级别的综合指标, 重要的、高质量的网页可获得较高的网页级别, 从而使得搜索结果的相关性大大增强。
搜索引擎常用的检索符号和规则
(1)布尔逻辑检索式 使用逻辑运算符将两个以上被检索词进行逻 辑组配,组成检索提问式,由计算机进行信息查 询。 常见的三种布尔逻辑算符:AND、OR、 NOT 。
布尔逻辑检索
北京大学生物信息学检索教程
专门数据库目录网站
《核酸研究》2000年开始创建了生物信息 学数据库目录。 DBCat:法国生物信息中心于1997年建立 的数据库目录。到目前为止收录500多个 数据库。大部分数据库是可以免费下载的 公用数据库。
生物信息学中心
1.NCBI:美国国立生物技术信息中心(The National Center
三、基因组数据库
GDB:人类基因组数据库。 MDB:鼠基因组数据库。 DICTYDB:盘基网柄菌(Dictyostelium discoideum)基因组 数据库。 EcoGene:大肠杆菌(Escherichia coli)K12基因组数据库。 FLYBASE:果蝇(Drosophila)基因组数据库。 MAIZEDB:玉米基因组数据库。 SGD:酵母菌(Saccharomyces)基因组数据库。 STYGENE:沙门氏菌(Salmonella typhimurium)LT2基因 组数据库。 SUBTILIST:纤小杆菌(Bacillus subtilis)168基因组数据库。 WORMPEP:蠕虫(Caenorhabditis elegans)基因组计划蛋 白数据库
相似性比对分析
BLAST(Basic Local Alignments Tool)是最 为常用的序列相似性比较的工具。主要用 于序列和数据库中的序列比较。根据序列 和数据库中的序列不同类型分为5种。
程序 BLASTN BLASTP BLASTX TBLASTN TBLASTX 查询序列 核酸 蛋白质 核酸翻译后序列 蛋白质 核酸翻译后序列 数据库 核酸 蛋白质 蛋白质 核酸翻译后序列 核酸翻译后序列
Identifier Accession number Description Keywords Organism(species) Organism(classification) Reference number Reference authors Reference title Reference location Database cross-reference Medline number Feature table header data
生物信息学数据库检索
• 蛋白质结构分类数据库SCOP /scop/
– 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系
第六页,共99页。
第六页,编辑于星期一:二十三点 五十分。
生物信息学数据库的地位和作用
经典生物医学实验 大量零碎数据 数据收集整理
大规模组学实验 海量组学数据 数据存储、注释
检索查询
数据库 理论分析
生物学研究 生物医学应用
第七页,共99页。
第七页,编辑于星期一:二十三点 五十分。
生物信息学数据库类型
• 主要收录核酸和蛋白质序列数据
• 包括由基因组计划产生的基因组及其表达序 列,由基因组序列所推测的编码和非编码核 酸和蛋白质序列,以及个别生物学实验中测 序获得的核酸和蛋白质序列
第十三页,共99页。
第十三页,编辑于星期一:二十三点 五十分。
一、序列数据库(基因组)
• Genome Database(GDB)数据库
第八页,共99页。
第八页,编辑于星期一:二十三点 五十分。
第九页,共99页。
第九页,编辑于星期一:二十三点 五十分。
《核酸研究》的14类数据库
1. Nucleotide Sequence Databases
核酸序列数据库
2. RNA sequence databases
RNA序列数据库
3. Protein sequence databases
12. Organelle databases
细胞器数据库
生物信息学 文献检索资料
山西大学生物技术研究所
文献检索的地位
信息检索是传递信息的一条重要渠道,是联系 信息生产者和信息用户的一个主要中间人,是 人类为了合理地分发信息充分利用信息和提高 劳动效率而采取的一种重要交流方式。
文献检索的出现和不断发展,使科学交流从非 正式的、无组织的状态逐渐变为正式的、有组 织的状态。它使原来的信息流程大大简单化了, 通道的容量也大扩充了,科学交流也显得更加 便利和完善了。
应注意对于同一个布尔逻辑提问式来说,不同的运算 顺序会有不同的结果。
如:有A、B、C、D四个检索词是相交的关系)检
索提问可以分步进行:
第一步:A OR B (结果为S1)
第二步:C OR D (结果为S2)
第三步:S1 AND S2
在实际检索中,通过使用优先处理算符“()”,
计算机检索系统
计算机信息检索,简称机检,是指利用计算机 查找文献信息的过程;就是指人们在计算机和 计算机检索网络或终端上,使用特定的检索指 令、检索词和检索策略,从计算机检索系统的 数据库中检索出所需要的信息,然后再由终端 设备显示和打印的过程
计算机检索的发展
脱机批处理阶段
–美国海军军械试验中心(NOTS)于1954年利用IBM701型计算机建立的科技文献检索系统是世界上第 一个计算机情报检索系统
就是指人们在计算机和计算机检索网络或终端上使用特定的检索指计算机检索网络或终端上使用特定的检索指令检索词和检索策略从计算机检索系统的令检索词和检索策略从计算机检索系统的数据库中检索出所需要的信息然后再由终端数据库中检索出所需要的信息然后再由终端设备显示和打印的过程设备显示和打印的过程计算机检索的发展计算机检索的发展脱机批处理阶段脱机批处理阶段美国海军军械试验中心美国海军军械试验中心notsnots于于19541954年利用年利用ibmibm701701型计算机建立的科技文献检索系统是世界上第型计算机建立的科技文献检索系统是世界上第一个计算机情报检索系统一个计算机情报检索系统联机检索阶段联机检索阶段19621962年美国麻省理工学院进行了世界上最早的联年美国麻省理工学院进行了世界上最早的联机情报检索实验研制成相容性分时系统机情报检索实验研制成相容性分时系统ctssllctssll用用70947094iiii大型机联接大型机联接112112个终端实现了计算机个终端实现了计算机与通信的结合
生物信息学常用数据资源介绍
生物信息学常用数据资源介绍生物信息学是一门将大量数据和信息与生命科学相结合的学科,随着技术的不断发展,越来越多的生物信息学数据资源得到了广泛应用,使得生物信息学研究呈现出爆发式增长的态势。
在接下来的文章中,我将介绍一些常用的生物信息学数据资源。
1. 基因组浏览器基因组浏览器是生物信息学研究中非常常见的一种工具,在基因组浏览器中,用户可以利用多种查询方式快速定位以及查找基因序列、变异位点、基因表达等数据,具体的使用方法可以参考NCBI、UCSC和ENSEMBL等公共数据库。
2. 数据库公共数据库是生物信息学在数据共享和协作方面发挥重要作用的平台之一,NCBI、ENSEMBL、UniProt和GenBank等是生物信息学具有代表性的公共数据库,这些数据库为用户提供了一系列的基因组、转录组、蛋白质、代谢物等多种数据资源,这些数据可以帮助研究者进行基因预测及分析,杂交研究、协同研究等多种生物信息学研究。
3. 软件工具与数据库不同的是,软件工具主要起到数据分析与处理的作用。
对于不同的数据分析任务,不同的软件工具适应程度也不同,因此在生物信息学研究过程中需要不断尝试和探索,比如在转录组分析中,DESeq2和edgeR是非常常用的工具。
4. 人类基因组计划人类基因组计划是一项耗时多年,费用庞大的生命科学研究计划,目的是把人类的基因组解码,并制定新的医学治疗方案等。
在该项目结束后,因为庞大的数据量,成千上万名的研究者可以在其基础上继续开展基因组学研究,这进一步推动了生命科学领域的发展。
5. 元分析数据集随着生物信息学领域的快速发展,元分析数据集作为新工具出现了。
它是由几个相对独立的研究组合而成,旨在研究特定生物过程的数据,比如癌症发病的前因后果,它们包括多个数据来源和测序仪,提供了更全面、多元化的基因数据,为进一步研究确定新的生物标志物和治疗方法提供了更加可靠的基础。
综上,以上我们介绍了一些生物信息学研究中使用频率较高的数据资源,它们共同构成了生物信息学领域的基础设施,在加速科研发展、优化研究流程、减少人力物力成本等方面发挥重要作用,一方面可以帮助科研工作者得到更准确的结果,另一方面又能为更广泛的生命科学研究打开更广的视野。
课件:第8章 生物信息数据库的查询与搜索
10.0 is the E value Effective search space = mn = length of query x db length threshold score (f) = 11 cut-off parameters
FASTA(Fast All的缩写)是可用于 蛋白质序列与核酸序列快速相似性搜索 的程序系列,由Pearl与Lipman在1988 年开发,并不断更新。 FASTA的算法步 骤见教材207页。
• Identifiers:
– accession number: ( P01013 ) – accession number + version codes: ( AAA68881.1 ) – gi: ( 129295 , gi|129295 )
BLAST - Advanced Options
BLAST - Report Format
BLAST Report
Header Body
Footer
Header
Body: Graphical Overview
Body: One-line summaries
Alignments Views - pairwise
[# set by -v]
Footer
BLOSUM matrix gap penalties
EBI中的SRS
Entrez是NCBI网站的数据库查询系 统,它集成了文献数据库、核酸序列数 据库、结构数据库、基因图谱数据库, 是有效利用NCBI数据库资源的工具。 Entrez的查询速度比较快,不同数据库 信息之间的链接较多。
NCBI中的Entrez
3.生物信息数据库的相似性搜索
[精品]生物医学信息检索
第一篇 信息检索概述
三、信息的特征
1)客观性 2)普遍性 3)依附性 4)认知性 5)转移性和变换性
6)价值性 7)存储性 8)传递性 9)共享性 10)时效性
第一篇 信息检索概述
四、信息的类型 信息按照其外在的表现形式和内涵等,有许多不
同的分类法。了解信息的类型,对获取信息、分析 信息、表达信息都很有必要。
源,它连接着世界上许多著名的医学研究机 构、医科大学和医院,成为一个集生物医学 信息资源为一体的数据资源网 • 在数量、结构、分布和传播的范围、载体形 态、内涵和传递手段等方面都显示出了新的 特点
第一篇 信息检索概述
网络资源特点
• 数量巨大,增长迅速 • 内容丰富,形式多样 • 时效性强,变化迅速 • 交互性好,可以共享 • 分布广泛, 无序化 • 信息冗余, 缺乏管理 • 商业性强, 多数收费
三次信息
高级信息产物:在充分利用二次文献的基础上
对一次文献做出的系统整理和概括的论述,并加 以分析综合编写而成的概括性文献。
零次信息
指未正式发表或未进入社会交流的最原始的文献
第一篇 信息检索概述
第一篇 信息检索概述
4、网络信息资源 • “通过计算机网络可以利用的各种信息资源
的总和” • 网络中存在着大量的生物学和医药学信息资
索引词不能准确描述文献主题和检索要求; 组配规则不严密; 选词及词间关系不正确; 标引过于详尽; 组配错误; 检索时所用检索词(或检索式)专指度不够,
检索面宽于检索要求; 检索系统不具备逻辑“非”功能和反馈功能; 检索式中允许容纳的词数量有限; 截词部位不当,检索式中使用逻辑“或”不当
第二章 信息与知识、情报、文献
一、信息与知识
生物信息学常用数据资源介绍
生物信息学常用数据资源介绍
生物信息学是一门涉及大量数据的学科,而这些数据资源对于生物信息学研究者来说是非常重要的。
在本文中,我们将介绍一些常用的生物信息学数据资源。
1. 基因组数据资源
基因组序列是生物信息学的基础,基因组数据资源包括了多个生物物种的基因组序列、注释信息、基因家族等数据。
常见的基因组数据资源包括人类基因组计划(Human Genome Project)、NCBI(国家生物技术信息中心)、Ensembl等。
2. 蛋白质数据资源
蛋白质是生命活动的重要组成部分,蛋白质数据资源包括了蛋白质序列、结构、功能、相互作用等信息。
常见的蛋白质数据资源包括PDB(蛋白质数据银行)、UniProt(蛋白质序列数据库)、InterPro(蛋白质家族和域注释数据库)等。
3. 基因表达数据资源
基因表达是生物体内基因的转录和翻译的过程,基因表达数据资源可以帮助我们了解在不同组织和不同条件下基因的表达情况。
常见的基因表达数据资源包括NCBI GEO(基因表达数据库)、ENCODE(人类基因组功能注释计划)、ArrayExpress(基因表达数据存储库)等。
4. 基因组变异数据资源
基因组变异是生物体内遗传信息的重要表现形式,基因组变异数据资源可以帮助我们了解不同个体间的遗传差异、疾病相关基因的变
异情况等。
常见的基因组变异数据资源包括dbSNP(单核苷酸多态性数据库)、gnomAD(全基因组变异数据库)、ClinVar(遗传变异临床数据库)等。
总的来说,生物信息学数据资源是生物信息学研究中不可或缺的一部分,研究者们可以根据自己的需要选用适合自己的数据资源进行研究。
生物信息学数据库NCBI的检索与利用
生物信息学数据库NCBI的检索与利用
生物信息学数据库NCBI的检索与利用
Running Saved Searches and Checking for New Results Sorting Searches
Deleting a Search
生物信息学数据库NCBI的检索与利用
My NCBI — Using Preferences
and disease.
生物信息学数据库NCBI的检索与利用
生物信息学数据库NCBI的检索与利用
NCBI - Entrez 检索平台
① 词间默认逻辑关系为AND ② 短语检索加引号“”; ③ 使用的逻辑运算符有AND、OR 和 NOT; ④ 支持截词检索, 截词符用*表示
生物信息学数据库NCBI的检索与利用
plantfungalalgal生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用蛋白质序列蛋白质序列碱基序列碱基序列序列开始标志序列开始标志序列终止标志序列终止标志生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用字段字段含义含义解释解释locusaccessiondefinitionkeywordssourceorganismreferenceauthorstitlejournalcommentsmedlinefeaturesbasecountoriginidentifieraccessionnumberdescriptionkeywordsorganismspeciesorganismclassificationreferencenumberreferenceauthorsreferencetitlereferencelocationdatabasecrossreferencemedlinenumberfeaturetableheaderdata序列名称性质描述序列接受号序列定义关键词来源种属来源分类参文条目参文作者参文题目参文出处交叉索引medline号序列性质表头数据碱基数目序列开始标志序列终止标志terminationlinegenbank的主要字段及其含义的主要字段及其含义生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用检索字段限制检索字段限制分子类型选择分子类型选择基因位置限定基因位置限定序列片段限定序列片段限定数据更新数据更新日期限定日期限定检索框检索框功能键功能键信息来源信息来源生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用提供用户预览检索结果和索引检索修改检索式的方便生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用pubmed生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用允许用户根据不同的数据库进行特殊字段的检索生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用提供用户预览检索结果和索引检索修改检索式的方便生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用点击history可以浏览检索历史并能进行组配检索生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用生物信息学数据库生物信息学数据库ncbi的检索与利用的检索与利用生物信息学数据库生物信息学数据库ncbi
一级数据库的搜寻生物08
查询对象和数据库中单词的实际匹配 意义相近的匹配 Entrez系统比较容易使用,查询速度比SRS快。
Entrez系统
Entrez 是由NCBI主持的一个数据库检索系统, 它包括核酸,蛋白以及Medline文摘数据库,在这 三个数据库中建立了非常完善的联系。 因此,可以从一个DNA序列查询到蛋白产物以及 相关文献,而且,每个条目均有一个类邻 (neighboring)信息,给出与查询条目接近的信息。
数据库查询、数据库检索和数据库搜索这三个词经常 混用。 其实,数据库搜索在分子生物信息学中有特定含义, 它是指通过特定的序列相似性比对算法,找出核酸或 蛋白质序列数据库中与检测序列具有一定程度相似性 的序列。 例如,给定一个胰岛素序列,通过数据库搜索,可以 在蛋白质序列数据库SwissProt中找出与该检测序列 (query sequence)具有一定相似性的序列。
DEFINITION ACCESSION VERSION KEYWORDS SOURCE REFERENCE
FEATURES
通配符(Truncating)查询 用*表示
Entrez系统的使用方法
进入NCBI主页(www.ncbi.nlm.nih),即可看到位 于页面上部的数据库检索栏。可以在检索栏中直接 输入需要查询的内容。例如,需要检索蜘蛛毒素的 核苷酸序列,在检索栏中输入“spider toxin”,点击 起 始 按 钮 “ Go” , 则 可 得 到 核 酸 序 列 数 据 库 GenBank中和蜘蛛毒素相关的序列条目,一共17条。
FEATURES Location/Qualifiers source 1..2451 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" /clone="7F" /cell_line="SW620"
生物信息学文献检索
文献检索科目:生物信息学专业:生物工程班级:xxxxxx姓名:xxx学号:xxxxxxxxxxxxxx目录:1. 生物信息学的简介;2. 生物信息学的产生和发展;3.生物信息学的主要研究内容4.生物信息数据库5.生物信息学的现状及展望6. 参考文献摘要:本文阐述了生物信息学的产生和发展,生物学数据库,生物信息学的主要研究内容,以及生物信息学的简单介绍等内容,展望了其未来并提出了若干在我国发展生物信息学的建议。
着重指出,理解大量生物学数据所包括的生物学意义已成为后基因组时代极其重要的课题。
生物信息学的作用将日益重要。
有理由认为,今日生物学数据的巨大积累将导致重大生物学规律的发现。
生物信息学的发展在国内、外基本上都处在起步阶段。
因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会关键词:生物信息学,人类基因组计划,数据库,,基因组.生物信息学的简介生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。
具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。
基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。
从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。
生物信息学是在生物研究领域的许多方面起中心作用的一个广泛的领域,在这些生物研究领域中最重要的就是基因组学,更明确地说就是基因测序、基因图谱的绘制、基因注释和多种基因的比较等;同时,生物信息学对于转录组学也是比较重要的;此外,生物信息学在分析应用生物芯片方法或者样本基因序列的某些形式测量得到的基因表达数据方面起着重要作用;生物信息学在蛋白质组学中的应用也是十分广泛,它可以分析蛋白质序列(比如说测定活性中心),进行蛋白质多样性研究(所使用的典型测量方法是双向凝胶和质谱分析),通过计算和实验的方法来判断蛋白质的结构,生物信息学在分析蛋白质蛋白质相互作用和作用的分子路径以及在基因修正的系统研究中也起了关键作用;它在遗传学研究领域也有其重要的地位,它既可以用来发现新的分子遗传标志(比如单核甘酸的多态性),也可以应用新发现的及现有的遗传标志来研究疾病和其它显型的遗传基础。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国际核酸序列数据库协作体
DDBJ
INSDC EMBL
GenBank
12
(一)GenBank概述
GenBank的数据来源于约260000个物种,每月新增 1700多个物种。大约12%的序列来自于人类,其中 8%是人类的EST序列。 每条GenBank数据记录包含对序列的简要描述、它的科 学命名、物种分类名称、参考文献、序列特征表以及序列 本身。 序列特征表里包含对序列生物学特征注释,如编码区、转 录单元、重复区域、突变位点或修饰位点等。 所有数据记录被划分成若干个子库,如细菌类(BCT)、 病毒类(VRL)、灵长类(PRI)、啮齿类(ROD)以 及EST数据、基因组序列数据(GSS)、高通量基因组 序列数据(HTG)等19类,其中EST数据等又被分成若 干子库。
(三)通过生物信息学中心资源导航查询
一些著名的生物信息学中心不仅自己建立和维护大量 的生物信息数据库,而且一般在网上提供资源导航。
第二节 核酸序列数据库
一
GenBank
二
EMBL-Bank
三
DDBJ
9
一、GenBank
(一) GenBank概述
(二) GenBank检索
10
(一)GenBank概述 是由美国国家生物技术信息中心(NCBI)管 理和维护大型、综合性的公共核酸序列数据 库,包括所有已知的核酸序列和蛋白质序列, 以及与它们相关的文献和生物学注释。 网址: /Gen bank/index.html
(三)TrEMBL
创建于1996年,意即“Translation of EMBL”,是计 算机翻译并注释的蛋白质序列数据库,收录的序列是从 EMBL中的cDNA序列翻译得到的。记录采用SWISSPROT数据库格式。 TrEMBL分为两个部分:SP-TrEMBL和REM-TrEMBL。 SP-TrEMBL的条目已经专家分类并且给予SWISSPROT存取号,但尚未通过人工审查,最终将收入 SWISS-PROT。 REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、 T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、 专利序列等。 /trembl/
PIR主页
(二)SWISS-PROT
创建于1986年 由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息研究所(EBI) 共同维护和管理。 1994年,SIB创建蛋白质专家分析系统(Expert Protein Analysis System,ExPASy) (http://www.expasy.Ch),除了开发、维护和管理 SWISS-PROT数据库外,还提供蛋白质序列、结构、 功能和蛋白质2D-PAGE图谱等蛋白质信息资源 到2009年10月,SWISS-PROT(57.11版)收录了 512994条序列,包含180531504个氨基酸。 网址:/sprot/
二、 EMBL-Bank
(一)EMBLBank概述
(二)EMBLBank检索
20
(一)EMBL-Bank概述 EMBLBank(/embl/)是 国际三大核酸序列数据库之一,创建于1982年。 现由欧洲生物信息学研究所(EBI)管理和维护, 主要收集欧洲产生的核酸序列数据。 到2009年8月,EMBL-Bank(101版)的核 酸序列达到163656234条,碱基数达到 283748816763个。 对于每条核酸序列,相关信息包括序列名称、序 列、染色体定位、关键字、来源生物体、参考文 献、注释、序列中具有重要生物学意义的位点等。
(四)GenPept 由GenBank中的cDNA序列翻译得到的蛋白质 序列数据库。 网址: ftp:///genbank/gen pept/)
Байду номын сангаас
(五)UniProt
将PIR 、SWISS-PROT和TrEMBL3个蛋白质数据库 统一起来组建而成,包含3个部分: (1)UniProt Knowledgebase(UniProtKB),这是 蛋白质序列、功能、分类、交叉引用等蛋白质知识库, 记录经过人工筛选和注释; (2)UniRef (UniProt Non-redundant Reference) 数据库,将密切相关的蛋白质序列组合到一条记录中, 以便提高搜索速度;目前,根据序列相似程度形成3个 子库,即UniRef100、UniRef90和UniRef50; (3)UniParc(UniProt Archive),是UniProt存档库, 收录所有蛋白质序列。用户可以通过文本查询数据库, 可以利用BLAST程序搜索数据库,也可以直接通过 FTP下载数据。 网址:/
6
(二)生物信息数据的存贮
存贮格式
1.记录格式 主要有: EMBL格式、 GenBank格式
2.序列格式 又称Pearson 格式
7
三、生物信息学数据库的查找 (一)通过搜索引擎查找 (二)通过专门的生物信息学数据库目录查询
从2000年开始,《Nucleic Acids Research 》设立了 一个数据库目录 (/nar/database/c/)。
第八章 生物信息学资源检索
胡德华
目录
1
2 3
第一节 生物信息学数据库概述
第二节 核酸序列数据库
第三节 蛋白质数据库
4
5
第四节 基因组数据库
第五节 疾病基因数据库
2
第一节 生物信息学数据库概述
一 生物信息学数据库的类型
二
生物信息数据收集与存贮
三
生物信息学数据库的查找
3
一、生物信息学数据库的类型
按收录信息内容分
(二)DDBJ检索 通过getentry、ARSA、SRS、TXSearch、 BLAST、PSI-BLAST、FASTA、SSEARCH 等检索工具可以获取DDBJ数据。 前四种用于检索DDBJ数据库中的原始数据,其 中getentry属于存取号检索,SRS和ARSA属 于关键词检索,TXSearch属于分类检索; 后4种对用户提供的序列或片断作同源性分析。
(2)点击“GO”,得到各个数据库的检索结果。
(3)点击“Nucleotide: Core subset of nucleotide sequence records”,得到 GenBank核酸序列数据库中的4801条记录简要格式(Summary)。
(4)点击记录的标题,即可获取该记录的详细信息。
UniProt主页
(六)OWL 1994年由英国里兹(Leeds)大学和 Warrington的Daresbury国家实验室合作创 建并维护的一个复合型数据库。 数据来源于SWISS-PROT、PIR、GenPept、 SWISS-PROT、PDB、NRL3D等数据库,去 重后整合而成的非冗余蛋白质序列数据库。 网址: / dbbrowser/OWL/index.php
(1)Quick Search(快速查询)
(2)Standard Query(标准查询)
(3)Extended Query(扩展查询)
标准查询后的结果
CS116935的详细信息
三、DDBJ
(一)DDBJ 概述
(二)DDBJ 检索
29
(一)DDBJ概述
DDBJ (DNA Data Bank of Japan,日本核酸数据 库,http://www.ddbj.nig.ac.jp/index-e.html) 创建于1986年,现由日本国家遗传学研究所的生物信息 中心(CIB/DDBJ)管理和维护。 截止至2009年9月,DDBJ(79版)共收录 108,593,519条序列, 106,684,379,504个碱基。 DDBJ 主页除了提供SRS、ARSA、TXSearch 、 BLAST等数据检索功能外,还提供SAKURA、MSS、 Sequin数据提交工具和CLUSTAL W、FASTA、 BLAST等数据分析工具。
突变数据库 图谱数据库
文献数据库
类型
结构数据库
序列数据库
4
二、生物信息数据收集与存贮
生物信息数据 收集与存贮
(一)生物信 息数据的收集
(二)生物信 息数据的存贮
5
(一)生物信息数据的收集
数据库与数据库合作
4.数据交换
数据库与测序中心合作
3.成批发送
数据库与期刊合作
2.直接发送
建库的初期
1.人工收集
SRS查询方法 通过EBI的SRS服务器 ()进入Quick Search界面。 点击“Library Page”,即数据库选择页。 选择好要检索的数据库后,SRS提供三种查询 方式。 (1)Quick Search (快速查询) (2)Standard Query(标准查询) (3)Extended Query(扩展查询)
第三节 蛋白质数据库
一 蛋白质序列数据库
二
蛋白质结构数据库
三
蛋白质功能数据库
32
一、蛋白质序列数据库
(四)GenPept
(三)TrEMBL
(五)UniProt
(二)SWISS-PROT
(六)OWL
(一)PIR
33
(一)PIR
创建于1984年。 1988年,美国NBRF、日本国际蛋白质信息数据库(Japan International Protein Information Database, JIPID)与 德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences, MIPS)合作成立国际蛋白质 序列信息中心(PIR-International)。 第75.03版的PIR数据库按照数据的性质和注释详略分成四个子库: PIR1、PIR2、PIR3和PIR4。 PIR1中的序列已经验证,注释最为详尽; PIR2中包含尚未确定的冗余序列; PIR3中的序列尚未加检验,也未加注释; PIR4包括其他渠道获得的序列,既未验证,也无注释。 网址:/