生物信息学 生物信息数据库及其信息检索
生物信息学 第三章 生物信息数据库及其信息检索 ppt课件
核酸序列数据库 GenBank( ) EMBL( ) DDBJ ( ) 三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋白
序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
生物信息学数 据库类型
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物 学实验中测序获得的核酸和蛋白质序列。
生物信息学 第三章 生物信息数据库 及其信息检索
第三章 生物信息数据库及其信息检索
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
生物信息学网站网址(全)
生物信息学网站分子生物学数据库综合目录1. SRS序列查询系统(分子生物学数据库网络浏览器) http://www.embl-heidelberg.ed/srs5/2. 分子生物学数据库及服务器概览/people/pkarp/mimbd/rsmith.html3. BioMedNet图书馆4. DBGET数据库链接http://www.genome.ad.jp/dbget/dbget.links.html5. 哈佛基因组研究数据库与精选服务器6. 约翰. 霍普金斯大学(Johns Hopkins University) OWL网络服器/Dan/proteins/owl.html7. 生物网络服务器索引,USCS /network/science/biology/index.html8. 分子生物学数据库列表(LiMB) gopher:///11/molbio/other9. 病毒学的WWW服务器,UW-Madison /Welcome.html10. UK MRC 人类基组图谱计划研究中心/11. 生物学家和生物化学家的WWW资源http://www.yk.rim.pr.jp/~aisoai/index.html12. 其他生物网络服务器的链接/biolinks.html13. 分子模型服务器与数据库/lap/rsccom/dab/ind006links.html14. EMBO实际结构数据库http://xray.bmc.uu.se/embo/structdb/links.html15. 蛋白质科学家的网络资源/protein/ProSciDocs/WWWResources.html16. ExPASy分子生物学服务器http://expasy.hcuge.ch/cgi-bin/listdoc17. 抗体研究网页18. 生物信息网址http://biochem.kaist.ac.kr/bioinformatics.html19. 乔治.梅森大学(George Mason University)的生物信息学与计算分子生物学专业/~michaels/Bioinformatics/20. INFOBIOGEN数据库目录biogen.fr/services/dbcat/21. 国家生物技术信息研究室/data/data.html22. 人类基因组计划情报/TechResources/Human_Genome23. 生物学软件及数据库档案/Dan/software/biol-links.html24. 蛋白质组研究:功能基因组学的新前沿(著作目录) http://expasy.hcuge.ch/ch2d/LivreTOC.html序列与结构数据库一.主要的公共序列数据库1. EMBL WWW服务器http://www.EMBL-heidelberg.ed/Services/index.html2. Genbank 数据库查询形式(得到Genbank的一个记录) /genbank/query_form.html3. 蛋白质结构数据库WWW服务器(得到一PDB结构) 4. 欧洲生物信息学研究中心(EBI) /5. EBI产业支持/6. SWISS-PROT(蛋白质序列库) http://www.expasy.ch/sprot/sprot-top.html7. 大分子结构数据库/cgi-bin/membersl/shwtoc.pl?J:mms8. Molecules R Us(搜索及观察一蛋白质分子) /modeling/net_services.html9. PIR国际蛋白质序列数据库/Dan/proteins/pir.html10. SCOP(蛋白质的结构分类),MRC /scop/data/scop.l.html11. 洛斯阿拉莫斯的HIV分子免疫数据库/immuno/index.html12. TIGR数据库/tdb/tdb.html13. NCBI WWW Entrez浏览器/Entrez/index.html14. 剑桥结构数据库(小分子有机的及有机金属的结晶结构) 15. 基因本体论坛/GO/二. 专业数据库1. ANU生物信息学超媒体服务(病毒数据库、分类及病毒的命名法) .au/2. O-GL YCBASE(O联糖基化蛋白质的修订数据库) http://www.cbs.dtu.dk/OGLYCBASE/cbsoglycbase.html3. 基因组序列数据序(GSDB)(已注释的DNA序列的关系数据序) 4. EBI蛋白质拓扑图/tops/Serverintermed.html5. 酶及新陈代谢途径数据库(EMP) /6. 大肠杆菌数据库收集(ECDC)(大肠杆菌K12的DNA序列汇编) http://susi.bio.uni-giessen.de/ecdc.html7. EcoCyc(大肠杆菌基因及其新陈代谢的百科全书) /ecocyc/ecocyc.html8. Eddy实验室的snoRNA数据库/snoRNAdb/9. GenproEc(大肠杆菌基因及蛋白质) /html/ecoli.html10. NRSub(枯草芽胞杆菌的非冗余数据库) http://pbil.univ-lyonl.fr/nrsub/nrsub.html11. YPD(酿酒酵母蛋白质) /YPDhome.html12. 酵母基因组数据库/Saccharomyces/13. LISTA、LISTA-HOP及LISTA-HON(酵母同源数据库汇编) /14. MPDB(分子探针数据库) http://www.biotech.est.unige.it/interlab/mpdb.html15. tRNA序列及tRNA基因序列汇编http://www.uni-bayreuth.de/departments/biochemie/trna/index/html16. 贝勒医学院(Baylor College of Medicine)的小RNA数据库/dbs/SRPDB/SRPDB.html17. SRPDB(信号识别粒子数据库) /dbs/SRPDB/SRPDB.html18. RDP(核糖体数据库计划) /19. 小核糖体亚蛋白RNA结构http://rrna.uia.ac.be/ssu/index.html20. 大核糖体亚蛋白RNA结构http://rrna.uia.ac.be/lsu/index.html21. RNA修饰数据库/RNAmods/22. 16SMDB及23SMDB(16S和23S核糖体RNA突变数据库)/Departments/Biology/Databases/RNA.html23. SWISS-2DPAGE(二维凝胶电泳数据库) http://expasy.hcuge.ch/ch2d/ch2d-top.html24. PRINTS /bsm/dbbrowser/PRINTS/PRINTS.html25. KabatMan(抗体结构及序列信息数据库) /abs26. ALIGN(蛋白质序列比对一览) /bsm/dbbrowser/ALIGN/ALIGN.html27. CATH(蛋白质结构分类系统) /bsm/cath28. ProDom(蛋白质域数据库) http://protein.toulouse.inra.fr/29. Blocks数据库(蛋白质分类系统) /30. HSSP(按同源性导出的蛋白质二级结构数据库) http://www.sander.embl-heidelberg.de/hssp/31. FSSP(基于结构比对的蛋白质折叠分类) /dali/fssp/fssp.html32. SBASE蛋白质域(已注释的蛋白质序列片断) http://www.icgeb.trieste.it/~sbasessrv/33. TransTerm(翻译控制信号数据库) /Transterm.html34. GRBase(参与基因调控的蛋白质的相关信息数据库) /~regulate/trevgrb.html35. REBASE(限制性内切酶和甲基化酶数据库) /rebase/36. RNaseP数据库/RNaseP/home.html37. REGULONDB(大肠杆菌转录调控数据库) http://www.cifn.unam.mx/Computational_Biology/regulondb/38. TRANSFAC(转录因子及其DNA结合位点数据库) http://transfac.gbf.de/39. MHCPEP(MHC结合肽数据库) .au/mhcpep/40. ATCC(美国菌种保藏中心) /41. 高度保守的核蛋白序列的组蛋白序列数据库/Baxevani/HISTONES42. 3Dee(蛋白质结构域定义数据库) /servers/3Dee.html43. InterPro(蛋白质域以及功能位点的完整资源) /interpro/序列相似性搜索1. EBI序列相似性研究网页/searches/searches.html2. NCBI: BLAST注释/BLAST3. EMBL的BLITZ ULTRA快速搜索/searches/blitz_input.html4. EMBL WWW服务器http://www.embl-heidelberg.de/Services/index.html#55. 蛋白质或核苷酸的模式浏览/compbio/PatScan/HTML/patscan.html6. MEME(蛋白质超二级结构模体发现与研究) /meme/website7. CoreSearch(DNA序列保守元件的识别) http://www.gsf.de/biodv/coresearch.html8. PRINTS/PROSIT浏览(搜索motif数据库) /cgi-bin/attwood/SearchprintsForm.pl9. 苏黎世ETH服务器的DARWIN系统http://cbrg.inf.ethz.ch/10. 利用动态规划找出序列相似性的Pima IIhttp://bmerc-www.bu.ede/protein-seq/pimaII-new.html11. 利用与模式库进行哈希码(hashcode)比较找到序列相似性的DashPat /protein-seq/dashPat-new.html12. PROPSEARCH(基于氨基酸组成的搜索) http://www.embl-heidelberg.de/aaa.html13. 序列搜索协议(集成模式搜索) /bsm/dbbrowser/protocol.html14. ProtoMap(SEISS-PROT中所有蛋白质的自动层次分类) http://www.protomap.cs.huji.ac.il/15. GenQuest(利用Fasta、Blast、Smith-Waterman方法在任意数据库中搜索) http://www.gdb.rog/Dan/gq/gq.form.html16. SSearch(对特定数据库的搜索) http://watson.genes.nig.ac.jp/homology/ssearch-e_help.html17. Peer Bork搜索列表(motif/模式序列谱搜索) http://www.embl-heidelberg.de/~bork/pattern.html18. PROSITE数据库搜索(搜索序列的功能位点) /searches/prosite.html19. PROWL(Skirball研究中心的蛋白质信息检索) /index.html序列和结构的两两比对1. 蛋白质两两比对(SIM) http://expasy.hcuge.ch/sprot/sim-prot.html2. LALNVIEW比对可视化观察程序ftp://expasy.hcuge.ch/pub/lalnview3. BCM搜索装置(两两序列比对) /seq-search/alignment.html4. DALI蛋白质三维结构比较/dali/5. DIALIGN(无间隙罚分的比对程序) http://www.gsf.de/biodv/dialign/html多重序列比对及系统进行树1. ClustalW(BCM的多重序列比对) /multi-align/multi-align.html2. PHYLIP(推测系统进行树的程序) /phylip.html3. 其它系统进行树程序,PHYLIP文档的汇编http://expasy.hcuge.ch/info/phylogeny.html4. 系统进行树分析程序(生命树列表) /tree/programs/programs.html5. 遗传分类学软件(Willi hennig协会提供的列表) /education.html6. 用于多重序列比对的BCM搜索装置/multi-align/multi-align.html7. AMAS(分析多重序列比对中的序列) /servers/amas_server.html8. 维也纳RNA二级结构软件包http://www.tbi.univie.ac.at/~ivo/RNA/四. 有代表性的预测服务器1. PHD蛋白质预测服务器,用于二级结构、水溶性以及跨膜片断的预测http://www.embl-heidelberg.de/predictprotein/predictprotein.html2. PhdThreader(利用逆折叠方法预测、识别折叠类) http://www.embl-heidelberg.de/predictprotein/phd_help.html3. PSIpred(蛋白质结构预测服务器) /psipred4. THREADER(戴维. 琼斯) /~jones/threader.html5. TMHMM(跨膜螺旋蛋白的预测) http://www.cbs.dtu.dk/services/TMHMM/6. 蛋白质结构分析,BMERC /protein-seq/protein-struct.html7. 蛋白质域和折叠预测的提交表http://genome.dkfz-heidelberg.de/nnga/def-query.html8. NNSSP(利用最近相邻法预测蛋白质的二级结构) /pss/pss.html9. Swiss-Model(基于知识的蛋白质自动同源建模服务器) http://www.expasy.ch/swissmod/SWISS-MODEL.html10. SSPRED(用多重序列比对进行二级结构预测) /jong/predict/sspred.html11. 法国IBCP的SOPM(自寻优化预测方法、二级结构) http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopm.html12. TMAP(蛋白质跨膜片断的预测服务) http://www.embl-heidelberg.de/tmap/tmap_info.html13. TMpred(跨膜区域和方向的预测) /software/TMPRED_form.html14. MultPredict(多重序列比对的序列的二级结构) /zpred.html15. BCM搜索装置(蛋白质二级结构预测) /seq-search/struc-predict.html16. COILS(蛋白质的卷曲螺旋区域预测) /software/coils/COILS_doc.html17. Coiled Coils(卷曲螺旋) /depts/biol/units/coils/coilcoil.html18. Paircoil(氨基酸序列中的卷曲螺旋定位) /bab/webcoil.html19. PREDATOR(由单序列预测蛋白质二级结构) http://www.embl-heidelberg.de/argos/predator/predator_info.html20. EV A(蛋白质结构预测服务器的自动评估) /eva/五. 其他预测服务器1. SignalP (革兰氏阳性菌、革兰氏阴性菌和真核生物蛋白质的信号肽及剪切位点) http://www.cbs.dtu.dk/services/SignalP/2. PEDANT(蛋白质提取、描述及分析工具) http://pedant.mips.biochem.mpg.de/六. 分子生物学软件链接1. 生物信息学可视化工具/alan/VisSupp/2. EBI分子生物学软件档案/software/software.html3. BioCatalog /biocat/e-mail_Server_ANAL YSIS.html4. 生物学软件和数据库档案/Dan/softsearch/biol-links.html5. UC Santa Cruz的序列保守性HMM的SAM软件/research/compbio/sam.html七. 网上博士课程1. 生物计算课程资源列表:课程大纲http://www.techfak.uni-bielefeld.de/bcd/Curric/syllabi.html2. 生物序列分析和蛋白质建模的Ph.D课程http://www.cbs.dtu.dk/phdcourse/programme.html3. 分子科学虚拟学校/vsms/sbdd/4. EMBnet 生物计算指南http://biobase.dk/Embnetut/Universl/embnettu.html5. 蛋白质结构的合作课程/PPS/index.html6. 自然科学GNA虚拟学校http://www.techfak.uni-bielefeld.de/bcd/Vsns/index.html7. 分子生物学算法/education/courses/590bi。
医学生物信息学 第4讲 生物信息学信息资源检索的常用工具
1、数据采集
从互联网上抓取网页,数据靠使用机器人 (robot)、蜘蛛(spiders)、爬虫(crawlers)等网 络搜索软件进行采集的。
它们在Web空间不停地自动寻找、挖掘 和收集各种信息资源,根据其访问链接的数 量进行初步处理,去除无法链接的死链接点, 从互联网上自动收集网页。
2. 数据天网 263搜索引擎
中华网 盖世引擎 悠游 茉莉之窗 Goyoyo Excite Lycos InfoSeek Index Magellan HotBot
OpenTex
一、搜索引擎的类型
(一)按检索功能分 常将网络检索工具概称为搜索引擎,搜索
引擎包括两种网络检索服务。
通用型检索工具
帮助在网上查找资源的生物医学“导航图” 和 “指南针”。
一、英文搜索引擎( search engine )
(一)Google ()
Google 是一个功能强大、网络信息资源非常丰富的 搜索引擎。由斯坦福大学计算机科学系1998年创建。现 已拥有30多亿网页,支持30多种语言检索,包括中文简 体和中文繁体,并设有中文 Google 网页
• 爱里克·斯科米特,Google公司现任CEO
Google排名全球第一。因此可以说它是 目前世界范围内人气最旺的搜索引擎。
Google主页简洁明晰。 检索框栏设有所 有网站( Web )、图像( Images )、新闻组群 (groups)和网页目录(directory)四种选项 便于直接按所需内容查询。关键词查询提供 基本检索和高级检索两种界面。
为满足学者、用户获取信息的需求,网络公司和 信息机构相继开发了多种网络检索工具或搜索引擎。
指南针,航海图,定位仪
“工欲善其事,必先利其器”,选
生物信息学检索系统
15
16
SRS与ENTREZ的区别
布林逻辑运算 结果信息量 查询速度
NCBI AND,OR,BUT 小
快
SRS &, I, !
大
慢
17
18
19
20
21
22
Байду номын сангаас
23
24
THE END
25
搜索 ▪ 序列分子量搜索 ▪ 区域搜索 ▪ 通配符搜索
7
8
9
10
11
12
2. SRS
▪ SRS(Sequence Retrieval System) 是EMBL研制的一个基于WEB的查询系 统,是目前生物信息界应用最为广泛的数 据库系统。
▪ SRS在中国的镜像站点建立在北京大学 生物信息中心。
三、数据库检索工具简介
▪ Entrez ▪ SRS
1
1、Entrez
Entrez的特点
▪ 链接的数据库多 ▪ 使用方便 ▪ 实际匹配、相近匹配、查询结果按匹配
程度排列
2
Entrez集成的各种数据库
核酸序列 蛋白质序列 生物大分子结构 基因组数据 生物分类数据库 孟德尔人类遗传学数据(OMIM) Pubmed
13
▪ SRS采用全菜单驱动方式
• 包括EMBL、EMBL_NEW、SwissProt、 PIR等一级数据库
• 还包括许多二级数据库 如蛋白质家族和结构域数据库Prosite、限 制酶数据库ReBase、PDB序列子集数据库 NRL_3D、真核基因启动子数据库EPD、 E.coli 数据库ECD、酶名称和反应数据库 ENZYME、生物计算文献数据库 SEQANALREF等,还有与功能、疾病相关 的数据库,总共有80个数据库。
华侨大学课件系列:《生物信息学_数据库及查询》02
如何获取GenBank中的序列?
同样存在限制字段: 常用的有: Author: Bao YM[au] title: SNARE[ti] organism: rice[organism] 或者直接输入: Accession: AY077725[Accession] Gene Name: ZFP15[Gene Name] Protein Name: ZFP15[Protein Name] 如: Bao YM[au] AND SNARE[ti] AND rice[organism] 如果没有限定,就是任意字段。
复杂检索
2. 布尔逻辑运算: AND、OR、NOT必须大写。
逻辑符的运算次序是从左至右,括号内的检索式可作为一个 单元,优先运行。 布尔逻辑检索允许在检索词后面附加字段标识
例如:rice[ti] AND Bao YM[au] AND 2008:2009[dp]]
在PubMed页面上选择Advanced :
全球
86
89
92
95
98
01
04
19
19
19
19
19
20
20
1/5
1/20
20
07中国Google vs 查中文生物文献29
Google scholar(学术搜索)
查英文生物文献
关键词的选择
不是特殊情况,尽量使用名词原形,不 使用复数、所有格等 尽量使用专业用语,不使用 the, of, and, research等常用词作为关键词 为了减少遗漏,使用尽可能少而精的关 键词
23
EMBL和GenBank数据格式的对比文献查找Google 中国期刊网 PubMed
学术介绍
06第六章 常用生物信息学数据库简介
英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列 数据库,于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权 威生物学刊物都要求作者在文章发表之前将所测定的 序列提交给EMBL、GenBank或DDBJ,得到数据库管 理系统所签发的登录注册号。 二是从生物医学期刊上收录已经发表的序列资料。
生物信息学与生物数据库
生物信息学与生物数据库生物信息学在现代生物科学研究中扮演着至关重要的角色。
随着技术的进步和数据的爆发性增长,生物数据库成为了整合、存储和检索海量生物信息的重要工具。
本文将介绍生物信息学的基本概念、生物数据库的种类和应用,以及未来生物信息学的发展趋势。
一、生物信息学的基本概念生物信息学是一门跨学科的科学,结合了生物学、计算机科学和统计学的理论与方法,旨在研究生物学中的大规模数据和复杂信息。
生物信息学的主要任务包括序列分析、结构预测、功能注释、系统生物学等。
通过分析和挖掘生物大数据,生物信息学可以帮助我们深入理解生物系统的组成、功能和演化。
二、生物数据库的种类和应用1. 基因组数据库基因组数据库存储了许多物种的基因组序列信息,例如人类基因组数据库、小鼠基因组数据库和植物基因组数据库等。
这些数据库不仅包含了基因序列,还提供了丰富的注释信息,如基因功能、结构特征和遗传变异等。
基因组数据库的应用范围广泛,从基础研究到医学诊断都发挥着重要作用。
2. 蛋白质数据库蛋白质数据库收集了各种物种的蛋白质序列和结构信息,如Uniprot和PDB等。
蛋白质数据库不仅提供了蛋白质序列和结构的详细描述,还包括相关的功能注释、亚细胞定位和相互作用等信息。
蛋白质数据库的应用非常广泛,包括药物设计、蛋白质功能预测和疾病研究等领域。
3. 代谢组数据库代谢组数据库存储了生物体内代谢产物的信息,如HMDB和KEGG等。
代谢组数据库提供了广泛的代谢产物和代谢通路的注释信息,可以帮助研究人员理解代谢网络的结构和功能。
代谢组数据库在代谢研究、药物开发和植物生物学等领域有重要的应用价值。
4. 基因调控数据库基因调控数据库存储了基因的调控关系和表达数据,如Gene Expression Omnibus和ENCODE等。
基因调控数据库提供了基因表达的时间、空间和条件特异性信息,可以帮助研究人员理解基因调控的机制和模式。
基因调控数据库在基因表达调控和疾病研究中起着关键作用。
生物信息学常用数据资源介绍
生物信息学常用数据资源介绍生物信息学是一门将大量数据和信息与生命科学相结合的学科,随着技术的不断发展,越来越多的生物信息学数据资源得到了广泛应用,使得生物信息学研究呈现出爆发式增长的态势。
在接下来的文章中,我将介绍一些常用的生物信息学数据资源。
1. 基因组浏览器基因组浏览器是生物信息学研究中非常常见的一种工具,在基因组浏览器中,用户可以利用多种查询方式快速定位以及查找基因序列、变异位点、基因表达等数据,具体的使用方法可以参考NCBI、UCSC和ENSEMBL等公共数据库。
2. 数据库公共数据库是生物信息学在数据共享和协作方面发挥重要作用的平台之一,NCBI、ENSEMBL、UniProt和GenBank等是生物信息学具有代表性的公共数据库,这些数据库为用户提供了一系列的基因组、转录组、蛋白质、代谢物等多种数据资源,这些数据可以帮助研究者进行基因预测及分析,杂交研究、协同研究等多种生物信息学研究。
3. 软件工具与数据库不同的是,软件工具主要起到数据分析与处理的作用。
对于不同的数据分析任务,不同的软件工具适应程度也不同,因此在生物信息学研究过程中需要不断尝试和探索,比如在转录组分析中,DESeq2和edgeR是非常常用的工具。
4. 人类基因组计划人类基因组计划是一项耗时多年,费用庞大的生命科学研究计划,目的是把人类的基因组解码,并制定新的医学治疗方案等。
在该项目结束后,因为庞大的数据量,成千上万名的研究者可以在其基础上继续开展基因组学研究,这进一步推动了生命科学领域的发展。
5. 元分析数据集随着生物信息学领域的快速发展,元分析数据集作为新工具出现了。
它是由几个相对独立的研究组合而成,旨在研究特定生物过程的数据,比如癌症发病的前因后果,它们包括多个数据来源和测序仪,提供了更全面、多元化的基因数据,为进一步研究确定新的生物标志物和治疗方法提供了更加可靠的基础。
综上,以上我们介绍了一些生物信息学研究中使用频率较高的数据资源,它们共同构成了生物信息学领域的基础设施,在加速科研发展、优化研究流程、减少人力物力成本等方面发挥重要作用,一方面可以帮助科研工作者得到更准确的结果,另一方面又能为更广泛的生命科学研究打开更广的视野。
课件:第8章 生物信息数据库的查询与搜索
10.0 is the E value Effective search space = mn = length of query x db length threshold score (f) = 11 cut-off parameters
FASTA(Fast All的缩写)是可用于 蛋白质序列与核酸序列快速相似性搜索 的程序系列,由Pearl与Lipman在1988 年开发,并不断更新。 FASTA的算法步 骤见教材207页。
• Identifiers:
– accession number: ( P01013 ) – accession number + version codes: ( AAA68881.1 ) – gi: ( 129295 , gi|129295 )
BLAST - Advanced Options
BLAST - Report Format
BLAST Report
Header Body
Footer
Header
Body: Graphical Overview
Body: One-line summaries
Alignments Views - pairwise
[# set by -v]
Footer
BLOSUM matrix gap penalties
EBI中的SRS
Entrez是NCBI网站的数据库查询系 统,它集成了文献数据库、核酸序列数 据库、结构数据库、基因图谱数据库, 是有效利用NCBI数据库资源的工具。 Entrez的查询速度比较快,不同数据库 信息之间的链接较多。
NCBI中的Entrez
3.生物信息数据库的相似性搜索
生物信息数据库的查询和搜索
2.根据数据的获得方式又可以分为一级库 和二级库。一级数据库的数据都直接来源 于实验获得的原始数据,只经过简单的归 类整理和注释;二级数据库是在一级数据 库、实验数据和理论分析的基础上针对特 定目标衍生而来,是对生物学知识和信息 的进一步整理。
国际上著名的一级核酸数据库有Genbank 数据库、EMBL核酸库和DDBJ库等;蛋白 质序列数据库有SWISS-PROT、PIR等; 蛋白质结构库有PDB等。 国际上二级生物学数据库非常多,它们因 针对不同的研究内容和需要而各具特色, 如人类基因组图谱库GDB、转录因子和结 合位点库TRANSFAC、蛋白质结构家族分 类库SCOP等等。
5.1.7疾病数据库 疾病数据库主要收集与疾病相关的生物大分子的 信息,尤其是基因方面的情况。OMIM数据库是 一个收集人类基因与基因组中不正常现象的数据 库。SNP Consortium datahase是收集单核苷 酸多态性的数据库,根据这些数据可以与临床化 验检测结果相对应,从而找出致病基因。 OncoDB是收集用生物芯片研究癌症与基因表达 的数据库,其中有许多的资料中仍未确定癌症— 基因的对应关系。这类数据库是基础医学研究的 宝贵资源。
5.1.9分析与记录方式数据库 分析与记录方式数据库是指收集文献、图片、数 学分析方法、命名规则的数据库。PubMed数据 库是收录生物医学文献的摘要及引文的数据库, 在生物学与医学研究中有广泛的应用,在美国 NCBI网站可对PubMed数据库进行查询。 Bioimage数据库是收集生物学研究的专业图片的 数据库,由欧盟委员会资助建成,由牛津大学动 物系管理。BioModels数据库收录了已发表的用 于研究生物学与医学的数学模型。Genew数据库 专门收集人类基因的命名规则。
什么是生物信息学数据库
什么是生物信息学数据库
生物信息学数据库是指存储生物学和生物信息学数据的计算机化系统。
这些数据库包含了各种生物学数据,如基因组序列、蛋白质序列、代谢通路、基因表达数据、蛋白质结构、生物图像等。
这些数据可以通过计算机程序进行访问、搜索和分析,以帮助生物学家和生物信息学家进行研究和发现。
生物信息学数据库通常由多个子数据库组成,每个子数据库都包含特定类型的数据。
例如,基因组数据库包含各种生物的基因组序列,蛋白质数据库包含蛋白质序列和结构信息,代谢通路数据库包含代谢通路和代谢产物信息等。
此外,生物信息学数据库还可以用于对生物信息的收集、存储和管理的研究,包括国际基本的生物信息库和生物信息传输国际物联网系统的建立,生物信息数据库质量的评估与检测系统的建立,以及生物可视化系统和专家系统的建立等。
以上信息仅供参考,如有需要,建议查阅相关网站。
生物信息学资源检索
(三)TrEMBL
创建于1996年,意即“Translation of EMBL”,是计算 机翻译并注释的蛋白质序列数据库,收录的序列是从EMBL中 的cDNA序列翻译得到的。记录采用SWISS-PROT数据库 格式。 TrEMBL分为两个部分:SP-TrEMBL和REM-TrEMBL。 SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存 取号,但尚未通过人工审查,最终将收入SWISS-PROT。 REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T细 胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利 序列等。 /trembl/
21
(四)GenPept 由GenBank中的cDNA序列翻译得到的蛋白质 序列数据库。 网址: ftp:///genbank/gen pept/)
22
(五)UniProt
将PIR 、SWISS-PROT和TrEMBL3个蛋白质数据库 统一起来组建而成,包含3个部分: (1)UniProt Knowledgebase(UniProtKB),这是 蛋白质序列、功能、分类、交叉引用等蛋白质知识库, 记录经过人工筛选和注释; (2)UniRef (UniProt Non-redundant Reference) 数据库,将密切相关的蛋白质序列组合到一条记录中, 以便提高搜索速度;目前,根据序列相似程度形成3个 子库,即UniRef100、UniRef90和UniRef50; (3)UniParc(UniProt Archive),是UniProt存档库, 收录所有蛋白质序列。用户可以通过文本查询数据库, 可以利用BLAST程序搜索数据库,也可以直接通过 FTP下载数据。 网址:/
32
BOND主页
生物大数据技术的生物信息学数据库查询方法
生物大数据技术的生物信息学数据库查询方法生物大数据技术的快速发展为生物信息学领域带来了巨大的变革。
生物信息学数据库作为存储和管理生物学数据的重要工具,被广泛应用于生物大数据的分析和挖掘。
在这篇文章中,我将介绍几种常用的生物信息学数据库查询方法,帮助读者利用生物大数据技术更好地进行生物学研究。
首先,我们来讨论最常用的生物信息学数据库之一,基因组数据库。
基因组数据库包含了各种生物的基因组序列信息,如人类、小鼠、果蝇等。
要查询一个特定基因组的序列信息,最简单的方法是利用基因名或基因符号进行搜索。
将目标基因的名称或符号输入数据库的搜索栏,即可获得与该基因相关的详细信息,例如基因的序列、结构、功能等。
另一个常用的生物信息学数据库是序列数据库。
序列数据库存储了各种生物分子序列的信息,如DNA、RNA和蛋白质序列。
在进行DNA或蛋白质序列的查询时,一种常见的方法是使用序列相似性搜索工具,如BLAST(Basic Local Alignment Search Tool)。
BLAST可以比对查询序列与数据库中的序列,找出最相似的序列并计算相似度。
通过BLAST的结果,我们可以了解到查询序列在数据库中的分布情况、物种来源以及与其他序列的相似性。
另外,功能注释数据库也是生物信息学研究中重要的查询工具。
功能注释数据库存储了各种生物分子的功能和特征信息,如基因的功能、通路信息、蛋白质的结构、功能域等。
要查询一个基因或蛋白质的功能信息,可以使用功能注释数据库提供的工具和接口。
输入目标基因或蛋白质的名称或序列,即可获得与该生物分子相关的功能注释信息,例如其参与的通路、功能域和蛋白质结构等。
此外,还有一些特定领域的生物信息学数据库,如药物数据库、代谢通路数据库等。
这些数据库针对特定的生物学问题提供了更加专门化的查询方法和功能。
例如,药物数据库可以用于查询了解药物的化学结构、药理学特性以及在人体中的作用。
代谢通路数据库则可以帮助研究人员深入了解生物体内代谢通路的结构和功能。
(生物信息学)CH3生物信息数据库及主要网上资源
未来生物信息数据库的发展将更加注重数据的整合、标准化和共享,同时也会更加注重数据的隐私和 安全问题。此外,随着人工智能和机器学习技术的发展,生物信息数据库将更加智能化和自动化。
02
常用生物信息数据库
GenBank数据库
总结词
全球最大的开放存取生物序列数据库
详细描述
GenBank数据库由美国国家生物技术信息中心(NCBI)维 护,包含了全球范围内的基因组序列、质粒序列、EST序列、 RNA序列等,是生物信息学领域最常用的数据库之一。
04
生物信息数据库分析工具
BLAST软件
强大的序列比对工具
BLAST(Basic Local Alignment Search Tool)是一种用于在数据库中搜索与给定序列相似的序列的工具。它被广泛应用于生物 信息学领域,用于序列比对、基因组注释和功能基因组学研究。BLAST通过局部序列比对算法,能够快速地搜索和比对基因组、 蛋白质和EST等数据库中的序列。
MEGA软件
进化遗传学分析工具
MEGA(Molecular Evolutionary Genetics Analysis)是一个用于进化遗传学分析的工具,
它支持多种数据格式,包括DNA、蛋白质和 氨基酸序列。MEGA提供了多种进化遗传学 分析方法,如分子进化遗传学分析、系统发 育重建和物种进化研究等。它还支持多种算 法和统计方法,帮助研究人员深入了解物种
功能检索
总结词
通过输入蛋白质的功能或活性,查找具有相似功能的蛋白质。
详细描述
功能检索是利用蛋白质的功能信息进行查找的一种方式,用户可以根据已知的蛋白质功能信息,在数据库中找到 具有相似功能的其他蛋白质。
结构检索
总结词
生物信息学数据库及查询_贾栋
J.SHANXI AGRIC.UNIV.(Natural Science Edition)学报(自然科学版)2013,33(6)003081收稿日期:2013-07-02 修回日期:2013-07-20作者简介:贾栋(1980-),男(汉),山西朔州人,讲师,在读博士,研究方向:生物信息学。
通讯作者:马瑞燕,教授,博士生导师。
Tel:0354-6289555;E-mail:maruiyan2004@163.com基金项目:教育部博导类项目(20111403110004)生物信息学数据库及查询贾栋1,贾小云2,马瑞燕1(1.山西农业大学农学院,山西太谷030801;2.山西农业大学生命科学院,山西太谷030801)摘 要:随着生物分子数据的指数增长,生物信息学相关数据库也有了空前的发展。
介绍了生物信息学数据库的最新研究进展,并分别对核酸和蛋白质序列数据库、生物大分子结构数据库及基因组数据库的主要站点资源进行了评价,以大的生物信息中心NCBI开发的Entrez系统和EBI开发的SRS系统为例,介绍了数据库查询的基本方法。
关键词:生物信息学;数据库;查询中图分类号:Q811.4 文献标识码:A 文章编号:1671-8151(2013)06-0520-06Overview in Bioinformatics Database and the Introduction of InquiryJia Dong1,Jia Xiaoyun2,Ma Ruiyan1(1.College of Agriculture,Shanxi Agricultural University,Taigu Shanxi 030801,China;2.College of Life Sci-ence,Shanxi Agricultural University,Taigu Shanxi 030801,China)Abstract:With the exponential growth of biomolecular data,bioinformatics databases have increased rapidly.The pres-ent study introduced the latest developments of bioinformatics databases,meanwhile,main site resources of nucleic acidand protein sequence databases,biological macromolecular structure database,and genomic databases were evaluatedindependently.The major inquiry methods of databases were described using the Entrez system developed by NCBI andSRS system developed by EBI as examples.Key words:Bioinfomatics;Database;Query 生物信息学(Bioinformatics)是一门交叉学科,包含生物信息的获取、加工、存储、分配、分析、解释等诸多方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义[1]。
生物信息学7数据库的查寻
SRS系统
单位 欧洲生物信息研究所 英国基因组资源中心 英国基因组测序中心 法国生物信息中心 荷兰生物信息中心 网址 /srs6/ /srs6/ /srs6/ biogen.fr/srs6/ http://www.cmbi.kun.nl/srs6/
对于结构文件:
结构总结格式:结构的基本信息,可以看三维结构 ASN.1格式:
数据库查询、数据库检索和数据库搜索这三个 词经常混用。其实,数据库搜索在分子生物信息 学中有特定含义,它是指通过特定的序列相似性 比对算法,找出核酸或蛋白质序列数据库中与检 测序列具有一定程度相似性的序列。 例如,给定一个胰岛素序列,通过数据库搜索, 可以在蛋白质序列数据库SwissProt中找出与该 检测序列(query sequence)具有一定相似性的序 列。
对于PubMed文章:
引文(citation)格式:包含题目,文摘,MeSH主题词等 文摘格式:包含题目,文摘 ASN.1格式:文章以ASN.1格式出现 MEDLINE格式:文章以MEDLINE格式出现
对于蛋白和核酸文件:
GenBank/GenPept格式: 标准的GenBank或GenPept格式 Report格式:GenBank格式 ASN.1格式 FASTA格式 图形格式(Graphic View)
Entrez系统
检索模式(Search Modes)
www Entrez可以采用几种不同途径的检索方式:
名词列表格式(list term):当输入一检索词后, Entrez将列出与此相关的该领域中所有标准的检索词名 称, 此时,可选择一或多个标准名词去检索。 自动格式(automatic):当输入一个检索词后, 即自动检索,如果输入的检索词超过一个,则Entrez会 自动将之组合起来, 如果无结果,则可尝试将这多个检 索词用“ ”括起来。
17第九章-生物信息数据库检索
3.TXSearch(Taxonomy Retrieval):
是一种根据生物分类学的分类名称作为关键 词进行检索的检索途径。
DDBJ检索与分析页面
第三节 蛋白质数据库
一、蛋白质序列数据库
(一)PIR • 蛋白质信息资源(PIR)是由美国国家生物
医学研究基金会(NBRF)于1984年创建的 一个综合性公共生物信息学资源。
根据收录的信息内容主要分为以下五类:
– 1.序列数据库 – 是最基本的生物信息数据库,主要收录序列
数据,如GenBank、ENA、DDBJ等。
– 2.结构数据库
– 主要收录蛋白质、多肽的三维结构数据以及 酶、病毒、碳水化合物和核酸的晶体结构数 据库,如PDB。
– 3.图谱数据库
– 主要收录基因组图谱数据,如NCBI的基因组 图谱、Ensembl 、UCSC等。
(三)生物信息学中心资源导航
– 一些著名的生物信息学中心不仅自己建立和 维护大量的生物信息数据库,而且一般在网 上提供资源导航,如NCBI、EBI等。
《Nucleic Acids Research》设立的一个数据库目录
第二节 核酸序列数据库
一、GenBank
(一)概述
– GenBank是由美国国家生物技术信息中心 (NCBI)管理和维护的综合性公共核酸序 列数据库,收录了所有已知的核酸序列和蛋 白质序列,以及相关的文献和生物学注释。
医学文献信息检索
第九章 生物信息数据库检索
目录
1 第一节 生物信息数据库概述 2 第二节 核酸序列数据库 3 第三节 蛋白质数据库 4 第四节 基因组数据库 5 第五节 疾病基因数据库
第一节 生物信息数据库概述
一、生物信息数据库的类型
生物信息学(研究生)
• 生物信息学产生和发展的推动因素主要有
以下三个方面:
– 人类社会发展的需要;
– 人类基因组计划的顺利实施;
– 信息技术在生物学中的大规模应用。
生物信息学研究现状
• 1.功能(或结构)基因组信息学
• 功能(或结构)基因组信息学是在全基因上对
基因及其表达产物进行全面分析,其目的 在于探索基因的时空表达差异,包括基因 功能发现、基因表达分析及突变检测。
– 进行基因数据分析方面的研究 – 基于距离或特征系统发生分析方法以进行基因组的分子 进化等
• 所起的作用
– 为高度自动化大规模测序、基因数据 的提取、序列片断的拼接、新基因的 发现提供了技术支撑,并为HGP顺利
实施奠定了基础。
(2)基因组时代
• 时期。 • 这是生物信息学真正兴起并形成了一门多 学科的交叉、边缘学科。 • 生物信息学在HGP实施过程中起到了非常 重要的作用,从高度自动化的大规模测序、 DNA分子数据的获取与分析处理、序列片 断的拼接、新基因的发现、基因组结构与 功能预测到基因组进化等研究的各个环节 都与生物信息学密不可分,为HGP的顺利 完成奠定了技术支撑。
染色体 基因组作图
基因组图谱
基因组 数据库 生物信息学 数据库工具
核酸 序列测定
DNA序列
核酸序列 数据库
二 次 数 据 库
蛋白质序列 蛋白质 结构测定 蛋白质结构
蛋白质序 列数据库
生物信息学 数据库工具 蛋白质结 构数据库
复 合 数 据 库
Fig 2.1 生物学数据库
3 数据来源
• 一些主要的生物学数据库,如GenBank、EMBL、 DDBJ、PIR、SWISS-PROT等,在建库的初期主 要靠人工搜索科学期刊中核酸和蛋白质序列数 据,然后录入到数据库中。这种收集方式不仅 费时费力,而且不能直接用于计算机分析,显 然不能满足科研工作的需要。 • 从1988年开始,序列数据库与经常刊登序列数 据的科学期刊合作,要求作者在论文发表之前 必须将序列数据发送到某个数据库中,并从后 者获得一个序列存取号(Accession Number), 该存取号可随论文发表,代表该序列数据。从 此作者的直接发送成了生物信息学数据库的一 个主要来源。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质-蛋白质相互作用数据库 DIP(/) 由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信 息和检测相互作用的实验技术 IntAct(/intact ) 提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相 互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结 构域注释进行网络的扩充 代谢网络和信号途径 KEGG大百科(http://www.genome.ad.jp/kegg/ ) 系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和 部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的 细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、 酶分子和酶反应等信息。
核酸序列数据库 GenBank( /Genbank ) EMBL( /embl/ ) DDBJ ( http://www.ddbj.nig.ac.jp/ )
三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋 白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG C.基因可变剪接数据库ASDB D.转录因子数据库TRANSFAC
亚细胞定位数据库 PSORTdb(/ ) DBSubLoc(/dbsubloc.html ) 膜蛋白质数据库TMPDB(http://bioinfo.si.hirosaki-u.ac.jp/~TMPDB/) 线粒体蛋白质数据库MitoP2(http://www.mitop.de:8080/mitop2/) 蛋白翻译后修饰 dbPTM(.tw/ ) 磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息。 O-GlycBase(http://www.cbs.dtu.dk/databases/OGLYCBASE/) 只收录O糖基化数据 PhosphoBase(/) 只收录磷酸化位点的数据 RESID(/RESID/) 收录蛋白质修饰的注释和结构的数据
plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians reptiles birds mammals
104 105 106 107 108 109 1010 1011
蛋白质序列数据库 UniProt() 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注 释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考 簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。 IPI (/IPI/ ) 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而 构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt, Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整 合过程中,直接接受手工注释结果。 Nr( /refseq/ ) NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号, 并将序列完全一致的非冗余蛋白质合并成簇。
序列数据库 结构数据库 功能数据库 其ws、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达 序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学 实验中测序获得的核酸和蛋白质序列。 基因组序列数据库: Genome Database(GDB)数据库 ( / ) 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和 Sanger研究所联合开发。 UCSC Genome Browser (/) 加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基 因组数据。
第三章 生物信息数据库及其信息检索
生物科学与技术学院
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库
▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
大规模组学实验
大量零碎数据
海量组学数据
elegans
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
GenBank
UniGene
Algorithms
GenBank中测序最多的20个物种
yticum
Bacillus subtilis
Drosophila melanogaster
二、结构数据库
核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也 有同源建模等计算方法获得。 结构数据库(核酸) NDB核酸结构数据库(/) 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可 以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片 Rfam数据库(/ ) RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非 编码RNA家族的变异模式
结构数据库(蛋白质) PDB(/pdb/ ) RCSB(Research Collaboratory for Structural Bioinformatics)专门用于处理和发 布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据 文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物 大分子三维结构。 蛋白质结构分类数据库SCOP( /scop/ ) 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库。 NCBI蛋白结构数据库(/sites/entrez?db=structure/) 包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的 PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二 级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核 酸链进行分类的分子匹配。
NCBI (National Center of Biotechnology Information) 美国国立生物技术信息中心
三大数据库之间的联系
Primary vs. Derivative Databases
Curators
Sequencing Centers
Labs
TATAGTACTCAGGCTACTGAGCTACTGAGCCG
数据收集整理
数据存储、注释
数据库
检索查询
理论分析
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据
库专刊,收录最主要的生物学相关数据库,归类并展示在
/nar/database/c/。
核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库
生物信息学数 据库类型
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis
rat
反应通路(KEGG)
glycolysis pathway(糖 酵解)
京都基因与基因组百科全 书(Kyoto Encyclopedia of Genes and Genomes)
全细胞通路
四、其它专业数据库
人类基因和疾病数据库 OMIM(/sites/entrez?db=omim) 收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊 断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物 模型及其参考文献等信息dbSNP (/sites/entrez?db=SNP ) 收录已经识别的SNPs的数据库 HapMap Project() 收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具 有相对代表性 CGED(http://lifesciencedb.jp/cged/) 收录多种癌症的临床和基因表达数据,更新到2007年
基于电泳和生物质谱的蛋白质组数据库 SWISS-2DPAGE(/ch2d/) 收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息 PRIDE(/pride/) 数据库收集国际蛋白质组计划所产出的鉴定结果数据 PeptideAtlas(/) 收录大规模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库 dbLEP() 为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质 量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年