分子生物学相关数据库
分子生物学数据库---计算生物学的摇篮
分子生物学数据库——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。
人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。
在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。
针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,计算生物学和生物信息学应运而生。
计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。
总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。
生物信息学网站网址(全)
生物信息学网站分子生物学数据库综合目录1. SRS序列查询系统(分子生物学数据库网络浏览器) http://www.embl-heidelberg.ed/srs5/2. 分子生物学数据库及服务器概览/people/pkarp/mimbd/rsmith.html3. BioMedNet图书馆4. DBGET数据库链接http://www.genome.ad.jp/dbget/dbget.links.html5. 哈佛基因组研究数据库与精选服务器6. 约翰. 霍普金斯大学(Johns Hopkins University) OWL网络服器/Dan/proteins/owl.html7. 生物网络服务器索引,USCS /network/science/biology/index.html8. 分子生物学数据库列表(LiMB) gopher:///11/molbio/other9. 病毒学的WWW服务器,UW-Madison /Welcome.html10. UK MRC 人类基组图谱计划研究中心/11. 生物学家和生物化学家的WWW资源http://www.yk.rim.pr.jp/~aisoai/index.html12. 其他生物网络服务器的链接/biolinks.html13. 分子模型服务器与数据库/lap/rsccom/dab/ind006links.html14. EMBO实际结构数据库http://xray.bmc.uu.se/embo/structdb/links.html15. 蛋白质科学家的网络资源/protein/ProSciDocs/WWWResources.html16. ExPASy分子生物学服务器http://expasy.hcuge.ch/cgi-bin/listdoc17. 抗体研究网页18. 生物信息网址http://biochem.kaist.ac.kr/bioinformatics.html19. 乔治.梅森大学(George Mason University)的生物信息学与计算分子生物学专业/~michaels/Bioinformatics/20. INFOBIOGEN数据库目录biogen.fr/services/dbcat/21. 国家生物技术信息研究室/data/data.html22. 人类基因组计划情报/TechResources/Human_Genome23. 生物学软件及数据库档案/Dan/software/biol-links.html24. 蛋白质组研究:功能基因组学的新前沿(著作目录) http://expasy.hcuge.ch/ch2d/LivreTOC.html序列与结构数据库一.主要的公共序列数据库1. EMBL WWW服务器http://www.EMBL-heidelberg.ed/Services/index.html2. Genbank 数据库查询形式(得到Genbank的一个记录) /genbank/query_form.html3. 蛋白质结构数据库WWW服务器(得到一PDB结构) 4. 欧洲生物信息学研究中心(EBI) /5. EBI产业支持/6. SWISS-PROT(蛋白质序列库) http://www.expasy.ch/sprot/sprot-top.html7. 大分子结构数据库/cgi-bin/membersl/shwtoc.pl?J:mms8. Molecules R Us(搜索及观察一蛋白质分子) /modeling/net_services.html9. PIR国际蛋白质序列数据库/Dan/proteins/pir.html10. SCOP(蛋白质的结构分类),MRC /scop/data/scop.l.html11. 洛斯阿拉莫斯的HIV分子免疫数据库/immuno/index.html12. TIGR数据库/tdb/tdb.html13. NCBI WWW Entrez浏览器/Entrez/index.html14. 剑桥结构数据库(小分子有机的及有机金属的结晶结构) 15. 基因本体论坛/GO/二. 专业数据库1. ANU生物信息学超媒体服务(病毒数据库、分类及病毒的命名法) .au/2. O-GL YCBASE(O联糖基化蛋白质的修订数据库) http://www.cbs.dtu.dk/OGLYCBASE/cbsoglycbase.html3. 基因组序列数据序(GSDB)(已注释的DNA序列的关系数据序) 4. EBI蛋白质拓扑图/tops/Serverintermed.html5. 酶及新陈代谢途径数据库(EMP) /6. 大肠杆菌数据库收集(ECDC)(大肠杆菌K12的DNA序列汇编) http://susi.bio.uni-giessen.de/ecdc.html7. EcoCyc(大肠杆菌基因及其新陈代谢的百科全书) /ecocyc/ecocyc.html8. Eddy实验室的snoRNA数据库/snoRNAdb/9. GenproEc(大肠杆菌基因及蛋白质) /html/ecoli.html10. NRSub(枯草芽胞杆菌的非冗余数据库) http://pbil.univ-lyonl.fr/nrsub/nrsub.html11. YPD(酿酒酵母蛋白质) /YPDhome.html12. 酵母基因组数据库/Saccharomyces/13. LISTA、LISTA-HOP及LISTA-HON(酵母同源数据库汇编) /14. MPDB(分子探针数据库) http://www.biotech.est.unige.it/interlab/mpdb.html15. tRNA序列及tRNA基因序列汇编http://www.uni-bayreuth.de/departments/biochemie/trna/index/html16. 贝勒医学院(Baylor College of Medicine)的小RNA数据库/dbs/SRPDB/SRPDB.html17. SRPDB(信号识别粒子数据库) /dbs/SRPDB/SRPDB.html18. RDP(核糖体数据库计划) /19. 小核糖体亚蛋白RNA结构http://rrna.uia.ac.be/ssu/index.html20. 大核糖体亚蛋白RNA结构http://rrna.uia.ac.be/lsu/index.html21. RNA修饰数据库/RNAmods/22. 16SMDB及23SMDB(16S和23S核糖体RNA突变数据库)/Departments/Biology/Databases/RNA.html23. SWISS-2DPAGE(二维凝胶电泳数据库) http://expasy.hcuge.ch/ch2d/ch2d-top.html24. PRINTS /bsm/dbbrowser/PRINTS/PRINTS.html25. KabatMan(抗体结构及序列信息数据库) /abs26. ALIGN(蛋白质序列比对一览) /bsm/dbbrowser/ALIGN/ALIGN.html27. CATH(蛋白质结构分类系统) /bsm/cath28. ProDom(蛋白质域数据库) http://protein.toulouse.inra.fr/29. Blocks数据库(蛋白质分类系统) /30. HSSP(按同源性导出的蛋白质二级结构数据库) http://www.sander.embl-heidelberg.de/hssp/31. FSSP(基于结构比对的蛋白质折叠分类) /dali/fssp/fssp.html32. SBASE蛋白质域(已注释的蛋白质序列片断) http://www.icgeb.trieste.it/~sbasessrv/33. TransTerm(翻译控制信号数据库) /Transterm.html34. GRBase(参与基因调控的蛋白质的相关信息数据库) /~regulate/trevgrb.html35. REBASE(限制性内切酶和甲基化酶数据库) /rebase/36. RNaseP数据库/RNaseP/home.html37. REGULONDB(大肠杆菌转录调控数据库) http://www.cifn.unam.mx/Computational_Biology/regulondb/38. TRANSFAC(转录因子及其DNA结合位点数据库) http://transfac.gbf.de/39. MHCPEP(MHC结合肽数据库) .au/mhcpep/40. ATCC(美国菌种保藏中心) /41. 高度保守的核蛋白序列的组蛋白序列数据库/Baxevani/HISTONES42. 3Dee(蛋白质结构域定义数据库) /servers/3Dee.html43. InterPro(蛋白质域以及功能位点的完整资源) /interpro/序列相似性搜索1. EBI序列相似性研究网页/searches/searches.html2. NCBI: BLAST注释/BLAST3. EMBL的BLITZ ULTRA快速搜索/searches/blitz_input.html4. EMBL WWW服务器http://www.embl-heidelberg.de/Services/index.html#55. 蛋白质或核苷酸的模式浏览/compbio/PatScan/HTML/patscan.html6. MEME(蛋白质超二级结构模体发现与研究) /meme/website7. CoreSearch(DNA序列保守元件的识别) http://www.gsf.de/biodv/coresearch.html8. PRINTS/PROSIT浏览(搜索motif数据库) /cgi-bin/attwood/SearchprintsForm.pl9. 苏黎世ETH服务器的DARWIN系统http://cbrg.inf.ethz.ch/10. 利用动态规划找出序列相似性的Pima IIhttp://bmerc-www.bu.ede/protein-seq/pimaII-new.html11. 利用与模式库进行哈希码(hashcode)比较找到序列相似性的DashPat /protein-seq/dashPat-new.html12. PROPSEARCH(基于氨基酸组成的搜索) http://www.embl-heidelberg.de/aaa.html13. 序列搜索协议(集成模式搜索) /bsm/dbbrowser/protocol.html14. ProtoMap(SEISS-PROT中所有蛋白质的自动层次分类) http://www.protomap.cs.huji.ac.il/15. GenQuest(利用Fasta、Blast、Smith-Waterman方法在任意数据库中搜索) http://www.gdb.rog/Dan/gq/gq.form.html16. SSearch(对特定数据库的搜索) http://watson.genes.nig.ac.jp/homology/ssearch-e_help.html17. Peer Bork搜索列表(motif/模式序列谱搜索) http://www.embl-heidelberg.de/~bork/pattern.html18. PROSITE数据库搜索(搜索序列的功能位点) /searches/prosite.html19. PROWL(Skirball研究中心的蛋白质信息检索) /index.html序列和结构的两两比对1. 蛋白质两两比对(SIM) http://expasy.hcuge.ch/sprot/sim-prot.html2. LALNVIEW比对可视化观察程序ftp://expasy.hcuge.ch/pub/lalnview3. BCM搜索装置(两两序列比对) /seq-search/alignment.html4. DALI蛋白质三维结构比较/dali/5. DIALIGN(无间隙罚分的比对程序) http://www.gsf.de/biodv/dialign/html多重序列比对及系统进行树1. ClustalW(BCM的多重序列比对) /multi-align/multi-align.html2. PHYLIP(推测系统进行树的程序) /phylip.html3. 其它系统进行树程序,PHYLIP文档的汇编http://expasy.hcuge.ch/info/phylogeny.html4. 系统进行树分析程序(生命树列表) /tree/programs/programs.html5. 遗传分类学软件(Willi hennig协会提供的列表) /education.html6. 用于多重序列比对的BCM搜索装置/multi-align/multi-align.html7. AMAS(分析多重序列比对中的序列) /servers/amas_server.html8. 维也纳RNA二级结构软件包http://www.tbi.univie.ac.at/~ivo/RNA/四. 有代表性的预测服务器1. PHD蛋白质预测服务器,用于二级结构、水溶性以及跨膜片断的预测http://www.embl-heidelberg.de/predictprotein/predictprotein.html2. PhdThreader(利用逆折叠方法预测、识别折叠类) http://www.embl-heidelberg.de/predictprotein/phd_help.html3. PSIpred(蛋白质结构预测服务器) /psipred4. THREADER(戴维. 琼斯) /~jones/threader.html5. TMHMM(跨膜螺旋蛋白的预测) http://www.cbs.dtu.dk/services/TMHMM/6. 蛋白质结构分析,BMERC /protein-seq/protein-struct.html7. 蛋白质域和折叠预测的提交表http://genome.dkfz-heidelberg.de/nnga/def-query.html8. NNSSP(利用最近相邻法预测蛋白质的二级结构) /pss/pss.html9. Swiss-Model(基于知识的蛋白质自动同源建模服务器) http://www.expasy.ch/swissmod/SWISS-MODEL.html10. SSPRED(用多重序列比对进行二级结构预测) /jong/predict/sspred.html11. 法国IBCP的SOPM(自寻优化预测方法、二级结构) http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopm.html12. TMAP(蛋白质跨膜片断的预测服务) http://www.embl-heidelberg.de/tmap/tmap_info.html13. TMpred(跨膜区域和方向的预测) /software/TMPRED_form.html14. MultPredict(多重序列比对的序列的二级结构) /zpred.html15. BCM搜索装置(蛋白质二级结构预测) /seq-search/struc-predict.html16. COILS(蛋白质的卷曲螺旋区域预测) /software/coils/COILS_doc.html17. Coiled Coils(卷曲螺旋) /depts/biol/units/coils/coilcoil.html18. Paircoil(氨基酸序列中的卷曲螺旋定位) /bab/webcoil.html19. PREDATOR(由单序列预测蛋白质二级结构) http://www.embl-heidelberg.de/argos/predator/predator_info.html20. EV A(蛋白质结构预测服务器的自动评估) /eva/五. 其他预测服务器1. SignalP (革兰氏阳性菌、革兰氏阴性菌和真核生物蛋白质的信号肽及剪切位点) http://www.cbs.dtu.dk/services/SignalP/2. PEDANT(蛋白质提取、描述及分析工具) http://pedant.mips.biochem.mpg.de/六. 分子生物学软件链接1. 生物信息学可视化工具/alan/VisSupp/2. EBI分子生物学软件档案/software/software.html3. BioCatalog /biocat/e-mail_Server_ANAL YSIS.html4. 生物学软件和数据库档案/Dan/softsearch/biol-links.html5. UC Santa Cruz的序列保守性HMM的SAM软件/research/compbio/sam.html七. 网上博士课程1. 生物计算课程资源列表:课程大纲http://www.techfak.uni-bielefeld.de/bcd/Curric/syllabi.html2. 生物序列分析和蛋白质建模的Ph.D课程http://www.cbs.dtu.dk/phdcourse/programme.html3. 分子科学虚拟学校/vsms/sbdd/4. EMBnet 生物计算指南http://biobase.dk/Embnetut/Universl/embnettu.html5. 蛋白质结构的合作课程/PPS/index.html6. 自然科学GNA虚拟学校http://www.techfak.uni-bielefeld.de/bcd/Vsns/index.html7. 分子生物学算法/education/courses/590bi。
生物信息学数据库
欧洲生物信息学研究所完整基因组数据库/genomes/
欧洲生物信息学研究所序列数据库研究组/seqdb/index.html
加拿大生物信息学资源http://cbr-rbc.nrc-cnrc.gc.ca/index_e.php
这是加拿大生物信息学资源(CBR)的网站。该网站由加拿大国家研究委员会(NRC)创建,旨在为国家研究委员会与其它**、学术部门的科学家提供广泛使用的生物信息学工具和共享数据。加拿大生物信息学资源部分由一个专门使用该资源的委员会管理,而且其资源在用于教育和非盈利研究时只需注册均可免费作用。网站还提供有关新闻、服务与下载等信息。
法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可
检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件
,是更灵敏的同源搜索软件。例如线虫的CED4是apoptosis 的调控蛋白,含有涉
及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜
相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型
拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90
型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA
引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得
,稍有变化。expect简称E-value ,已经考虑了数据库的因素。其意义是:当用
咨询序列搜索一个数据库(如非冗余的SwissProt ,现有77419 条序列,共27864727
06第六章 常用生物信息学数据库简介
英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列 数据库,于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权 威生物学刊物都要求作者在文章发表之前将所测定的 序列提交给EMBL、GenBank或DDBJ,得到数据库管 理系统所签发的登录注册号。 二是从生物医学期刊上收录已经发表的序列资料。
分子生物学数据库
• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的
(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接
分子生物学相关数据库
分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。
EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。
EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。
核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。
分子生物学数据库
/misc/formdrugs.htm/ 美国食品药物管理局(Food and Drug Administration,FDA)
中国医药信息网 国家药品监督管理局 中国中医药信息网 国家中医药管理局中医药文献检索中心
1、序列查询
◦ 可进行序列查询,用特定的登录号或者序列名称直接查 询
2、核酸同源性搜索
◦ fastA格式:EMBL和GenBank中的主要内容与格式
UCSC
◦ 约一半的注释信息来自公开的序列数据计算得出,另一半 来自世界各地的科学工作者
◦ /
对设计的引物的效能进行简单的 评估
吕军英 7.24
核酸、基因组数据库 药物相关数据库资源 SNP或体细胞突变、疾病相关基因 二代测序相关的数据处理工具
网上获取医学文献全文的途径
其他可能会用到的数据库或软件
国际上权威的核酸数据库
(1)欧洲分子生物学实验室的EMBL /embl/ (2)美国生物技术信息中心的GenBank /genbank/ (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/
/forums/showthread. php?t=43
访问免费电子期刊网站
http://www.health.library.mcgill.ca/ejournal/ fulltext.htm/ /lists/freeart.dt
基因组数据库
(4)UCSC Genome Browser / (5)人类基因组数据库Ensembl /index.html
GenBank、EMBL、DDBJ建立了相互交换数据的合作关系。 GenBank可通过Entrez数据库查询进行查询,这个系统 将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合 在一起。
分子生物学中常用数据库
分子生物学中常用数据库综合数据库:来源:/news/science/article/90048.html生物信息学网址链接:http://www.bioinformatics.ca/links_directory/Nucleic Acid Research Database Issue:/content/vol32/suppl_2/一、蛋白相关数据库蛋白质结构域预测工具Esignal:/esignal/信号传导系统蛋白的结构域预测工具,凡是涉及到信号传导系统的蛋白用这个预测效果最佳SignalP:http://www.cbs.dtu.dk/services/SignalP/信号肽预测工具,适合定位于非胞质位置的蛋白质Emotif:/emotif-search/结构域预测工具,由于其用motif电子学习的方法产生结构域模型,故预测效果比Prosite好Ematrix:/ematrix/是用Matrix的方法创建的结构域数据库,可与emotif互相印证。
其速度快,可快速搜索整个基因组InterPro:/InterProScan/EBI提供的服务,用图形的形式表示出搜索的结构域结果TRRD:http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/转录因子结构域预测的最好数据库。
但不会用Protscale:/cgi-bin/protscale.pl可分析该序列的各种性状如活动度、亲水性(Kyte&Doolittle)、抗原性(Hopp&Woods)等通过寻找MOTIF和Domain来分析蛋白质的功能A. MOTIF是蛋白中较小的保守序列片断,其概念比Domain小PROSITE:/tools/scanprosite/是专门搜索蛋白质Motif的数据库,其中signature seqs是最重要的motif信息B. Domain:若干motif可形成一个Domain,每个Domain形成一个球形结构,Domain与Domain之间通常像串珠一样相连Pfam:可以搜索某段序列中的Domain,并以图形化表示出来。
生命科学中最常用的5个数据库介绍
生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。
对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。
这些数据包括分子序列、蛋白质结构、代谢途径等等。
为了有效地管理这些数据,生命科学中广泛应用了各种数据库。
本文将介绍生命科学中最常用的5个数据库。
1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。
它由美国国家生物技术信息中心(NCBI)维护。
GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。
与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。
GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。
2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。
PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。
除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。
3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。
Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。
Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。
4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。
PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。
NCBI_功能详细介绍
NCBI_功能详细介绍NCBI(National Center for Biotechnology Information,国家生物技术信息中心)是美国国立卫生研究院(NIH)的一个部门,旨在为科学家、研究者和医生提供生物信息学数据库和工具,以促进生物医学研究和医疗实践的发展。
NCBI提供了一系列的数据库和工具,涵盖了基因组学、遗传学、生物技术和生物信息学的多个领域,为用户提供了许多功能和资源。
以下是NCBI提供的一些主要功能:1. PubMed:PubMed是一个免费的生物医学文献数据库,收录了来自全球各地的医学和生物医学研究的学术文章和论文摘要。
它是全球最大的生物医学文献数据库之一,每年更新数量庞大的文献。
研究人员、医生和学生可以使用PubMed来查找相关的研究论文,以支持他们的研究和临床实践。
3. BLAST:BLAST(Basic Local Alignment Search Tool)是一个用于比对和分析生物序列的工具。
它可以对输入的DNA或蛋白质序列与数据库中的序列进行比对,以寻找相似的序列片段或相应的功能注释。
BLAST被广泛用于基因组学、生物技术和分子生物学的研究中。
4. Entrez:Entrez是一个综合性引擎和浏览器,用于访问NCBI提供的不同数据库中的信息。
用户可以使用Entrez工具来查找特定的文章、序列、结构、基因、文献、蛋白质、基因组、生物样本等信息,并浏览相关的文献和数据。
6. dbSNP:dbSNP是一个单核苷酸多态性数据库,记录了人类和其他物种的基因组中的单核苷酸变异信息。
它是一个重要的资源,用于研究人员研究遗传变异与疾病风险和治疗反应之间的关系,以及个体间的遗传差异。
总之,NCBI提供了许多重要的生物信息学数据库和工具,为科学家、研究者和医生提供了进行生物医学研究和临床实践所需的关键资源。
它在基因组学、遗传学、生物技术和生物信息学的研究中起到了非常重要的作用,并对生物医学领域的发展做出了巨大贡献。
NCBI分子生物学数据库应用简介
Nucleotide 包含: • 所有的核苷酸及蛋白质序列 • 与之相关的生物学信息 • 参考文献
二 . Genome
即基因组数据库,提供 了多种基因组、完全染色体、 临近序列图谱以及一体化基 因物理图谱。
三. Structures
即结构数据库或称分子模型 数 据 库 〔MMDB〕 , 包 含 来 自 X 线晶体学和三维结构的实验数据。 MMDB 的 数 据 从 PDB〔Protein Data Bank〕获得。
3. 向GenBank递交数据
GenBank数据的一个主要来源是通过 作者直接递交;目前许多期刊也希望刊 登的 文章中的DNA或氨基酸序列能在发 表前输入数据库。
NCBI为此设计了方便、快捷的数 据递交软 件:
BankIt: 直接通过WWW进行简便、快 捷的递交。
Sequin:
可供MAC、PC\Windows、UNIX 用户使用的递交软件,可输入有关 数据的详细资料。
四. Taxonomy
即生物学门类数据库,可 以按生物学门类进行检索或浏 览其核苷酸序列、蛋白质序列、 结构等。
五. PopSet
包含研究一个人群、一个种 系发生或描述人群变化的一组组 联合序列。PopSet既包含核酸序 列数据又包含蛋白质序列数据。
六. OMIM
孟德尔遗传学(OMIM)数据库是人类 基因和基因疾病的目录数据库。该数据 库包括原文信息、图片和参考信息,同 时还可以链接到Entrez系统MEDLINE数 据库中相关文献和序列信息。
…………..
2. BLAST相似性检索系统
BLAST 〔Basic Local Alignment Search Tool〕
是用于序列相似性检索的一个重要数 据库,是区分基因和基因特征的工具。 该软件能在15秒内完成整个DNA数据库 的序列检索。
分子生物学信息中心及其数据库
分子生物学信息中心及其数据库生物分子数据库可以分成一级数据库和二级数据库两大类:一级数据库:数据库中的数据直接来源于实验获得的原始资料,只经过简单的归类整理和注释。
二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
世界上主要的分子生物学信息中心与它们的数据库介绍:现阶段建立的分子数据库种类繁多,内容广泛;并且随着网络技术的普及,分子生物学信息系统大都实现了网络化;数据库中的信息量也呈爆炸性的增长;数据库的相关数据操作算法也不断增加。
随着分子生物学实验的高速增长和分子生物学及相关领域研究人员迅速获得最新实验数据,迫切需要建立一些生物分子的数据库。
1、欧洲分子生物学实验室EMBL欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory)于1974年由欧洲14个国家加上亚洲的以色列共同建立,包括一个核心实验室——德国的Heidelberg实验室,三个研究分部——德国的Hamburg,法国的Grenoble及英国的Hinxton。
由于有开发和创新的良好的学术氛围,已发展成欧洲最重要和核心的分子生物学基础研究机构。
其研究主要集中在以下几个方面:-生化实用技术质谱分析(Mass Spectrometry)等。
-细胞生物学(Cell Biology),研究细胞膜上蛋白和脂肪的分布系统,包括膜运输、微管网络、细胞核及细胞周期,焦点是Rab 蛋白。
-细胞生物物理(Cell Biophysics)重点是理论创新和实际应用的结合研究,尤其是光学显微镜的完善使用。
-分化(Differentiation)集中研究果蝇的早期发育。
-基因表达(Gene Expression),研究基因信息传递到蛋白质信息的过程,尤其是核糖体合成在整个细胞生命过程中的重要作用。
-结构生物学(Structure Biology),在过去9年中建立了cDNA 测序技术,生物计算,蛋白工程、晶体学、电子显微镜(EM)及核磁共振(NMR),研究分子是肌肉巨型蛋白分子Titin。
ncbi分子生物学数据库网络生物医学
NCBI分子生物学数据库网络生物医学1. 引言生物医学研究的进展离不开大量的数据资源和分析工具的支持。
NCBI (National Center for Biotechnology Information) 是一个旨在促进生物信息学和分子生物学研究的重要组织。
它提供了多个分子生物学数据库,这些数据库存储了大量的生物信息学数据,并提供了丰富的分析工具,以帮助科学家进行生物医学研究。
本文将介绍一些常用的NCBI分子生物学数据库及其在网络生物医学研究中的应用。
2. NCBI基因数据库2.1 GenBankGenBank 是全球最大的基因序列数据库之一,它存储了大量的DNA和RNA序列数据。
研究者可以通过GenBank访问到已被发表的基因序列数据,以及一些未发表的序列数据。
这些数据对于研究基因功能、生物进化以及人类疾病等方面都非常重要。
2.2 RefSeqRefSeq (Reference Sequence) 是一个注释完整的、高质量的基因序列数据库。
与GenBank不同,RefSeq仅收录了经过验证且与蛋白质对应的基因序列,这使得研究者可以更加准确地进行基因结构和功能的研究。
RefSeq还提供了基因组、转录组和蛋白质序列的相关信息。
2.3 dbSNPdbSNP (database of Single Nucleotide Polymorphisms) 存储了人类和其他物种中的单核苷酸多态性数据。
这些多态性位点是基因组中常见的变异,对于人类疾病的研究和个体之间的遗传差异分析非常重要。
dbSNP收集了来自各种来源的单核苷酸多态性数据,包括人类单核苷酸多态性计划 (HapMap) 和千人基因组计划 (1000 Genomes Project)。
3. NCBI蛋白质数据库3.1 UniProtUniProt 是全球最大的蛋白质序列和注释数据库。
它整合了来自不同来源的蛋白质序列数据和相关的注释信息。
UniProt 提供了蛋白质序列、结构、功能、亚细胞定位和表达等方面的详细信息,帮助研究者理解蛋白质的结构和功能。
生物数据库介绍——NCBI
⽣物数据库介绍——NCBINCBI(National Center for Biotechnology Information,美国国家⽣物技术信息中⼼)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源。
NCBI资源包括Entrez、Entrez编程组件、MyNCBI、PubMed、PudMed Central、PubReader、Gene、the NCBI Taxonomy Browser、BLAST、Pimer-Blast、COBALT、RefSeq、UniGene、HomoloGene、ProtEST、dbMHC、dbSNP、dbVar、Epigenomics、the Genetic Testing Registry、Genome和相关⼯具、⽐对查看器、跟踪存档、Sequence Read Archive、BioProject、BioSample、ClinVar、MedGen、HIV-1/⼈类蛋⽩质相互作⽤数据库、Gene Expression Omnibus、Probe、Online Mendelian Inheritance in Animals、the Molecular Modeling Database、the Conserved Domain Database、the Conserved Domain Architecture Retrieval Tool、Biosystem、Protein Clusters and thePubChem suite of small molecule databases,所有这些资源可以在NCBI主页找到。
Databases⼀个提供有关基因组组装结构,装配名称和其他元数据,统计报告以及基因组序列数据链接等信息的数据库。
⼀个有关培养物、动植物样本和其他⾃然样本的精选元数据集。
记录显⽰样本状态,有关馆藏的机构的信息,以及NCBI中相关数据链接。
分子生物学数据库
分子生物学数据库陈成一、国内的一些有针对性的数据库BIOSINO我国的核酸序列公共数据库更像是一个论坛,有一些提问,互动等功能,信息的筛选也不是特别的严格。
但是规模较小0条记录可以看出网站的维护和使用都不怎么频繁。
其他许多网站也没有明显的巨大差距。
二、国内的一些大型数据库中国知网大部分高校已经购买了它的资源,是国内较权威、全面的数据库。
主要是文献下载,不针对我们实验过程中对数据遇到问题时的解答。
冀鼎觉SciFinderSciFinder使用简介SciFinder Scholar是美国化学学会(ACS)旗下的化学文摘服务社CAS (Chemical Abstract Service)所出版的《Chemical Abstract》化学文摘的在线版数据库学术版。
其内容涵盖应用化学、化学工程、普通化学、物理、生物学、生命科学、医学、聚合体学、材料学、地质学、食品科学和农学等诸多领域。
SciFinder是可以与交大图书馆相连的,在找到文献时,可以直接连接到交大图书馆进行检索帮助。
下面以检索Molecular Dynamics为例简单解释其使用。
在登进SciFinder之后会进入检索界面。
上图即为SciFinder的文献检索界面,可以对文件类型,语言,作者等信息作初步筛选。
除此之外也可以看到左面可以选择对作者,公司,杂志,专利进行直接检索。
在搜索之后会出现题目和内容相关两种文献分类,如我们选择内容相关Molecular dynamics,点进Get Reference。
这是检索完成的结果。
我们可以看到,在Reference字样之后又Getsubstances等字样,我们可以通过这些选项获取选定文献中相关的物质、反应、相关的引用及被引用等。
在右侧可以看到Analysis 以及Refine选项。
现在显示的是Analysis中的Journal Name选项,可以看到对于MD来说,JCP, JPC, Biochemistry, JACS等杂志具有较多的信息。
第二章 生物分子数据库
GenBank数据库所包含的常用子库 数据库所包含的常用子库 表达序列标记数据库dbEST 表达序列标记数据库dbEST (/dbEST/)
包括了不同生物的表达序列标签(Expressed Sequence Tags, EST ) 序列数 据及其它相关信息,主要是从大量不同组织和器官得到的DNA的5‘或3’端 序列,一般长60~500bp左右。该数据库的数据量已经占了GenBank核酸数据 总量的50%以上,并且有快速递增趋势。
序列标签位点数据库dbSTS 序列标签位点数据库dbSTS (/dbSTS/) )
包含了基因组短标记序列( Sequence Tagged Sites ,STS)的组成和定位信 息。 STS在基因组中是惟一存在的一段特异性序列,长度一般在200-300bp间。
生物分子数据库的类型
(1) 一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过 简单的归类整理和注释。 (2)二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级 数据库、实验数据和理论分析的基础上针对特定的应用 目标而建立的,更便于生物学家的使用。
2.2 核酸序列数据库
2.2.1 国际上权威的核酸序列数据库 (1)美国生物技术信息中心(National Center for Biotechnology Information, NCBI)的GenBank序列数据库 /Web/Genbank/index.html (2)欧洲分子生物学实验室(European Molecular Biology Laboratories, EMBL) 核酸数据库 http://www.embl-heidelberg.de (3)日本遗传研究所的(DNA Data Bank of Japan, DDBJ)数据库 http://www.ddbj.nig.ac.jp/
常用的生物数据库
常用的生物数据库在当今的生命科学研究领域,生物数据库就如同一个个巨大的知识宝库,为科研人员提供了丰富的信息和宝贵的数据资源。
这些数据库涵盖了从基因序列到蛋白质结构,从疾病信息到生物进化等各个方面,对于推动生物科学的发展发挥着至关重要的作用。
接下来,让我们一起了解一些常用的生物数据库。
首先要提到的是 GenBank 数据库。
它是由美国国家生物技术信息中心(NCBI)建立和维护的,是全球最全面的核酸序列数据库之一。
GenBank 收录了来自各种生物的 DNA 和 RNA 序列,包括细菌、病毒、真菌、植物和动物等。
科研人员可以通过该数据库查询特定基因的序列信息,了解其结构和功能,为基因研究和基因工程提供了重要的基础。
另一个重要的数据库是 UniProt 。
它是整合了蛋白质序列、功能、分类和相互作用等信息的综合性蛋白质数据库。
UniProt 包含了大量经过人工注释和审核的数据,具有很高的准确性和可靠性。
对于研究蛋白质的结构与功能关系、蛋白质组学以及药物研发等领域来说,UniProt 是不可或缺的工具。
在疾病研究方面,OMIM(Online Mendelian Inheritance in Man)数据库是一个非常有价值的资源。
它主要聚焦于人类遗传疾病,提供了有关疾病的临床表现、遗传方式、基因定位和分子机制等详细信息。
对于医学研究人员和临床医生来说,OMIM 有助于诊断和治疗遗传疾病,以及深入了解疾病的发病机制。
PDB(Protein Data Bank)则是专门用于存储蛋白质和核酸等生物大分子三维结构的数据库。
通过 PDB ,科研人员可以直观地观察到生物大分子的空间结构,从而更好地理解其功能和作用机制。
这对于药物设计和开发具有重要的指导意义,因为药物的作用往往与靶点蛋白的结构密切相关。
KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个综合性的生物通路数据库。
NCBI数据库集
NCBI数据库集生物信息学 2010-08-20 16:08:59 阅读202 评论0字号:大中小订阅NCBI数据库集/?p=20049一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information),即我们所熟知的NCBI是由美国国立卫生研究院(NIH)于1988年创办。
创办NCBI的初衷是为了给分子生物学家提供一个信息储存和处理的系统。
除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。
目前,NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能,而且都可以在NCBI的主页上找到相应链接,其中多半是由BLAST功能发展而来的。
1 NCBI最新进展1.1 PubMed搜索功能的增强去年,NCBI对PubMed进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。
其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。
而且,“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。
现在,在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。
分子生物学数据库
(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
4、蛋白质数据仓库UniProt
包括:
Swiss-Prot TrEMBL PIR
用户可以通过文本查询数据库,可以利用BLAST程序搜 索数据库,也可以直接通过FTP 下载数据。
UniProt包含3个部分:
UniProt Knowledgebase(UniProt)蛋白质序列、 功能、分类、交叉引用等信息存取中心 UniProt Non-redundant Reference(UniRef)数据 库将密切相关的蛋白质序列组合到一条记录中以便 提高搜索速度; UniProt Archive(UniParc)资源库,记录所有蛋白 质序列的历史。
第三章
分子生物学数据库
第一节 引言
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子数据库
生物分子数据库应满足5个方面的主要需求
时间性 注释 支撑数据 数据质量 集成性
生物分子数据库几个明显的特征:
(1)数据库的更新速度不断加快,数据量呈指数增长趋势
WEB页面或email FTP
有关EST的数据 dbEST数据库
5、序列标记位点数据库dbSTS
STS(Sequence Tagged Sites)是序列标记位 点 dbSTS (/dbSTS/) 是NCBI的一个数据源,包含基因组短标记序列 (STS) 的组成和定位信息。 可以通过BLAST搜索STS序列。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。
EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。
EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。
核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。
GenBank 每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录单位(transcription units)、突变或修饰位点(sites of mutationsormodifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。
参考文献还给出其在MEDLINE上的特定标识号。
EMBL-EBI欧洲分子生物学实验室(EuropeanMolecularBiology Laboratory)于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,包括一个位于德国Heidelberg的核心实验室,及三个位于德国Hamburg,法国Grenoble 及英国Hinxton的研究分部,是欧洲最重要和最核心的分子生物学基础研究和教育培训机构。
.EMBL-DNA数据库于1982年由EMBL建立,为欧洲最主要的核酸序列数据库,与美国的GenBank 及日本的DDBJ共同组成全球性的国际DNA数据库。
EBI即现在的欧洲生物信息研究所,是EMBL在英国Hinxton的分部,主要负责建立EMBL-DNA数据库,可进行核苷酸序列检索及序列相似性查询。
目前此数据库由其分支机构—EBI(the European Bioinformatics Institute,欧洲生物情报研究所)维护。
DDBJ日本DNA数据库DDBJ(DNA Data Bank of Japan),于1984年建立,是世界三大DNA数据库之一,与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库,每日交换更新数据和信息,并主持两个国际年会-国际DNA数据库咨询会议和国际DNA数据库协作会议。
DDBJ 主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列,数据库通过WWW环球网,匿名FTP,e-mail或Gopher方式为广大研研究人员服务。
蛋白数据库:ExPASyExPASy 是由位于瑞士日内瓦的 Swiss Institute of Bioinformatics 所建立,为全世界最重要的蛋白质资料库之一,也是GCG 最主要的蛋白质资料来源。
主要内容包括蛋白质序列,构造及2-D PAGE (Two -dimentional polyacrylamide gel electrophoresis ) 的多个重要资料库,以及蛋白质序列和构造工具,FTP Server 和相关讯息。
有许多用于分析上所需的工具,包括蛋白质功能预测、序列搜寻及比对,二级,三级和四级结构的预测等等。
ExPASy Proteomics tools包括Protein identification tools ,Protein characterization tool s,以及Sequence analysis tools三大部分,具体有:✓Aldente:利用肽指纹图谱来辨别蛋白质。
✓Rasmol:观看生物分子3D微观立体结构的软件,可以旋转,以多个模式观看,并可以存成普通图形文件。
✓MolMol:将PDB等格式的蛋白质文件通过微调,存成普通的图形文件。
✓CLUSTALW:用来对蛋白质序列进行多序列比较的工具。
多序列比较在分子生物学中是一个及基本方法,用来发现序列特征,进行蛋白质分类,证明序列见得同源性,帮助预测序列二级结构与三级结构,确定PCR引物,以及分子进化分析。
✓Fasta3:在internent上有许多的在线FASTA 查找服务,查找某数据库中的同源序列,也可下载后离线使用。
✓BLAST:在数据库中查找某一序列的类似序列,目前在internet上有许多的在线查找BLAST程序。
专门用于查找各大数据库中与用户提交序列类似的序列,分别为blastp,blastn,blastx,tblastn,tb lastn.✓VMD: 用来显示生物分子的微观立体结构,可以利用内建的功能,做出动画效果。
✓Swiss-PdbViewer:是一个界面友好的应用程序,使用方便,可以同时分析几个蛋白质的PDB文件,可以将几个蛋白质叠加起来用来分析结构类似性,比较活性位点或其他有关位点,通过菜单操作与直观的图形,可以很容易获得氢键,角度,原子距离,氨基酸突变等数据。
✓Astex Viewer:三维分子显示控件,用来在网页中以及office各个软件的文件中,VB,VC应用程序中显示三维分子,支持许多标准的三维分子格式。
✓PHYLIP:进行进化树分析,可以分析DNA与蛋白质序列,限制位点等,可以绘制进化树,程序含有多种选项可以精确控制与分析。
✓TREE PUZZLE:核酸序列,蛋白质序列相似性分析以及进化树构建工具,根据序列数据的最大相似性来构建进化树,可对大量数据进行快速分析构建,程序还包含多个统计测试。
✓FindMod:预测潜在的蛋白质翻译后修饰和蛋白质中潜在的单氨基酸替换.✓FindPept:综合分子量的信息、化学修饰,翻译后修饰等其他信息共同来鉴定蛋白✓GlycoMod:预测可能的oligosaccharide结构.✓SWISS-MODEL:一个自动的蛋白质建模服务,如果一个3维结构未知的蛋白质的序列和已知三维结构的蛋白质的序列有很近的相似关系,那么就可以使用这个工具来构建这个蛋白的3维模型.✓ProtParam:计算一个蛋白质序列的理化参数例如氨基酸残基位置,等电点,原子位置等✓ScanProsite:输入序列或SWISS-PROT 编号即可,能够得到超过50 种待测蛋白的特征。
可沿序列计算每个残基位点的移动平均疏水性,并给出疏水性-序列曲线。
PDB/RCSB (Protein Database)Protein Data Bank (PDB)是美国RCSB (Reserach Collaborotory for Structural Bioinformatics;由Rutger大学、位于UCSD之San Diego Supercomputer Center及National Institute of Standards and Technology所组成)所维持的蛋白质数据库,收集了包括以x-ray diffraction及NMR取得之生物大分子3D结构信息。
在2002年9月,它包含有16823种蛋白,761种蛋白核酸complex,1089种核酸及18种碳水化合物的3D结构 (图二)。
PIR亦自PDB选取部分结构成立NRL-3D数据库,使用ATLAS这种multi-database information retrieval program进行搜寻大分子序列数据。
PDB除了有自行开发之软件外,亦可连接至主要之crystallograph, NMR, modeling and simulation软件/网站。
SWISS-PROTSWISS-PROT 数据库是最齐全的注释精炼的蛋白序列库,建立于1986年,1987年起由日内瓦大学(University of Geneva)医学生物化学系和EMBL 数据馆(即现在的欧洲生物信息研究所EBI)共同维护。
是欧洲最主要的蛋白序列数据库,世界两大蛋白序列数据库之一。
SWISS-PROT由EMBL核苷酸序列库翻译而来,附件TrEMBL数据库含有126,995条蛋白质序列,包括34,178,645个氨基酸残基。
每条蛋白质序列条目按照各种数据行的格式书写排列。
PIRPIR(Protein Identification Resource)为PIR-International 这个大分子序列资料收集中心所维持的蛋白质序列鉴定数据库。
由美国国家生物医学研究基金会(National Biomedical Research Foundation)维护。
是美国最主要的蛋白序列数据库,为世界两大蛋白序列数据库之一。
此中心包括National Biomedical Research Foundation (NBRF) 的Protein Information Resource (PIR),日本的Japan International Protein Information Database及Martinscried Institute for Protein Sequence (MIPS)。
搜寻之程序可自NBRF-PIR数据库网页取得。