生物信息数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
http://www.uniprot.org
UniProtKB
UniProt Knowledgebase(UniProtKB): Release 15.4 , 16-Jun-2009 ,包括:
Swiss-Prot Release 57.4 : 497293 entries TrEMBL Release 40.4 : 9145906 entries
UniProt
2002年在NIH资助下将PIR、Swiss-Prot和 TrEMBL合并为UniProt(Universal Protein Resource) 具有全世界最全面的蛋白质分类信息 包含三个子库
UniProtKB(UniProt Knowledgebase) UniRef(UniProt Reference Clusters) UniParc(Uniprot Archive)
三大核酸数据库之间的联系
二. 蛋白质序列数据库
蛋白质序列数据库
PIR
http://pir.georgetown.edu/
SwissProt
http://www.expasy.ch/sprot/
TrEMBL
http://www.expasy.ch/sprot/
PIR
1984年,蛋白质信息资源(Protein Information Resource,PIR)计划由美国 国家医学研究基金会(NREF)正式启动 1988年,日本的国际蛋白质信息数据库 (JIPID)和德国慕尼黑蛋白质序列信息中 心(MIPS)加入PIR 非冗余、高质量注释、全面分类
TrEMBL
1996年创建,意为“Translation of EMBL” 从EMBL的cDNA序列翻译而来,包含 EMBL数据库中所有核酸编码序列信息
ExPASy
http://www.expasy.org/
ExPASy Proteomics Tools
http://www.expasy.org/tools/
DDBJ
创建于1986年 NIG(National Institute of Genetics) 数据库查询工具:SAS 数据提交工具: Sequin http://www.ddbj.nig.ac.jp/index-e.html
INSDC
1998年,GenBank、EMBL和DDBJ共同 成立了国际核酸序列数据库协会 (International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每天将新测定或更新 的数据进行交换共享,保证数据信息的完 整与同步,每两个月更新一次版本。 http://www.insdc.org/
ColiBri网址:http://genolist.mirror.edu.cn/Colibri
TransFac网址:http://transfac.mirror.edu.cn
B) 蛋白质序列二级数据库
Prosite (蛋白质序列功能位点数据库) 始建于 1990 年代初,由瑞典生物信息学研究所 SIB 负责维 护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区 域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件Prosite;说明文件 PrositeDoc。
二级数据库简介
二级数据库的形式:大多以web界面为基础,具有文字信 息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。
(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特 色)
A) 基因组信息二级数据库
E. coli基因组数据库Colibri 德国Pastear研究所建立。 除具有浏览、检索、搜寻功能外,还对环状基因组实现可 视化。
Swiss-Prot
1986年,由瑞士日内瓦大学创建。 SIB(Swiss Institute of Bioinformatics) ExPASy(Expert Protein Analysis System) 所有序列条目均经过有经验的分子生物学 家和蛋白质化学家审核,因此又称为蛋白 质专家库
网址:http://genolist.mirror.edu.cn/Colibri/
TransFac (真核生物基因转录调控因子数据库) 德国生物工程研究所开发维护,始建于1988年。 包括顺式调控位点、基因、转录因子、细胞来源、分类和 调控位点核苷酸分布6个子库。
TransFac的网址:http://transfac.mirror.edu.cn
包含蛋白质序列全面的信息,提供准确、 丰富的序列与功能注释。 记录以6位字母和数字组成,例:Q5K8D3
Swiss-Prot Release 57.4
TrEMBL Release 40.4
UniRef
UniProt Refefence Clusters (UniRef) 通过CD-HIT算法把非常相似的序列聚类 根据序列Identity=100%,Identity>90%, Identity>50%进行聚类合并,形成 UniRef100、UniRef90和UniRef50三个子 库,加速同源搜索。 记录以UniRefXX开头加UniProtKB的 Accession表示,例:UniRef90_O70405
生物分子数据库几个明显的特征:
(1)数据库的更新速度不断加快
数据量呈指数增长趋势
(2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用
(6)先进的软硬件配置
建立分子生物信息数据库的流程图
一. 核酸序列数据库
三大核酸序列数据库
GenBank
http://www.ncbi.nlm.nih.gov/Genbank/index.html
GenBank中测序最多的20个物种
v173.0,2009.09
Refseq
1. 提供高质量的,无冗余的,完整的序列 信息; 2. 包括基因组的DNA,转录成的RNA以及蛋 白质序列信息。 3. 序列文件的标识符:
mRNA序列:NM_001158 非编码RNA:NR_002769 蛋白质序列: NP_001159 http://www.ncbi.nlm.nih.gov/RefSeq/
UniParc
UniProt Archive (UniParc) 存储所有公共数据库中有效的蛋白质序列 数据,包括序列的来源及来源数据库的链 接。 记录所有蛋白质的当前状态和历史信息 记录以UPI开头,例:UPI000005E9D0
三. 蛋白质结构数据库
(1)PDB (Protein Data Bank)
从GenBank中选择同一物种的核酸信息组 成的二级库
部分生物基因组计划网址
老鼠(Mouse) http://www.informatics.jax.org/mgd.html 小鼠(Rat) http://ratmap.gen.gu.se 狗(Dog) http://mendel.berkeley.edu/dog.html 牛(Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪(Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊(Sheep) http://dirk.invermay.cri.nz 鸡(Chicken) http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼(Zebra fish) http://zfish.uoregon.edu 线虫(C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇(Drosophila) http://morgan.harvard.edu 蚊子(Mosquito) http://klab.agsci.colostate.edu 拟南芥(Arabidopsis) http://genome-www.stanford.edu/Arabidopsis 棉花(Cotton) http://algodon.tamu.edu 玉米(Maize) http://www.agron.missouri.edu 水稻(Rice) http://www.staff.or.jp 大豆(Soya) http://mendel.agron.iastate.edu:8000/main.html 树(Trees) http://s27w007.pswfs.gov
显示分子结构(RasMol , ChemView )
四. 基因组数据库
基因组数据库
收集某些生物整个基因组序列的数据库 基因组计划
Human Genome Project
http://www.sanger.ac.uk/HGP/
C. elegans Prwenku.baidu.comject
http://www.sanger.ac.uk/Projects/C_elegans/
分子生物信息数据库简介
一级数据库 直接来源于实验获得的原始数据,只经过简单的归类、整理 和注释。 一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ 数据库 一级蛋白质序列数据库:SWISS-PROT库、PIR库 一级蛋白质结构数据库:PDB数据库 二级数据库 在一级数据库、实验数据和理论分析的基础上,针对不同的 研究内容和需要,对生物学知识和信息的进一步整理得到的数 据库。 人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、 蛋白质序列功能位点数据库Prosite等。
EMBL(European Molecular Biology Laboratory)
http://www.ebi.ac.uk/embl/
DDBJ(DNA Data Bank of Japan)
http://www.ddbj.nig.ac.jp/index-e.html
GenBank
1982.4 由Los Alamos National Lab创建 NCBI (National Center for Biotechnology Information) NIH (National Institute of Health) 数据库查询工具:Entrez 数据提交工具: Sequin Nucleic Acids Research, 2008 Jan;36(Database issue):D25-30
http://www.rcsb.org
由 Brookhaven National Laboratories 创办 67,506 个结构图(2011.5.20) 蛋白质 核酸 其它
PDB网址:http://www.rcsb.org/pdb(美国)
wwPDB
2003年,PDB(RCSB),MSD-EBI (EBI),PDBj(Japan)组建了全球范 围的PDB库(worldwide PDB,wwPDB) 数据共享,统一数据格式 数据集中存储,尚未提供数据检索服务 http://www.wwpdb.org/
GenBank VS. RefSeq
EMBL
1982.3 由德国科隆大学收集整理 EBI(European Bioinformatics Institute) 数据库查询工具:SAS (开源) 数据提交工具:WebIn, Sequin http://www.ebi.ac.uk/embl/
Prosite网址:http://cn.expasy.org/prosite
C) 蛋白质结构二级数据库
DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库
DSSP的网址:http://www.cmbi.kun.nl/gv/dssp/