研究生-生物信息学02数据库与序列获取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

“ID”为序列的标识符行,包括登录号、类型,分子的长度
文件体由序列本身所组成,由“SQ”标志的行开始。
生物信息学02-吴宪明 序列结束的标记是“//”。
蛋白质信息资源
SWISS-PROT (http://www.expasy.ch/sprot/) PIR (/) TrEMBL (http://www.expasy.ch/sprot/) PDB (/pdb/) NRL-3D (/pdb/)
2. PIR (/)
• 蛋白质信息资源数据库(Protein Information Resource,PIR),其主要 目的是提供按同源性和分类学组织的综合性、非冗余数据库,由位于美国华 盛顿的国家医学研究基金会(National Biomedical Research Foundation,NBRF)所支持的PIR、德国马普学会的慕尼黑蛋白质序列信 息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护 即EMBL核酸序列翻译数据库,这些序列尚未集成到SWISS-PROT中。网 址:/trembl/access.html 该数据库包括EMBL数据库 中所有的编码序列信息。 生物信息学02-吴宪明
日本国立遗传研究所
(Japan National Institute of Japan)
http://www.nig.ac.jp/index-e.html
生物信息学02-吴宪明
北京大学生物信息学服务器
密 苏 里 植 物 园 主 页
生物信息学02-吴宪明
BioSino
生物信息学02-吴宪明
生物学数据库
生物信息学02-吴宪明
数据库
• 是指长期储存在计算机内的、有组 织的、可共享的数据集合。
生物信息学02-吴宪明
• “数据库”作为短语最早使用的是在1963年6 月,System Development Corporation赞助举 办了一个题为“开发计算机管理中心数据库”
(“Development and Management of a Computer-centered Data Base”)
生物信息学02-吴宪明
生物信息学02-吴宪明
EMBL核酸数据库中的每一个序列数据被赋予一个登录 号,它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示, 而每一个文件分为文件头和文件体两大部分
文件头由一系列的信息描述行所组成,
文件头实际上对应于一个序列的注释(annotation) “AC”为登录号行; “XX”为分隔符号行; “DT”为创建和更新日期行 “DE”为序列描述行; “KW”为关键字行; “OG”行描述细胞组织; “OS”行描述生物体种属; “OC”行描述生物体分类信息; “RN”描述参考文献的编号; “RP”描述参考文献的页码; “RA”描述参考文献的作者; “RT”描述参考文献的题目; “RL”描述参考文献的出处; “RC”描述参考文献的注解; “RX”、“DR”行描述交叉引用信息; “FH” 为特征开始符号; “FT”为特征表行 (1)Feature Key,它是描述域生物功能的关键字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述关于一个特征的辅助信息;
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
C
T TG AC A
G TG A
Genome Assembly
CGTGA
Database
不同的算法
C A
A TG CG GC T G
UniGene
GA
美国国家生物技术中心 NCBI
( National Center for Biotechnology Information) /
网址:/
① UniProt Knowledgebase (UniProt),提供目前所有 经过详细注释的蛋白质序列、功能、分类方面信息; ② UniProt Non-redundant Reference (UniRef),类似 于NCBI的RefSeq,提供没有冗余的精简的信息(有 利于提高搜索效率); ③ UniProt Archive (UniParc)储存了大量蛋白质研究的 历史信息。 生物信息学02-吴宪明
如真核生物启动子数据库(Eukaryotic promoter database, EPD)和蛋白 质序列中的共同结构和功能基序数据库(Prosite database)等。
生物信息学02-吴宪明
C TC T ATC TC A TA TA G C C CG TG CG A
管理
实验室 A AC G TT TTGACA A TA CT TA ATTG G A GC TA AC CC TGA CG AC AC G T TATAGCCGTATAGCCG A TATAGCCG TA TA TATAGCCG TG ATTG T TA TT A C
核酸序列数据库
(基因、基因组、RNA)
蛋白质序列数据库
(蛋白质序列、蛋白质结构、蛋白质相互作用、蛋白质组)
其他数据库
(如:代谢通路、转录因子、内切酶、模式生物……)
生物信息学02-吴宪明
常用数据库——《核酸研究》
• 从1994年开始,《核酸研究》(Nucleic Acid Research)杂志每年第一期为生物学数据库专集, 介绍各种生物学数据库,这一期是免费的。杂志的 网络地址是:/ • 生物数据库专集 /nar/database/c
生物信息学02-吴宪明
Oxford University Press (分子数据库专集)
生物信息学02-吴宪明
美国科学情报研究所(InstituteforScienceInformation,ISI)编辑出版的《科学引 文索引》(ScienceCitationIndex,SCI)是国际上科技领域最为著名的四大索引 之一,也是目前公认的衡量科研单位和研究人员学术水平的重要工具。SCI收 录期刊的一个重要依据是影响因子(ImpactFactor,IF), 是美国《SCI》创始 人加菲尔德(Egarfield)1972年提出的,评价期刊的指标影响因子是指某年某期 刊在前两年中被SCI收录的期刊引用的次数与这两年该期刊发表的论文总数 的比值, 它代表该期刊被同行的认可程度 。影响因子是衡量一种期刊权威大 小的重要标志, 某期刊的影响因子越大, 即它在本学科的作用越大;而核心期 刊是在某一学科中, 覆盖了该学科的大部分文献的“少数期刊”。 生物信息学02-吴宪明 查询:2-吴宪明
DNA数据库
三大核酸数据库(包括基因组信息资源):
1. 美国国家生物技术中心(NCBI)维护的GenBank数 据库
/ /entrez/query.fcgi?db=Nucleotide
生物信息学02-吴宪明
GenBank
——创建于1982年
生物信息学02-吴宪明
EMBL-EBI (UK) ——创建于1982年
密 苏 里 植 物 园 主 页
生物信息学02-吴宪明
EMBL (Germany)
生物信息学02-吴宪明
DDBJ
——创建于1986年
密 苏 里 植 物 园 主 页
生物信息学02-吴宪明
蛋白质结构数据库
• 蛋白质数据库(Protein Data Bank,PDB)由美 国自然科学基金会、能源部和国立卫生研究院共 同投资建立,主要由X射线晶体衍射和核磁共振 (NMR)测得的生物大分子三维结构所组成,用户 可直接查询、调用和观察库中所收录的任何大分 子三维结构。 此数据库的网址为:/pdb/
A AT GTG CTGA CT ACG A TGC
TA TA GC CG CG GC A TAT
G GAGAG A A
T C TC生物信息学02-吴宪明 ATT TC TA A
C TC ATC TT A
AT
A TT G AC TA
G GAGAG A A AT TG A CT A GA GAGAGA
3. TrEMBL,Translated EMBL,

Swiss-Prot & TrEMBL
密 苏 里 植 物 园 主 页
生物信息学02-吴宪明
PIR
密 苏 里 植 物 园 主 页
生物信息学02-吴宪明

欧洲生物信息学研究所(EBI) 将3个蛋白质数据 库(即PIR 、SWISS-PROT和TrEMBL)统一 起来,建立了Unified Protein Database,缩 写为UniProt
2. 欧洲生物信息学研究所(EBI)维护的EMBL数据库
/embl/
3. 日本国立遗传研究所维护的DDBJ数据库(DNA Data Bank of Japan)http://www.ddbj.nig.ac.jp/
生物信息学02-吴宪明
这三大数据库虽然各自有不同的数据记录格式,但对 核酸序列均采用相同的记录标准,同时每天交换数据 以达到数据更新和一致。从地域角度看,EMBL主要负 责收集欧洲的数据,GenBank负责美洲,DDBJ负责亚 洲。由于国际互联网的发展,用户可以任意的向其中 任意一个数据库提交序列,所提交的序列也将从公布 之日起同时在三大数据库中出现。
的研讨会。 • 数据库作为一个独立的单词大量出现在70年代 初的欧洲,直到二十世纪末才被美国各大报纸 使用。
生物信息学02-吴宪明
• 近年来大量生物学实验的数据积累,形成 了当前数以百计的生物信息数据库。它们 各自按一定的目标收集和整理生物学实验 数据,并提供相关的数据查询、数据处理 的服务。 • 随着因特网的普及,这些数据库大多可以 通过网络来访问,或者通过网络下载。
---全球最大的生物信息资源中心
DNA 序列、蛋白质序列、出版物、数据挖掘工具等
生物信息学02-吴宪明
NCBI主页
生物信息学02-吴宪明
欧洲生物信息学研究所 EBI
(European Bioinformatics Institute)
生物信息学02-吴宪明
生物信息学02-吴宪明
数据库应用
• 数据查询: 数据库的“各有所爱”与研究者的“各取所需” • 数据相似性搜索: 相似结构→相似功能
生物信息学02-吴宪明
• 一般而言,这些生物信息数据库可 以分为一级数据库和二级数据库。
生物信息学02-吴宪明
• 一级数据库的数据都直接来源于实验获得的 原始数据,只经过简单的归类整理和注释; • 二级数据库是在一级数据库、实验数据和理 论分析的基础上针对特定目标衍生而来,是 对生物学知识和信息的进一步整理。
生物信息学02-吴宪明
蛋白质序列数据库
1. SWISS-PROT (http://www.expasy.ch/sprot/)
• 含有详细注释内容的蛋白质序列数据库,1987年由日内瓦大学医学系 (Department of Medical Biochemistry of the University of Geneva)和 EMBL(欧洲分子生物学实验室)共同维护,现在由EMBL分支机构EBI进行 维护,旨在帮助基因组和蛋白质组以及相关的分子生物学研究人员提供有关 蛋白质氨基酸序列的最新信息。
生物信息数据库与查询
生物信息学02-吴宪明
• “库,兵车藏也”,在中国古代把“库”这个词 表示为储藏武器战车的地方,随后词义演化 为“贮存东西的房屋或地方”。而“数据库”作 为一个独立的单词大量出现是在20世纪70年 代初的欧洲;我们可以把数据库看作是“人 们为解决特定的任务,以一定的组织方式存 储在一起的相关的数据的集合”。 • 形象点说就是“存储数据的仓库”,只是由于 存储在计算机中,才使“数据库”这个词变得 有些抽象而已。
相关文档
最新文档