生物信息学_常用数据库介绍_20131204
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
MIAME
• NCBI数据库
数据类型 Series Samples Platforms DataSets
数据库
– GEO (Gene Expression Omnibus )
编号格式 GSE###### GSM###### GPL###### GDS#### 数据统计 43,265 1,037,453 12,290 3,413
– 查找基因的所有转录本及序列
数据库
• UniProt ( Universal Protein ) – http://www.uniprot.org/
– 信息最丰富、资源最广的蛋白质数据库。它由整合SwissProt、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。他的数 据主要来自于基因组测序项目完成后,后续获得的蛋白 质序列。它包含了大量来自文献的蛋白质的生物功能的 信息。
分子类型 基因组DNA mRNA RNA 蛋白质 格式 NC_###### NM_###### NR_###### NP_######
数据库
• NCBI数据库
– HomoloGene
• 同源基因数据库
数据库
进入:http://www.ncbi.nlm.nih.gov/homologene
键入TARDBP,点Search
数据库
• UCSC Genome Bioinformatics – http://genome.ucsc.edu/ – 查看特定序列在基因组上的位置 Zoom out 3x
数据库
• 文献检索 – PubMed (Public + Medicine)
• http://www.ncbi.nlm.nih.gov/pubmed • 免费的检索引擎,提供生物医学方面的论文检索以及 摘要。它的数据库来源为MEDLINE。其核心主题为医 学,但也包括其他与医学相关的领域,像是护理学或 者其他健康学科。它同时也提供对于相关生物医学信 息上相当全面的支持,像是生物化学与细胞生物学。 由美国国立医学图书馆提供,作为 Entrez 检索系统的 一部分。PubMed 并不包括期刊论文的全文,但可能提 供指向全文提供者(付费或免费)的链接。
数据库
• 文献检索 – ISI Web of Knowledge
• http://wokinfo.com/ • ISI Web of Knowledge是Thomso Scientific公司开发的信 息检索平台,通过这个平台用户可以检索关于自然科 学、社会科学、艺术与人文学科的文献信息,包括国 际期刊wk.baidu.com免费开放资源、图书、专利、会议录、网络 资源等,可以同时对多个数据库(包括专业数据库和 多学科综合数据库)进行单库或跨库检索,可以使用 分析工具,可以利用书目信息管理软件。
GDS4513 结肠癌表达谱芯片数据
• NCBI数据库
– SRA (Sequence Read Archive)
数据库
数据库
• ENSEMBL – http://asia.ensembl.org/index.html
– ENSEMBL是一项生物信息学研究计划,旨在开发一种能够 对真核生物基因组进行自动诠释(automatic annotation)并 加以维护的软件。该计划由英国Sanger研究所Wellcome基 金会及欧洲分子生物学实验室所属分部欧洲生物信息学 研究所共同协作运营。
实例
GDS4513 结肠癌表达谱芯片数据
– GSE18088 – GSM452148-GSM452200 (53 patients) – GPL570( [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array )
• NCBI数据库
数据库
数据库
• UniProt ( Universal Protein ) – http://www.uniprot.org/
– 查询蛋白质的信息
数据库
• UniProt ( Universal Protein ) – http://www.uniprot.org/
– 查询蛋白质的信息
Q13148
– – – – – – – – Names and origin Protein attributes General annotation (Comments) Ontologies Binary interactions Sequence annotation (Features) Sequences References
数据库
• UCSC Genome Bioinformatics – http://genome.ucsc.edu/ – 查看特定序列在基因组上的位置
Tools-->Blat
数据库
• UCSC Genome Bioinformatics – http://genome.ucsc.edu/ – 查看特定序列在基因组上的位置
– Cross-references
数据库
• UCSC Genome Bioinformatics – http://genome.ucsc.edu/
– 快速浏览整个基因组 – 整合了大量的基因组注释数据 – 支持数据库检索和序列比对
数据库
• UCSC Genome Bioinformatics – http://genome.ucsc.edu/
谢谢大家!
数据库
• ENSEMBL – http://asia.ensembl.org/index.html
– 查找基因的所有转录本及序列
数据库
• ENSEMBL – http://asia.ensembl.org/index.html
– 查找基因的所有转录本及序列
数据库
• ENSEMBL – http://asia.ensembl.org/index.html
• 新发现的DNA或者 RNA的序列可以提 交到GenBank • 我们实验室发现的 中等长度的非编码 RNA:HQ292100
• NCBI数据库
– Genome
• 超过1000个物种的基因组 (细菌,古细菌和真核生物) • viruses, phages, viroids, plasmids, and organelles
– GEO (Gene Expression Omnibus )
GDS4513 结肠癌表达谱芯片数据
单击
• NCBI数据库
数据库
– GEO (Gene Expression Omnibus )
GDS4513 结肠癌表达谱芯片数据
• NCBI数据库
数据库
– GEO (Gene Expression Omnibus )
数据库
• 文献检索 – HighWire Press
• http://highwire.stanford.edu/ • HighWire Press是全球最大的提供免费全文的学术文献 出版商,于1995年由美国斯坦福大学图书馆创立。最 初仅出版著名的周刊“Journal of Biological Chemistry”, 目前已收录电子期刊710多种,文章总数已达230多万 篇,其中超过77万篇文章可免费获得全文;这些数据 仍在不断增加。通过该界面还可以检索Medline收录的 4500种期刊中的1200多万篇文章,可看到文摘题录。 • HighWire Press收录的期刊覆盖以下学科:生命科学、 医学、物理学、社会科学
生物信息学
常用数据库介绍
陈小伟 非编码核酸实验室 中国科学院生物物理研究所 2013.12.04
常用数据库介绍
• 同学们的建议 • 常用数据库
– NCBI – ENSEMBL – UniProt – UCSC Genome Browser
• 文献检索
– PubMed – HighWire Press – ISI Web of Knowledge
同学们的建议
文献检索 具体介绍 • 分子标记技术以及分析方法 • 与蛋白质结构测定相关的最近进展 • 肿瘤和表观遗传相关,新发现的功能基因 • 以后常用的一些搜索软件和搜索方法,比 如NCBI上的all databases都用于干什么, 怎么用geneID去查找基因序列等
数据库
• NCBI (National Center for Biotechnology Information) – http://www.ncbi.nlm.nih.gov/ – Claude Pepper, 1988.11.04 • NCBI职能
– 利用数学和计算的方法在分子水平研究基本的生物医学 问题 – 为生物医学研究开发数据库和软件 – 制定数据库、数据存储与交换、命名规则的标准 – 维持与其他研究机构的合作,促进学术交流
• NCBI所有数据库介绍
– http://www.ncbi.nlm.nih.gov/guide/all/#databases_
原始芯片数据(CEL 或者 GPR文件) 标准化后的数据(矩阵) 重要的样本注释信息(对照组,实验组及处理的剂量等) 实验设计信息(原始数据与样本的对应关系,生物重复 与技术重复) – 芯片的注释信息(探针的序列,探针对应的基因) – 样品制备和数据处理的方法(标准化的方法) – – – –
Minimum Information About a Microarray Experiment
• NCBI数据库
– HomoloGene
• 同源基因数据库
数据库
TARDBP 同源基因
• NCBI数据库
– HomoloGene
• 同源基因数据库
数据库
TARDBP 同源基因
• NCBI数据库
数据库
– GEO (Gene Expression Omnibus )
• 存储基因芯片数据,二代测序数据及其他高通量技术获得 的数据 • 支持MIAME
数据库
• NCBI数据库
– RefSeq (Reference Sequence)
• 经过整理后的没有冗余的基因组DNA,转录本和蛋白质的 序列。 • 将为中心法则中自然存在的分子,从染色体到mRNA到蛋白 提供参考序列标准。 • RefSeq标准为人类基因组的功能注解提供一个基础。它们 为突变分析,基因表达研究,和多态发现提供一个稳定的 参考点
数据库
• NCBI (National Center for Biotechnology Information) – http://www.ncbi.nlm.nih.gov/
• NCBI数据库
数据库
– GenBank (http://www.ncbi.nlm.nih.gov/genbank)
• International Nucleotide Sequence Database Collaboration • EMBL, DDBJ