生物信息学资源检索与利用_2015_CDC_v3

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

6
http://www.ncbi.nlm.nih.gov/Sitemap/Summary/statistics.html
7
8
About TCGA
The Cancer Genome Atlas (TCGA) began as a three-year pilot in 2006 with an investment of $50 million each from the National Cancer Institute (NCI) and National Human Genome Research Institute (NHGRI). The TCGA pilot project confirmed that an atlas of changes could be created for specific cancer types. It also showed that a national network of research and technology teams working on distinct but related projects could pool the results of their efforts, create an economy of scale and develop an infrastructure for making the data publicly accessible. Importantly, it proved that making the data freely available would enable researchers anywhere around the world to make and validate important discoveries. The success of the pilot led the National Institutes of Health to commit major resources to TCGA to collect and characterize more than 20 additional tumor types.
1、核酸序列数据库

世界三大核酸序列数据库

美国的GenBank 欧洲的ENA(European Nucleotide Archive) 日本的DDBJ(DNA Data Bank of Japan) 共同构成国际核酸序列数据库联盟(International Nucleotide Sequence Database Collaboration,INSDC) 每日同步更新、数据共享
生物信息学资源检索与利用
李姣
li.jiao@imicams.ac.cn 中国医学科学院医学信息研究所
2015年4月



1、生物信息学内涵

2、生物信息学资源

核酸序列数据库 单核苷酸多态性数据库 基因表达数据库 蛋白质数据库

生物分子网络数据库

3、生物信息学在疾病研究中的应用
什么是生物信息学?
Kosuge, T., Mashima, J., Kodama,Y., et al., DDBJ progress report: a new submission system for leading to a correct annotation. Nucleic Acids Res, 2011. 42(Database issue): p. D44-49.

创建于1982年 每日更新,每两个月发布一个新版本 数据可公开访问,不受注册和IP限制 Entrez检索系统


数据获取方式:

输入关键词、限定检索字段查询 集成检索 输入一段序列查询 批量下载

BLAST序列相似性检索

FTP
18
Benson, D.A., Clark. K., Karsch-Mizrachi. I., Lipman, D.J., Ostell, J., Sayers, E.W., GenBank . Nucleic Acids Res. 2014. 42(Database issue):p.D32-37.
14
生物信息学资源

包括核苷酸序列、基因变异、基因表达谱、微小RNA、 蛋白质序列、蛋白质三维空间结构等 生物信息学资源的分类

根据访问权限


开放获取数据库(open accessible database) 订阅数据库(subscription database) 特定内容数据库(specific database) 整合数据库(integrated database) 原始数据库(raw database) 加工整理数据库(curated database)

Science Genome Map. Science, 2001. 291(5507): p. 1218. Human genomes, public and private. Nature, 2001. 409(6822): p. 745. Genomes Project, C., Abecasis, G.R., Altshuler, D., et al., A map of human genome variation from population-scale sequencing. Nature, 2010. 467(7319): p. 1061-1073. Clarke, L., Zheng-Bradley, X., Smith, R., et al., The 1000 Genomes Project: data management and community access. Nat Methods, 2012. 9(5): p. 459-462. Collins F.S. and Varmus H., A new initiative on precision medicine. N Engl J Med, 2015. 372(9): 793-5.
DDBJ

日本国家遗传学研究所(National Institute of Genetics,NIG) 创建并维护

创建于1987年 99%日本研究者的测序数据提交至DDBJ 基于DDBJ核酸序列文件格式(DDBJ flat file format) 利用唯一标识符检索 利用关键词检索 针对物种(Taxonomy)检索 BLAST序列相似性检索 FTP

数据获取方式:



20
RefSeq数据库(一)

同一序列片段可能被不同实验室测定并提交 为去除冗余序列数据,构建参照序列数据库(RefSeq)
精准医学是根据病人的基因组,环境和生活习惯来选择最佳的个体化治 疗方案,精准医学是个体化医学的发展和延伸。奥巴马在2015年国情询 文中将精准医学作为美国优先支持的几个目标之一,并将投入2.15亿美金。 精准医学的目标是癌症,长期的目标是拓展到心血管疾病,老年性疾病 等领域。 “Tonight, I'm launching a new Precision Medicine Initiative to bring us closer to curing diseases like cancer and diabetes — and to give all of us access to the personalized information we need to keep ourselves and our families healthier.” — President Barack Obama, State of the Union Address, January 20, 2015
3 days~16 genomes, one technician, ~$1,000
4
$1,000
Adapted from http://www.illumina.com/
5
what‘s the numbers of sequences and base pairs today?
Oct 2014 : Sequence: 178 millions Base pairs: 181 billions
11
N Engl J Med. 2015 Feb 26;372(9):793-5
http://www.nih.gov/precisionmedicine/inຫໍສະໝຸດ Baiduographic-printable.pdf 12
生物信息学的产生

产生背景

生物医学领域的大数据(Big Data)


高通量生物科学技术的发展 人类基因组计划(Human Genome Project)

千人基因组计划(1000 Genomes Project)


精准医疗(Precision Medicine Initiative)


需要收集、存储、分析海量生物医学数据,解释其中蕴含的生命科学意义

生物信息学(Bioinformatics) 一门新兴交叉学科!
13
生物信息学的研究

研究内容:
ENA

欧洲生物信息学研究所(European Bioinformatics Institute,EBI) 创建并维护

创建于1982年 基于一套独立的核酸序列数据格式

根据序列数据层级、数据类型、数据种类进行分类,定义相应的数 据结构

数据获取方式:


关键词检索序列数据 序列相似性检索 批量获取 (advanced research)
美国国立生物 技术信息中心 GenBank/NCBI
国际核酸序列数据库联盟 INSDC 欧洲生物 日本国家 信息学研究所 遗传学研究所 ENA/EBI DDBJ/NIG
INSDC的数据规模
17
GenBank

美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)创建并维护

编写程序(REST URLs和CRAM) FTP
19
Pakseresht, N., et al., Assembly information services in the European Nucleotide Archive. Nucleic Acids Res, 2014. 42(Database issue): p. D38-43.
http://cancergenome.nih.gov/
9
10
TCGA 数 据 的 收 集 、 共 享 与 利 用 实 施 过 程
[1]https://wiki.nci.nih.gov/display/TCGA/The+Cancer+Genome+Atlas
The precision medicine initiative by NIH

生物信息学(Bioinformatics)定义:
生物信息学是一门交叉学科,它包含了生物信息的获取、 加工、存储、分配、分析、解释等在内的所有方面,它 综合运用数学、计算机科学和生物学的各种工具来阐明 和理解大量数据所包含的生物学意义。
— 人类基因组计划总结报告,1995年
3
HiSeq X Ten



以DNA、RNA、蛋白质等生物分子数据库为主要研究对象 以数学、信息学、计算机科学为主要研究手段 以计算机硬件、软件和计算机网络为主要研究工具 对海量原始数据进行存储、管理、注释、加工,使之成为 具有明确生物意义的生物信息 查询、搜集、比较、分析生物信息,获取基因编码、基因 调控、核酸和蛋白质结构功能及其相互关系等理性知识 基于大量数据和信息,探索生命起源、生物进化,探索细 胞、器官和个体的发生、发育、病变、衰亡等生命科学现 象及其基本规律和时空联系

根据收录内容


根据数据加工程度

15
生物信息学资源

主要介绍开放获取的生物信息学资源

核酸序列(nucleic acid sequence) 单核苷酸多态性(SNPs) 基因表达谱(gene expression) 蛋白质 (protein) 通路(pathway)
16
相关文档
最新文档