生物信息学云计算
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个信息分析的过程
• 大量的参考数据需求
数据收集 数据筛选
• •
大规模数据处理软件需求 计算资源需求
各种序列比对,组装,高级分析流程,统计分析等
计算资源 数据安全 系统维护
软件的使用与开发
Blastall?
SOAP?
SOAPdenovo?
Phrap?
10年5月18日
一个信息分析的过程
• 大量的参考数据需求
Search
(1) 关键词搜索
Search
(2)Limits 和 Advanced search
GenBank: The Nucleotide Sequence Database
GenBank Download: ftp://ftp.ncbi.nih.gov/genbank。 GenBank Handbook: http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=handbook&part=ch1 GenBank Flat File Format: http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html GenBank(http://www.ncbi.nlm.nih.gov/genbank/GenbankOverview.html), EMBL(http://www.ebi.ac.uk/embl/index.html), DDBJ (http://www.ddbj.nig.ac.jp/)。 三大核酸数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的 查询,三个 数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列 数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户 可以通过各种方式将核 酸序列数据提交给这三个数据库系统。数据库中的每条记 录代表一个单独、连续、附有注释的DNA或RNA片段
云计算的特点优势
快速满足业务需求 轻松快速获取服务 灵活可扩展 低成本、绿色节能 提高资源管理效率 集中化管理 维护专业化 系统部署和维护自动化程度提高
什么是生物信息云计算
NCBI BLAST
EnsEMBL BLAST/B源自文库AT
UCSC Genome Browse
BGI CLiMB
为什么要使用生物信息云计算
PubMed
PubMed是NCBI提供的检索服务,它提供了来自MEDLINE和其他 生物医学相关的超过200万条文献记录,同时提供其他许多相关文献的 链接。 PubMed Guide http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=helppubmed&part =pubmedhelp#pubmedhelp.PubMed_Quick_Start PubMed API http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/esearch_help.html http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/eutils_help.html http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=coursework&part= eutils
http://www.ncbi.nlm.nih.gov/
NCBI主页
Search
搜索规则和语法 1. AND OR NOT eg. human AND enzyme human AND enzyme NOT kinase human OR “homo sapiens” 2. ”” “alternative oxidase” alternative oxidase = alternative AND oxidase 3. 通配符(*) chrom*= all words beginning with “chrom” eg. chromosome
我们的工作
SaaS
PaaS
IaaS
运行逻辑
用户
数据中心 & 计算平台
标准化, API, Language
软件/流程/数据
应用开发人员
i.genomics.cn
公共数据库简介
NCBI简介
• NCBI(National Center for Biotechnology Information),建立于 1988年 • 主要任务 – 开发数据库 – 进行计算生物学研究 – 开发基因组数据分析的工具 – 发布生物医学信息等 • 对于数据库 – 管理数据库 – 提供Entrez数据库检索 – BLAST数据库序列搜索比对等
RefSeq
RefSeq:提供了校正的序列数据和相关的信息, 为相关分析提供使用的标准 。RefSeq数据库是一个 参考序列的非冗余集合,包括构建的基因组contig, mRNA,蛋白,也包含整个染色体。 ACCESSION格式 序列类型
NT_123456 NM_123456 NP_123456 NC_123456 构建的基因组contigs mRNAs proteins chromosomes
GenBank和RefSeq
Refseq源于GenBank,但是没有包括在GenBank中。因为GenBank综合了 他人所提交数据,并且不经处理。而refseq则是经过ncbi的努力,整合各方信息 的结果(GenBank+文献检索+算法预测)。 Refseq数据库中的序列也是有级别的。一条refseq记录刚刚建成时,它只 有来源于GenBank 的信息和一些与其他外部数据库的链接。此时,该记录尚未 被NCBI的员工加工并添加信息,被归为“provisional”一类的refseq序列。如 果该记录经过NCBI 检查并加入其它信息,那么便可以归入"reviewed"类了。 RefSeq中的序列信息采用与GenBank一样的格式(GBK)格式。但是RefSeq 序列具备独特的特点,便于我们加以识别:RefSeq序列的accesion number是 由字母前缀+下划线_+数字组成的,下划线是refseq序列独一无二的特征,并且 RefSeq序列还会有NCBI成员提供的comment信息。
大规模
平滑扩展
资源共享
动态分配
云计算的分类
按照是否公开发布服务: 公有云(Public Cloud) 混合云(Hybrid Cloud) 私有云(Private Cloud) 按照服务类型: 基础架构即服务(IaaS): Amazon EC2,S3 平台即服务(PaaS):Salesforce 软件即服务(Software as a Service,SaaS):NCBI
技术革新带来的数据膨胀(1)
技术革新带来的数据膨胀(2)
一种单基因疾病
一个信息分析过程
一个信息分析的过程
• 大量的参考数据需求
数据收集 数据筛选
• •
大规模数据处理软件需求 计算资源需求
各种序列比对,组装,高级分析流程,统计分析等
计算资源 数据安全 系统维护
对数据资源的考验
Human Ref. dbSNP HapMap 下载 OMIM HGMD … 格式转换 融合
BGI生物信息云计算平台及 常用数据库与数据格式简介
生物信息云计算
云计算的概念
什么是云计算
纵说风云的云计算概念
•维基百科认为:云计算是一种能够将动态伸缩的虚拟化资源通过互联网以服 务的方式提供给用户的计算模式,用户不需要知道如何管理那些支持云计算 的基础设施。 •Cloudcamp的创始人Reuven Cohen认为:云计算是一种基于Web的服务, 目的是让用户只为自己需要的功能付钱,同时消除传统软件在硬件、软件和 专业技能方面的投资。 •IBM公司科技策略与革新部副总裁 Irving Wladawsky-Berger认为:云计算就 是将以前那些需要大量软硬件投资以及专业技术能力的应用,以基于Web服 务的方式提供给用户。
数据收集 数据筛选
• •
大规模数据处理软件需求 计算资源需求
各种序列比对,组装,高级分析流程,统计分析等
计算资源 数据安全 系统维护
一次对计算资源的考验
3个个体 200天
6GB序列
800 CPU小时/GB
4800 CPU小时
100天
4.5TB图片
拷贝~4天
下载~100天
华大基因云计算 •收集这些资源耗费巨大,风险很高 •但恰是我们的长处 •我们需要一个解决方案使您可以随时随地 使用每秒千万亿次的超级计算机来解决自 己的问题,数以百计的专业信息分析人员 时刻准备提供帮助
Loucus ID
Sequence length
Molecular topology type division last modified date
[Title]
[Text word]
[Feature key]
GenBank division code
Feature
A complete list of features is available in the following places: 1. http://www.ncbi.nlm.nih.gov/projects/collab/FT/index.html 2. http://www.ncbi.nlm.nih.gov/Sequin/sequin.hlp.html 3. ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt
Growth of GenBank
GenBank Data
Year 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Base Pairs 680,338 2,274,029 3,368,765 5,204,420 9,615,371 15,514,776 23,800,000 34,762,585 49,179,285 71,947,426 101,008,486 157,152,442 217,102,462 384,939,485 651,972,984 1,160,300,687 2,008,761,784 3,841,163,011 11,101,066,288 15,849,921,438 28,507,990,166 36,553,368,485 44,575,745,176 56,037,734,462 69,019,290,705 83,874,179,730 99,116,431,942 Sequences 606 2,427 4,175 5,700 9,978 14,584 20,579 28,791 39,533 55,627 78,608 143,492 215,273 555,694 1,021,211 1,765,847 2,837,897 4,864,570 10,106,023 14,976,310 22,318,883 30,968,418 40,604,319 52,016,762 64,893,747 80,388,382 98,868,465
PRI - primate sequences ROD - rodent sequences MAM - other mammalian sequences VRT - other vertebrate sequences INV - invertebrate sequences PLN - plant, fungal, and algal sequences BCT - bacterial sequences VRL - viral sequences PHG - bacteriophage sequences SYN - synthetic sequences UNA - unannotated sequences EST - EST sequences (expressed sequence tags) PAT - patent sequences STS - STS sequences (sequence tagged sites) GSS - GSS sequences (genome survey sequences) HTG - HTGS sequences (high throughput genomic sequences) HTC - HTC sequences (high throughput cDNA sequences) ENV - Environmental sampling sequences