Ensembl数据库简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ensembl数据库说明
1、简介
Ensembl是一个由英国Sanger研究所Wellcome基金会(WTSI)和欧洲分子生物学实验室所属分部欧洲生物信息学研究所(EMBI-EBI)共同协作运营的一个项目。
这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园(Wellcome Trust Genome Campus)内。
Ensembl计划开始于1999年,人类基因组草图计划完成前的几年。
即使在早期阶段,也可明显看出,三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。
因此Ensembl的目标是自动的基因组注释,并把这些注释与其他有用的生物数据整合起来,通过网络公开给所有人使用。
Ensembl数据库网站开始于July 2000,是一个真核生物基因组注释项目,其侧重于脊椎动物的基因组数据,但也包含了其他生物,如线虫,酵母,拟南芥和水稻等[4]。
近年来,随着时间推移,越来越多的基因组数据已经被添加到了Ensembl,同时Ensembl可用数据的范围也扩展到了比较基因组学、变异,以及调控数据。
参与Ensembl计划的人也在稳步增加,目前Ensembl的组员有40到50个人,分成几个小组。
Genebuild小组负责不同物种的gene sets创建。
他们的结果被保存在核心数据库中,该数据库由Software小组进行运维。
Software小组还负责BioMart数据挖掘工具的开发和维护。
Compara、Variation以及Regulation小组分别负责比较组学、突变以及调控的数据相关工作。
Web小组的工作是确保所有的数据能够在网站页面上,通过清晰和友好用户界面呈现出来。
最后,Outreach小组负责用户的答疑,以及提供全球范围内使用Ensembl 的研讨会议或知识培训。
[1]
2、Ensembl数据
08 Dec 2015,Ensembl发发布了最新的Ensembl 83版本数据。
①ftp:///pub/release-83/variation/vcf/homo_sapiens/
②192.168.174.69:/Share/database/pub//pub/release-
83/variation/vcf/homo_sapiens(izbox,全部数据约5.2G)
3、突变信息(Ensembl Variation)
The Ensembl Variation database stores areas of the genome that differ between individual genomes ("variants") and, where available, associated disease and phenotype information。
[2]
1)突变信息解读
Ensembl的突变信息包含了所有物种的生殖细胞变异(germline variations),结构变异(structural variations),以及Ensembl转录本的consequences突变数据(All
consequences of the variations on the Ensembl transcriptome),上述数据都会根据不同的物种保存在不同的目录下。
对于human的数据,Ensembl还另外提供了somatic突变数据(All somatic mutations from the current Ensembl release),Ensembl转录本上somatic突变的
consequences数据(All consequences of somatic mutations on the Ensembl
transcriptome),phenotype相关的突变数据(All variations from the current Ensembl release that have been associated with a phenotype),以及临床相关的数据(All
variations from the current Ensembl release that have been described by ClinVar as being probable-pathogenic, pathogenic, drug-response or histocompatibility)。
对于每个物种的数据详细信息,可以参考相关VCF下各个物种子目录的README 详细描述。
而对应各个vcf格式的数据,其每一列数据所对应的意义,参考相关vcf数据文件的格式以及头文件信息描述。
2)突变信息链接
ftp:///pub/release-83/variation/vcf/homo_sapiens/
4、关联数据库关系
Ensembl 83关于人的数据来源关系如下图所示:[3]
5、概念说明
略。
6、参考资料
[1] /info/about/index.html
[2] /info/genome/variation/index.html
[3] /info/genome/variation/sources_documentation.html
[4] 《00.Public Database的简介.pdf》. BGI。