收藏级资源肿瘤数据库汇总

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收藏级资源|肿瘤数据库汇总
现如今，随着人们生活方式和环境的改变，恶性肿瘤已经成为疾病死亡病因之一。

肿瘤在全球呈现发病率增高，以及发病年龄年轻化的趋势。

2019年，A Cancer Journal For Clinicians杂志发布了最新的数据。

该报告估计，2019年美国将有1,762,450例新的癌症病例和606,888例与癌症相关的死亡。

传统化疗是对抗癌症的常见方法，但它会攻击全身，造成不必要的副作用，如脱发，恶心和疲劳。

靶向治疗选择性地杀死癌细胞而不影响健康组织。

靶向药物开发将成为治疗癌症的重要手段。

图1 肿瘤靶向治疗
高通量检测技术迅速发展，使得与肿瘤相关的组学数据迅速积累。

这些数据对于研究肿瘤的发生发展机制具有重要意义。

对数据的挖掘能够确定许多与疾病有关的基因，为治疗和发病机制的研究提供新的思路。

如何有效利用和存储这些信息就显得尤为重要。

肿瘤的生物信息学数据库的建立提供了有效的解决方案，对肿瘤基础研究的发展、临床治疗水平的提高具有极大的推动作用。

以下是一些肿瘤相关的数据库分类和大致的信息。

1. 综合性肿瘤数据库
2. 肿瘤基因组数据库
3. 肿瘤DNA甲基化数据库
4. 肿瘤转录组数据库
5. 肿瘤蛋白组数据库
6. 肿瘤相关基因的数据库
7. 肿瘤与药物数据库
1. 综合性肿瘤数据库
综合肿瘤数据库汇总如表1所示。

表1综合性肿瘤数据库
以下是对数据库的简要概述
1.1 canEvolve[1]
canEvolve存储的信息包括：基因、microRNA (miRNA)和蛋白质表达谱、多种癌症类型的拷贝数变化(CNAs)以及蛋白质-蛋白质相互作用信息。

1.2 cBioPortal for Cancer Genomics (cBioPortal)[2]
cBioPortal for Cancer Genomics是一个癌症基因组数据探索、可视化及分析平台，可用于多个癌症基因组学数据集的交互式探索。

该数据库可提供CNA、基因突变信息。

针对每个基因，它可给出多个信息，主要包括：基因的CAN信息、基因突变在样本中的分布、突变位点和频率、共表达基因以及生存曲线等。

对于用户提供的基因列表，还可生成互作网络并提供已知的相互作用的药物。

cBioPortal在发现肿瘤相关突变、分析基因的生物学功能以及药物选择等方面的研究中具有重要推进作用。

图2 cBioPortal数据库的主页
1.3 Cancer Genome Anatomy Project (CGAP)[3]
CGAP网站主要提供了cDNA克隆、文库、基因表达、SNP以及基因组变异等信息。

CGAP收集的数据包括正常组织、前癌组织以及癌细胞的基因表达水平。

图3 CGAP的主页
1.4 Cancer Genomics Hub (CGHub)[4]
CGHub是美国国家癌症研究所(NCI)测序项目的在线存储库，其数据来源包括癌症基因组图谱(TCGA)、癌症细胞系百科全书(CCLE)和产生有效治疗(目标)项目的治疗应用研究(TARGET)3个国家癌症协会项目，数据来自25种不同类型的癌症。

1.5 Cancer Genome Work Bench (CGWB)[5]
CGWB提供了一系列工具来挖掘、整合以及可视化TCGA等数据库中的基因组和临床数据，它是第一个将临床肿瘤突变谱与参考人类基因组整合在一起的计算平台。

用户可快速地比较患者临床信息与基因组的变异及甲基化等。

1.6 Catalogue of Somatic Mutations in Cancer (COSMIC)[6]
COSMIC是世界上最大最全面的有关肿瘤的体细胞突变以及其影响的资源库。

它主要提供多种肿瘤细胞基因组中的CNA、甲基化、基因融合、SNP及基因表达等信息。

这些突变信息是从科学文献中手工整理的。

图4 COSMIC的主页
1.7 International Cancer Genome Consortium (ICGC)[7]
ICGC的目标是获取包括胆道癌、膀胱癌、血癌等多达50种肿瘤及其亚型的基因组、转录组和表观遗传的全部信息。

这些数据可促进癌症的机理和治疗研究。

图5 ICGC的主页
1.8 The Cancer Genome Atlas (TCGA)[8]
TCGA是由美国国立癌症研究所（NCI）和国家人类基因组研究所资助，关注与癌症的发生和发展相关的分子突变图谱。

该数据库主要对样本进行外显子组和基因组测序分析，所提供的数据包括：基因组拷贝数变化、表观遗传、基因表达谱、miRNA等。

图6 TCGA的主页
1.9 UCSC Cancer Genomics Browser[9]
UCSC Cancer Genomics Browser是一个可以对癌症基因组学和临床数据进行整合、可视化、分析的网络分析工具。

它保存癌症基因组及临床数据并收集了样本的多种信息，包括基因表达水平、CNA、通路信息等。

在UCSC的癌症
基因组浏览器中，可实现不同样本以及癌症类型之间的比较，分析基因组变异与表型之间的相关性。

图7 UCSC癌症基因组浏览器主页
2. 肿瘤基因组数据库
肿瘤细胞的基因组中都存在着大量的变异，主要包括染色体结构的变异、CNA、基因融合以及SNP等。

拷贝数改变(CNAs)在很大程度上有助于癌症发病机制和进展。

肿瘤基因组数据库汇总如表2所示。

表2肿瘤基因组数据库
2.1 ArrayMap[10]
ArrayMap提供预处理过的肿瘤基因组芯片数据以及CNA图谱。

在ArrayMap
数据库中，用户可搜索自己感兴趣的样本，并在此基础上分析感兴趣的基因或基因组片段上的CNA；用户还可以比较两个样本之间的CNA的差异。

图8 ArrayMap的主页
2.2 BioMuta[11]
BioMuta数据库存储了癌症细胞中基因的非同义单核苷酸变异，这些突变会影响基因的正常功能。

BioMuta中的数据来源于COSMIC、ClinVar、UniProtKB 以及一些文献中。

用户可搜索感兴趣的基因，获得该基因在癌细胞中的突变位点及其分布频率。

图9 BioMuta的主页
2.3 Cancer GEnome Mine (CanGEM)[12]
CanGEM是一个公共的数据库，用于存储定量微阵列数据和临床肿瘤样本数据。

它主要利用ArrayCGH芯片来发掘基因的拷贝数变异。

图10 CanGEM的主页
2.4 Cancer Genome Project (CGP)[14]
CGP提供了肿瘤中的CNA及基因型信息，该数据库的主要目标是利用人类基因组序列和高通量的突变检测技术识别体细胞突变，进而发现人类肿瘤发生过程中重要的基因。

该数据库还提供了一些识别突变、CNA的软件，如BioView、GRAFT等。

图11 CGP主页
3. 肿瘤DNA甲基化数据库
DNA甲基化修饰是表观遗传学的一种重要形式，它调节基因的转录水平，对维持细胞的正常功能起着重要作用。

DNA甲基化模式的改变可能导致癌症。

肿瘤DNA甲基化数据库汇总如表3所示。

表3肿瘤DNA甲基化数据库
3.1 DiseaseMeth[15]
DiseaseMeth是一个人类疾病甲基化数据库，其重点是对各种疾病的DNA 甲基化数据集进行有效的存储和统计分析。

它涉及的疾病包括癌症、神经发育和退行性疾病、自身免疫疾病等。

在DiseaseMeth中可以比较疾病与疾病之间、基因与基因之间以及疾病与基因之间的甲基化关系。

图12 DiseaseMeth的主页
3.2 MENT[16]
MENT数据库收集和整合了来自Gene Expression Omnibus(GEO)和TCGA 的DNA甲基化、基因表达水平数据，同时将DNA甲基化和基因表达水平关联起来。

图13 MENT的主页
3.3 MethHC
MethHC是一个集成数据库，包含大量DNA甲基化数据和
mRNA/microRNA在人类癌症中的表达谱。

这些数据可以帮助研究人员确定表
观遗传模式。

图14 MethHC的数据生成流程[17]
3.4 MethyCancer[18]
该数据库拥有来自公共资源的高度整合的DNA甲基化数据、癌症相关基因、突变和癌症信息，以及我们大规模测序得到的CpG Island (CGI)克隆。

MethyCancer可用于研究DNA甲基化、基因表达与癌症的相互作用。

图15 MethyCancer的主页
除了上述针对癌症基因组甲基化的数据库外，还有一些数据库搜集和整理更为广泛的甲基化数据，如MethDB和NGSmethDB。

MethDB是较早的DNA甲基化数据库，主要集中于环境因子对甲基化的影响；
NGSmethDB叫基于高通量测序数据，最近更新中还包含了SNP信息，以便后续分析。

4. 肿瘤转录组数据库
肿瘤细胞具有较强的生长和繁殖能力，生命活动旺盛，因此与正常细胞相比，基因的转录水平和模式也存在较大的差异。

表4肿瘤转录组数据库
4.1 ArrayExpress[19]
ArrayExpress是基于微阵列和高通量测序(HTS)的功能基因组实验的主要知识库之一。

ArrayExpress中的所有数据都以MAGE-TAB格式提供。

图16 ArrayExpress的主页
4.2 ChiTaRS[20]
ChiTaRS数据库包含嵌合转录本和RNA-Seq数据。

ChiTaRS嵌合转录本和RNA-Seq数据数据库是由GenBank、ChimerDB、dbCRID、TICdb和其他用于人类、小鼠和苍蝇的数据库的表达序列标记(ESTs)和mRNA识别的嵌合转录本集合。

图17 ChiTaRS的主页
4.3 Gene Expression Omnibus (GEO)[21]
GEO是由美国国家生物技术信息中心(NCBI)建立的，其最初的目标是作为一个公共存储库，存储主要由微阵列技术生成的高通量基因表达数据。

此外，该数据库还包括比较基因组分析、描述基因组蛋白相互作用的染色质免疫沉淀分析、非编码RNA分析、SNP基因分型和基因组甲基化状态分析。

图18 GEO的主页
4.4 miRCancer[22]
miRCancer基于从文献中提取的结果，提供了较为全面的miRNA集合以及它们在多种肿瘤中的表达情况。

所有miRNA的癌变关联都是在自动提取后手动确认的。

图19 miRCancer的主页
4.5 Oncomine[23]
Oncomine主要提供癌症转录组数据。

它可提供基因在肿瘤样本和正常样本间、肿瘤样本和肿瘤样本间、正常样本和正常样本间的差异表达、基因表达谱、共表达基因等信息。

图20 Oncomine的主页
4.6 OncomiRDB[24]
OncomiRDB主要收集和注释通过实验验证的对癌症具有促进或抑制作用的miRNA信息。

该数据库的所有数据是通过人工收集和整理。

4.7 SomamiR[25]
SomamiR数据库集成了多种类型的数据，用于研究体细胞和种系突变对癌症中miRNA功能的影响。

该数据库主要收集miRNA及其靶序列上的突变。

另外，数据库还提供了存在miRNA靶序列体细胞突变且肿瘤相关的基因及其参与的通路。

图21 SomamiR的主页
5. 肿瘤蛋白组数据库
蛋白是生命活动的主要承担者，蛋白结构变异、蛋白修饰的改变以及蛋白含量的变化等导致细胞的生长和代谢变化是肿瘤发生的重要因素。

表5肿瘤蛋白组数据库
5.1 Cancer3D[26]
Cancer3D数据库整合了来自TCGA和CCLE的体细胞错义突变信息，在蛋白结构水平上分析其对蛋白功能的影响。

该数据库通过e-Driver和e-Drug两种算法，帮助用户分析突变的分布模式及其与药物活性变化的关系。

5.2 CancerPPD[27]
CancerPPD是一个抗癌肽(ACPs)和抗癌蛋白的储存库，在设计基于肽的抗癌
疗法中非常有用。

在CancerPPD中，针对每个条目，都有其详细的注释信息，如肽的来源、肽的性质、抗癌活性、N-和C-末端修饰、构象等。

除了天然肽，CancerPPD还含有非天然的、经过化学修饰的残基肽和D-氨基酸。

CancerPPD还整合了一些基于web的工具，包括关键字搜索、数据浏览、序列和结构相似性搜索。

图22 CancerPPD的主页
5.3 Cancer Proteome Variation Database (CanProVar)[28]
CanProVar数据库整合了来自各种公共资源的蛋白质序列变异信息，重点是癌症相关的变异，CanProVar中的数据主要来源于TCGA、COSMIC、
OMIM、HPI等数据库以及一些文献研究。

在该数据库中，用户可在网站中搜索特定蛋白或者某种肿瘤，获取蛋白的突变情况，在结果页面会给出蛋白的基本信息、GO注释以及相关的研究文献。

5.4 Clinical Proteomic Tumor Analysis Consortium (CPTAC)[29]
CPTAC整合了基因组和蛋白组的数据，旨在识别和描述肿瘤组织和正常组织中的全部蛋白，发掘可作为肿瘤生物标记的候选蛋白。

5.5 DbDEPC[30]
DbDEPC是一个专门收集肿瘤样本中出现的差异表达蛋白的数据库。

在该数据库中，你可以了解你所感兴趣的蛋白质是否在某些癌症中发生了变化。

6. 肿瘤相关基因的数据库
表6 肿瘤相关基因的数据库
6.1 DriverDB
DriverDB收集了来自TCGA、ICGC、TARGET等数据库的大量exome-seq 数据,并根据不同方面提供突变信息的可视化。

这些可视化结果将有助于用户快速了解驱动基因之间的关系。

图23 DriverDB的主页
6.2 Network of Cancer Genes (NCG)[31]
癌症基因网络(NCG)致力于收集关于人工筛选的已知和候选癌症基因的信息。

针对每个基因，用户可获得与该基因相关的功能和疾病注释信息、突变信息、表达谱、miRNA及蛋白互作关系等，还可以可视化miRNA调控关系和蛋白互作网络。

6.3 TP53MULTLoad[32]
TP53MULTLoad是一个人工收集的有关TP53突变和突变体资源中心，包含了UMDTP53数据库以及与TP53有关的信息。

它既可以作为一个容易操作的平面文件，也可以作为一个新的多平台分析软件，用于分析TP53突变的各个方面。

图24 TP53MULTLoad的主页
7. 肿瘤与药物数据库
表7 肿瘤与药物数据库
7.1 CancerDR
耐药性是肿瘤治疗的一大障碍，药物靶点突变是产生获得性耐药的主要原因之一。

对这些药物靶点突变的充分了解将有助于设计有效的个性化治疗。

CancerDR是一种针对癌症治疗的个性化药物的尝试。

CancerDR收集了148种抗癌药物以及它们在952种细胞系中的药理状况。

图25 CancerDR的各种应用[33]
7.2 CancerResource[34]
CancerResource通过文献挖掘以及整合多种数据源的方式收集并发现了大量化合物及其靶点的信息。

通过CancerResource数据库，你可以得到包含化合物与靶标的详细信息、表达图谱及相关数据来源链接等。

图26 CancerResource的主页
7.3 canSAR[35]
canSAR整合ArrayExpress、UniProt、COSMIC等11种数据源的数据。

它是一个支持癌症转化研究和药物发现的公共癌症综合知识库。

该数据库包含了包括生物学、药理学、化学、结构生物学和蛋白质相互作用网络等多种类型的数据。

图27 canSAR的主页
7.4 Genomics of Drug Sensitivity in Cancer (GDSC)[36]
GDSC是关于癌症细胞药物敏感性和药物反应分子标记的数据库，GDSC 提供了一个独特的资源，结合了大的药物敏感性和基因组数据集，以促进发现新的治疗生物标志物的癌症治疗。

该数据库中的癌基因组突变信息包括癌基因点突变、基因扩增与丢失、组织类型以及表达谱等。

图28 GDSC主页
7.5 Platinum[37]
Platinum是一个广泛收集耐药性信息的数据库，是为了研究和理解错义突变对配体与蛋白质组相互作用的影响而开发的。

该数据库包含超过1000种蛋白配体复合物的三维结构突变，以及这些突变对其亲和力的影响。

Platinum数据库将蛋白质结构突变与配体的亲和力关联起来，有助于研究由突变引起的疾病耐药性。

图29 Platinum的主页
Reference:
[1] Samur M K, Yan Z, Wang X, et al. canEvolve: A Web Portal for Integrative Oncogenomics [J]. PLOS ONE, 2013, 8.
[2] Gao J, Aksoy B A, Dogrusoz U, et al. Integrative Analysis of Complex Cancer Genomics and Clinical Profiles Using the cBioPortal [J]. Science Signaling, 2013, 6(269): pl1-pl1.
[3] Strausberg R L, Buetow K H, Emmert-Buck M R, et al. The Cancer Genome Anatomy Project: building an annotated gene index [J]. Trends in Genetics Tig, 2000, 16(3): 103-106.
[4] Wilks C, Cline M S, Weiler E, et al. The Cancer Genomics Hub (CGHub): overcoming cancer through the power of torrential data [J]. Database, 2014.
[5] Zhang J, Finney R P, Rowe W, et al. Systematic analysis of genetic alterations in tumors using Cancer Genome WorkBench (CGWB) [J]. Genome Research, 2007, 17(7): 1111-1117.
[6] Forbes S A, Beare D, Gunasekaran P, et al. COSMIC: exploring the world’s knowledge of somatic mutations in human cancer [J]. Nucleic Acids Research, 2015, 43(D1): D805-D811. [7] Banks R, LopezOtín, Carlos. International network of cancer genome projects [J]. Nature, 2010, 464(7291): 993-998.
[8] Chang K, Creighton C J, Davis C, et al. The Cancer Genome Atlas Pan-Cancer analysis project [J]. Nature Genetics, 2013, 45(10): 1113-1120.
[9] Benz S C, Craft B, Szeto C, et al. The UCSC Cancer Genomics Browser: update 2011 [J]. Nucleic Acids Research, 2013, 43(Database issue): 812-7.
[10] Cai H, Gupta S, Rath P, et al. ArrayMap 2014: An updated cancer genome resource [J]. Nucleic Acids Research, 2014, 43(D1).
[11] Wu T J, Shamsaddini A, Pan Y, et al. A framework for organizing cancer-related variations from existing databases, publications and NGS data using a High-performance Integrated Virtual Environment (HIVE) [J]. Database, 2014, 2014: bau022-bau022.
[12] Scheinin I, Myllykangas S, Borze I, et al. CanGEM: mining gene copy number changes in cancer [J]. Nucleic Acids Research, 2007, 36(Database): D830-D835.
[13] Cao Q, Zhou M, Wang X, et al. CaSNP: a database for interrogating copy number alterations of cancer genome from SNP array data [J]. Nucleic Acids Research, 2011, 39(Database issue): D968.
[14] Timms B. Cancer genome project to start [J]. European Journal of Cancer, 2000, 36(6): 687.
[15] Lv J, Liu H, Su J, et al. DiseaseMeth: a human disease methylation database [J]. Nucleic Acids Research, 2012, 40(Databaseissue): 1030-5.
[16] Baek S J, Yang S, Kang T W, et al. MENT: Methylation and expression database of normal and tumor tissues [J]. Gene, 2013, 518(1): 194-200.
[17] Huang W Y, Hsu S D, Huang H Y, et al. MethHC: a database of DNA methylation and gene expression in human cancer [J]. Nucleic Acids Research, 2015, 43(D1): D856-D861.
[18] He X, Chang S, Zhang J, et al. MethyCancer: the database of human DNA methylation and cancer [J]. Nucleic Acids Research, 2008, 36(Database issue): D836-841.
[19] Kolesnikov N, Hastings E, Keays M, et al. ArrayExpress update--simplifying data submissions [J]. Nucleic Acids Research, 2015, 43(D1): D1113-D1116.
[20] Frenkel-Morgenstern M, Gorohovski A, Vucenovic D, et al. ChiTaRS 2.1--an improved database of the chimeric transcripts and RNA-seq data with novel sense-antisense chimeric RNA transcripts [J]. Nucleic Acids Research, 2015, 43(D1): D68-D75.
[21] Barrett T, Troup D B, Wilhite S E, et al. NCBI GEO: archive for functional genomics data sets - 10years on [J]. Nucleic Acids Research, 2012, 39(D1).
[22] Xie B, Ding Q, Han H, et al. miRCancer: a microRNA-cancer association database constructed by text mining on literature [J]. Bioinformatics, 2013, 29(5): 638-644.
[23] Rhodes D R, Kalyana-Sundaram S, Mahavisno V, et al. Oncomine 3.0: Genes, Pathways, and
Networks in a Collection of 18,000 Cancer Gene Expression Profiles [J]. Neoplasia, 2007, 9(2): 166-180.
[24] Wang D, Gu J, Wang T, et al. OncomiRDB: a database for the experimentally verified oncogenic and tumor-suppressive microRNAs [J]. Bioinformatics, 2014, 30(15): 2237-2238. [25] Bhattacharya A, Ziebarth J D, Cui Y. SomamiR: A database for somatic mutations impacting microRNA function in cancer [J]. Nucleic Acids Research, 2012, 41(Database issue).
[26] Porta-Pardo E, Hrabe T, Godzik A. Cancer3D: understanding cancer mutations through protein structures [J]. Nucleic Acids Research, 2015, 43(D1): D968-D973.
[27] Tyagi A, Tuknait A, Anand P, et al. CancerPPD: a database of anticancer peptides and proteins [J]. Nucleic Acids Research, 2015, 43(D1): D837-D843.
[28] Li J, Duncan D T, Zhang B. CanProVar: a human cancer proteome variation database [J]. Human Mutation, 2010, 31(3): 219-228.
[29] Ellis M J, Gillette M, Carr S A, et al. Connecting genomic alterations to cancer biology with proteomics: The NCI clinical proteomic tumor analysis consortium [J]. Cancer Discovery, 2013, 3(10): 1108-1112.
[30] He Y, Zhang M, Ju Y, et al. dbDEPC 2.0: updated database of differentially expressed proteins in human cancers [J]. Nucleic Acids Research, 2012, 40(D1): D964-D971.
[31] An O, Pendino V, D’Antonio M, et al. NCG 4.0: the network of cancer genes in the era of massive mutational screenings of cancer genomes [J]. Database, 2014, 2014: bau015-bau015. [32] Leroy B, Fournier J L, Ishioka C, et al. The TP53 website: an integrative resource centre for the TP53 mutation database and TP53 mutant analysis [J]. Nucleic Acids Research, 2013, 41(Database issue): D962.
[33] Kumar R, Chaudhary K, Gupta S, et al. CancerDR: Cancer Drug Resistance Database [J]. Scientific Reports, 2013, 3: 1445.
[34] Ahmed J, Meinel T, Dunkel M, et al. CancerResource: a comprehensive database of cancer-relevant proteins and compound interactions supported by experimental knowledge [J]. Nucleic Acids Research, 2011, 39(Database issue): 960-7.
[35] Bulusu K C, Tym J E, Coker E A, et al. canSAR: updated cancer research and drug discovery knowledgebase [J]. Nucleic Acids Research, 2014, 42(D1): D1040-D1047.
[36] Yang W, Soares J, Greninger P, et al. Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells [J]. Nucleic Acids Research, 2013, 41(Database issue): D955.
[37] Pires D E V, Blundell T L, Ascher D B. Platinum: A database of experimentally measured effects of mutations on structurally defined protein-ligand complexes [J]. Nucleic Acids Research, 2014, 43(D1).。