Thecancergenomeatlas(TCGA)数据库的使用介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Thecancergenomeatlas(TCGA)数据库的使用介绍
转自201806/757627.html
The cancer genome atlas(TCGA)数据库储存20多种癌症的基因组数据,作为生信喵少不了要下载上面的数据来分析。

写篇文章介绍一下,也加深自己的印象。

TCGA收录的了很全面的癌症基因组数据,包括突变,拷贝数变异,mRNA表达,miRNA表达,甲基化数据等
这些数据可分为三个级别:
level-1: 原始的测序数据(fasta,fastq等)
level-2:比对好的bam文件
level-3:为经过处理及标准化的数据
(其中level1/2为controlled-access,level-3有部分是controlled-access,这一类型的需要向TCGA申请使用权限) level-1/2 比较糙,文件较大,若要下载需要使用官方提供的小工具:GDC Data Transfer Tool, 需要自己重新比对来call mutation, 或者提取count data做差异表达分析(懒人表示不怎么用)
最常用的为level3数据,文件较小,直接在网页上下载就可以。

目前主要有两个网站可以下载TCGA level-3的数据:
TCGA官网的data-portal:
优点:数据最全,更新最快
缺点:每个样本的数据都单独储存在一个文件中,如果要下载RNA表达量数据的话,可能同一种癌症需要下载好几百个文件,并且需要排队下载,有时候很慢很慢很慢
Firehose服务器:
优点:这里的数据也来源于,经过了简单的合并,将每种癌症相同类型的数据合并到了一个文件中(例如443个胃癌样本的RNA表达量数据都合并到了一个文件中,非常适合用R进行后续的分析)
level-3的数据是仍需要一定的分析能力来提取感兴趣的信息,
如果你仅仅需要看感兴趣的基因在某种癌症中的突变谱,表达量,或者甲基化情况,那么以下三个在线可视化网站可以说是非常亲民了:c-Bioportal:
整合和简化了包括TCGA,ICGC以及GEO等多个癌症基因组数据库的内容,提供友好可视化的界面,可供下载。

主要展示基因的somatic 突变谱,拷贝数变化,mRNA&miRNA 表达量变化,DNA甲基化以及蛋白质表达的情况,并结合患者的临床资料,展示了KM生存曲线。

OncoLnc:
这是一个整合了TCGA的各种RNA数据和患者临床数据,提供生存分析的网站,灰常简单好用。

MEXPRESS:mexpress.be/about
整合了TCGA中的DNA甲基化,表达量及临床数据,主要用来探索甲基化,基因表达和临床表型之间的关联,界面也很友好。

相关文档
最新文档