可能是最出名的TCGA表达相关数据库介绍(一)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可能是最出名的TCGA表达相关数据库介绍(⼀)
有⼩伙伴后台留⾔说想知道GEPIA 数据库的⽤法,正好最近⼀段时间GEPIA2更新了,其中也更新了⼀些新的功能。
所以就趁着这个机会给⼤家介绍⼀下GEPIA2吧。
有⼩伙伴后台留⾔说想知道 GEPIA 数据库的⽤法,正好最近⼀段时间GEPIA2更新了,其
中也更新了⼀些新的功能。
所以就趁着这个机会给⼤家介绍⼀下GEPIA2吧。
GEPIA2
对于 TCGA 数据库来说,我们最常⽤的还是其表达数据和临床数据的分析。
这样的数据分析,如
果我们有⽬标基因的话,只是来简单的查找⼀下基因的相关信息。
那其实⽤
GEPIA2(/#index)已经很好⽤了,⽽且GEIPA⾥⾯出来的⼀些图也确实挺
好看。
很多简单的⽣信⽂章吧,都是直接GEPIA查询,然后AI拼接就放到⽂章⾥⾯了。
新版本的GEPIA添加了很多功能,我们就⼀个⼀个来讲解吧。
其实功能讲解挺简单的,由于⼩编太絮
叨了,所以就只能分两期来说明了。
1⼀般检索
如果我们想要查看⼀个基因在 TCGA 各个肿瘤⾥⾯的表达趋势的话,就可以使⽤⼀般检索了。
这
个功能的话,我们只需要输⼊基因名即可。
例如,例如我们这⾥输⼊"ERBB2"。
结果展⽰⽅⾯:
我们⾸先能看到的是,这个基因在肿瘤正常和癌症位置的表达图。
这⾥数据库主要是通过三个图来
展⽰的:分别是⼈体基因谱图、点图和柱状图。
由于TCGA对于基因的注释是基于亚型来的,所以往下我们可以看到和这个基因相关的亚型的的信
息。
对于RNA-seq,我们可以获得所有基因的表达量,所以通过相关分析我们就可以知道和这个基因相
关的其他基因是哪些。
这⾥相关分析⽤的是PCC (⽪尔森相关)。
2差异表达分析
有时候我们想要知道某⼀个肿瘤当中差异表达的基因有哪些,这个时候就可以⽤到这个功能了。
对于基因差异表达分析的这⾥多说两句,GEPIA2 使⽤的候选⽅法是 limma 或者ANOVA。
但是对于
RNA-seq的数据,⽬前对于差异表达的分析的⽅法标准还是使⽤count 数据来进⾏分析,分析⽅法选
择 Deseq2 或者 EdgR 都可以。
由于GEPIA⾥⾯背景数据集是 TCGA 的 TPM 数据,其实⽤limma(这
个⼀般是⽤来分析芯⽚数据的⽅法)也⾏,但是其中有⼀些基因差异结果肯定是不⼀样的。
另外:GEPIA 默认的时候 ANOVA 分析差异,如果要还limma的话,记得先还分析⽅法在选择癌种。
不然你如果先选择了癌种,然后再选分析⽅法,然后数据库就默认把你的癌种调回ACC了。
⾎的教训。
⾮代码的操作还是要谨慎再谨慎的。
结果的展⽰分别可以通过列表和⼀个染⾊体分布图来展⽰的。
3表达数据⾃定义
如果我们想要查看⼀个基因在不同临床分析或者在不同肿瘤当中的表达分布,我们可以在这⾥进
⾏查看。
由于基本的输⼊上⾯差不多,这⾥就不介绍输⼊了。
只看⼀下相关的图吧。
在这个部分我们能做的有:
通过点图的⽅式查看 TCGA 数据库当中癌和正常的表达分布。
这个和我们在⼀般介绍当中的图是⼀样的,只不过这⾥可以⾃定义癌种。
通过箱式图的⽅式查看表达的差异。
这⾥对于正常样本添加了 GTEx 的数据。
如果不知道 GTEx 是什么,可以看我们之前的帖⼦。
查看⽬标基因在具体肿瘤分期当中的分布
⽐较多个基因在不同肿瘤当中的表达丰度
今天的就讲到这⾥啦,明天我们继续讲预后分析和其他的功能。