TCGA大数据挖掘之癌症驱动基因和突变
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Comprehensive Characterization of Cancer Driver Genes
and Mutations
Cell, April 2018
背景
●在精准肿瘤学中,识别癌症驱动分子至关重要。
●虽然目前存在一些算法来识别驱动事件,但缺乏将这些算法整合、优化、并应用于大数据中的研究。
●本研究对33种疾病类型、9000多个患者的致癌驱动基因和突变进行最大规模的系统性研究,并强调了在肿瘤患者中普遍存在一些临床可诉性驱动事件。摘要
●对TCGA数据库中33个癌种、9423例患者的外显子组采用PanSoftware 策略分析(共涉及到26个计算工具),来识别驱动基因和驱动突变事件。
●共识别了299个驱动基因、这些基因与它们的解剖学位点及癌症/细胞类型相关。
●基于序列和结构的分析,识别了>3,400个错义驱动突变位点,这些位点被多线证据支持。
●预测到的驱动突变中,有60%~85%的位点通过了实验验证。
●300多个MSI的肿瘤样本与PD-1/PD-L1的高表达相关,其中有57%的肿瘤样本存在临床可诉性事件。
意义
该研究是迄今为止,对癌症基因和突变进行的最大规模的系统性研究,可以为将来的生物学和临床研究做出指导。
1. 癌症驱动基因的识别策略与效能
●Figure 1A. 发现癌症驱动基因的策略:数据收集、工具开发、异常值校正、人工搜索、下游分析以及功能验证。
●Figure 1B. 在每个癌症类型中,体细胞突变数目均成广泛分布。
●Figure 1C. 每个癌种中,6种碱基的类型改变分布(转换和颠换)。
●Figure 1D. 对于单个癌症,有效突变的背景突变率中值为6.1%,且样本
量越大,统计效能越好。
2. 癌症驱动基因的识别
1.共识别了299个基因,其中利用系统方法识别到了258个基因,41个基因是利用人工搜索及额外的组学工具发现的。
2.Figure 2A. 外层每个扇形代表一个癌种,以及该癌种特异突变的驱动基因。不同颜色的矩形块是利用20/20+算法预测出的基因致病状态,从橘色-青色分别代表肿瘤抑癌基因-致癌基因。右上角的扇形为在多个癌种中显著出现的突变基因。
3.分析发现许多驱动基因(142/258)与单个癌种相关,87个基因与至少2个癌种相关。
4.覆盖癌种最多的驱动基因为TP53,其次依次是PIK3CA>KRAS>PTEN>ARID1A。
5.利用相关基因的一致性得分对癌种聚类,发现许多癌症类型按照组织来源聚类,如泛肠胃癌、泛鳞状癌、泛妇科肿瘤。
根据生物学过程和相关通路对驱动基因进行分类:
●10个癌症行与免疫信号通路相关。
●在每个癌种中,都至少有一个驱动基因参与了基因组完整性、MAPK、PI3K通路。
●在鳞状的癌症类型中,大多数基因参与到组蛋白修饰信号、酪氨酸激酶信号以及免疫信号中。
3. 驱动突变的识别
299个的癌症驱动基因中包含751,876个唯一的错义突变,整合了3种不同的分类工具来预测突变位点的致癌效应。
●基于序列的方法(CTAT)区分良性突变和致病突变。
●基于序列的方法(CTAT)区分驱动突变和乘客突变。
●基于结构的方法挖掘有意义的错义突变三维簇。
共预测到了9919个driver突变,这些突变影响了5782个样本。
●发生驱动突变的致癌基因比例高于抑癌基因。
●抑癌基因大都发生截断或移码,然而有些抑癌基因发生了很多错义驱动突变,如EP300, CREBBP, CASP8, PIK3R1, TP53, CDH1。
4. 对突变进行功能验证
利用独立的实验数据集(包含1049 个体细胞突变),来验证预测的驱动突变。
●CTAT-population, by CTAT cancer, structure-based三种方法预测的结果分
别有60%,61%,78%被验证,说明预测算法得到的结果是有价值的。
●根据已知癌症驱动基因PIK3CA/PIK3R1 BRAF, KEAP1/NFE2L2在实验数据集中的蛋白结构,来评价3中预测方法的好坏,发现每个基因都有一些基于结构方法识别的突变,也有一些基于序列的结果支持。
5. 超突变表型及免疫浸润
●Figure A. 基于突变的signature分析,发现90%的超突变(hypermutated)样本都具MSI, UV, POLE, APOBEC或吸烟的signature。
●Figure B. 利用MSIsensor在9423例患者中评估MSI状态。发现一些经
典的癌症类型(如结直肠癌、胃腺癌)具有最高的MSI得分,另外,也发现一些非经典癌种(如卵巢癌、宫颈癌)也具有很高的MSI得分。
●Figure C. 利用RNA-Seq,计算PD-L1, PD-L2, PD-1, CD8A, CD8B在MSI 高低两组样本中的表达,发现在COAD,READ,STAD,UCEC中MSI得分高低两组的免疫浸润有差异。
●Figure D. 观察3个超突变伴随的signature与免疫浸润表达模式的关系,发现只有超突变且具有APOEC特征的膀胱癌与PD1的表达相关。
6. 分子事件的治疗
●Figure A. 与PHIAL(基因水平的数据库)比较,发现52%的样本包含至少一个可诉性突变,65%的样本有有至少1个可诉性或TARGET收录的生物学相关改变。
●Figure B. 与DEPO(特异性突变水平的数据库)比较,发现30%的样本具有至少1个临床可诉性突变。
讨论
●利用泛癌和泛软件的策略分析了TCGA中大型的基因组数据,识别了299个癌症驱动基因,但只分析了点突变和小的插入缺失,未考虑拷贝数变异、基因组融合以及甲基化事件。
●基于序列和基于三维结构的方法预测了3442个驱动突变,通过一套独立的数据集验证,发现基于序列与基于三维结构的方法同时使用会产生互补性结果,进而提升预测的敏感性。
●对~10000 例TCGA中样本的研究中发现,近一半的患者都具有临床相关的突变,通过该结果可以提出一些合理的临床试验设计。