学会跨平台筛选肝癌预后标志物,上3分一点都不难
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学会跨平台筛选肝癌预后标志物,上3分一点都不难
Front Genet (IF:3.517)杂志上的一篇文章“Identification of Platform-Independent Diagnostic Biomarker Panel for Hepatocellular Carcinoma Using Large-Scale Transcriptomics Data”,作者利用多个测序平台的转录组数据去鉴定不依赖于测序平台的肝癌诊断标志分子。
Identification of Platform-Independent Diagnostic Biomarker Panel for Hepatocellular Carcinoma Using Large-Scale Transcriptomics Data
利用大规模转录组数据鉴定不依赖于测序平台的肝癌诊断生物标记物
一.研究背景
确诊时间过迟是导致肝癌(Hepatocellular carcinoma,HCC)患者高死亡率的主要原因。为了找到普遍的在多个测序平台都适用的基于mRNA表达量的分子诊断标志,作者利用多个测序平台的HCC患者以及对照正常组织或癌旁正常组织的转录组数据,希望通过基因表达谱的分析找出肝癌核心基因并用于建立一个预测能力良好的肝癌预测模型。
二.分析流程
•数据准备,从GEO数据库获取来自不同测序平台(Affymetrix,Illumina,Agilent,High-throughput sequencing)的29个转录组数据集,分别从其中的GSE102079分和GSE64041中提取出D1(HCC 和癌旁正常组织)和D2(HCC和正常样本)共4个数据集,加上TCGA-LIHC的转录组数据一共32个转录组数据集。此外还取GSE36076,一个含20份PBMCs(外周血单核细胞)血液样本的转录组数据集,用于验证模型。所有测序平台的的基因mRNA表达量经log2处理。
•数据分配
▪取27个GEO的转录组数据(n=2148)用于识别DEGs(差
异表达基因)和提取特征基因(图1. A),其中20个为HCC与癌旁正常组织的比较,7个位HCC和正常样本的比较
▪取GSE25097(n=511,HCCvs正常样本)作为训练集用于建立预测模型,以另外2个GEO数据集,TCGA-LIHC以及血液样本作为验证集(图1. B)。每个数据集中的样本转录组数据经过quantile normalization
•预测模型的检验以及评价指标,作者在训练集中进行10折交叉验证作为内部检验;在验证集中预测作为外部检验。模型评价指标有依赖阈值和不依赖阈值的参数指标
▪依赖阈值的参数指标包括Sensitivity(敏感度),Specifity(特异性),Accuracy(准确率)以及MCC(Matthew 相关系数),这些指标越接近于1则模型的准确性越好
▪不依赖的参数指标为AUROC,即ROC(受试者工作特征)曲线下的面积,AUROC越接近于1则模型的预测能力越好图1. 样本数据分布情况
三.结果解析
1.识别肝癌的核心基因
在27个GEO数据集中分别识别DEGs(q<0.01),识别出DEGs共9954个;再通过比较找到26个在80%以上(22/27)数据集中都差异表达的基因作为“肝癌的核心基因”(表1)。这26个基因中14个在癌组织中表达上调,12个在癌组织中表达下调(在大部分数据集中)。之后根据这些DEGs进行GO分析,发现表达下调的DEGs在凝集素相关通路富集,而表达上调的DEGs在细胞周期相关的通路中富集。
表1. 26个肝癌核心基因
2.通过单基因预测模型筛选肝癌核心基因
在训练集GSE25097中用阈值法(threshold- based approach),即找到一个表达量作为阈值使预测模型在训练集中预测能力最好。将26个肝癌核心基因根据各自单基因预测模型的预测能力进行排名,排名前10的基因建立的单基因预测模型预测肝癌的Acc>0.85,MCC>0.75,AUROC>0.85,都有很好的预测能力(表2)。为了进一步
减少核心基因数量,分别对这10个基因采用10折交叉验证法去评估其预测能力,挑选出5个基因(FCN3,CLEC1B,CLEC4M,PRC1和PBK)称之为稳定的HCC标志分子,在交叉验证中它们平均的Acc>0.9,AUROC>0.95。
表3. 以5个基因建立的分类模型预测能力
之后作者又通过两次wrapper特征选择法(包裹式)去掉了基因CLEC4M和PBK,以FCN3,CLE1B,PRC1这三个基因作为特征基因,这样模型的在训练集(内部经过10折交叉验证)和验证集中的Acc 在0.95-0.98之间,AUROC面积在0.96-0.99之间,模型的预测能力进一步提升(表4)。作者之后也尝试了两个特征基因作为输入构建模型,但是预测能力在验证集中大幅下降故作者最后选择由这三个基因构建的预测模型。作者同时也展示这三个基因在训练集和三个验证集中的表达模式(图2)。
表4. 以FCN3,CLE1B,PRC1构建的分类模型预测能力
图2. 三个肝癌核心基因在训练集和3个验证集中的表达模式
4.在血液样本中验证三基因预测模型
本文目的在于研究一种简便的肝癌检测方法,因为前文的训练集和验证集都是HCC和癌旁正常组织或正常组织的对比,难以在日常检查中实施采样,而血液样本易得不侵入病人身体,故作者选取GSE36076这一个血液样本数据集(n=20)来验证三个基因作为输入的预测模型的效果(表5)。可以看到模型在对血液样本的预测中Acc为0.9,AUROC在0.91-0.96之间。说明三基因预测模型有较好的能力辨别HCC患者血液和正常血液样本。
表5. 三基因预测模型在血样样本中的预测能力
5.对三个肝癌核心基因进行生存分析确定预后价值
在TCGA-LIHC队列(n=374)中,分别根据FCN3,PRC1和CLEC1B基因mRNA表达量的平均值将病人分为高低表达组并用KM 法对OS,DSS,DFS,PFS进行生存分析(图4,红色表示基因表达量大于平均值,蓝色则相反)。
图3. TCGA-LIHC队列的生存分析