COX比例风险回归模型(一起学生信)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
COX比例风险回归模型(一起学生信)
不知道这个方法是干什么的童鞋请先行百度,这里不做百科
1.数据下载
从 TCGA 下载 level3 的 RNA-seq 数据,筛选条件:剔除生存时间不完整的
样本,筛选生存时间小于
30 天的数据,得到 xxx 个样本作为研究对象,样品的临
床数据统计结果如下表。
注:
Covariates 参数
Type 类型
Patients 病人数目、百分比
fustat 生存状态
2.差异表达
使用 edgeR R 包
(/packages/release/bioc/html/edgeR.html)计算正
常组织和肿瘤组织的差异表达情况(|logFC|>2 & FDR<0.01),所有差异基因保存
在 01.diff/diff.xlsx
3.热图
使用pheatmap R 包(/web/packages/pheatmap/)对差异基因进
行聚类分析(Bidirectional hierarchical clustering),差异基因聚类图如(保存在
02.heatmap/heatmap.tiff)。
在聚类图中,红色代表基因在该样品中高表达,绿色代表基因在
该样品中低表达。
图1 红色代表高表达,绿色代表低表达。
图形上方正方形颜色代表样品,蓝色代表 AIP 样品,红色代表 PP样品
4.单因素 Cox 分析
使用 Survival 包对 ceRNA 网络中的 lncRNA 做单因素 Cox 分析,筛选条件 P<0.05,
网络中的 44 个 DElncRNA 中有 28 个 lncRNA 符合条件
( 保存在7Cox/1UnivariateCox/UnivariateCox.xlsx)。
5.多因素 Cox 分析
使用 Survival 包对挑选出来与单因素显著差异的 lncRNA 进行多因素分析,
根据Akaike Information Criterion(AIC)查找最优的模型。
得到风险模型:risk
socre=ARHGAP31-AS1*(-0.3577)+ LY86-AS1*(0.1551)+WARS2-IT1*(0.2064)。
使用Kaplan-Meier 方法对高低风险组的生存期进行比较,统计学方法选用
log-rank 。
根据高低风险,绘制生存曲线,如图 12( 保存在保存在 7Cox/
2MultiCox/survival.pdf)。
横坐标是生存时间,纵坐标是生存率。
根据风险值的中位值,将病人分为高低两组图中,红色代表高表达组,蓝色代表低表达组。
从图中可以看出,p<0.001,说明高低组差异显著
6.ROC 曲线
使用survival R 包对差异绘制ROC 曲线(保存在07.ROC/ROC.tiff),同时计算
AUC 值。
得到 AUC 值大于 0.7,说明我们的模型可以很好的预测病人的生存。
ROC 曲线下的面积值在 1.0 和 0.5 之间。
在 AUC>0.5 的情况下,AUC 越接近于 1,
说明诊断效果越好。
AUC 在0.5~0.7 时有较低准确性,AUC 在0.7~0.9 时有一
定准确性,AUC 在 0.9 以上时有较高准确性。
我们分析得到三个lncRNA 的 AUC
都大于 0.7,说明我们的模型可以很好的预测病人的生存。
7.风险曲线和热图
对于每个样品,根据公式和每个样品的lncRNA 表达量得到每个样本的生存
打分,再根据 ROC 曲线,得到 Risk score=3.400 时敏感性和特异性最高。
以 3.400
作为临界值,将病人分别分为高低风险组。
然后按照病人风险值由低到高绘制下
列图形,结果保存在 07.RiskPlot 中
8.独立预后因子
将临床数据和risk score 一起做多因素cox 分析,得到risk Score 多因素分析
结果(08.Independence/Independence.xlsx)。
从表 4 可以看出,无论单因素还
是多因素分析,Risk score 风险值的 p 值都小于 0.05,说明我们模型得到的 Risk
score 可以癌症独立的预后因子。
根据基因的GO 注释,选择本物种的所有基因作为背景基因,使用统计方
法计算P 值,通过设定显著性阈值分别得到相对于背景具有统计意义的高频率
注释,从而得到基因集合在GO 类别上的分布信息和显著性情况。
使用DAVID 对甲基化差异基因进行GO 功能富集分析,P<0.05 被作为筛选
条件。
同时,绘制富集结果的图形。
我们找到了显著富集的GO,
富集的表格如
表(05.GO/GO.xlsx),GO 的富集图形如图(05.GO/GO.tiff)。
PATHWAY 分析
从复杂调控网络的角度出发,基于常见生物学通路数据库,对正常组和癌症组差异甲基
化基因集合进行基于
PATHWAY 数据库的生物通路富集分析,从而提取出最相关的生物通
路上的基因,更加有利于下游实验的开展。
对差异甲基化基因进行
PATHWAY 通路富集分析,p-value <0.05 被作为筛选条件。
富集的通路保存在
06.PATHWAY/PATHWAY.xlsx,图形保存在 06.PATHWAY/PATHWAY.png。