表达谱芯片数据分析项目示例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
芯片项目分析内容说明(示例):
1)原始芯片数据处理:
我们重老师提供的数据列表中下载了408张非重复的芯片,这些芯片来自13批不同的数据,首先,我们使用RMA算法对每一个批次的芯片,分批进行了信号值处理,经过PCA分析后发现,不同的芯片按照不同的批次被分开,说明来自不同实验的数据之间存在非常强的批次效应。
对应文件为: 01原始芯片数据处理\RMA_in_Batches\all_exp.xls.PCA3D.pdf
截止,我们将所有芯片的放在一起,一起使用RMA算法进行信号值处理,经过PCA分析后发现,纵使是将所有芯片一起进行RMA处理,这些来自不同实验的数据还是存在批次效应。对应文件为:01原始芯片数据处理\RMA_in_Batches\ all_exp.xls.PCA3D.pdf
2)批次效应矫正:
因为,来自不同实验的数据之间存在批次效应,所以我们使用基于经验贝叶斯方法的ComBat 算法对不同批次的数据进行批次效应矫正。
我们使用将全部芯片放在一起进行RMA处理后的数据作为输入文件,进行批次效应表达量矫正,然后使用PCA分析发现,批次效应基本被消除掉了。
对应文件为:02批次效应矫正\校正前\all_exp.xls.PCA3D.pdf
02批次效应矫正\校正后\Adjusted.all_exp.xls.out.xls.out.PCA3D.pdf
3)差异分析:
我们使用t_test和方差分析对批次效应矫正前后的数据都进行差异检测,我们使用t_test的pvalue<0.01和方差分析的pvalue<0.01为标准选取差异基因,对于校正后我们共得到26760个差异探针,对于校正前我们23349个差异探针,我们对得到的差异探针都经行了PCA分析和cluster分析
对应文件:03差异表达\
4)特征选择:
我们使用SVMRFE算法,一种基于支持向量机的特征选取算法,对差异探针,进行了特诊选择。我们对校正前和校正后的差异探针都进行了特征选择
SVMRFE会将特征基因按照从高到低的顺序进行排序,我们选择排名前10,前20,前30,前40的探针,进行PCA分析,观测使用特征基因进行分类是否准确。
对应文件:04SVMRFE\
其中nohup.out文件为进行SVM分类时,选取不同数量特征基因,使用留一法交叉验证所得到的准确率。
下图为特征选择前后样本的热图分析结果。
SVM分析前(2562 genes)SVM分析后(19 genes)
5)异常样本去除:
我们使用PCA分析得到样本在PC1,PC2,PC3上的位置,然后计算每个样本在3个PC上与其均值的距离的平方,然后分别乘以其PC权重后求和,然后求z score,对求得的zscore值进行高斯累积分布,然后将值大于0.8的样本作为离群样本,去除掉。对于肿瘤样本,和正常样本我们分别计算各自的离群样本。
对于批次校正前的数据,我们得到癌症的离群样本为41,正常的离群样本为7
对于其次矫正后的数据,我们得到癌症的离群样本为49,正常的离群样本为7
对应文件夹:05离群样本检测_PCA_Gaussian_cumulative_distribution/
下图为3D PCA结果(例图)
6)去除异常样本后重新进行SVMRFE:
我们将异常样本去除后,又重新进行了SVMRFE特征选择。
结果目录:06去掉离群样本/
7)批次校正对结果影响的评估
从结果来看,不使用批次矫正得到结果更优,其原因是因为,本次芯片数据时正常和肿瘤样本的数量极度不对称,且有些批次的数据全部为肿瘤样本,在此种情况下进行批次矫正会产生过矫正。即将肿瘤样本的特征,当做批次特征,进行矫正,这种情况下即产生了过矫正效应,不能反应样本真实情况。建议使用批次校正前的数据进行后面的参数优化
8)异常样本去除参数优化:
之前我们使用PCA+高斯累计分布,使用参数0.8的时候,
对于批次校正前的数据,我们得到癌症的离群样本为41,正常的离群样本为7。
后面我们调整了这个参数的设置,使用参数0.95的时候,
对于批次校正前的数据,我们得到癌症的离群样本为16,正常的离群样本为7。
后面我们在此调整了这个参数的设置,使用参数0.99的时候,
对于批次校正前的数据,我们得到癌症的离群样本为12,正常的离群样本为3。
从结果看使用0.99为参数去掉异常样本后分析的结果会出现错分的情况,而使用0.95为参数则没有出现错分的情况。