代谢组学数据分析的统计学方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*国家自然科学基金资助(81172767);高等学校博士学科专项基金(20122307110004)
1.哈尔滨医科大学卫生统计学教研室(150081)
2.山东大学卫生统计学教研室
Δ通信作者:李康,
E-mail :likang@ 代谢组学数据分析的统计学方法
*
柯朝甫
1
张涛
2
武晓岩
1
李康
1Δ
代谢组学是近年发展快速的一门学科,目前在医学、植物学、微生物学、毒理学、药物研发等诸多领域中
得到了广泛的应用
[1-5]
。代谢组学研究产生大量的数据,这些数据具有高维、小样本、高噪声等复杂特征。
如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的
热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。
代谢组学数据的特点
代谢组学是系统生物学领域中继基因组学和蛋白质组学之后新近发展起来的一门学科,它通过检测生物体在受到外源刺激或基因修饰后其体内代谢物质的
变化来探索整个生物体的代谢机制[6]
。其研究对象为生物体内所有内源性小分子代谢物(分子量<1000Da ),研究手段为高通量检测技术和数据处理方法,最终目标是数据建模和生物标志物的筛选。生物
样品如血浆、尿液、组织等,经过GC /MS 、NMR、LC /MS 等高通量仪器检测后,得到大量的图谱数据,使用XCMS [7]等软件对这些图谱数据进行转换,获得用于统计分析的标准格式的数据。归纳起来,代谢组学数
据具有以下特点:
(1)高噪声:生物体内含有大量维持自身正常功能的内源性小分子,具有特定研究意义的生物标志物只是其中很少一部分,绝大部分代谢物和研究目的无关。
(2)高维、小样本:代谢物的数目远大于样品个数,不适合使用传统的统计学方法进行分析,多变量分
析容易出现过拟合和维数灾难问题[8]。
(3)高变异性:一是不同代谢物质的理化性质差异巨大,其浓度含量动态范围宽达7 9个数量级[9]
,二是生物个体间存在各种来源的变异,如年龄、性别都
可能影响代谢产物的变化,三是仪器测量受各种因素影响,容易出现随机测量误差和系统误差,这使得识别有重要作用的生物标志物可能极其困难。
(4)相互作用关系复杂:各种代谢物质可能不仅
具有简单的相加效应,而且可能具有交互作用,从而增加了识别这些具有复杂关系的生物标志物的难度。
(5)相关性和冗余性:各种代谢物并非独立存在,而是相互之间具有不同程度的相关性,同时由于碎片、加合物和同位素的存在使得数据结构存在很大的冗余性,这就需要采用合理的统计分析策略来揭示隐藏其中的复杂数据关系。
(6)分布的不规则和稀疏性:代谢组学数据分布不规则,而且数据具有稀疏性(即有很多值为零),因此,传统的一些线性和参数分析方法此时可能失效。
数据的预处理
代谢组学数据分析的目的是希望从中挖掘出生物相关信息,然而,代谢组学数据的变异来源很多,不仅包括生物变异,还包括环境影响和操作性误差等方面。处理手段主要包括归一化(standardization )、标准化(normalization ),即中心化(centering )和尺度化(scal-ing ),以及数据转换(transformation )[10]
。归一化是针对样品的操作,由于生物个体间较大的代谢物浓度差
异或样品采集过程中的差异(如取不同时间的尿样),为了消除或减轻这种不均一性,
一般使用代谢物的相对浓度,即每个代谢物除以样品的总浓度,以此来校正个体差异或其他因素对代谢物绝对浓度的影响。标准化是对不同样品代谢物的操作,即统计学意义上的变量标准化。标准化的目的是消除不同代谢物浓度数量级的差别,但同时也可能会过分夸大低浓度组分的重要性,即低浓度代谢物的变异系数可能更大。数据转换是指对数据进行非线性变换,如log 转换和power 转换等。数据转换的目的是将一些偏态分布的数据转换成对称分布的数据,并消除异方差性的影响,以满足一些线性分析技术的要求。不同的预处理方法会对统计分析结果产生不同的影响(见表1),在实际应用中,我们应该根据具体的研究目的﹑数据类型以及要选用的统计分析方法综合考虑,选择适当的预处理方式。例如,
Robert A.van den Berg 等(2006)通过实际代谢组学数据的分析发现,选用不同预处理方法在很大程度上影响着主成分分析(PCA )的结果,自动尺度化(au-toscaling )和全距尺度化(range scaling )在对代谢组学数据进行探索性分析时表现更优,其PCA 分析后的结
果在生物学上能够得到更合理的解释
[11]
。
表1
常见的数据预处理方法
方法公式
目的
归一化
消除某些混杂
因素对代谢物浓度的干扰
最大峰归一化x ij '=x ij /x ij
max
总峰和归一化x ij '=x ij /∑x ij
中心化消除初始值大小的影响
均值中心化x ij '=x ij -珋x i
尺度化消除不同代谢
物浓度数量级的差别Autoscaling x ij '=(x ij -珋x i )/S i
Range scaling x ij '=(x ij -珋x i )/(x i
max
-x i
min
)
Pareto scaling x ij '=(x ij -珋x i )/s 槡
i Vast scaling x ij '=[(x ij -珋x i )/s i ](珋x i /s i )
Level scaling x ij '=(x ij -珋x i )/珋x i
数据转换线性化数据结
构,消除异方差性的影响
Log 转换x ij '=log 2(x ij )Power 转换
x ij '
=x 槡
ij *:珋x i =1/J ∑J
j =1x ij ,
s i =∑J
j =1
(x ij -珋x i )2/(J -1槡
)
单变量分析方法
单变量分析方法简便﹑直观和容易理解,在代谢组学研究中通常用来快速考察各个代谢物在不同类别
之间的差异。代谢组学数据在一般情况下难以满足参数检验的条件,使用较多的是非参数检验的方法,如Wilcoxon 秩和检验或Kruskal-Wallis 检验,t '检验也是一种比较好的统计检验方法。
由于代谢组学数据具有高维的特点,所以在进行
单变量分析时,会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准α进行校正,则总体犯一类错误的概率会明显增加。一种解决方法是采用Bonferion 校正,即用原检验水准除以假设检验的次数m 作为每次假设检验新的检验水准(α/m )。由于Bonferion 校正的方法过于保守,会明显降低检验效能,所以在实际中更为流行的一种做法是使用阳性发
现错误率(false discovery rate ,
FDR)。这种方法可用于估计多重假设检验的阳性结果中,可能包含多少假
阳性结果。FDR方法不仅能够将假阳性的比例控制在规定的范围内,而且较之传统的方法在检验效能上也得到显著的提高
[12]
。实际中也可以使用局部FDR
(用fdr 表示),其定义为某一次检验差异显著时,其结果为假阳性的概率。局部FDR的使用,使得我们能够估计出任意变量为假阳性的概率,通常情况下有FDR≤fdr [13]。
除了进行传统的单变量假设检验分析,代谢组学分析中通常也计算代谢物浓度在两组间的改变倍数值
(fold change ),如计算某个代谢物浓度在两组中的均值之比,判断该代谢物在两组之间的高低表达。计算ROC 曲线下面积(AUC )也是一种经常使用的方法
[14]
。
多变量分析
代谢组学产生的是高维的数据,单变量分析不能揭示变量间复杂的相互作用关系,因此多变量统计分析在代谢组学数据分析中具有重要的作用。总体来说,代谢组学数据多变量统计分析方法大致可以分为两类:一类为非监督的学习方法,即在不给定样本标签的情况下对训练样本进行学习,如PCA 、非线性映射(NLM )等;另一类为有监督的学习方法,即在给定样本标签的情况下对训练样本进行学习,如偏最小二乘
判别分析(PLS-DA )、基于正交信号校正的偏最小二
乘判别分析(OPLS-DA )、人工神经网络(ANN )、支持向量机(SVM )等。其中,
PCA 、PLS-DA 和OPLS-DA 是目前代谢组学领域中使用最为普遍的多变量统计分
析方法。
PCA 是从原始变量之间的相互关系入手,根据变异最大化的原则将其线性变换到几个独立的综合指标上(即主成分),取2 3个主成分作图,直观地描述不同组别之间的代谢模式差别和聚类结果,并通过载荷图寻找对组间分类有贡献的原始变量作为生物标志物。通常情况下,由于代谢组学数据具有高维、小样本的特性,同时有噪声变量的干扰,
PCA 的分类结果往往不够理想。尽管如此,
PCA 作为代谢组学数据的预分析和质量控制步骤,通常用于观察是否具有组间分类趋势和数据离群点[15]
。在组间分类趋势明显时,说明其中一定有能够分类的标志物。PCA 还可以用于分析质控样品是否聚集在一起,如果很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。Zhang Zhiyu 等(2010)通过PCA 成功区分了骨肉瘤患者和正常人,并发现良性骨肿瘤患者中有两例是异常值[16]
。Kishore K.Pasikanti 等(2009)利用PCA 对尿液膀胱癌代谢组学数据进行分析后观察到质控样品在PCA 得分图上紧密聚集,从而验证了仪器检测的稳定
性和代谢组学数据的可靠性[17]。
PLS-DA 是目前代谢组学数据分析中最常使用的
一种分类方法,它在降维的同时结合了回归模型,并利
用一定的判别阈值对回归结果进行判别分析。Zhang Tao 等(2013)运用PLS-DA 技术分析尿液卵巢癌代谢
组学数据,成功将卵巢癌患者和良性卵巢肿瘤患者以及子宫肌瘤患者相互鉴别,并鉴定出组氨酸、色氨酸、
核苷酸等多种具有判别能力的卵巢癌生物标志物[18]
。