干货-数据预处理之规范化

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在代谢组学研究中,我们通过一系列的提取和上机实验,可以获得各种代谢物在样本中的定量信息。

在广靶和非靶模式下,更是一次性收获大量代谢物数据,满足感爆棚有木有?

然而,我们拿到的原始数据(Raw data),必须经过一系列的处理,变成Clean Data,才能用于后续的数据挖掘。这里的处理过程,我们统称为数据预处理(Data Pretreatment)。

今天我们就来唠唠数据预处理中的Normalization。

太长不看版本

1.数据Normalization非常重要,能有效降低数据集

噪音,改善生物学解释性;

2.常见的数据Normalization包括有中心化

(Centering),缩放(Scaling)和转换

(Transformation),多种方法可以联合使用;

3.不同类型的统计方法,需要不同的Normalization

操作;

4.Log转换,Power转换,Autoscaling方法对广靶/

非靶定量结果和大部分基于线性模型/正态分布的方法

都比较适用;

什么是数据Normalization?

数据Normalization,在我们代谢组学中,指的是通过对多个样本,多个代谢物的定量数据进行一系列的中心化,缩放,以及转换操作,减少数据集的噪声干扰,强调其生物学信息,使其适用后续的统计分析方法,并改善其生物学解释性。

简单来说,就是对代谢数据集进行一些变化,把数据拉到一个特定范围里,变得更有统计意义。

为什么要进行Normalization?

来康康实际数据的一个缩影:

注:该数据来自我司实际项目数据的子集,数据已做了脱敏处理,代谢物ID,样本名均进行了替换。

很明显,代谢数据有着典型的高维度、高噪声等特性,并且不同代谢物或者样本间,存在数量级的差异。

例如:表格中标记出来的代谢物Met0009,在6 个样本中,就存在1000 多倍的差异,与Met0009 的生物学相关性并不成比例。

另外,很多统计方法,对数据的分布非常敏感,统计的效力往往会集中在那些浓度高或者倍数变化差异大的代谢物之上,然而真正起到作用的可能是那些浓度低的代谢物的变化之上。

因此,针对不同的统计方法,进行合理的数据Normalization就有了必要性。

怎样进行数据Normalization

常见的方法,可以大体上分为三个类别:

•中心化(Centering):将所有数据减去均值,让数据分布在0 值左右而非均值左右,聚焦于数据的差异;

•缩放(Scaling):将数据统一乘或者除一个因子,消除量级差异,有多种缩放方法适应不同需求;

•转换(Transformation):进行Log 或者Power 变换,消除异质性;

在2006 年的时候,有一篇文献[1]做了一个总结:

下面表格是对其的解释和补充:

分析方法

公式

说明

Centering

常被称为中心化,将数据从均值附近变换到 0 值附近;对存在异方差的数据处理效果不佳; AutoScaling

常被称为标准化,Z-score 标准化;将数据变为均值为 0,

方差为 1 的数据集;将变化集中在代谢物之间的相关性;对噪声信号敏感;

Min-MaxScalin

g

离差标准化,常被翻译为归一化,将数据缩放到[0,1]区间;对异常值敏感;

RangeScaling

比较变化量相对于变化范围的

比例以及变化方向;对异常值敏感;

ParetoScaling

相对AutoScaling 保留了更多

的原始值变化,对大的倍数差异敏感;

VastScaling

关注变动小的代谢物,需要特定

的群体才有较好的效果;可以进行有监督分析;

LevelScaling

比较变化量相对均值的比例,适

合用来发现生物标志物;对误差敏感;

LogTransforma

tion

消除异方差以及大的倍数差异影响,是数据线性化;0值需要处理,所以常用 log (1+x )来

Normalization方法大评比

前面我们提到过,有些统计方法对规范化方法非常敏感,其中PCA 就是一个典型。

下面我们对2 个实际数据集进行不同的规范化处理,然后进行PCA 分析,来看看不同方法的效果。

数据来自我司实际项目数据,数据已做了脱敏处理,代谢物ID,样本名,分组名均进行了替换,并删除了部分数据。

篇幅所限,我们选择了平时最常见的5 种方法的结果进行展示。

数据集1:2个组别3个地域群体,

共221 个样本,加上13 个mix,检测出600+个

代谢物。

•上图中一共有四个样本分组和一个mix分组;

•样本分组中,AE(橙色),AS(橄榄色),AW (绿色)是同一组群体在不同地域的样本;BW (蓝色)是另一组群体,但是和AW在同一个地域;

•mix 分组(粉色)应该聚成一个点;

•上图中,Auto scaling(标准化)和两种转换方法明显效果较好;

数据集2:多个个体以及个体不同组织

共31 个样本加上3 个mix,检测出600+个代谢物。

•上图中一共有四个样本分组和一个mix分组;

•样本分组种,A(橙色)是一个组织,B1(橄榄色),B2 (绿色)是同一个组织不同部位;C (蓝色)是另一个组织;

•mix 分组(粉色)应该聚成一个点;

•上图中,同样是Auto scaling(标准化)和两种转换方法明显效果较好,并且Log 转换方法效果最好;

2018 年,有一篇文章[2]统计了在代谢组相关文献中,使用率最高的规范化方法,正好就是Log 转换,可见Log 转换方法的适应性最广。

相关文档
最新文档