红外与近红外光谱常用数据处理算法

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、数据预处理

（1）中心化变换

（2）归一化处理

（3）正规化处理

（4）标准正态变量校正（标准化处理）（Standard Normal Variate,SNV）（5）数字平滑与滤波（Smooth）

（6）导数处理（Derivative）

（7）多元散射校正（Multiplicative Scatter Correction,MSC）

（8）正交信号校正（OSC）

二、特征的提取与压缩

（1）主成分分析（PCA）

（2）马氏距离

三、模式识别（定性分类）

（1）基于fisher意义下的线性判别分析（LDA）

（2）K-最邻近法（KNN）

（3）模型分类方法（SIMCA）

（4）支持向量机（SVM）

（5）自适应boosting方法（Adaboost）

四、回归分析（定量分析）

（1）主成分回归（PCR）

（2）偏最小二乘法回归（PLS）

（3）支持向量机回归（SVR）

一、数据预处理（1）中心化变换

中心化变换的目的是在于改变数据相对于坐标轴的位置。一般都是希望数据集的均值与坐标轴的原点重合。若x ik 表示第i 个样本的第k 个测量数据，很明显这个数据处在数据矩阵中的第i 行第k 列。中心化变换就是从数据矩阵中的每一个元素中减去该元素所在元素所在列的均值的运算：

u ik k x x x =- ，其中k x 是n 个样本的均值。

(2) 归一化处理

归一化处理的目的是是数据集中各数据向量具有相同的长度，一般为单位长度。其公式为：

'ik x =

归一化处理能有效去除由于测量值大小不同所导致的数据集的方差，但是也可能会丢失重要的方差。（3）正规化处理

正规化处理是数据点布满数据空间，常用的正规化处理为区间正规化处理。其处理方法是以原始数据集中的各元素减去所在列的最小值，再除以该列的极差。

min()

'max()min()

ik ik k k x xk x x x -=

-

该方法可以将量纲不同，范围不同的各种变量表达为值均在0~1范围内的数据。但这种方法对界外值很敏感，若存在界外值，则处理后的所有数据近乎相等。（4）标准化处理（SNV ）也称标准正态变量校正

该处理能去除由单位不同所引起的不引人注意的权重，但这种方法对界外点不像区间正规化那样的敏感。标准化处理也称方差归一化。它是将原始数据集各个元素减去该元素所在列的元素的均值再除以该列元素的标准差。

';ik k ik k k x x x S S -==

（5）数字平滑与滤波

数字平滑与滤波的目的在于消除随机误差与仪器的噪声，它是一种最简单的滤波方法。平滑的实质是略去数据中较小的偏离，而保留具有较大偏离的部分。设滤波值为*k y ，原始信号值为k y ，两者间的关系如下：

1

*21m

k k j j m

y y m +=-=+∑ 式中，k 为原始数据点的序号，2m+1表示窗口（滤波带宽）的大小，m 为调节滤波带宽的参数。随着窗口的移动，即得到经过滤波后的7一系列信号值。滤波使数据的噪声减小，但在实际应用过程中应慎重选择滤波带宽，否则会扭曲数据结构。

（6）导数处理

（7）多元散射校正（msc）

由于样品的不均匀性（粒度分布）常导致所测的样品光谱具有很大的差异性，不同批号的同一样品所测的光谱从表面看，也可能有很大的差异。在许多情况下，散射引起的光谱变化可能要大于样品成分引起光谱的变化。散射的程度与光的波长、颗粒度和样品的折射指数等有关，因此在整个光谱范围内，散射的强度是不同的，通常表现为基线的平移、旋转、二次和高次曲线。

MSC是由Geladi等人提出的，目的是校正每个光谱的散射并获得较理想的光谱。MSC法假定与波长有关的散射对光谱的贡献和成分的贡献是不同的，理论上，通过光谱上许多点的数据分析，可以把这两部分分开。MSC方法认为每一条光谱都应该与“理想”光谱成线性关系，而真正的“理想”光谱无法得到，可以用校正集的平均光谱来近似。因此每个样品的任意波长点下反射吸光度值与其平均光谱的相应吸光度的光谱是近似线性关系，直线的截距和斜率可由光谱集线性回归获得，并用以校正每条光谱，截距（即附加效应）大小反映样品

独特反射作用，而斜率大小则反映样品的均匀性。

二、特征的提取与压缩

（1）主成分分析（PCA）

又称抽象因子分析，主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。

思想：利用降维的思想，把多指标转化为少数几个综合指标。在研究多变量问题时，变量太多会增大计算量和增加分析问题的复杂性，人们自然希望在进行定量分析的过程中涉及的变量较少，而得到的信息量又较多。主成分分析是解决这一问题的理想工具。（主要分析众多变量之间的相关性）

主成分分析计算步骤

① 计算相关系数矩阵

⎥⎥

⎥

⎥⎥⎦⎤

⎢⎢⎢⎢

⎢⎣

⎡=pp p p p p r r r r r r r r r R 2

122221

11211 （1）

在（3.5.3）式中，r ij （i ，j=1，2，…，p ）为原变量的xi 与xj 之间的相关系数，其计算公式为

∑∑∑===----=

n

k n

k j kj

i ki

n

k j kj i ki

ij x x

x x

x x x x

r 1

1

2

1

)()

()

)(( （2）

因为R 是实对称矩阵（即r ij =r ji ），所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量

首先解特征方程0=-R I λ，通常用雅可比法（Jacobi ）求出特征值

),,2,1(p i i =λ，并使其按大小顺序排列，即0,21≥≥≥≥p

λλλ ；然后分别求

出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1，即112

=∑=p

j ij e ，其

中ij e 表示向量i e 的第j 个分量。

③ 计算主成分贡献率及累计贡献率主成分i z 的贡献率为

),,2,1(1

p i p

k k

i

=∑=λ

λ