近红外光谱分析技术的数据处理方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

引言
近红外是指波长在780nm~2526nm范围内的光线,是人们认识最早的非可见光区域。

习惯上又将近红外光划分为近红外短波(780nm~1100nm)和长波(1100 nm~2526 nm)两个区域.近红外光谱(Near Infrared Reflectance Spectroscopy,简称NIRS)分析技术是一项新的无损检测技术,能够高效、快速、准确地对固体、液体、粉末状等有机物样品的物理、力学和化学性质等进行无损检测。

它综合运用了现代计算机技术、光谱分析技术、数理统计以及化学计量学等多个学科的最新研究果,并使之融为一体,以其独有的特点在很多领域如农业、石油、食品、生物化工、制药及临床医学等得到了广泛应用,在产品质量分析、在线检测、工艺控制等方面也获得了较大成功。

近红外光谱分析技术的数据处理主要涉及两个方面的内容:一是光谱预处理方法的研究,目的是针对特定的样品体系,通过对光谱的适当处理,减弱和消除各种非目标因素对光谱的影响,净化谱图信息,为校正模型的建立和未知样品组成或性质的预测奠定基础;二是近红外光谱定性和定量方法的研究,目的在于建立稳定、可靠的定性或定量分析模型,并最终确定未知样品和对其定量。

1工作原理
近红外光谱区主要为含氢基团X-H(X=O,N,S,单健C,双健C,三健C等)的倍频和合频吸收区,物质的近红外光谱是其各基团振动的倍频和合频的综合吸收表现,包含了大多数类型有机化合物的组成和分子结构的信息。

因为不同的有机物含有不同的基团,而不同的基团在不同化学环境中对近红外光的吸收波长不同,因此近红外光谱可以作为获取信息的一种有效载体。

近红外光谱分析技术是利用被测物质在其近红外光谱区内的光学特性快速估测一项或多项化学成分含量。

被测样品的光谱特征是多种组分的反射光谱的综合表现,各组分含量的测定基于各组分最佳波长的选择,按照式(1)回归方程自动测定结果:组分含量=C0+C1(Dp)1+C2(Dp)2+…+Ck(Dp)k(1)式中:C0~k为多元线性回归系数;(Dp)1~k为各组分最佳波长的反射光密度值(D=-lgp,p为反射比)。

该方程准确的反映了定标范围内一系列样品的测定结果,与实验室常规测定法之间的标准偏差SE为:SE=[Σ(y-x)2/(n-1)]1/2(2)式中:x表示实验室常规法测定值,y表示近红外光
谱法测值,n为样品数。

2光谱数据的预处理
仪器采集的原始光谱中除包含与样品组成有关的信息外,同时也包含来自各方面因素所产生的噪音信号。

这些噪音信号会对谱图信息产生干扰,有些情况下还非常严重,从而影响校正模型的建立和对未知样品组成或性质的预测。

因此,光谱数据预处理主要解决光谱噪音的滤除、数据的筛选、光谱范围的优化及消除其他因素对数据信息的影响,为下步校正模型的建立和未知样品的准确预测打下基础。

常用的数据预处理方法有光谱数据的平滑、基线校正、求导、归一化处理等。

2.1数据平滑处理
信号平滑是消除噪声最常用的一种方法,其基本假设是光谱含有的噪声为零均随机白噪声,若多次测量取平均值可降低噪声提高信噪比。

平滑处理常用方法有邻近点比较法、移动平均法、指数平均法等。

2.1.1邻近点比较法
对于许多干扰性的脉冲信号,将每一个数据点和它旁边邻近的数据点的
值进行比较可以测得其存在。

如果与邻近点的数值相差太大,超过给定的阈值,便可认为该数据是一个脉冲干扰,并通过邻近数据点的平均值来取代这一数据点值,就可以把这一干扰脉冲去掉,这样不影响信号的其它部分。

在这一数据点处理过程中,需注意选择调节参数,也就是考虑邻近数据点值,以及判断一个数据点和邻近数据点之间不同的阈值。

这个阈值一般定义为噪音测量偏差的倍数,以免把必要的有用信号去掉。

这一方法有时也称为邻近点平滑法,也叫做单点平滑法。

2.1.2移动平均法
由于平滑是通过对信号进行平均而减小噪音,因而多点平滑效果更好。

移动平均法是多点平滑中最简单的一种。

先选择在数据序列中相邻的奇数个数据点,这奇数个数据点即构成一个窗口。

计算在窗口内奇数个数据点的平均值,然后用求得的平均值代替奇数个数据点中的中心数据点的数据值,这样我们就得到了数据平滑后的一个新的数据点。

接着去掉窗口内的第一个数据点,并添加上紧接着窗口的下一个数据点,形成移动后的一个新窗口,其中的总数据个数不变。

同样地,用窗口内的奇数个数据点求平均值,并用它来代替窗口中心的一个数据点.如此移动并平均直到最后。

2.1.3指数平均法
指数平均法是计算在一个具有m个数据点的移动窗口中的各数据点的加权平均.在窗口的最后一个点p1即为要平滑的点,它的权重最大,而前面的每个点分配到的权重依次递减。

权重系数由平滑时间常数为T的指数函数e-ji (j标志i前面第j个点,即j=-(m-1),-(m-2),…,-1,0(要平滑的点i 的j=0)的形状来决定。

p1后点的权重为0,这一过滤函数是用点i前面的点对第i个数据点进行平滑。

这一过程和用电子RC滤波器(阻容滤波器)的实时平滑类似。

由于该平滑函数是不对称的,故在平滑后的数据中引入了单向失真,这一点也和实时RC滤波器一样。

除了获得期望的信噪比降低外,指数平均的结果是峰的最大值下降,同时发生移动。

由于用平滑常数T对峰值进行指数平滑和具有时间常数Tx=T的仪器测量该峰的效果相同,因此T和峰宽比值函数的强度下降值从实验测量和理论计算都可得到。

2.2基线校正
由于仪器背景、样品粒度和其它因素的影响,近红外分析中常常出现基线漂移和倾斜现象。

采用基线校正可有效地消除这些影响。

操作时可选用峰谷点扯平、偏移扣减、微分处理和基线倾斜等方法,其中最常用的是一阶微分和二阶微分,但在微分处理时,要注意微分级数和微分数据点的选择。

2.3数据求导处理
近红外分析中,对于样品不同组分之间的相互干扰导致吸收光谱谱线重叠的现象,可采用求导的方法进行处理。

其中常用的是一阶导数和二阶导数。

一阶导数表示为:yi′=yi+g-yi-g二阶导数表示为:yi″=yi+2g-2yi
+yi-2g式中:g为光谱间隔,大小可视具体情况设定。

对光谱求导一般有两种方法:直接差分法和Savitzky Golay求导法。

对于分辨率高、波长采样点多的光谱,直接差分法求取的导数光谱与实际相差不大,但对于稀疏波长采样点的光谱,该方法所求的导数则存有较大误差,这时可采用Savitzky Golay卷积求导法计算。

2.4归一化处理
用于消除光程变化或样品稀释等变化对光谱产生的影响。

有三种光谱归
一化方法:最小/最大归一化、矢量归一化、回零校正。

其中常用的是矢量归一化,它是先计算出光谱的y平均值,再用光谱减去该平均值,这样光谱的中值为零,计算所有的y值的平方和,然后用光谱除以该平方和的平方根,结果光谱的矢量归一化是1。

回零校正是将光谱减去最小的y值,使得最小y值变为0。

3近红外光谱分析常用的数据处理方法
样品的近红外光谱包含了物质的组成和结构信息。

而物质质量参数(如成分含量)也与其组成结构相关。

应用化学计量学方法对两者进行关联,就可确定这两者间的定性或定量关系,即定标模型。

建立定标模型后,只要测出未知样品的近红外谱,根据标模型就可以预测样品的质量参数。

近红外光谱分析常用的计量方法有:主成分分(PrincipalComponentAnalysis,PCR),偏最小二乘法(PartialLeast Squares,PLS)和人工神经网络法(Artificial
Neural Network,ANN)等。

它们都是常用的化学计量学方法,有着各自的优点和局限。

3.1主成分分析法(PCR)
主成分分析法是使用最为广泛的线形降维方法之一,该方法概念简单易懂,实现算法高效,因而在许多降维处理中应用都很广泛。

主成分分析法将方差的大小作为衡量信息量多少的标准,认为方差越大提供的信息越多,反之提供的信息就越少。

其基本思想是通过线形变换保留方差大、含信息多的分量,丢掉信息量少的方向,从而降低数据的维数。

降维后每个分量是原变量的线形组合,因此,主成分分析方法本质上是一种线形降维的方法。

其计算步骤一般分为以下四步:
1)对原始数据样本集合进行标准化处理。

2)计算标准化后的数据矩阵的协方差矩阵,并对其进行正交分解,得出主成分分量。

3)计算各主成分的累计贡献量,根据要求的贡献率阈值选取主成分。

4)针对选取的主成分建立主成分方程,计算主成分值。

PCR把原自变量映射为含绝大部分信息的少数潜变量,再用线性的最小二乘确定这些潜变量系数,建立潜变量和因变量的回归方程后再转换为原自变量和因变量的回归方程。

其压缩自变量的效率极高,但其映射过程和因变量无关,因而其预测精度也难达
到很高。

3.2偏最小二乘法(PLS)
偏最小二乘法(Partial least squares regression,简称PLS)将因子分析和回归分析结合的方法,很好地解决了许多以往用普通多元线性回归难以解决的问题。

用近红外光谱数据来预测样品的组成含量时,作为解释变量的近红外反射光谱的波长有几百个甚至几千个,往往超过了样本的个数,造成多重相关,难用普通的多元线性回归方法来建立稳健、精度较高的
数学模型。

PLS通过因子分析将光谱(多维空间数据,维数相当于波长数目)压缩为较低维空间数据,其方法是将光谱数据向协方差最大方向投影,将原近红外光谱分解为多种主成分光谱,不同近红外光谱的主成分分别代表不同组分和因素对光谱的贡献,通过对主成分的合理选取,去掉代表干扰组分和干扰因素主成分,选用有用的主成分参与回归。

为了建立由各因素构成的数据矩阵X与由各目标构成的数据矩阵Y之间的关系,其中X包含p个变量,Y包含pi个变量,样本数为m,用PLS方法处理时,首先将X矩阵作为双线性分解,即X=TPT
种化学计量学方法而言,它们都有各自的优缺点。

因此,将各种方法联合使用,相互取长补短,将是今后发展的方向。

相关文档
最新文档