多组分溶液近红外光谱检测算法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多组分溶液近红外光谱检测算法研究
金秀;李绍稳
【摘要】利用下一代红外光谱检测仪MEMS-FTIR,在基于近红外波段1 000-2 100nm区域对多组分糖溶液进行检测,通过开源平台的R语言对实验中的近红外光谱数据进行数据分析和PLS算法研究,为下一代快速、便携式、移动平台光谱数据分析奠定基础.本次研究主要使用具有开源性质的R语言和近红外光谱PLS算法,PLS算法可以显著提高近红外光谱回归模型的有效性.在建立回归模型后,对模型的RMSEP系数和R2系数进行分析和比较,结果表明建立的多组分糖浓度的PLS 回归模型拟合程度较高.
【期刊名称】《重庆科技学院学报(自然科学版)》
【年(卷),期】2015(017)005
【总页数】4页(P80-83)
【关键词】FTIR;近红外线;PLS算法;回归模型;R language
【作者】金秀;李绍稳
【作者单位】安徽农业大学信息与计算机学院,合肥230036;安徽农业大学信息与计算机学院,合肥230036
【正文语种】中文
【中图分类】TP391.44
现代的近红外光谱研究开始于农业产品的分析。
美国从20世纪50年代就开始利用可见光透射和反射技术测定鸡蛋、蔬菜等农产品的品质[1]。
近红外光谱主要研
究O — H,C — H,N — H等含氢基团原子间振动的倍频与合频信息。
随着计量
化学和计算机技术的发展,近红外光谱分析作为一种无损的,快速的分析方法,被广泛的应用于实际检测中。
新一代的微机电光谱分析仪(MEMS-FTIR)更具有体积小、成本低、速度快且便于携带等优点。
MEMS-FTIR不仅可被利用在材料检测,气体分析等多种专业领域的检测中,而且因为自身的优点,还可被普及到日常生活中[2]。
在光谱数据分析中,近红外光谱的定量分析是化学计量学在光谱领域与计算机领域相结合的一个典型代表,其主要步骤为:先对样本进行收集、分析,然后进行光谱采集、筛选,最后通过计算机和数学算法的分析,建立优质的定量回归模型。
通过这个回归模型可以预测同类物质中主要成分的近似浓度,所以在定量分析中,模型的优劣非常重要。
影响回归模型效果的2个主要方面是:(1)样本的精确度和范围,其通常利用常规的化学方法进行控制;(2)回归模型的算法。
回归模型的算法也在
不断地更新,从最初的多元线性回归(MLR)到现在的主成分回归(PCR)和偏最小二
乘法(PLS),而PLS算法作为应用最多的算法,在定量分析中具有很好的效果。
偏最小二乘法(PLS)是在20世纪70年代的经济学研究中被提出的,它的特点是在小样本下对多自变量进行回归建模。
2001年高惠璇用具体例子对最小二乘法、主成分回归和偏最小二乘法进行比较分析,并使用SAS软件实现PLS建模[3];2006年王惠文等人一起,对PLS算法进行详细的解说和扩展,提出了回归系数的显著性检验方法[4]。
在本次实验中,使用R语言对光谱数据进行处理、分析和PLS建模。
R语言是一个开放性的强大的统计分析语言,它除了本身带有的软件包以外,现在还含有接近5 000个资源包,基本上涵盖了所有可以实现的算法,而
所有的这些程序包都是免费使用的。
现在各大开源社区中,R语言的资源还在不断地增加。
使用R语言对光谱数据进行PLS建模,可以得到理想的数据模型,并根
据R语言提供的图形库进行可视化分析。
本次研究以蔗糖、果糖、葡萄糖这3种常见的糖分来配置不同浓度比例的溶液,通过MEMS-FTIR仪器中1 000~2 100 nm光谱带进行光谱实验。
在筛选和不断地重复比对后选出每个样本中的有效光谱,然后将光谱数据导入到R语言中,对光谱数据进行分析、处理和建模,最后得到PLS回归模型。
模型的评价主要通过RMSEP系数和R2系数进行。
生产厂家:Hamamatsu Photonics。
实验仪器:MEMS-FTIR。
光谱检测范围:1.15~2.05 m。
波长分辨率:12 nm。
扫描速率:5 ms。
样本:使用蔗糖、果糖、葡萄糖等3种制药溶剂进行配置,总共配置19个样本,每个样本检测3组光谱,共57组光谱。
采用KS(Kennard-Stone)方法对样品集进行划分,首先计算出每个样本的平均光谱,然后将平均光谱与每条光谱进行对比和选择,选出具有特征的19条光谱线进行PLS回归建模,光谱图如图1所示。
编程环境:R 3.1.2和RStudio。
R3.1.2是R语言中比较稳定的版本,资源库中的PLS包可以在3.1.2环境中使用。
在光谱数据处理过程中,由于数据源的文档是xml和txt类型,所以在实验初期首先通过程序进行简单的文件转换,将文件转换为csv类型,然后通过csv文件再将数据导入到R环境中,数据通过R矩阵、数据框的操作,截取出波长为1 300~2 000 nm的光谱数据后,开始建模分析[5]。
2.1 PLS算法
偏最小二乘回归法(PLS)能够在小样本下进行多变量X对多变量Y的回归建模,PLS与PCR相比,不仅仅对光谱矩阵X进行分解、处理,而且对浓度矩阵Y也进行同样的处理。
PLS算法就是在这样的思想下提出的多元因子回归方法[6-7]。
PLS算法首先对光谱矩阵X和浓度矩阵Y进行分解,其模型为:
式中:P — X在得分矩阵U和T下的载荷;
Q — Y在得分矩阵U和T下的载荷;
E — X的拟合残差矩阵;
F — Y的拟合残差矩阵。
在PLS算法中确定参与回归的最佳主成分数是非常重要的环节,选取主成分数量
过多或者过少都会严重影响模型结果。
选择主成分过少被称为欠拟合,过多则被称为过拟合,因此必须有一个有效的原则来确定成分个数。
在绝大部分建立光谱模型的算法中,主要采取交互验证法(cross validation)。
在交互验证法中最常用的判
断依据是预测值误差平方和PRESSi,PRESS越小代表模型的预测能力越好,所以在模型建立中,一般取PRESS最小或者PRESS几乎不再变化的成分个数作为最终模型的成分数。
在R语言中,使用的是交互验证的标准误差SECV,因为,所以使用SECV和PRESS情况相同[8-9]。
认定模型的评价标准十分重要,定量校正模型的部分评价参数有:(1)交互验证的
校正标准偏差SECV;(2)预测标准偏差SEP或RMSEP;(3)校正结果的决定系数
R2。
在模型建立过程中,SECV一般是越小越好,但如果选择过于拟合,也会导致决定系数和SECV过小。
在模型建立完成后,可以用验证集RMSEP验证模型的准确性,RMSEP是越小模型越准确;模型的决定系数R2也被用于验证模型的效果,R2越接近1说明模型的效果越好。
2.2 回归模型
本实验中利用R语言中的程序库计算PLS模型,通过语言库中的函数可以得到模
型的基本系数SECV和TRAINING。
调整后系数SE-ADJCV通过图2可以发现在
主成分为7的时候有一个很大的下降趋势,因此在选择主成分时,不能选取过多
的主成分,线性关系模型可能过度拟合;而如果主成分选择比较少,又不能很好地
体现出模型的优化程度,所以本次模型选取主成份为7是相对较优的数据。
当确定好主成分后,需要依照主成分的数据重新建立新的PLS模型,在R语言中
的程序语句为:plsr(Y~X,data=datasample,ncomp=7,validation=“CV”)。
Y 为蔗糖、果糖、葡萄糖的浓度矩阵集合;X为1 000~2 100 nm光谱吸收矩阵;ncomp为主成份数;validation=“CV”表明建立回归模型中使用了交互验证方法;函数plsr表明整个模型的算法为PLS算法。
在回归模型建立后评价模型的优劣。
在R语言中使用R2函数可以检测出R2系数:计算结果表明R2的系数在主成分为7时有一个很大的提高,基本上接近1。
预测标准差,m是验证集样品数。
在有些文献中RMSEP也被称为SEP,其系数
越小说明模型预测能力越强。
从图3可以看出系数随着主成份的增多逐渐下降,
并且在主成份为7时达到最低,在R语言平台上使用RMSEP函数可以计算出模
型的预测标准差。
最后将光谱模型的预测集合和实际集合放置到图中进行对比,X轴为实际测量值,Y轴为预测值,可以发现预测值和实际值基本上归一到了y=x的直线上(图4)。
因此在主成分为7的前提下,PLS模型具有很好的效果,在R语言平台中使用predict函数进行预测集合和实际集合对比。
本次研究使用最新一代的红外线检测装置MEMS-FTIR来得到多组分糖溶液的近
红外吸收值,并且对吸收值进行定量分析。
在使用MEMS-FTIR的实验中获得近
红外光谱数据后,利用R语言成功地使用PLS算法建立回归模型,通过分析模型
的精度发现,R语言能高效率地检测MEMS-FTIR中的光谱数据,并快速地得到定量分析结果。
本次实验模型提取了7个主成分,模型的RMSEP系数表明本次实验的PLS模型预测拟合效果较好。
【相关文献】
[1] Henry M C. Infrared Spectroscopy for Food Quality Analysis and Control [M]. Elsevier Inc, 2009:37-40.
[2] Griffiths P R, Haseth J. Fourier Transform Infrared Spectrometry [M].[s.l.] Wiley, 2007:297-302.
[3] 高惠璇.实用统计方法与SAS系统[M].北京:北京大学出版社,2001:15-30.
[4] 王惠文,张志慧,Tenenhaus M.成分数据的多元回归建模方法研究[J]. 管理科学学报,2006,9(4):27-32.
[5] 齐琛,方秋莲. 偏最小二乘建模在R软件中的实现及实证分析[J].数学理论与应
用,2013,33(2):103-111.
[6] Pereira A F C, Pontes M J C. NIR Spectrometric Determination of Quality Parameters in Vegetable Oils Using iPLS and Variable Selection [J]. Food Research International, 2008,41(4):341-348.
[7] 王惠文,吴载斌,孟洁.偏最小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006:120-124.
[8] Giangiacomo R. Study of Water-sugar Interactions at Increasing Sugar Concentration by NIR Spectroscopy [J]. Food Chemistry, 2006,96(3):371-379.
[9] Wu Z Z, Xu E B. Rapid Determination of Process Variables of Chinese Rice Wine Using FT-NIR Spectroscopy and Efficient Wavelengths Selection Methods [J]. Food Analysis Methods, 2014(2):1-12.。