正交试验设计在近红外光谱建模参数优化选择中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正交试验设计在近红外光谱建模参数优化选择中的应用
邢志娜;王菊香;刘洁;郭恒光
【摘要】Orthogonal experimental design(OED)was applied to the optimization of selection of parameters for modeling in NIR spectroscopy by taking determination of moisture in amine fuel as example.The method of division of sample sets,proportion of the calibration set,pretreatment of spectra and selection of spectral band were taken as the factors in the OED.Calibration models were established separately,and standard prediction deviations (SEP)of the valication set obtained by the model were taken as the results of OED.Through analysis of the results of OED,optimum modeling parameters were determined,and optimal adjustments were made further around the most influential factor,in order to improve the steadiness of the prediction models and the accuracy of predicted results.%应用正交试验设计法,以测定胺类燃料中水分为实例进行近红外光谱(NIR)建模参数的优化选择.以样本集划分方法、校正集比例、光谱预处理方法和波段选择等作为因素进行正交设计,分别建立校正模型,以验证集的标准预测偏差(SEP)为正交试验结果.通过正交试验结果分析,确定最佳建模参数,并且围绕最大影响因素进行优化调整,使预测模型的稳健性和测量结果的准确性得到提高.
【期刊名称】《理化检验-化学分册》
【年(卷),期】2018(054)004
【总页数】4页(P419-422)
【关键词】正交试验设计;建模参数;优化选择;近红外光谱
【作者】邢志娜;王菊香;刘洁;郭恒光
【作者单位】海军航空大学岸防兵学院,烟台264001;海军航空大学岸防兵学院,
烟台264001;海军航空大学岸防兵学院,烟台264001;海军航空大学岸防兵学院,
烟台264001
【正文语种】中文
【中图分类】O657.33
近红外光谱(NIR)技术是一种高效快速的现代分析技术,以其独特的优势在多个领域得到了日益广泛的应用,并已逐渐得到大众的接受和官方的认可[1]。

近红外光谱技术属于二次分析技术,模型的建立对近红外光谱技术非常关键,这将直接影响近红外光谱分析的工作效率和质量。

分析模型的建立通常涉及四个方面的内容:一是参与模型建立的样本集的选择;二是参与建模的光谱预处理方法的选择;三是波长的筛选;四是多元校正方法的选择。

其中前三项属于建模过程中需要反复比较选择的建模参数。

首先,样本集的选择直接关系到模型的适用范围。

通常要求校正集样品分析数值最好成均匀分布,如果样本分布密集则可能出现过拟合现象,如果样本分布稀疏则可能会出现拟合不足现象。

因此,除了采集样品要尽可能的全面外,使用合适的样本集选择方法对增强模型的预测能力显得更加重要[2-3]。

其次,光谱预处理是通过对光谱的适当处理或变换,减弱甚至消除各种干扰因素对光谱的影响。

最后,波长筛选的目的是尽可能地去除无关信息变量,建立稳定、可靠的校正模型[4-7]。

因此,建模过程中需要综合考虑上述三方面的问题,每一方面
的不同选择都会直接影响模型的准确性和稳定性。

正交设计法是一种高效、快速、经济的试验设计方法,主要用于多因素多水平的试验研究。

正交试验设计是从全面试验中挑选出代表性的因素,利用数学上的“正交性”原理编制正交表,科学安排试验方案,并对试验结果进行计算、分析,最终找出最优或较优的条件[8]。

利用正交表安排试验方案,搭配均衡,具有代表性。

对全部因素而言,正交设计是一种部分试验,但对于其中任何两个因素而言却是带有等重复的全面试验。

这些有代表性的因素具备“均匀分散、齐整可比”的特点,并能保证主要因素的各种可能搭配都不会漏掉。

已有研究人员将正交性应用于近红外光谱以及其他光谱分析中[9-11]。

但目前应用中,只单独用于样本集选择、数据处理或波段优化选择上。

由于各建模因素间存在交互作用,单因素分析并不能得到最优的试验条件。

针对上述情况,本工作以胺类燃料的水分含量测定为例,采用正交设计法对样本集、波段以及光谱预处理方法的选择进行综合设计,通过较少的试验次数,找出最佳的建模参数,获得理想的预测模型。

1 试验部分
1.1 仪器
NIR-2000型近红外光谱仪;HJ-01型专用水分测定仪。

1.2 仪器工作条件
近红外光谱仪,配NIR分析软件;光谱范围700~1 100nm;采样点数为2 002;光谱带宽小于1.5nm,波长重现性小于 0.05nm(10 次连续扫描)。

1.3 试验方法
1.3.1 标准数据分析
所有样品的水分含量通过气体容量法,采用专用水分测定仪测定,以下称为实际值。

1.3.2 正交试验设计方案
依据建模过程中积累的经验,确定样本集划分方法、校正集比例、波段选择、
Savitzky-Golay(S-G)导数预处理方法等4个建模参数(以下分别用A、B、C、D表示),并将其作为正交设计的因素,采用L934进行正交试验设计,探讨
这4个因素对关于胺类燃料的水分测定的近红外光谱分析模型的影响。

模型建立前,将总的样本集划分为校正集和验证集,校正集用于建模,验证集不参与模型建立而是用于模型的外部验证。

其中,样本集划分方法是指从样本集中按照选取比例随机选择一定数量的校正集,或是按照马氏距离或欧式距离计算样品光谱的差异,并据此来选择校正集。

校正集比例是指根据经验设定的样本集中校正集样本数所占的比例。

波段选择是建立在建模效果和光谱相关性分析的基础上,由于水在近红外短波区域中的730,960nm左右的位置有明显吸收[12],因此波段选择就围绕这两个位置进行选择,同时兼顾胺类燃料的C-H和N-H基团对O-H 键的关联影响。

4个因素3个水平可安排9个试验方案,分别进行分析模型的建立,最后将分析
模型对验证集的标准预测偏差(SEP)作为试验结果,并对试验方案进行比较评估。

2 结果与讨论
2.1 近红外光谱
胺类燃料的近红外光谱图见图1。

图1 胺类燃料的NIR光谱图Fig.1 NIR spectrum of amine fuel
2.2 正交模型建立
共收集到57个样品,水分的质量分数在0.01%~0.83%内,将各因素水平填
入表中,即得试验方案,见表1。

根据试验方案,采用偏最小二乘法(PLS)方法进行模型校正计算,校正模型采用留一法交互验证,分别建立校正模型,最后通过校正模型对验证集的预测标准偏差(SEP)来评价校正模型。

表1 试验方案及分析结果Tab.1 Testing plan and analytical results序号样
本集划分方法(A)校正集比例(B)/%波段选择(C)λ/nm S-G导数预处
理方法(D) SEP/%1 19 0.092 2随机 85 整段选择(720~1 050)窗口宽度23 0.086随机 80 全谱(700~1 100)窗口宽度随机 90 波段组合(720~741,870~912,941~980,1 017~1 043)窗口宽度27 0.101 4 马氏距离 90 全谱(700~1 100)窗口宽度23 0.061 5 马氏距离 80 整段选择(720~1 050)窗口宽度27 0.120 6 马氏距离 85 波段组合(720~741,870~912,941~980,1 017~1 043)窗口宽度19 0.069 7 欧式距离 85 全谱(700~1 100)窗口宽度27 0.092 8 欧式距离 90 整段选择(720~1 050)窗口宽度19 0.108 9 欧式距离 80 波段组合(720~741,870~912,941~980,1 017~1 043)窗口宽度23 0.041均值1 0.093 0.082 0.090 0.084均值2 0.083 0.105 0.063 0.082均值3 0.080 0.070 0.104 0.090极差3 0.013 0.035 0.041 0.008 一般在试验中,多个因素对试验结果的影响是有主次的,表1的最后一行样本集
划分方法、校正集比例、波段选择和光谱预处理方法等4个因素的极差分别为0.013,0.035,0.041,0.008,由此可以看出它们对SEP的影响由大到小排序依次为波段选择、校正集比例、样本集划分方法和光谱预处理方法。

为了对表1的试验结果进一步分析,以各因素的水平为横坐标,以SEP的平均值
为纵坐标,将各因素的3个水平的试验结果绘成图,见图2。

图2 各因素水平与SEP之间的关系Fig.2 Relationship between levels of each factor and SEP
由图2可知:每个因素的不同水平对试验结果影响的大小不同。

从样本集划分方
法的角度出发,马氏距离和欧式距离的分类方法较好,二者差别不大,而马氏距离在NIP技术中较常见,试验选择马氏距离的分类方法较好;针对校正集比例而言,3种水平对SEP的影响不大;对光谱波段的选择,选取有效信息的波段组合方式
明显优于其他2种方法;光谱预处理方法选择上,窗口宽度23的效果明显好于其
他2种水平,并且从SEP的变化幅度看,也印证了表1反映出的波段选择和光谱
预处理方法是对SEP影响较大的因素。

正交试验设计的结果表明,分析模型建立
参数的最佳组合为A2B2C3D2。

A2B2C3D2并没在正交设计的试验方案中,为了得到效果最优的建模参数,按照
最优试验方案A2B2C3D2进行校正模型的进一步优化,最终得到校正模型参数的主因子数为4,SEP为0.034%。

校正模型对验证集的预测实际图见图3。

由图3可知:通过正交试验设计确定的建模参数,能使分析模型的准确度大大提高。

图3 最佳校正模型的验证预测实际图Fig.3 Actual graph of validation for prediction by the best correction model
本工作利用正交试验设计法,对胺类燃料水分的近红外光谱分析模型的建模参数进行设计筛选,选定最佳建模参数后,围绕最大影响因素进行优化调整,最终得到预测准确度较高的理想分析模型。

试验结果表明,正交试验设计法应用于近红外光谱分析模型建模参数的选择是一种有效的方法,为今后针对不同分析对象的近红外光谱分析模型的优化及提高预测结果的准确性等方面均具有参考价值。

参考文献:
[1] BURNS D A,CIURCZAK E W.Handbook of nearinfrared analysis [M].New York:Marcel Dekker Ine,2008:l-53.
[2]詹雪艳,赵娜,林兆洲,等.校正集选择方法对于积雪草总苷中积雪草苷NIR定量模型的影响[J].光谱学与光谱分析,2014,34(12):3267-3272.[3]石鲁珍,张景川,蒋霞,等.校正样品的选择对南疆红枣水分NIR定量模
型的影响研究[J].食品科技,2016,41(1):82-85.
[4]邢志娜,王菊香,刘洁.航空煤油初馏点近红外光谱分析模型的预处理方法及波段优选[J].理化检验-化学分册,2013,49(1):29-32.
[5] TRYGG J,WOLD S.Orthogonal projections to latent structures(O
-PLS)[J].Chemometrics,2002,16(3):119-128.
[6]耿颖,相秉仁,何兰.净分析信号算法用于近红外模型优化的研究[J].光谱学与光谱分析,2015,35(10):2730-2733.
[7]丁家欣,张秋海,李树莉,等.应用近红外光谱法快速测定蜂蜜中葡萄糖和果糖含量[J].光谱学与光谱分析,2016,36(10):197-198.
[8]郑少华,姜奉华.试验设计与数据处理[M].北京:中国建材工业出版社,2004:67-69.
[9]王丽杰,蔡丽娟,周真,等.直接正交校正用于牛奶成分近红外光谱分析[J].红外技术,2008,30(9):546-550.
[10] SOLDADO A,FEARN T,MARTNEZ-FERNNDEZ A,et al.The transfer of NIR calibrations for undried grass silage from the laboratory to on-site instruments:Comparison of two approaches[J].Talanta,2013,105:8-14.
[11]马永恒,杨力.正交试验在能谱仪定量分析中的应用[J].理化检验-物理分册,2013,49(6):378-382.
[12]严衍禄,陈斌,朱大洲.近红外光谱分析的原理、技术与应用[M].北京:中国轻工业出版社,2013:23.。

相关文档
最新文档