近红外快速检测中的独立分量和遗传神经网络建模方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

近红外快速检测中的独立分量和遗传神经网络建模方法
薛生虎;方利明;林敏
【摘要】采用独立分量分析方法提取近红外光谱的独立分量和影响矩阵,再用GA-BP神经网络对影响矩阵和浓度矩阵进行建模,提出了基于独立分量-遗传算法-人工神经网络回归的近红外光谱建模方法.分析了独立分量数和网络中间隐层的神经元数对模型性能的影响.采用该方法对小麦样品中的水分、蛋白质、淀粉3种主要成分含量进行测定,水分、蛋白质和淀粉的预测值和参考值之间的相关系数R分别为0.9670、 0.9804、0.9674.
【期刊名称】《计量学报》
【年(卷),期】2010(031)003
【总页数】4页(P285-288)
【关键词】计量学;近红外光谱;快速检测;独立分量分析;遗传算法
【作者】薛生虎;方利明;林敏
【作者单位】中国计量学院,计量测试工程学院,浙江,杭州,310018;中国计量学院,计量测试工程学院,浙江,杭州,310018;中国计量学院,计量测试工程学院,浙江,杭州,310018
【正文语种】中文
【中图分类】TB99
1 引言
近红外(NIR)光谱分析是依据某一化学成分对近红外区光谱的吸收特性而进行的定
量测定,应用NIR光谱进行快速检测的关键就是在化学成分与光谱数据之间建立
一种定量的函数关系,即校正模型的建立,依据所建立的校正模型,就能从未知样品的光谱中检测出样品的成分和含量。

在测定农副产品(包括谷物、饲料、水果、
蔬菜、肉、蛋、奶等)的品质(如水分、蛋白、油脂含量等)方面已得到广泛使用。

但是,近红外光谱存在着光谱的复杂性、重叠性、变动性以及所包含的信息强度低等难点问题[1]。

通常测得的NIR光谱可以认为是一些纯物质(主要成分)光谱的线
性组合,如果能够将这些主要成分的光谱从复杂的混合光谱中分离出来,这将能极大地提升近红外快速检测技术水平,而这一分离问题可以归结为“盲源分离(BSS)”问题。

独立分量分析(ICA)[2~4]是近年发展起来的一种全新的数据分析工具,是解决盲
源分离问题的一种有效的方法。

ICA方法已经在特征提取、生物医学信号处理、语音信号处理、图像处理及人脸识别等方面得到了广泛的应用。

在化学领域也逐渐显示了它的强大作用[5~6]。

而对于光谱分析中常用的多变量分析方法,如多元线性回归(MLR)、主成分回归(PCR)、偏最小二乘回归(PLS)、傅立叶变换、小波变换等都不能用于辨识混合光谱中的未知成分光谱。

神经网络运用BP算法和多层识别技术后,使之成为应用最为广泛的神经网络之一[7]。

但由于BP算法采用沿着梯度缩小来寻求结果,就会出现收敛速率过慢抑或容易掉入局部极小点的问题。

所以,像附加一个动量矢量,调节学习速率和改善行动方程等多种改良方法相继被提出。

遗传算法是一种非数学自适应优化搜索方法,能用于仿真生物在物种进化中基因的变化规律。

根据自然规律,一个群体的随机出现是要经过传播演变和自然选择过程。

最近几年,许多研究人员结合GA和BP之优点来解决一些实际的问题。

GA算法能调整神经网络的权阈值,加快收敛速率和逃逸局部极小点[8~9]。

本文对小麦样品的3种主要成分运用独立分量分析、遗传算法及BP神经网络相结合来进行分析。

先利用小波变换将大量FT-NIR所得数据集进行压缩,然后运用偏最小二乘(PLS)方法和ICA-GA-BP、ICA-BP和BP神经网络等非线性校正方法对
压缩数据建立分析模型。

实验结果表明,运用适当的方法建模后对小麦样品的定量分析是可行的。

2 独立分量和遗传神经网络建模
ICA能够将不可观测的独立的信号变量从含有这些信号变量的可观测变量中区分开来。

在概率论中独立是高价统计量,是比正交还要强的一个条件。

在正交的基础上,主成分分析法和PLS法都能完成分解。

由于独立变量是高价统计量,能够使混合
信号的本征特性变好,所以ICA在多变量数据集的分析中被认为是更为有力的工具。

一种无噪音的ICA模型可用下式来简要说明:
X=AS
其中,X表示观测到的数据矩阵,S和A分别表示独立分量矩阵和影响矩阵。

ICA 的目的就是找出线性变换W使得估计的源yi尽可能的相互独立。

其中,
Y=WX,Y=[y1,y2,…,ym]T。

通过优化相关信息的对比函数,非高斯性测量或
输出熵,就能应用ICA方法实现在非线性神经网络中最大化信息传输。

这一步骤中,可以利用影响矩阵A来建模。

给定浓度矩阵C,我们就能运用神经
网络回归建立起影响矩阵A和浓度矩阵C之间的关系,从而就得到了NIR定量分析模型。

图1显示了独立分量分析-神经网络回归方法(ICA-NNR)的操作过程。

图1 ICA-NNR方法操作框架图
ICA-NNR方法的具体步骤总结如下:
(1)预处理。

当输入NIR光谱数据集后,应采用标准化,平滑,基线修正等一些基
本预处理技术,以消除由于背景和仪器产生的噪音。

(2)小波变换。

在用ICA分解之前,每个波谱都用离散小波变换加以压缩。

(3)ICA分解。

运用快速ICA算法来计算独立分量矩阵和相应的影响矩阵。

(4)建立校正模型。

利用校正集里的样本通过BP-NNR方法能够建立起浓度矩阵和影响矩阵之间的数学模型。

然后,计算验证集样本的影响矩阵,导入到模型中进行预测。

ICA-NNR方法运用ICA分解和BP神经网络为小麦的3种成分构建非线性模型。

为克服BP算法的慢收敛速率和可能落入局部极小点,在ICA-NNR方法的第四步我们用遗传BP网络(GA-BP)算法来代替BP算法。

遗传算法通过在解空间中锁定一个较佳的搜索空间从而优化原始权重值的分布,然后运用BP算法在解空间中找出最优值。

GA-BP算法的整个演算过程包括选择,
复制,交叉,变异和训练GA-BP网络。

最后,利用GA-BP网络代替BP网络就得到ICA-GA-BP方法。

本文中建立的GA-BP网络包括3层(输入层,中间隐层,输出层)。

隐含层函数被
作为输入层和中间隐层间的传递函数。

Purelin函数作为中间隐层和输出层的传递函数。

遗传算法的参数为:基数50,遗传代数100。

输入神经元(独立分量)和中间隐层的数量应该被优化。

对独立分量的不同数量进行分析从而得到最佳数。

对小麦样品的3种成分建立了一个独立分量(输入神经元)和隐藏节点数可以变化的校正模型。

通过分析校正模型的均方根差与输入节点和隐藏节点的关系从而得出最优数。

输出层的神经元数目可以设定为1。

表1所示为ICA-GA-BP模型的结果。

水分,蛋白质,淀粉的最优模型结构分别为:8-8-1(代表8个输入神经元,8个隐藏神经元和1个输出神经元),6-8-1和8-8-1。

校正集和预测集的结果说明ICA-GA-BP模型比PLS模型优越(见表1和表2)。

表1 ICA-GA-BP模型所得结果成分神经网络结构校正集验证集相关系数R校正均方根误差(RMSECV)相关系数R期望均方根误差(RMSEP)水分8—8—10.98810.05620.96700.0991蛋白质6—8—
10.99200.10350.98040.2787淀粉8—8—10.99130.92740.96741.1635
表2 PLS模型所得结果成分潜在变量校正集验证集相关系数R校正均方根误差(RMSECV)相关系数R期望均方根误差(RMSEP)水分100.96330.15230.92650.1594蛋白质90.95860.19960.93220.2795淀粉110.97131.01630.90541.6890
图2表示为预测和参考曲线。

实线表示在验证集中对应于预测值和参考值相关性
的回归线。

水分、蛋白质和淀粉的预测值和参考值之间的相关系数R分别为:
0.9670, 0.9804,0.9674。

图2 验证集中水分(a)、蛋白质(b)、淀粉(c)预测值和参考值相关性回归线
表3列举出3种模型构建方法(ICA-GA-BP方法,ICA-BP方法和BP方法)的结果。

通过对验证集样品比较,可以看出ICA-GA-BP方法比另外两种方法在获得R和RMSEP值时都优越。

第一,ICA结合遗传BP神经网络和BP网络得到的结果都
很好,遗传BP网络的性能比BP的稍微好一点。

遗传BP网络运用全局搜索方法
来寻找原始权阈值,BP网络是随机寻找原始权阈值,两种网络会收敛到不同的极值。

遗传BP网络的全局性比BP网络好,所以遗传BP网络较好。

当然,如果原
始权阈值选取的合适,BP网络和遗传BP网络会收敛到同一极值,这样可以得到
相似的预测结果。

第二,在建立校正模型之前进行ICA分解能使结果更好,如表
3所示。

ICA算法将光谱矩阵分解为独立分量矩阵和相应的影响矩阵。

独立分量矩阵代表主要成分的光谱,具有实际的化学意义。

另外,运用ICA结合神经网络方
法用影响矩阵作为输入而不是直接将光谱数据作为输入,可以减少计算量。

表3 3种模型构建方法的结果成分ICA⁃GA⁃BPICA⁃BPBP相关系数R期望均方根
误差相关系数R期望均方根误差相关系数R期望均方根误差水分
0.96700.09910.94250.11560.89550.3562蛋白质0.98040.27870.97430.31940.96080.3407淀粉0.96741.16350.94331.52630.93041.6899
3 结论
通过以上讨论和分析,得出如下结论:
1)运用GA-BP算法,可以减小原始权阈值的范围,避免由于随机选取权阈值而产生的缓慢收敛和偏差的现象,加快神经网络收敛速度。

2)近红外的ICA分解有着化学意义。

在建模之前运用,可以提高模型的性能和大
大减少计算量。

3)ICA-GA-BP模型比PLS模型优越,ICA结合GA-BP网络的性能比GA-BP的好点,它们比BP更好。

神经网络和遗传算法都是新兴的人工智能技术,他们的结合也是一种生物智能技术。

本文运用ICA结合GA-BP网络对小麦样品3种主要成分建模进行定量分析。

结果表明这是一种有效的近红外光谱数据分析方法,在农业和食品业中运用ICA-GA-BP方法建模并进行快速分析是可行的。

[参考文献]
[1]严衍禄.近红外光谱分析基础与应用.北京:中国轻工业出版社,2005:1-189.
[2]Aapo H,Erkki O.Independent Component Analysis:Algorithms and Applications[J].Neural Networks,2000,13(4-5):411-430.
[3]Hahn S,Yoon G.Identification of pure component spectra by independent component analysis in glucose prediction based on mid-infrared spectroscopy[J].Applied Optics,2006,45:8374-8380.
[4]杨福生,洪波.独立分量分析的原理与应用[M].北京:清华大学出版社,2006.
[5]姚志湘,黄洪,刘焕彬.采用盲信号分离算法处理GC-FTIR信号[J].光谱学与光
谱分析,2006,26(8):1432-1436.
[6]毕贤,李通化,吴亮.独立组分分析在近红外光谱分析中的应用[J].高等学校化学学报, 2004, 25(6):1023-1027.
[7]Kruzlicova D,Mocak J,Balla B,et al.Classification of Slovak white wines using artificial neural networks and discriminant techniques[J].Food Chemistry,2009,112:1046-1052.
[8]Ergezinger S.An accelerated learning algorithm for multilayer perceptions:layer by layer[J].IEEE Transaction on Neural
Networks,1995,6:31-42.
[9]Zhou Q,Ye H.Demarcation of potential seismic sources on integration of genetic algorithm and BP algorithm[J].Acta Seismologica
Sinica,2002,15(6):677-682.。

相关文档
最新文档