酒香型光谱分析和模式识别计算分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第30卷,第4期光谱学与光谱分析Vol 130,No 14,pp 9202923
2010年4月 Spectroscopy and Spectral Analysis April ,2010　
酒香型光谱分析和模式识别计算分析
姜　安1,彭江涛1,彭思龙1,魏纪平2,李长文2
11中国科学院自动化研究所,北京　100190　21天津天士力集团食品研究所,天津　300410
摘　要　白酒是一个复杂的混合物体系,它含有大量的微量成分,这些微量成分直接决定了白酒的品质、口
感和香型。

为实现对白酒香型的快速鉴别,可采集不同香型白酒的红外光谱图,并将其作为模式分类方法的输入模式,建立白酒香型鉴别模型。

首次全面系统地介绍了白酒香型模式识别算法,这些算法包括统计分类器(线性判别函数、二次判别函数、正则判别分析、K 近邻算法)、原型学习算法(学习矢量量化)、支持向量机和AdaBoost 算法。

实验结果表明,基于红外光谱的白酒香型检测模式识别算法达到了很高的分类准确率、识别率和拒绝率,显示出了很好的性能。

关键词　红外光谱;白酒香型检测;模式分类;高斯分类器;学习矢量量化中图分类号:O65713 文献标识码:A DOI :1013964/j 1issn 1100020593(2010)0420920204
　收稿日期:2009204208,修订日期:2009207212
　基金项目:国家科技支撑计划重点项目(2006BA K07B04)资助
　作者简介:姜　安,1979年生,中国科学院自动化研究所博士研究生 e 2mail :an 1jiang @ia 1ac 1cn
引　言
白酒的成分包含98%～99%的乙醇和水,以及1%～
2%的香味物质。

这些香味物质种类繁多,使白酒呈现出不
同的口感和香型。

白酒按香型可分为酱香、浓香、清香、米香和复合香型等,其中酱香、浓香、清香是传统大曲酒的三大主流香型。

传统的白酒香型分类主要有两种方法,一种是专家进行感官评审;另一种是利用理化分析的方法剖析微量香气组分,根据香气组分的含量来确定白酒香型。

但是,这2种方法都有其缺陷。

感官品尝的方法虽然简单、直接,但它不仅跟品酒师的经验和敬业程度有关,还跟品酒师品尝时的生理状态、心理状态有关,这些因素都会使得品尝结果不稳定。

理化分析方法主要用气相色谱法来分离、鉴别香气成分,不同白酒所含的香气成分(如酸、酯、醇、醛、酮等)大体相同,其含量的不同构成了不同风格的香型,但是定量检测这些成分的含量有一定难度,而且操作过程非常复杂。

另外,由于白酒本身是一个复杂的混合物体系,目前所知的有几百种微量成分,而能检测出来的只有百余种,仍有许多微量成分尚无定论,但是它们仍然对白酒的口感、香型有着很大的影响,因此,理化分析也很难从根本上解决白酒香型的分类问题。

傅里叶红外光谱技术具有快速、整体、无损鉴定复杂混合物体系的优点,目前已广泛应用于食品安全、农产品质量
控制、药物分析等领域。

近年来,由于模式识别技术的引进,红外光谱分析技术得到了很大的提升。

本文将模式识别中的线性判别函数(LDF )、二次判别函数(QDF )、正则判别分析(RDA )、K 近邻(KNN )、学习矢量量化(L VQ )、支持向量机(SVM )以及AdaBoost 等算法应用到白酒香型检测中,有效克服了传统的白酒香型鉴定方法不够科学规范、难适应于综合宏观的整体评价等缺陷,取得了满意的分类效果。

1　白酒红外光谱模式分类算法
已知白酒红外光谱数据样本集为{(x i ,y i )i =1,…,
n},其中x i ∈R d 为第i 个光谱数据样本,y i ∈Y ={1,2,
…,m}是相应的白酒香型标识,m 为香型类别总数。

白酒模
式分类模型中输入的模式就是光谱数据,根据训练得到的判据模型对未知样本x i 进行判别,得到的输出就是相应白酒的香型类别y i 。

模式分类方法包括统计方法、人工神经网络、核方法和多分类器组合算法等。

统计模式分类[1,2]根源于贝叶斯(Bayesian )决策规则。

根据概率密度函数的形式是否已知,统计分类器可分为参数分类器与非参数分类器。

在参数分类器中,概率分布常假设为G aussian 分布,相应的分类器为高斯分类器,如线性判别函数(LDF )、二次判别函数(QDF )和正则判别分析(RDA )等算法。

K 近邻决策是一种广泛使用的
非参数方法,它将未知样本决策到其K近邻中出现频率最高的模式的类别。

K ohonen提出的学习矢量量化(L VQ)算法[3]是一种人工神经网络方法,它选择有代表性的原型替代原始训练样本集,然后基于选择的原型进行近邻分类,这样既可以减少计算量,还可以提高分类性能。

支持向量机(SVM)[4]是建立在统计学习理论的VC维理论和结构风险最小化原则基础上的一种通用的机器学习算法,其判别函数是核函数在所有样本上的线性组合。

根据有限的样本信息,支持向量机在模型的复杂性和学习能力之间寻求最佳折衷,取得了很好的推广能力,被广泛地应用到模式识别的各领域。

AdaBoost算法[5]是一种构建准确分类器的学习算法,它将一族弱学习算法通过一定规则提升为一个强学习算法,从而通过样本训练得到一个识别准确率高的强分类器。

2　实验装置与实验步骤
211　实验装置
实验采用的仪器为Perkin Elmer公司的Spectrum GX FITR红外光谱仪,D T GS检测器,A TR附件;谱图采集条件:扫描信号累加16次,光谱分辨率4cm-1,测量范围4000～650cm-1,A TR反射3次。

212　样品来源
在众多香型中,清香、浓香、酱香是传统大曲酒的三大主流香型。

实验采集这3种香型的白酒样品谱图470个,其中酱香型191个、浓香型204个、清香型75个,波长范围4000～650cm-1,即每个样本有3351个特征。

各香型白酒的构成如下:酱香型样本由茅台、郎酒、红花郎酒组成,浓香型样本由五粮液、金剑南、银剑南、泸州老窖组成,清香型样本由不同年份生产的汾酒组成。

213　光谱数据预处理
在白酒红外光谱图的采集过程中,由于仪器本身的预热状态、背景环境的温度、湿度等因素的干扰,采集的光谱图上会呈现基线漂移、随机噪声、光散射等现象,从而在很大程度上影响后续分类模型的精度。

因此,需要采用合适的方法对光谱数据进行预处理。

光谱数据预处理流程如图1所
示。

Fig11　Pre2processing flow ch art
21311　基线漂移校正
红外光谱仪器使用一段时间后,由于元件老化、温度变化等方面原因,其基线往往存在漂移。

用三次样条插值的方法来拟合基线,然后用原始光谱图减去基线,就得到校正后的光谱图。

基线漂移校正前后的光谱图如图2(a)和(b
)所示。

Fig12　Pre2processing results of spectra
(a):Orignal spectra;(b):Baseline correction;(c):Part spectra of(b);(d):Wavelet denoising
21312　噪声去除
对于基线漂移校正后的光谱图,利用小波软阈值法去除
噪声。

小波去噪基本原理是:噪声的小波系数会随着尺度的
增加而减小,因此通过寻找合适的阈值,将小于阈值的小波
129
第4期光谱学与光谱分析
系数置为0,大于阈值的小波系数予以保留,然后用这些调整后的小波系数进行重构,就可以获得去除噪声后的信号。

本文采取的小波去噪方法步骤如下。

(1)对原始光谱图做5级小波分解,得到一组小波系数。

(2)对小波系数进行软阈值处理,阈值取为σ2log (N )。

(3)用软阈值处理后的小波系数进行重构。

图2(c )是(b )图波数在2200～1200间的局部显示,其去噪后的光谱图如图2(d )所示。

21313　归一化处理
由于仪器本身的工作状态及背景环境温度、
湿度等因素的影响,采集的谱图会呈现出一定的散射效应。

另外,由于很难将红外光源能量每次都调成一样,采集的白酒红外谱图能量上会有差异,因此需要对采集的谱图做归一化处理,以消除上述不确定因素的影响,获得一致性比较高的谱图。

文中采取标准归一化的方法,即将每个谱图减去它的均值然后除以它的方差。

214　异常样本点去除
为降低异常样本点对模型精度的负面影响,在建立分类模型之前,需要去除这些异常样本点。

本文采取如下方法。

(1)对白酒谱图数据做PCA 降维处理,并取前10个主成分。

(2)求取降维后的谱图数据之间的马氏距离,并求其平均值。

(3)对于马氏距离大于115倍平均值的谱图,认为是异常样本点,删除之。

215　建立模型
将处理后的光谱数据以及其对应的香型信息作为模式分类方法的输入模式,调用不同的模式分类算法,建立对应的白酒香型识别模型。

上述流程可以用图3表示。

Fig 13　Flow chart of model training and testing
3　实验结果与分析
对于实验采集的470个谱图,去除异常样本12个,包括
酱香型5个、浓香型5个、清香型2个(这些异常样本点主要是在谱图采集过程中出现意外,而非样品本身有问题)。

对于剩下的458个样品谱图,将其中75%的样本划分为训练样本,余下25%的样本为测试样本,采用交叉验证的方法来估计分类器的性能。

分类器的性能采用分类正确率、识别率和拒绝率来评价。

对于每类样本,识别率是指识别自身类样本个数与该类样本总数之比;拒绝率指拒绝其他类样本个数与其他类样本的总数之比。

酱香、浓香、清香型的分类器性能如表1所示。

T able 1　Perform ance of the classif ications
using different methods
分类方法
正确率
识别率拒绝率LDF 019777019659019889QDF 019821019794019916RDA 019830019802019925LVQ211019554019473019776KNN 019466019442019549AdaBoost 019888019874019893SVM
019936019912019989
其中,RDA 方法的超参数β和γ采用5折交叉验证方法选取。

L VQ211算法中,利用k 2means 算法对每类样本选择初始原型,设定每类的原型均为5个。

KNN 算法中,K 取为
5。

AdaBoost 算法中,弱学习算法采用分类回归树[6]。

SVM
算法中,比较了线性核、多项式核、径向基函数核、Sigmoid 等不同核函数对模型精度的影响,最后采用径向基核函数,
核参数C 和σ采用遗传算法优化得到,最终的值C 取2,σ取
015。

对于白酒的多种香型分类,AdaBoost 和SVM 采用一对
多方法构造多类分类器,将一个k 类分类问题转化为k 个两类分类问题[7,8]。

从表中可以看出,SVM 的分类精度最高,AdaBoost 次之,然后是高斯分类器RDA ,QDF 和LDF ,最后是L VQ211和KNN 。

在高斯分类器中,RDA 的效果最好,也更稳定。

事实上
QDF 是RDA 的特例,在RDA 中参数(
β,γ)=(0,0)时即为QDF 。

但是RDA 实现中需要交叉验证选择超参数,计算代
价也大一些。

由于样本数目比较小,高斯分类器的性能相对而言还是比较令人满意,要好于L VQ211。

对比神经网络分类器L VQ211和SVM ,SVM 分类性能要好于L VQ211,SVM 选择合适的核函数后可以得到全局最优解,而神经网络则会陷入局部最优解。

从计算代价来看,L VQ211的计算时间与训练样本成线性关系,而SVM 是二次关系,虽然SVM 有一些快速实现算法,但是其存储和计算开销还是要大于L VQ211。

AdaBoost 算法也取得了不错的分类效果,性能只是比SVM 稍差。

所有分类器中,KNN 的效果是最差的。

究其原
因,KNN 只是简单地考虑待测样本附近样本点所属的类别,而且需要大量训练样本才能达到较高精度。

但即使这样,
KNN 还是达到了94%以上的分类正确率。

4　结　论
运用红外光谱分析技术结合模式识别算法对白酒香型检测进行了全面系统的研究,建立了白酒香型检测模型。

对于7种不同的模式分类算法(LDF ,QDF ,RDA ,L VQ211,
KNN ,AdaBoost 和SVM ),分别建立了相应的模型。

实验表
明,模型是有效的,它们在允许的存储和计算代价下展示了优越的性能。

模型的分类准确率和识别率都在94%以上,拒
229光谱学与光谱分析第30卷
绝率都在95%以上。

这充分表明,红外光谱分析结合模式识别计算分析在白酒香型分类中具有可行性,为解决白酒香型
检测问题提供了一种新的思路。

目前这些算法已成功应用于白酒香型自动检测系统中。

参
考
文
献
[1]　J ain A K ,Duin R P W ,Mao J C.IEEE Transactions on Pattern Analysis and Machine Intelligence ,2000,22(1):4.[2]　Duda R O ,Hart P E ,Stork D G.Pattern Classification.New Y ork :Wiley Interscience ,2000.[3]　K ohonen T.Proceedings of IEEE ,1990,78(9):1464.
[4]　Vapnik V N.Statistical Learning Theory.New Y ork :Wiley ,1998.
[5]　Freund Y ,Schapire R E.Journal of Computer and System Sciences ,1997,55(1):119.
[6]　Breiman L ,Friedmsn J ,Olshen R ,et al.Classification and Regression Trees.New Y ork :Chapman &Hall ,1984.[7]　Kressel U.Advances in Kernel Met hods :Support Vector Learning.Cambridege :MIT Press ,1999.[8]　Hof mann T ,Scholkopf B ,Smola A J.Annals of Statistics ,2008,36(3):1171.
Analysis of Liquor Flavor Spectra and Pattern R ecognition Computation
J IAN G An 1,PEN G Jiang 2tao 1,PEN G Si 2long 1,WEI Ji 2ping 2,L I Chang 2wen 21.Institute of Automation ,Chinese Academy of Sciences ,Beijing 100190,China 2.Food Research Institute of Tianshili Group ,Tianjin 300410,China
Abstract Chinese liquor is a complex mixture and contains a large amount of microconstituents ,which affects the quality and flavor of liquor.In order to discriminate liquor flavors rapidly ,the spectra of liquors were obtained by FTIR and employed as the input patterns of pattern classification algorithms ,then liquor flavor discrimination models were built.This paper introduces liq 2uor flavor pattern recognition algorithms comprehensively and systematically for the first time ,and the algorithms contain statis 2tical classifications (linear discriminant f unction ,quadratic discriminant f unction ,regularized discriminant analysis ,and K nea 2rest neighbor ),prototype learning algorithm (learning vector quantization ),support vector machine and adaboost algorithm.Experimental results show that the liquor flavor classification algorithms demonstrate good performance and achieve high accura 2cy ,recognition rate and rejection rate.
K eyw ords Inf rared spectroscopy ;Liquor flavor discrimination ;Pattern classification ;G aussian classification ;Learning vector
quantization
(Received Apr.8,2009;accepted J ul.12,2009)
3
29第4期光谱学与光谱分析。