导数光谱-支持向量回归法同时测定NO3-和NO2(精)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

导数光谱-支持向量回归法同时测定NO3-和NO2-

丁亚平1陈念贻1吴庆生2 李国正3杨杰 3

(1.上海大学化学系计算机化学研究室,上海,200436 2.同济大学化学系,上海,200092

3.上海交通大学图象及模式识别研究所,上海,200030)

摘要:分析化学中传统的多元校正通常采用线性回归或人工神经网络算法。但线性回归不能适应实测数据或多或少的非线性,而人工神经网络又有过拟合弊病造成误差。为此我们提出用新发展的既能处理非线性数据,又能限制过拟合的支持向量机算法。本文首次提出导数光谱-支持向量回归法。该法用于NO3--NO2-体系的同时测定解得的浓度平均相对误差在±8.2%,明显好于ANN法(±9.15%)和线性回归法(±11.5%)。这表明支持向量机算法在分析化学的校正技术中是有用的。

关键词:支持向量回归;多变量校正;NO3-

--NO2-

中图分类号:O 06-04

文献标识码:

Derivative Spectrum Simultaneous Determination

of NO3--NO2- by SVR Method

Ding Yaping1, Chen Nianyi1, Wu Qingsheng2, Li Guozheng3, Yang Jie 3

(1.Dept.ofChem.,ShanghaiUniversity,200436,China 2.TongjiUniversity,Shanghai,200092,China;

3.Shanghai Jiao Tong University,Shanghai 200030,China)

Abstract:Linear regression and artificial neural network are usually used in the multi-variate calibration work in analytical chemistry. But linear regression is difficult to fit the nonlinearity of experimental data, while ANN method often exhibits overfitting. Both of these problems may lead to errors in computation. Therefore, a new method,support vector regression,which can fit nonlinear data and can depress overfitting at the same time,is first applied to multivariate calibration for derivative spectrum of NO3--NO2- system. The relative analyzing errors are within ±8.2% .

It is lower than the error by ANN(±9.15%) or linear regression(±11.5%).So it appears that this new method is useful for calibration work in analytical chemistry.

Keywords: support vector regression, multivariate calibration, NO3--NO2-

1.引言

同时测定硝酸、亚硝酸根离子对农业、环境、食品、生态等多方面均有重要意义。NO3-和NO2-离子的紫外吸收光谱和一阶导数光谱均严重重叠。故二者的同时测定常需要用化学计量学的多元校正(multi-variate calibration)算法[1]。目前常用的多元校正算法是PLS线性回归等方法,在非线性明显时则可用人工神经网络等方法。这些传统的化学计量学算法的一个共同特点是它们都以经典的统计数学的渐近理论为依据。该理论的前提是统计规律要在训练样本数接近无穷大时才逼近实际值。但实际上分析化学中的训练样本数只能是有限个,而且测量得的数据也不可能无限精确。这都会使这些传统算法在建模预报时“过拟合”(overfitting), 即所得数学模型对训练样本拟合较好,但在预报未知时常有较大偏差的情形。若用线性回归作多元校正,则尚可能因对训练样本集的非线性不能适应,还会产生“欠拟合”(underfitting)并导致误差。针对这类“小样本集”的统计预报问题,数学家Vapnik等在三十多年较严格的理论研究基础上,提出了“统计学习理论”(statistical learning theory)和包括“支持向量回归”(support vector regression,简称SVR)在内的一整套新算法[2,3]。这套新算法在人脸,语音识别的应用中已大见成效。最近也在化学计量学中QSAR等方面应用有实效[4-11]。本论文首次将SVR算法用于分析化学的多元校正问题,较好地解决了硝酸,亚硝酸离子的同时测定问题,并将其结果与线性回归,人工神经网络等传统方法的计算结果进行了对比,结果令人满意。

收稿日期:2002-06-10;修回日期:2002-09-10

资金资助:国家自然科学基金(批准号:20175013)及上海市高校科技发展基金(01A17)资助项目

作者简介:丁亚平,(1957-),教授,研究方向:化学计量学、光电分析

2.计算方法及其原理

SVR算法的基础主要是ε不敏感函数( ε -insensitive function)和核函数 (kernel- function)算法。(1)ε不敏感函数:任何分析数据总难免有些误差,即在置信范围内有些不确定性。然而传统的化学计量学算法在拟合训练样本时,总是根据最小二乘法判据作计算机计算精度允许的最大精度的拟合。以求得唯一解即数学模型。这实际上是将实测数据默认为无限准确的。实际上这是将有限样本数据中的误差也拟合进数学模型了。针对传统方法这一缺点,SVR采用“ε不敏感函数”,即对于用f (x)拟合目标值y时:

f (x) = + b ( 1 )

此处<>代表内积。目标值 y i的拟合在

| y i - - b | <= ε( 2 )

时,即认为进一步拟合是无意义的。这样拟合得到的不是唯一解,而是一组无限多个解。然后SVR根据误差传递理论,以||w||2取极小的标准选取数学模型的唯一解。这一求解策略使过拟合受到限制,显著提高了数学模型的预报能力。需要指出:若将拟合的数学模型表达为多维空间的某一曲线,则根据ε不敏感函数所得的结果就是包络该曲线和训练点的“ε管道”。在所有样本点中,只有分布在“管壁”上的那一部分样本点决定管道的位置。这一部分训练样本称为“支持向量”(support vectors).

(2)核函数算法:为适应训练样本集的非线性,一种传统的拟合方法是在线性方程后面加高阶项。此法诚然有效,但由此增加的可调参数未免增加了过拟合的风险。SVR采用核函数解决这一矛盾。核函数是预报样本点的向量x的函数Φ(x)与支持向量x’的函数Φ(x’)的内积:

K(x,x’) = <Φ(x)·Φ(x’)>( 3 )

用核函数代替线性方程中的线性项可以使原来的线性算法“非线性化”,即能作非线性回归。与此同时,引进核函数不会增加多少可调参数,于是过拟合仍能控制。

(3)分析化学多元校正的SVR算法:我们根据国际文献[4]编写了以SMO为基础的SVR算法软件。用SVR计算的多元校正计算的流程图如图1所示。先用留一法以预报最佳为标准选择合适的核函数,合适的计算用参数(ε,C)。再用SVR处理训练集求得支持向量集X′。即可用图1的网络求目标值即测定成分的含量。

3.实验部分

3.1 仪器与试剂

相关文档
最新文档