工作曲线法和偏最小二乘回归分析在XRF定量分析软玉样品中的应用

合集下载

分析最小二乘法在工作测力仪二次曲线回归中的应用[论文]

分析最小二乘法在工作测力仪二次曲线回归中的应用[论文]

分析最小二乘法在工作测力仪二次曲线回归中的应用摘要:随着我国科学技术的不断发展,最小二乘法作为一种数学优化技术在工作测力仪二次曲线回归中也得到了广泛应用。

本文主要介绍应用最小二乘法分析拟合质量流量计的工作曲线,从而有效完善流量计的使用操作参数。

文章首先根据已经存在的工作曲线,通过拟合的方式找出设定流量和工作时间二者的变化规律,然后根据得出的规律拟合找到流量计的设定流量稳定时间曲线。

并且根据该结果指导流量计实际的工作参数设定调整。

关键词:最小二乘法工作测力仪二次曲线回归测力仪又叫测力计,主要是用来测量拉力和压力的一种仪器。

工作测力仪是测力仪中的一种,主要包括百分表测力仪、管形测力仪以及机械式拉力表几种类型。

每种类型的测力仪都有各自的优点和缺点,因此,在对其相关的数据进行测量的时候,测量值也会受到一定程度的影响。

比如说机械式拉力表,其本身具有线性较好的特点,因此在求测量值的时候可以采用直线拟合,而测力环由于本身线性不好,在求其测量值的时候就应该先用其他的拟合方法求其回归方程,然后在通过该方程求出测量值。

一、最小二乘法的工作原理最小二乘法最早提出是在1795年,由高斯在他那星体运动轨道预报工作中提出的。

最小二乘法是一种数学优化技术。

它通过最小化误差的平方和寻找数据的最佳函数匹配。

利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

后来,经过一段时间的发展,最小二乘法就成为了估计理论的奠基石。

最小二乘法凭借着自身结构简单,编制程序也不困难等诸多优势,在我国目前很多领域都有广泛的应用,受到了人们的高度重视。

最小二乘法的表示方式有很多种,如果采用标准符号来表示的话,其可以表示为:ax=b(2-43)上述式子中的解是最小化,通过下式中的伪逆可求得:此即最小二乘法的一次完成算法,现代的递推算法,更适用于计算机的在线辨识。

虽然最小二乘法是一种最基本的辨识方法,其应用范围也比较广泛,但是在使用过程中仍然存在一些缺点,一方面是当模型噪声是有色噪声的时候,最小二乘估计不是无偏、一致估计;另一方面随着数据的增长,将出现所谓的“数据饱和”现象。

组合区间偏最小二乘法结合红外光谱法测定在用润滑油的运动粘度

组合区间偏最小二乘法结合红外光谱法测定在用润滑油的运动粘度

组合区间偏最小二乘法结合红外光谱法测定在用润滑油的运动粘度王菊香;韩晓;刘洁【摘要】采用组合区间偏最小二乘法结合红外光谱法快速测定在用润滑油的运动粘度.采用组合区间偏最小二乘法高效提取与粘度变化相关的光谱信息,提高粘度校正模型的测量精度.在设置4 000~400 cm-1范围的区间数为12时,选择2,10,11,12等4个子区间,对应的光谱区域为1 300~400 cm-1、3 700~3 400 cm-1,模型校正偏差达到0.031 5.对模型预测精度的验证结果说明本法与运动粘度标准方法之间具有很好的相关性,模型可以用于定量分析在用润滑油在40℃时运动粘度值.【期刊名称】《理化检验-化学分册》【年(卷),期】2015(051)005【总页数】4页(P638-641)【关键词】组合区间偏最小二乘法;红外光谱法;在用润滑油;运动粘度【作者】王菊香;韩晓;刘洁【作者单位】海军航空工程学院飞行器工程系,烟台264001;海军驻天津8357所军事代表室,天津300308;海军航空工程学院飞行器工程系,烟台264001【正文语种】中文【中图分类】O657.33润滑油变质往往是航空发动机及相关部件发生故障的一个重要根源[1]。

为了及时准确地掌握更换润滑油的时机,减少装备不必要的损坏,对在用润滑油进行监控很有必要。

航空润滑油伴随着航空涡轮发动机的发展而不断改进,合成酯类润滑油的出现是为了适应高速飞机需要应对各种复杂训练、作战环境下对润滑油的需求。

合成酯类航空润滑油在使用过程中由于基础油的酯基破解、抗氧化剂和抗磨剂的损耗及燃油混入造成污染等原因发生变质。

又润滑油的成分复杂,基团的变化和燃油的混入很难定量检测,但润滑油的这些变化都会导致运动粘度指标发生变化,因此快速检测润滑油的运动粘度,可及时掌握油液的变质情况。

红外光谱包含了润滑油的丰富的基团结构信息,已广泛用于石油、医药等领域用于理化指标的定性和定量分析[2],通过化学计量学方法建立理化指标的多元校正分析模型,可实现润滑油的快速有效地监测。

最小二乘法在回归分析中的应用

最小二乘法在回归分析中的应用

最小二乘法在回归分析中的应用在统计学中,回归分析是一种广泛应用的分析方法。

它的主要目的是探讨自变量与因变量之间的关系,并用数学模型来解释它们之间的关联。

在这个过程中,最小二乘法是一种非常重要的工具,它可以帮助我们找到最佳的拟合直线或者曲线,从而最大限度地减小预测误差。

最小二乘法的基本原理最小二乘法是一种常用的参数估计方法,在回归分析中,它被用来估计自变量与因变量之间的线性关系。

假设我们有一个包含n个观测值的数据集,其中自变量为X1, X2, ..., Xn,因变量为Y1, Y2, ..., Yn。

最小二乘法的目标是找到一个方程y=\beta_0+\beta_1X_i来拟合这些数据,使得预测值与观测值的离差平方和最小。

最小二乘法的实现过程是先确定回归系数(β0, β1),然后计算每个观测值与拟合直线的离差(也称为残差),然后计算这些残差的平方和。

由于残差可以是正数也可以是负数,所以用平方和而非绝对值和来求和,可以保证残差的平均值为0。

最终的目标是将这个平方和最小化,从而得到最佳的回归系数。

图1:最小二乘法的目标是找到一条拟合直线,使得残差平方和最小最小二乘法的优点最小二乘法在回归分析中有很多优点。

首先,它是一种可靠且简单的方法,可以处理大部分数据集和模型类型。

其次,最小二乘法所得到的结果是可解释的,它可以帮助我们理解自变量和因变量之间的关系,预测未来的趋势。

最后,最小二乘法还具有抗干扰性,即使数据中存在离群点(比如数据中的异常值),它也能够找到最佳的拟合直线。

最小二乘法的应用最小二乘法在回归分析中有广泛的应用。

例如,在金融学中,我们可以用最小二乘法来研究股票价格与宏观经济指标之间的关系。

在医学研究中,我们可以用最小二乘法来研究某个疾病的风险因素,例如高血压、肥胖等。

在教育研究中,我们可以用最小二乘法来研究学习成就与教育资源之间的关系。

最小二乘法的限制尽管最小二乘法在回归分析中有很多优点,但它也有一些局限性。

偏最小二乘回归分析及其在经济中的简单应用

偏最小二乘回归分析及其在经济中的简单应用

偏最小二乘回归分析及其在经济中的简单应用作者:沈丹来源:《新课程·教育学术》2011年第02期一、概念及其意义偏最小二乘回归(Partial Least Squares,PLS)是一种新型的多元统计分析方法,它是普通最小二乘法(Ordinary Least Squares,OLS)的一种改进。

许多实际问题中,需要使用自变量对因变量建立回归预测方程,但当涉及的自变量较多时,自变量间往往存在着相关性,或者,当我们所取得的样本点数量小于自变量个数时,都可以引起多重共线性问题。

变量之间的多重共线性是广泛存在于线性回归中的,其带来的危害也十分严重,它会影响参数估计,扩大模型误差,并破坏模型的稳健性。

这时如果仍采用OLS建模,那么这种共线性就会严重危害参数估计,破坏模型的稳健性。

为了解决多元线性回归中自变量之间的多重共线性问题,常用的有三种方法:岭回归、主成分回归和偏最小二乘回归。

二、应用举例全国单位大体分成三大类:国有单位,城镇集体单位和其他单位,考虑到职工的平均工资主要和这三类单位的工资有关,为了研究和分析我国职工的平均工资,需建立一个以职工平均工资为因变量,三类单位的工资为自变量的回归方程。

考察职工平均货币工资指数y与国有单位货币工资指数x1,城镇集体单位货币工资指数x2,其他单位货币工资指数x3等三个自变量有关。

现从收集1991年至2005年共15年的数据看,运用SAS程序对这组数据进行共线性诊断,由共线性诊断结果可以知,最大条件指数132.46>100,说明4个自变量间有强相关性,与最大条件指数在一行的3个变量中有2个变量的方差比例都大于0.5,可见这4个变量是一个具有强相关的变量集。

由此得到回归方程为:y=-8.380+0.749x1+0.345x2-0.014x3。

从共线性诊断的部分结果可以看到变量x3的系数为负,这与实际情况不符。

出现此现象的原因是变量x1与x2,x3,x4线性相关ρ(x1,x2)=0.9756,ρ(x1,x3)=0.9702,ρ(x1,x4)=0.9268。

偏最小二乘回归在化学分析中的应用

偏最小二乘回归在化学分析中的应用

偏最小二乘回归在化学分析中的应用偏最小二乘回归(partial least squares regression,简称PLS回归)是一种基于线性模型的多元回归分析方法,它能够在解决多重共线性问题的同时,提取出与响应变量密切相关的信息。

近年来,PLS回归在化学分析中得到了广泛的应用,成为一种重要的数据处理和模型建立的工具。

I. PLS回归的原理PLS回归通过将原始的自变量和因变量转换到一个新的空间中,使得这个新空间中的变量互相正交。

PLS回归从两个方面考虑了自变量与因变量之间的关系,一方面最大化自变量对因变量的解释能力,另一方面最大化自变量和因变量之间的相关性。

通过不断迭代,PLS回归能够找到最适合数据集的模型,从而实现对因变量的预测。

II. PLS回归在化学分析中的优势1. 处理多重共线性问题:在化学分析中,往往会出现自变量之间存在高度相关性的情况。

PLS回归通过构建新的变量,可以有效地处理这种多重共线性问题,避免模型的不稳定性。

2. 提取特征信息:在化学分析中,常常需要从大量的自变量中提取出与因变量相关的特征信息。

PLS回归通过计算变量的贡献度,可以选择出对因变量解释能力更强的自变量,从而实现特征提取的目标。

3. 预测能力强:PLS回归不仅可以用于建立模型,还可以用于对新样本进行预测。

通过引入交叉验证等方法,可以评估模型的预测能力,并对模型进行优化。

III. 化学分析中的应用案例1. 药物研发:在药物研发过程中,需要对大量的分子进行筛选和评估。

PLS回归可以通过建立和优化模型,预测分子的理化性质、药效活性等关键指标,从而加速药物研发过程。

2. 食品检测:食品的成分分析和品质评价是食品行业的重要工作。

PLS回归可以通过检测食品样品中的多种成分,快速准确地评估食品的品质,保证食品安全。

3. 环境监测:环境污染物的检测和分析是环境保护的重要任务。

PLS回归可以通过对环境样品中的多种污染物进行分析,实现对环境质量的评估和监测。

偏最小二乘回归算法在数据分析中的应用

偏最小二乘回归算法在数据分析中的应用

偏最小二乘回归算法在数据分析中的应用偏最小二乘回归(partial least squares regression, PLSR)是一种多元统计分析方法,通过把自变量和因变量用主成分分析的方法进行降维处理,得到新的因变量方差最大化的主成分,然后利用这些主成分进行回归分析,其应用在数据分析中广泛受到欢迎。

PLSR的原理比较抽象,但是其实现非常简单。

在偏最小二乘回归中,自变量矩阵X和因变量矩阵Y被转化为他们的主成分表示形式,然后这些主成分被用来建立回归模型。

PLSR可以应用于变量选择和因变量预测,因此在数据挖掘、成分分析、分类分析等数据分析领域都有广泛的应用。

应用PLSR的一个典型的例子就是在医学实验中,研究人员需要用以往的数据建立模型来预测未来患病人群的病情,但是建立模型的自变量和因变量都有很多,而且相互之间相关性很强。

这时,就可以用PLSR来进行分析,通过分析主成分,让模型更加精确、简洁。

除了医学实验,PLSR在化学实验、生物实验、工业实验等领域也有着广泛的应用。

比如,一些工程项目中需要估计产品的识
别度,因此PLSR被广泛用于检测和控制产品品质。

同样地,在金融、工程管理等领域也有着重要的应用。

总而言之,偏最小二乘回归算法在数据分析中的应用广泛,从医疗到工业、金融到管理,应用场景都不断拓展。

如果你需要进行对复杂因素的变异程度进行分析,那么PLSR算法必将成为一种重要的分析工具。

(真正地好东西)偏最小二乘回归=多元线性回归分析报告+典型相关分析报告+主成分分析报告

(真正地好东西)偏最小二乘回归=多元线性回归分析报告+典型相关分析报告+主成分分析报告

偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。

近十年来,它在理论、方法和应用方面都得到了迅速的发展。

密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。

偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。

(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。

在普通多元线形回归的应用中,我们常受到许多限制。

最典型的问题就是自变量之间的多重相关性。

如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。

变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。

在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。

(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。

由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。

在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。

这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。

一、偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。

为了研究因变量和自变量的统计关系,我们观测了n 个样本点,由此构成了自变量与因变量的数据表X={p x x ,...,1}和.Y={q y y ,...,1}。

偏最小二乘回归分析及其在经济中的简单应用

偏最小二乘回归分析及其在经济中的简单应用

偏最小二乘回归分析及其在经济中的简单应用【摘要】偏最小二乘回归(Partial Least Squares,PLS )是一种新型的多元统计分析方法,它是普通最小二乘法(Ordinary Least Squares,OLS )的一种改进。

为了解决多元线性回归中自变量之间的多重共线性问题,常用的有三种方法:岭回归、主成分回归和偏最小二乘回归。

本文在阅读大量参考文献的基础上,主要是针对线性回归模型中的多重共线性进行讨论。

通过理论与实例的研究,总结出三种方法的优缺点,结果表明如果能够使用定性分析和定量分析结合的方法确定一个合适的k值,则岭回归可以很好地消除共线性影响;主成分回归和偏最小二乘回归采用成份提取的方法进行回归建模,由于偏最小二乘回归考虑到与因变量的关系,因而比主成分回归更具优越性。

【关键词】线性回归模型;多重共线性;主成份回归;偏最小二乘回归偏最小二乘回归(Partial Least Squares,PLS )是一种新型的多元统计分析方法,它是普通最小二乘法(Ordinary Least Squares,OLS )的一种改进。

长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。

而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析),即偏最小二乘回归≈主成分分析+典型相关分析+普通多元线性回归。

这是多元统计数据分析中的一个飞跃。

偏最小二乘法在统计应用中的重要性体现在以下几个方面:它是一种多因变量对多自变量的回归建模方法。

偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。

偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。

它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。

偏最小二乘法在光谱分析中的应用

偏最小二乘法在光谱分析中的应用

偏最小二乘法在光谱分析中的应用文章一开始,我们首先要了解偏最小二乘法是什么。

偏最小二乘法(Partial Least Squares,简称PLS)是一种数学分析、统计分析和机器学习的方法,用于多元线性回归,能够从复杂的数据集中提取结构信息并建立模型。

PLS在光谱分析领域应用广泛,它是一种优化算法,用于简化复杂的光谱数据。

它可以有效地处理高维数据,提高分析效率。

由于光谱数据具有复杂性,且微弱信号在复杂背景中容易被淹没,所以在光谱分析时,增强信号的弱信号是非常重要的一步。

这使得偏最小二乘法成为光谱分析的有效工具。

PLS可以有效地消除复杂的背景信号,抑制噪声并最大限度地提取目标信号,从而提高处理效率。

此外,PLS还可以用来提取和分析具有显著性的特征,从而可以精确地动态检测被评估对象的状态,从而帮助我们分析和预测实际的变化趋势。

在光谱分析中,偏最小二乘法有助于建立模型,从而实现对光谱数据的有效分析,它有助于提高分析的准确性,可以有效地消除杂散的外部因素,使分析结果更加准确、可靠。

通过对光谱数据的处理,同时还可以减少真实状况更改后带来的误差,从而提高分析的准确度。

在实践中,偏最小二乘法可用于处理不同类型的光谱数据,如紫外光谱数据、可见光谱数据和近红外光谱数据。

在同一类型的光谱数据分析中,它还可以帮助我们判断出被评估对象所具有的相对权重,以及物质对该对象变化的反应特征。

同时,PLS还可以应用于分子识别,其算法允许计算机模拟人类匹配同类物质,根据物质的不同特征来识别和比较,从而有助于准确识别物质,从而帮助我们做出正确的检测决策。

偏最小二乘法在光谱分析中的应用无疑具有重要意义,它提供了一种高效、便捷的方法,可以有效地处理复杂的光谱数据,从而提高光谱数据分析的准确性和可靠性。

同时,它还可以帮助我们分析和预测物质的变化趋势,有助于精确识别物质,从而提高分析的准确性。

通过上述讨论可知,偏最小二乘法在光谱分析中具有重要的意义,对研究人员和工程师来说,应该充分利用PLS算法来提高光谱数据分析的准确性,提高光谱数据分析的效率,从而最大限度地提升光谱分析的效果。

回归分析中的偏最小二乘回归模型应用技巧(Ⅱ)

回归分析中的偏最小二乘回归模型应用技巧(Ⅱ)

回归分析是统计学中一种重要的数据分析方法,它用于研究自变量与因变量之间的关系。

在实际应用中,回归分析可以帮助我们预测未来的趋势、评估影响因素、进行市场预测等。

而偏最小二乘回归模型(Partial Least Squares Regression, PLSR)作为一种回归分析方法,在一些特定领域有着非常明显的应用优势。

本文将探讨偏最小二乘回归模型的应用技巧,帮助读者更好地理解和运用这一方法。

一、理解偏最小二乘回归模型的原理偏最小二乘回归模型是一种多元统计分析方法,它主要用于解决自变量之间存在多重共线性、因变量之间存在相关性等问题。

在传统的多元线性回归中,当自变量之间存在高度相关性时,会导致回归系数的估计不准确,甚至无法进行回归分析。

而偏最小二乘回归模型通过对自变量和因变量进行降维处理,找到最能解释因变量变异的新变量,从而避免了多重共线性和相关性带来的问题。

在偏最小二乘回归模型中,首先会将自变量和因变量进行主成分分析,得到新的主成分变量。

然后,通过最小二乘法对主成分变量进行回归分析,得到了偏最小二乘回归系数。

这些回归系数可以帮助我们理解自变量和因变量之间的关系,同时也可以用于预测和分析。

二、选择合适的偏最小二乘回归模型在应用偏最小二乘回归模型时,选择合适的模型是非常重要的。

首先,我们需要考虑自变量和因变量之间的关系是否符合线性关系。

如果存在非线性关系,可以考虑使用非线性偏最小二乘回归模型,或者对数据进行变换处理。

其次,我们需要考虑自变量和因变量的数量和相关性,以确定模型的复杂度和可解释性。

最后,我们还需要考虑模型的稳定性和预测能力,以确保选择的模型能够有效地解释数据和进行预测。

三、数据预处理在进行偏最小二乘回归分析之前,我们需要对数据进行预处理。

首先,我们需要对数据进行标准化处理,以消除不同变量之间的量纲差异。

其次,我们需要对数据进行缺失值处理和异常值处理,以确保数据的完整性和准确性。

最后,我们还可以考虑对自变量进行降维处理,以减少模型的复杂度和提高计算效率。

药物分析中的偏最小二乘回归技术应用研究

药物分析中的偏最小二乘回归技术应用研究

药物分析中的偏最小二乘回归技术应用研究药物分析是研究药物性质和成分的一门科学,而回归分析是一种常用的统计分析方法。

在药物分析中,偏最小二乘回归(Partial Least Squares Regression, PLSR)技术的应用越来越受到重视,本文将对其在药物分析中的应用进行研究和探讨。

一、偏最小二乘回归技术概述偏最小二乘回归(PLSR)是主成分回归(PCR)和多元线性回归(MLR)相结合的一种回归分析方法。

PLSR综合了主成分分析(PCA)和最小二乘回归(LSR)的优点,在保持数据结构特征的同时,对回归分析的结果进行了优化。

二、药物分析中的偏最小二乘回归技术应用1. 药物成分分析偏最小二乘回归技术在药物成分分析中起到了重要的作用。

通过对药物样本进行测量和分析,PLSR可以建立药物成分与其性质之间的关系模型。

这有助于药物的质量控制和药效评估,提高药物研发的效率和准确性。

2. 药物相互作用分析药物相互作用分析是药物研究中的关键环节。

偏最小二乘回归技术可以通过对药物样本的分析,建立药物相互作用的模型,预测和评估不同药物之间的相互作用情况。

这对于药物的开发和合理用药具有重要意义。

3. 药物稳定性研究药物的稳定性是药物研究中需要重点考虑的因素之一。

偏最小二乘回归技术可以通过对药物样本进行分析,建立药物稳定性的模型,预测和评估药物在不同条件下的稳定性变化情况。

这有助于制定药物贮存和使用的标准,确保药物的安全性和有效性。

4. 药物质量控制偏最小二乘回归技术可以通过对药物样本的分析,建立药物质量控制的模型。

通过该模型可以对不同药物样本进行质量评估和控制。

这有助于提高药物生产的质量,并确保药物的安全和有效。

三、偏最小二乘回归技术的优势与不足1. 优势偏最小二乘回归技术能够对高维数据进行降维处理,提取出影响主要信息的主成分,同时与目标变量之间的关系进行回归建模。

它能够灵活地处理多变量之间的相关性,减少过拟合的风险,提高回归模型的可靠性和预测性能。

增强偏最小二乘回归算法在近红外光谱法啤酒度数软测量建模中的应用

增强偏最小二乘回归算法在近红外光谱法啤酒度数软测量建模中的应用

增强偏最小二乘回归算法在近红外光谱法啤酒度数软测量建模中的应用谭超;吴同【摘要】软测量技术广泛应用于工业过程,其核心是建立一个可靠的软测量模型.常规的软测量都是基于建立单个的数学模型,常难达到需要的精确和稳健性.基于机器学习的集成思想,给出了增强偏最小二乘回归(boosting-PLS)算法,并将其用于一个基于近红外光谱法啤酒度数软测量中,试验结果表明:应用boosting-PLS算法所建模型是一种精确、稳健、有应用潜力的软测量方法,特别适合于类似涉及高维光谱数据的软测量.【期刊名称】《理化检验-化学分册》【年(卷),期】2010(046)008【总页数】4页(P891-894)【关键词】增强偏最小二乘回归算法;软测量;近红外光谱【作者】谭超;吴同【作者单位】宜宾学院,化学与化工系,宜宾,644007;宜宾学院,计算物理四川省高校重点实验室,宜宾,644007;宜宾学院,化学与化工系,宜宾,644007【正文语种】中文【中图分类】TP274随着现代工业过程日益复杂以及对产品质量要求的提高,产生了软测量技术,并在诸多领域得到了应用[1]。

概括地说,软测量是指根据某种最优准则,选择一组既与主变量密切联系,又容易测量的辅助变量,通过构造某种数学模型(即软测量模型),实现对主变量的估计和推断,建立一个好的软测量模型就成为应用软测量技术的关键[23]。

理论上讲,能用于建立变量之间关系模型的数学方法均可用于软测量,如多元线性回归(MLR)、人工神经网络(ANN)、支持向量机(SVM)等[4]。

不过,由于软测量模型不同于一般意义下的数学模型,它强调的是基于模型实现辅助变量对主变量的估计和推断,而模型的预测精度和稳健性往往直接决定该技术的可用性。

传统的软测量技术应用都是基于建立单个的数学模型,常常难以达到需要的精度和稳健性,这也是当前推广软测量应用的技术瓶颈。

近年来,起源于机器学习领域的“集成”技术为解决类似的技术瓶颈提供了新的思路,它是一种可用来提高任何学习算法精度和性能的通用策略,其核心思想是利用多个模型的协同互助来提升模型的综合性能[526]。

最小二乘法在回归分析和趋势预测中的应用

最小二乘法在回归分析和趋势预测中的应用

最小二乘法在回归分析和趋势预测中的应用最小平方法,又称最小二乘法。

其方法的计算依据是利用算术平均数的数学性质,在我们介绍算术平均数的数学性质时,有两条性质分别是:一、各个变量值与平均数的离差之和等于零,用表达式表示即0)(=-∑x x ;二、各个变量值与平均数的离差平方之和为最小值,用表达式表示为最小值=-∑2)(x x 。

这两条数学性质已证明过,我们把它们应用到回归分析和趋势预测中来。

回归分析和时间序列趋势预测中,主要是为求得回归方程或趋势方程,但在求得方程的参数时,就要用到上面的两条数学性质。

最小平方法的数学依据是实际值(观察值)与理论值(趋势值)的离差平方和为最小。

据此来拟合回归方程或趋势方程。

1、利用最小平方法拟合直线回归方程拟合直线回归方程的主要问题就在于估计待定参数a 和b 之值,而用最小平方法求出的回归直线是原有资料的“最佳”拟合直线。

假设直线回归方程为:bx a y c +=,其中a 是直线的截距,b 是直线的斜率,称回归系数。

a 和b 都是待定参数。

将给定的自变量x 之值代入上述方程中,可求出估计的因变量y 之值。

这个估计值不是一个确定的数值,而是y 许多可能取值的平均数,所以用c y 表示。

当x 取某一个值时,y 有多个可能值。

因此,将给定的x 值代入方程后得出的c y 值,只能看作是一种平均数或期望值。

配合直线方程的具体方法如下:∑=-=最小值2)(c y y Q (1) 用直线方程bx a y c +=代入式(1)得:最小值=--=∑2)(bx a y Q (2) 分别求Q 关于a 和Q 关于b 的偏导,并令它们等于0: 整理后得出由下列两个方程式所组成的标准方程组:⎩⎨⎧+=+=∑∑∑∑∑2x b x a xy x b na y (3)根据已知的或样本的相应资料x 、y 值代入式(3),可求出a 和b 两个参数:⎪⎪⎩⎪⎪⎨⎧-=--=∑∑∑∑∑∑∑n x b n y a x x n y x xy n b 22)( (4)只要把a 和b 两个参数代入c y ,就可得到直线回归方程bx a y c +=。

偏最小二乘回归的应用效果分析

偏最小二乘回归的应用效果分析

应 用 数 学M ATHE M ATIC A APP LIC AT A2004,17(增):140~143Ξ偏最小二乘回归的应用效果分析申艳,刘次华(华中科技大学数学系,武汉430074)摘要:本文介绍了偏最小二乘回归(P LS)的建模方法,比较了P LS与普通最小二乘回归(O LS)及主成分回归的应用效果,并总结了P LS回归的基本特点.关键词:多重共线性;偏最小二乘回归;最小二乘回归;主成分回归中图分类号:O212.1 AMS(2000)主题分类:62J05文献标识码:A 文章编号:100129847(2004)增20140204、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、拟合及预测,多元线性回归便是常用的方法之一.一般采用普通最小二乘方法估计回归系数,可以使残差平方和达到最小,但当自变量之间存在多重共线性时,最小二乘估计方法往往失效,不仅增大了模型误差,而且使模型丧失稳健性.为消除系统中的多重共线性,常采用主成分回归的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力.近年来发展起来的偏最小二乘回归(P LS)研究的焦点是多因变量对多因变量回归建模,能在自变量之间存在多重共线性的条件下进行建模,更易于辨识系统信息与噪声,对因变量也有较强的解释能力.考虑q个变量y1,…,y q与p个自变量x1,…,x p的建模问题.偏最小二乘回归的基本思想是首先在自变量集中提取第一成分t1(t1是x1,…,x p的线性组合,且尽可能多地携带原自变量集中的变异信息);同时在因变量集中也提取第一成分u1,并要求t1与u1相关程度达最大,然后建立因变量y1,…,y q与t1的回归方程,如果回归方程已达到满意的精度,则算法终止.否则继续第二成分的提取,直到能达到满意的精度为止.若最终对自变量集提取了l个成分t1,…,t l,偏最小二乘回归将通过建立y1,…,y q与t1,…,t l的回归方程式得出y1,…,y q与自变量x1,…,x p的回归方程式,即偏最小二乘回归方程式.首先将数据做标准化处理.记X=(x1,…,x p)n×p经标准化处理后的数据矩阵为E0= (E01,…,E0p)n×p,Y=(y1,…,y q)经标准化处理后的数据矩阵为F0=(F01…F0q)n×q第一步,记t1是E0的第一成分,t1=E0w1,w1是E0的第一个轴,且‖w1‖=1,记u1是F0的第一成分,u1=F0c1,c1是F0的第一个轴,且‖c1‖=1.如果要求t1,u1能分别很好地代表X 与Y中的数据变异信息,根据主成分分析原理,我们要求t1与u1标准差Var(t1),V(u1)趋于最大.另一方面t1对u1要有最大的解释能力,由典型相关分析的思路,t1与u1的相关度应达Ξ收稿日期:2004205213作者简介:申艳,女,讲师,华中科技大学数学系硕士,研究方向:概率与数理统计.到最大值,即r (t 1,u 1)→max ,综合起来就是要求t 1与u 1的协方差达到最大,即C ov (t 1,u 1)=Var (t 1)Var (u 1)r (t 1,u 1)→max ,也就是在‖w 1‖=1,‖c 1‖=1的约束条件下求w T 1E T 0F 0c 1的最大值.采用拉格朗日算法,记s =w T 1E Γ0F 0c 1-λ1(w T 1w 1-1)-λ2(c T1c 1-1),对s 分别求关于w 1,c 1,λ1和λ2的偏导,并令之为零,可以推出E T 0F 0F T 0E 0w 1=θ21w 1,F T 0E 0E T 0F 0c 1=θ21c 1,这里记θ1=2λ1=2λ2=w T 1E T0F 0c 1,容易看出θ1正是优化问题的目标函数值(要求θ1取最大值),w 1是对应于矩阵E T 0F 0F T 0E 0的最大特征值θ21的单位特征向量,c 1是对应于矩阵F T 0E 0E T 0F 0的最大特征值θ21的单位特征向量.求得w 1和c 1后,即可得成分t 1=E 0w 1,u 1=F 0c 1,然后,分别求E 0和F 0对t 1,u 1的三个回归方程E 0=t 1p T 1+E 1,F 0=u 1q T 1+F 31,F 0=t 1r T1+F 1,式中回归系数p 1=E T 0t 1‖t 1‖2,q 1=F T 0u 1‖u 1‖2,r 1=F T0t 1‖t 1‖2,而E 1,F 31,F 1分别是三个回归方程的残差矩阵.第二步用残差矩阵E 1和F 1取代E 0和F 0,用同样的方法求第二个轴w 2和c 2以及第二个成分t 2,u 2.如此计算下去,如果X 的秩是l ,则存在l 个成分t 1,t 2,…,t l ,使得E 0=t 1p T1+…+t l p T l ,F 0=t 1r T 1+…+t l r Tl +F l ,由于t 1,t 2,…,t l 均可以表示成E 01…E 0P 的线性组合,因此可得y 3k =F 0k ,关于x 3j =E 0j 的回归方程式,即y 3k =a k 1x 31+…+a kp x 3p +F lk ,k =1,2,…,q.一般情况下,偏最小二乘回归并不需要选用存在的l 个成分t 1,t 2,…,t l 来建立回归式,而像主成分分析一样,只选用前m 个成分(m ≤l ),即可得到预测能力较好的回归模型.下面讨论确定抽取成分个数m 的两种常用方法.(1)“舍2交叉验证法”:每次舍去第i 个观测(i =1,…,n ),用余下的n -1个观测按偏最小二乘回归方法建模,并考虑抽取h 个成分后拟合的回归式,然后把舍去的第i 个观测点代入所拟合的回归方程式,得到y j 在第i 个观测点上的预测值^y j (-i )(h ).对于每一个i =1,2,…,n ,重复以上测试,可得y j (j =1,2,…,q )的预测残差平方和为PR ESS j (h )=∑ni =1(yij-^y j (-i )(h ))2,(j=1,2,…,q ),Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).对抽取成分个数h 从1到A 逐个计算Y 的预测残差平方和PR ESS (h ),然后选取使Y 的预测残差平方和达到最小的h ,取m =h.(2)“Q 2h ”验证法:同方法(1)先算出Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).另外,再采用所有的样本点,拟合含h 个成分的回归方程,记yj在第i 个样本点的预测值为^y ji (h ),则可定义y j 的残差平方和为SS j (h )=∑n i =1(yij-^y ji (h ))2,Y =(y 1,…,y q )的残差平方和为SS (h )=∑qj -1SS j(h ).对于全部因变量Y ,成分th的交叉有效性可定义为Q 2h =1-PR ESS (h )SS (h -1),Q 2h ≥0.097时,表明加入成分能改善模型质量,否则不能.下面我们考察大学生的高考成绩对其大学成绩的影响.选取某高校学生的5门高考成绩141增刊 申艳等:偏最小二乘回归的应用效果分析为自变量X=(x1,x2,x3,x4,x5),其中x12语文,x22数学,x32英语,x42政治,x52历史.并以他们大学第一学期的高等数学成绩为因变量Y.对数据进行标准化处理,建立高考成绩对高等数学的P LS回归模型,有关数据见表1,表2.表1 成分与自变量的相关系数表t1t2t3t4t5E01-0.36740.76290.43190.1979-0.2392E020.8477-0.19340.10820.48080.0330E030.90370.12330.2718-0.25790.1669E040.35820.7693-0.34350.07290.3956E050.44510.4844-0.6779-0.1701-0.2807Y0.72120.20520.0657-0.02790.0002由表1可以看出,第一成分t1与自变量E02,E03的相关系数很高,因此t1是一个体现自变量系统中数学和英语的因子.表2 高等数学的P LS回归模型的精度分析表成分t1t2t3t4t5RdX0.39930.29220.16990.07420.0643累积RdX0.39930.69160.85150.9357 1.000RdY0.52010.04210.00430.00080.000累积RdY0.52010.56220.56650.56130.5673PRESS9.47129.846310.572911.064811.20044RdX=1p∑pj=1r2(x j,t h)表示成分t h对X的解释能力,RdY=1q∑qk=1r2(y k,t h)表示成分t h对Y的解释能力.由表2可以看出,第一主成分解释了自变量系统中39.93%的变异信息,同时解释了因变量系统中52.01%的变异信息,这反映出数学,英语对因变量系数的贡献最大.另一方面,当h=1时,预测残差平方和最小(PR ESS=9.4712),因此我们用第一成分t1来建立P LS 回归模型,对高等数学有较好的观测能力.P LS回归模型是F0=0.0454E01+0.3000E02+0.3725E03-0.0663E04+0.2019E05 为了比较P LS回归与最小二乘回归(O LS),主成分回归(PCR)的回归效果,建立其它几种回归关于高考成绩对高等数学的回归模型如下:1.普通最小二乘回归方程:F0=0.1153E01+0.2442E02+0.5045E03-0.0062E04+0.2210E05 2.主成分回归方程:(1)用两个主成分建立的回归方程:F0=-0.2370E01+0.5356E02+0.6058E03-0.1131E04+0.4659E05 (2)用三个主成分建立的回归方程:F0=0.0857E01+0.5917E02+0.6753E03-0.1155E04+0.3812E05回归系数的大小表示相关程度的高低,或者贡献率的高低.这三个模型回归系数的性质是一致的,都反映出数学,英语对因变量系数的贡献最大,与我们的定性认识比较符合.但从回归模型的预测残差平方和PRESS(下表)241应 用 数 学 2004O LSRPCR (2)PCR (3)P LSR PRESS15.224413.123112.78999.4712可以发现偏最小二乘回归的PRESS 最小,说明由偏最小二乘回归方程拟合的方程对样本点的变动而引起的扰动误差影响最小,可见偏最小二乘回归模型最理想.特别当自变量之间存在严重多重相关性时,P LS 方法的优越性更能充分显示出来.偏最小二乘回归有如下基本特点:(1)P LS 对数据拟合及预测精度和稳定性均高于最小二乘回归(O LS )与主成分回归.(2)P LS 回归可以较好地处理O LS 难以解决的问题.当自变量之间存在严重多重相关性时,使用O LS 无法建立模型.然而P LS 却能利用对系统中的数据信息进行分解和筛选,提取对因变量解释最强的综合变量,识别系统中的噪声,建立适当的模型.另一方面,O LS 建模时的样本数不宜太少,一般要求为拟合项的两倍以上,而P LS 回归却能在自变量多,样本数少的情况下建立精度较高的模型.(2)P LS 回归在建模的过程中集中了O LS 回归、主成分分析、典型相关分析三者的特点.因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息.参考文献:[1] 罗永泰,李小妹.高考入学成绩对后续课程影响的统计分析[J ].数理统计与管理,1996,15(2):14~16.[2] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.[3] 何小群.回归分析与经济数据建模[M].北京:中国人民大学出版社,1997.[4] 茆诗松,王静龙.高等数理统计[M].高等教育出版社,2000.Analysis of Applied E ffect of P artial Least Squares R egressionSHEN Yan ,LIU Ci 2hua(Mathematics Department ,Huazhong Univer sity o f Science and Technology ,Wuhan 430074,China )Abstract :In the paper ,we introduced how to build partial least squares regression m odel and com 2pared the applied effect of P LS with O LS and PCR.K ey w ords :Partial least squares regression ;Multi 2correlation ;O LSR341增刊 申艳等:偏最小二乘回归的应用效果分析。

最小二乘法在线性和非线性回归中的应用PPT课件

最小二乘法在线性和非线性回归中的应用PPT课件
y a0 a1x
这样仍可用最小二乘法定出(从而也就定 出了A,C ),得到近似函数
S AeCt
13
第13页/共38页
下面列出几种常用的线性处理方法,利用最小 二乘法的原理对直线型、抛物线型和指数曲线 型的方程的参数估计方法 。
14
第14页/共38页
直线型
直线方程的一般形式为: Y a bX
lsqnonlin用以求含参量x(向量)的向量值函数 f(x)=(f1(x),f2(x),…,fn(x))T 中的参量x,使得
f T (x) f (x) f1(x)2 f2(x)2 fn (x)2
偏导数,并令导数等于0,得到联立方程组解方程组,即 可得到参数的计算公式。
Y na b X c X 2 0 Y X 2 a X b X 2 c X 3 0 Y X 2 a X 2 b X 3 c X 4 0
16
第16页/共38页
指数曲线型
指数曲线的一般形式为 Y abX
am
yn
超定方程一般是不存在解的矛盾方程组。
n
如果有向量a使得
(ri1a1 ri2a2 rimam yi )2 达到最小,
i1
则称a为上述超定方程的最小二乘解。
9
第9页/共38页
线性最小二乘法的求解
所以,曲线拟合的最小二乘法要解决的问题,实际上就是 求以下超定方程组的最小二乘解的问题。
e=4.149e+05
25
第25页/共38页
用MATLAB作非线性最小二乘拟合
Matlab的提供了两个求非线性最小二乘拟合的函数: lsqcurvefit和lsqnonlin。两个命令都要先建立M-文件fun.m, 在其中定义函数f(x),但两者定义f(x)的方式是不同的,可参 考例题.

偏最小二乘回归方法及其应用

偏最小二乘回归方法及其应用

偏最小二乘回归方法及其应用王惠文著国防工业出版社1999年版偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。

在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。

多重相关性的诊断1 经验式诊断方法1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。

2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y 的简单相关系数符号相反。

3、对重要自变量的回归系数进行t检验,其结果不显著。

特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。

4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。

5、重要自变量的回归系数置信区间明显过大。

6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。

7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。

但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。

2 方差膨胀因子最常用的多重相关性的正规诊断方法是使用方差膨胀因子。

自变量x j 的方差膨胀因子记为(VIF )j ,它的计算方法为 (4-5) (VIF )j =(1-R j 2)-1式中,R j 2是以x j 为因变量时对其它自变量回归的复测定系数。

基于偏最小二乘法的近红外光谱定量分析模型预测蛹虫草中腺苷含量

基于偏最小二乘法的近红外光谱定量分析模型预测蛹虫草中腺苷含量

基于偏最小二乘法的近红外光谱定量分析模型预测蛹虫草中腺苷含量作者:李晓光,关泽华,田鸿儒,胡长峰, 孟庆繁【摘要】目的采用偏最小二乘法(PLS)建立测定蛹虫草中腺苷含量的近红外光谱定量分析模型。

方法应用光谱预处理方法分别对蛹虫草样品的近红外光谱进行预处理,并采用预处理后的光谱分别建立定量分析模型。

结果经过比较各个模型的内部交互验证均方根误差(RMSECV)和交互验证预测值与真实值间的相关系数(Rv),外部均方根误差(RMSEP),选取最优的模型,其RMSECV、Rv和RMSEP分别为0.737 6,0.904 9和0.541 0。

结论近红外光谱在中药有效成分定量分析方面有很大的应用前景。

【关键词】近红外光谱偏最小二乘法蛹虫草腺苷蛹虫草Cordyceps militaris(L.ex Fr.)Link又名北冬虫夏草、北虫草等[1], 与冬虫夏草同属异种,是虫草属的模式种,属于子囊菌亚门虫草属,是蛹虫草寄生在昆虫纲鳞翅目夜蛾科昆虫蛹体上所长出的子座与僵死蛹体的复合体。

作为一种具有多种药理功能、抗癌活性的药用真菌蛹虫草[2],随着人们逐渐发现和认识蛹虫草的滋补疗效和提高人体免疫功能的功效,它的开发利用备受世人的极大关注。

腺苷是合成三磷酸腺苷(ATP) 的主要原料,ATP 已被广泛应用于治疗心脏功能不全、脑动脉硬化及肌肉萎缩等症。

现行常用的腺苷测定方法主要是高效液相法,该方法具有材料损耗大,测定过程复杂,化学试剂消耗量大且分析时间长等缺点。

随着光谱学和计算机的发展,近红外光谱分析技术也得到飞快发展。

近红外光谱技术在建立可靠的校正模型的基础上,可直接对样品进行无损检测,具有分析速度快、效率高、成本低和实现在线检测等优点,近年来在农业、化工、食品、药物分析等方面有着广泛应用[3,4],在中药材的分类和活性成分分析中还处于起步阶段。

偏最小二乘法(Partial Least Square, PLS)是目前化学计量学中最有效的分析方法之一。

最小二乘法在化学实验数据分析中的应用

最小二乘法在化学实验数据分析中的应用

最小二乘法在化学实验数据分析中的应用摘要:介绍了一种线性模型参数回归分析方法—最小二乘法,并以化学实验测试数据为例,讨论了最小二乘法在化学实验数据分析中的应用。

并对正交最小二乘法和经典最小二乘法的结果进行了简略比较。

化学实验中,经常需要根据实验测得一系列数据,例如,n 对数据(x 1, y 1) (i=1, 2, … , n),去寻找自变量x 和因变量y 之间的关系,此关系应该最能反映出给定数据的一般趋势。

这就是用某种曲线拟合的方法来回答这个问题一这些变量之间的最佳关系是什么。

如果从图形上看,这个问题就是按给定理平面上n 个点(x 1,y 1)进行曲线拟合问题。

要找出不同变量之间的关系。

在传统的处理方法中,通过手绘、目测的方法来达到目的。

但是,在有些情况下,因为误差的引进,使得到的结果并不是最佳的近似,甚至得出令人费解的结论。

而最小二乘法是一种有效的方法,用它反映给定的函数的一般趋势,可以不受实验随机误差的影响而出现随机波动。

随着计算机科学的发展,最小二乘法越来越被人们所采用。

经典的最小二乘法(classical least square, CLS)在化学领域的数据处理中获得广泛应用。

值得指出的是,此方法的应用有一重要前提,即假设自变量的值是完全准确的,或其测量误差与因变量的测量误差相比可以忽略不计。

例如,以分析化学中的标准曲线为例,自变量元素浓度与因变量物理测量值相比,其测量误差可以忽略不计。

然而在许多情况下,这一假定往往难以满足。

如果某一实验数据中自变量和因变量同时存在测量误差,此时经典的最小二乘法难以满足数据处理的需要。

正交最小二乘法(orthogonal least squares,OLS)也是一种线性模型参数回归分析方法。

当 自变量和因变量同时存在均值为零,相同方差的随机误差时,此方法能给出在统计意义上最好的参数拟合结果。

正交最小二乘法在许多科学领域,如医学、地质学、工程数学、信号处理等均获得应用。

偏最小二乘回归及其应用

偏最小二乘回归及其应用
J IA N G Hong2Wei , X IA Jie2L ai
很有效 ; 其缺点主要是无法对解释变量与反应变量之间的关 系作出精确的定量解释 . 【关键词】偏最小二乘 ; 一般最小二乘 ; 协方差 【中图号】R181. 22 【文献标识码】A
Department of Healt h Statistics , Faculty of Preventive Medicine , Fourt h Military Medical University , Xiπ an 710033 , China
Q = GB , E 和 F 为残差 .
图 1 PL S 建模示意图 Fig 1 Paradigm of PL S Modeling
1. 2 基本原理 设反应变量 y = ( y 1 y 2 …y q ) ′ , 其
1. 3 基本算法 从解释变量和反应变量中提取潜变 量的方法有多种 ,如主成分法 、 迭代法 、 SVD 法等 . 其 中比较高效的算法是迭代法 , 它包括两种基本算法 : 非线性迭代偏最小二乘法 ( nonlinear iterative partial least squares , N IPAL S) 和简单偏最小二乘法 ( simple partial least squares ,SIM PL S) . 以下分别对它们加以 简述 . N IPAL S[ 1 ,7 ] 有 许 多 变 种 , 它 最 早 由 Herman Wold 提出 , 采用交叉核实法 ( Cross2Validation ) 作为 迭代停止准则 ,以下介绍的是一种常用算法 . ( 1) 为了便于解释和运算 , 首先将解释变量观测 矩阵 X 和反应变量观测矩阵 Y 作标准化变换 , 变换 后的矩阵分别记为 V 和 U , 作为迭代的初始矩阵 , 记 作 V ( 1) 和 U ( 1) . ( 2) 计算第 k 步的权重向量 w ( k) . w ( k) 为 V ′ ( k) U ( k) U′ ( k) V ( k) 的最大特征根对应

拉曼光谱结合后向间隔偏最小二乘法用于调和汽油辛烷值定量分析

拉曼光谱结合后向间隔偏最小二乘法用于调和汽油辛烷值定量分析

拉曼光谱结合后向间隔偏最小二乘法用于调和汽油辛烷值定量分析王拓;戴连奎;马万武【摘要】The feature of gasoline Raman spectra which were used to study the quantitative analysis of the research octane number (RON) were extracted for the first time using backward interval partial least squares (BiPLS). In the experiment, the sample set partitioning based on joint x-y distances (SPXY) method was used to divide the training set, the cross validation set and the test set. And the robust regression algorithm was used to remove the abnormal sample. The partial least squares model was established using feature selected by the BiPLS algorithm. Compared with the model without feature selection, it was shown that the backward interval partial least squares algorithm could reduce the input dimension by 50.00%, and the root mean square error of cross validation(RMSECV) by 18.92% and the root mean square error of prediction (RMSEP) by 13. 86%. The backward interval partial least squares algorithm can effectively extract the feature from gasoline Raman spectrum,reduce the model complexity, and improve the prediction accuracy of the model,and has great application prospect in the quantitative analysis of research octane number.%采用后向间隔偏最小二乘(Backward interval partial least squares, BiPLS)提取汽油拉曼光谱特征谱段,并用于研究法辛烷值(Research octane number, RON)的定量分析.实验中首先使用 SPXY(Sample set partitioning based on joint x-y distances)方法划分训练集、交叉验证集和测试集,并采用稳健回归方法剔除异常的样本数据,再结合BiPLS方法筛选特征谱段,利用特征谱段建立偏最小二乘模型.与全谱段偏最小二乘模型的预测性能对比结果表明,后向间隔偏最小二乘方法可使输入模型的特征数据维数降低50.00%,交叉验证均方根误差(Root mean square error of cross validation,RMSECV)降低18.92%,预测均方根误差(Root mean square error of prediction,RMSEP)降低13.86%.后向间隔偏最小二乘方法可有效提取汽油拉曼光谱的特征谱段,降低模型复杂度,同时提高模型预测精度,在调和汽油研究法辛烷值定量分析方面有较好的应用前景.【期刊名称】《分析化学》【年(卷),期】2018(046)004【总页数】7页(P623-629)【关键词】调和汽油;拉曼光谱;辛烷值;后向间隔偏最小二乘【作者】王拓;戴连奎;马万武【作者单位】浙江大学工业控制技术国家重点实验室,杭州310027;浙江大学工业控制技术国家重点实验室,杭州310027;中国石化青岛石油化工有限责任公司,青岛266043【正文语种】中文1 引言汽油是当今社会不可或缺的产品。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第35卷,第1期 光谱学与光谱分析Vol .35,No .1,pp 245-2512015年1月 Spectroscopy and Spectral Analysis January ,2015工作曲线法和偏最小二乘回归分析在XRF 定量分析软玉样品中的应用刘 松1,苏伯民2,李青会1,干福熹11.中国科学院上海光学精密机械研究所科技考古中心,上海 2018002.敦煌研究院,甘肃敦煌 736200摘 要 由于块状固体标准玉石样品的缺乏,造成了便携式X 射线荧光分析技术(p XRF )利用工作曲线法对玉石文物样品进行无损定量分析的困难。

试图寻找一种p XRF 可采用,但不需要块状固体玉石标准样品的定量分析方法。

选取24件软玉样品,其中17件为校准样品,7件为测试样品。

所有软玉样品利用质子激发X 射线荧光分析技术(PIXE )获得定量分析结果。

根据校准软玉样品的PIXE 定量分析结果建立兴趣元素的工作曲线,利用工作曲线对测试软玉样品进行定量分析;然后,利用p XRF 对所有软玉样品进行定性分析,获得其定性分析图谱,利用校准软玉样品的定性分析图谱和PIXE 定量分析结果,采用最小偏二乘法对测试软玉样品兴趣元素含量进行分析。

最后,将工作曲线法、PLS 方法和PIXE 的定量分析结果进行了相互对比。

通过误差分析,评估了工作曲线法和PLS 方法定量分析软玉样品的精确度。

结果表明,PLS 方法可以代替工作曲线法对玉石类样品进行定量分析。

关键词 X 射线荧光光谱分析技术;工作曲线;偏最小二乘回归分析;软玉中图分类号:TL 99;TQ 17 文献标识码:A DOI :10.3964/j .issn .1000-0593(2015)01-0245-07收稿日期:2013-12-18,修订日期:2014-03-25基金项目:国家重点基础研究发展(973计划)项目(2012CB 720906),国家重点科技支撑计划项目(2013BA K 08B 08)和上海市研发公共服务平台建设项目(13DZ 2295800)资助作者简介:刘 松,1981年生,中国科学院上海光学精密机械研究所科技考古中心 e -mail :littleprincels @163.com引 言X 射线荧光光谱分析技术(XRF )是化学成分分析领域常规分析技术之一。

克服基体效应进行定量分析是XRF 研究中的热点和难点[1]。

目前,XRF 定量分析方法包含两大类,一类是数学校正方法,一类是实验校正方法。

数学校正方法包括基本参数法[2-4]、经验系数法[5]、神经网络校正法[6]等,实验校正方法则包括内标法、标准加入法和稀释法等[7]。

工作曲线法,或称为校准曲线法,属于实验校正方法,在XRF 定量分析中得到了广泛应用[8]。

工作曲线法主要是利用已知化学组分的标准样品建立含量和荧光强度之间的线性方程,利用此方程对与标准样品具有相同或相似基体的未知样品进行定量分析。

工作曲线方法不需要复杂的数学计算,简单有效,因而得到了广大XRF 工作者的青睐。

偏最小二乘回归分析(p artial least squares regression a -nalysis ,PLS )起源于社会科学,但却在化学统计学中得到了广泛应用[9]。

PLS 主要是利用一组自变量来预测或分析一个或多个因变量,具体来说,PLS 可以在自变量(X )和因变量(Y )之间建立一种数学模型,然后利用此数学模型对未知的与建立此模型同类的样品进行预测[10]。

PLS 回归分析在化学统计学领域得到了足够的重视,在宽光谱化学分析领域成为了一种常规分析方法,得到成功应用[11]。

利用便携式X 射线荧光光谱分析技术(p XRF )采用工作曲线法和PLS 方法对国内软玉样品进行定量分析,对两种定量分析方法的结果作了比较,并将获得的定量分析结果分别与质子激发X 射线荧光光谱分析技术(PIXE )的定量分析结果进行了比较,通过对比进一步对软玉组分中的主量、次量组分和微量元素进行了误差分析,对工作曲线法和PLS 法定量分析软玉样品进行了评估。

1 实验部分1.1 样品选取了国内包括新疆的叶城(YC )、和田(HT )、且末(QM )、若羌(RQ ),青海(Q H )的格尔木,辽宁的岫岩(XY ),四川的汶川(WC )和河南的淅川(XC )等地的24件软玉样品,其中17件样品作为校准样品,7件样品为测试样品,样品的详细信息及类型见表1。

Table1List of nephrite samples类型编号产地描述校准样品YC-1新疆叶城青白色,较纯H T-1新疆和田白色籽玉,纯净H T-2新疆和田白色,纯净H T-3新疆和田白色,纯净H T-4新疆和田白色,较纯H T-5新疆和田青白色,籽玉,较纯H T-6新疆和田青白色,籽玉,较纯H T-7新疆和田青白色,较纯,有褐色外皮H T-8新疆和田青色,有少量夹杂H T-9新疆和田白色籽玉,纯净H T-10新疆和田青白色籽玉,纯净Q M-1新疆且末青白色,较纯,局部有褐色和白色结晶Q M-2新疆且末青色,较纯RQ-1新疆若羌棕色,较纯Q H-1青海格尔木白色,较纯Q H-2青海格尔木白色,较纯Q H-4新疆且末白色,较纯测试样品H T-11新疆和田青色,较纯H T-13新疆和田青色,较纯Q M-5新疆且末白色,有大量黑包裹体XY-1辽宁岫岩青白色,较纯XY-2辽宁岫岩青色,较纯XC-1河南淅川深青绿色,较纯WC-1四川汶川白色,较纯2.2仪器设备软玉样品定性分析图谱由型号为OURST EX100FA便携式能量色散型X射线荧光光谱仪(p XRF)测量获得,本台谱仪已成功应用于新疆、广西等地区的古代玻璃文物样品的定量分析[8,12,13]。

此台光谱仪采用金属钯(Pd)作为X射线源靶材,X射线管的激发电压最高可达40kV,激发电流为0.5~1.0mA,最大功率为50W。

X射线探测器为硅漂移探测器(SDD),有效探测面积为5mm2,窗口材料为有机薄膜(MOXT EK AP3.3膜),此种有机薄膜对于轻元素的特征谱线有较高的透过率。

X射线探测器采用电制冷技术,工作温度为-28℃。

为了有效检测Na和Mg等轻元素,谱仪配备了真空腔,真空度为400~600Pa,腔体尺寸为Φ20cm×15cm。

选用两种测量模式,分别是连续模式(White X-ray mode)和单色模式(monochromatic mode)。

仪器测量模式参数见表2。

Table2Work mode parameters for OURSTEX100FA pXRF 测量条件模式1模式2电压/kV1540电流/mA0.50.5初级X射线模式连续单色有效测量时间/s100200测量元素范围/Z*11~30(Na~Zn)20~42(Ca~Mo),74~92(W~U)*Z represents the atomic number 1.3工作曲线所选取的软玉样品利用复旦大学现代物理研究所外束质子激发X射线荧光光谱技术(PIXE)做化学成分分析,定量分析结果已发表(文献[14],表1)。

复旦大学PIXE技术主要采用GUPIX-96软件进行定量分析[15],利用水系沉积物标准物质(GSD-6)对仪器参数进行校正,对于主量和次量组分的定量分析结果误差可控制在2%~6%[16],对于微量元素,根据微量元素含量水平的不同,可控制在5%~15%[17]。

利用PIXE获得的表1中校准样品的定量分析结果作为软玉样品中各组分及微量元素的参考值,建立相应各组分及微量元素的线性工作曲线。

利用建立好的工作曲线对表1中的测试样品进行定量分析。

1.4PLSp X RF获得的软玉定性分析图谱为自变量X,软玉中各组分的含量即为因变量Y。

一种简单且具有代表性的公式如下式所示。

Y=XB(1)式中的各个变量均可用矩阵表示。

X矩阵(样品数×探测器通道数)表示每一个样品定性分析图谱中各个能量通道的强度值,Y矩阵(样品数×组分数)表示每一个样品的各组分及微量元素的定量分析结果。

B矩阵就是将矩阵X和Y相互关联的矩阵,也就是需要利用PLS需求的数学模型。

PLS有两种分析方法,分别是PLS1和PLS2[18]。

PLS1方法适用于因变量Y仅有一个的情况,即Y矩阵为一列向量。

PLS2方法适用于因变量Y有多个变量的情况。

由于Y矩阵在表示软玉样品中各组分的含量,因此,采用PLS2方法。

2结果与讨论2.1工作曲线法定量分析软玉样品部分组分和微量元素的工作曲线如图1所示,表3为工作曲线获得的定量分析结果与PIXE定量分析结果比较,表中误差(Error)的计算公式为:|C工作曲线法-C PIXE|/C PIXE×100%。

图1和表3结果显示,尽管M gO和CaO的工作曲线线性拟合系数平方值小于0.9,但工作曲线定量分析方法与PIXE定量分析结果的误差可以控制在9%以内,SiO2的情况与MgO和CaO相似。

与主要组分不同,软玉样品中的M n 和Fe元素,其工作曲线的线性关系优于主要组分,M n和Fe 工作曲线的线性拟合系数平方值分别为0.981和0.973。

与PIXE的定量分析结果比较,M n和Fe的误差值大部分可以控制在15%以内,仅有3个样品的误差值在24%~37%之间。

对于微量元素Zn,其工作曲线线性关系拟合系数平方值为0.929,与PIXE结果的定量分析结果误差值较为分散,为5.71%~94.62%。

对于Sr和Pb等元素,由于元素本身含量水平较低,工作曲线的线性关系有所下降,工作曲线定量分析结果与PIXE定量分析结果的误差也相对较大。

642光谱学与光谱分析第35卷Fig .1 Calibration curves of typical components and elements for nephrite Table 3 Results comparison of calibration curve method and PIXE编号方法M gOSiO 2CaO M n Fe Ni Cu Zn Sr Pb H T -11工作曲线23.7158.5412.41979175370222291212PIXE 23.3958.9712.0588715960230180810Error /%1.370.743.0110.379.88100.0027.2250.0020.0H T -13工作曲线24.0958.5812.767026078151725657PIXE 23.5059.4413.06700588061322770Error /%2.521.442.340.293.37150.0030.7712.7828.57Q M -5工作曲线24.0058.8113.10313548210104547PIXE 23.5558.6214.043505250131411100Error /%1.920.336.6910.574.4223.0828.5759.46XY -1工作曲线24.2758.5512.7733822781014801012PIXE 24.5859.2712.82388231083372125Error /%1.271.220.3912.891.3925.0057.5811.1116.67141.00XY -2工作曲线23.7258.0912.50533634912131651317PIXE 24.0459.1313.529261000029301752823742第1期 光谱学与光谱分析续表3Error/%1.311.767.5542.4436.5158.6256.675.7153.5726.09WC-1工作曲线24.5759.1312.967364194613132891912PIXE24.9457.0613.49577117501501722111Error/%1.493.623.9127.6011.2013.3368.029.529.09XC-1工作曲线23.6158.7713.015553068272539108PIXE21.6656.5012.55738299602267725047Error/%9.004.013.6424.802.4168.1862.6994.6282.98Note:the units of M gO,SiO2and CaO are Wt%;the units of other elements areμg・g-1.T he same below2.2PLS定量分析结果利用p XRF获得软玉样品的定性分析图谱是采用PLS 方法进行定量分析的第一步。

相关文档
最新文档