快速稳健偏最小二乘回归及其在近红外光谱分析中的应用
偏最小二乘法
偏最小二乘法 ( PLS)是光谱多元定量校正最常用的一种方法 , 已被广泛应用 于近红外 、 红外 、拉曼 、核磁和质谱等波谱定量模型的建立 , 几乎成为光谱分析中建立线性定量校正模型的通用方法 〔1, 2〕 。
近年来 , 随着 PLS 方法在光谱分析尤其是分子光谱如近红外 、 红外和拉曼中应用 的深入开展 , PLS 方法还被用来解决模式识别 、定量校正模型适用性判断以及异常样本检测等定性分析问题 。
由于 PLS 方法同时从光谱阵和浓度阵中提取载荷和得分 , 克服主成分分析 ( PCA)方法没有利用浓度阵的缺点 , 可有效降维 , 并消除光谱间可能存在的复共线关系 , 因此取得令人非常满意的定性分析结果 〔3 ~ 5〕 。
本文主要介绍PLS 方法在光谱定性分析方面的原理及应用 实例 。
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。
该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。
如美国Tripos 公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS 。
在PLS 方法中用的是替潜变量,其数学基础是主成分分析。
替潜变量的个数一般少于原自变量的个数,所以PLS 特别适用于自变量的个数多于试样个数的情况。
在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。
§§ 6.3.1 基本原理6.3 偏最小二乘(PLS )为了叙述上的方便,我们首先引进“因子”的概念。
一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。
近红外光谱分析法在烟草生产中的研究应用
摘要本文介绍了近红外光谱技术的概念、特点、优势、局限和发展历史,并进行了AOTF近红外光谱分析技术在烟叶生产中四个不同方面的应用研究,研究结果如下:1. 利用近红外光谱法定量快速检测法检测各个生产阶段的烟叶内主要化学成分,通过对一级数据的精确测量,并采用多元回归PLS1 (偏最小二乘法)方式进行计算建立定量校正数学模型,结果表明:每个模型均有非常好的线性关系,各个指标的相关性R2都在0.95以上,而且建立模型的集样品足够多,各指标的数据梯度分布也比较好。
用实验室标准方法化验验证集样品的化学值,扫描样品后采用一阶微分9点平滑法对光谱数据进行预处理,导入化学计量学分析软件,调用已建立的数学模型进行预测,计算每个验证集样品的预测偏差和验证集样品的平均预测偏差。
最后的结果证实了利用近红外光谱法定量快速检测法检测验证集样品的预测值与用标准方法检测出的原始化学值差异甚小,在实验误差允许范围内。
2. 采用近红外光谱法定量快速检测法快速检测初烤烟叶中的各种主要化学成分,可及时了解烟叶质量,为卷烟厂业企业提供烟叶质量信息,加快烟叶工商调拨速度,为卷烟工业企业烟叶配方提供理论基础,达到合理使用烟叶原料。
3. 运用近红外光谱分析技术可以快速检测出青烟叶中的烟碱、总糖、还原糖、总氮、钾和氯等主要化学成分含量,对烟间生长的烟叶作实时在线监测,了解烟叶干物质积累动态。
采取相应的农艺措施,使烟叶化学成趋于协调。
4. 使用近红外光谱分析技术可以快速检测出油枯中主要营养成分,对采购的油枯质量作实时在线监测,保证产品质量合格。
根据油枯特性,对各指标均制定了标准,未达到标准含量的指标会对供应商作相应的经济制裁,为此,促使供应商共同对产品质量进行监控。
同时,准确了解油枯的营养成分,为烤烟平衡施肥技术的养分配比提供科学依据,防止施肥过量和不足,导致烟株营养过剩和缺乏。
5. 利用用近红外光谱法能有效判别漂浮育苗基质的原料是何种物质。
不同基质配方比例的模型能有效辨别出被检测的基质是否属于同类,不是该配方比例的基质不能被该模型识别。
应用近红外光谱和偏最小二乘回归法预测玉米中淀粉含量
个数 据集 的特征非 常接 近 , 均具 有代表 性 。
表 1 样 本 淀 粉 含 量 的分 布 特 征 数 据 类别 校 正 数 据集 检 验 数 据 集 样 本 数 最 小 值/ 最 大值 / 平 均 值/ 标 准 偏 % % % 差/ % 6 0 2 0 6.3 2 8 6 .O 3 1 6 .7 6 4 6 .0 5 8 6 .8 4 7 6 .5 4 4 0 8 .2 0 8 .O
径。
用 越来越 广 泛 。尽 管 近红 外 光 谱 分 析技 术 具 有 测 试简单 、 测试 速度快 、 效率 高 、 成本 低 、 坏性等 非破 优点 , 由于它 属于弱 光谱信 号分析 技术 , 得信 息 但 所 受到许 多 因素影 响 , 作 为信 息 源 的近 红 外光 谱 中 且
近红外 光谱 分析技 术可 以克服传 统化学分 析 的 缺 点 。尽 管有一 些研究 尝试应 用近红 外光谱技 术预 测 玉米 的淀粉含 量 , 皆 以采 用 多元 线性 回归 等建 但 模 方法 为主 _ 。笔 者尝试 应用偏最 小二 乘 回归法 6
建立校 正模型 , 为玉 米 淀 粉含 量 的测 定 提供 新 的途
有效信息 率低 , 从 复 杂 、 对 重叠 、 变动 的光 谱 中提取 某个特定 成分 的微 弱信 息 造成 困难 , 需要 应 用 有效
1 实验 部分
1 1 主要 仪 器与材料 .
的方法 和技术来 抑制 噪声 、 强有用 的信息 ’ 增 。
偏 最小二 乘 回归 法 ( a i e s S u rs ers P ra L at q ae ge— tl r
n 每条曲线包括共 70个波长的光谱数据 , m, 0 通过 计 算其倒 数 的对数将反 射率转 换为 吸光率 。图 1为
近红外光谱结合区间偏最小二乘法应用于花生油酸价的测定
近红外光谱结合区间偏最小二乘法应用于花生油酸价的测定周小华;张玫;相秉仁【摘要】采用近红外光谱法结合不同区间偏最小二乘波长筛选法建立花生油酸价的定量分析模型.采用酸碱滴定法测定花生油样本的酸价同时采集近红外光谱数据;采用区间偏最小二乘法(iPLS)、向后区间偏最小二乘法(BiPLS)、移动窗口偏最小二乘法(mwPLS)优选光谱特征区间;采用偏最小二乘法(PLS)对优选出来的谱段建立酸价的定量模型.结果表明,采用mwPLS选择的谱段建立的模型预测效果最佳,RMSECV和RMSEP分别为0.247 76和0.131 5,校正相关系数和预测相关系数分别为0.993 2和0.996 9.因此,近红外光谱结合移动窗口偏最小二乘法可以快速准确测定花生油的酸价.【期刊名称】《粮油食品科技》【年(卷),期】2017(025)002【总页数】3页(P62-64)【关键词】近红外;区间偏最小二乘;花生油;酸价;定量分析【作者】周小华;张玫;相秉仁【作者单位】江苏省食品药品监督检验研究院,江苏南京210008;江苏省食品药品监督检验研究院,江苏南京210008;中国药科大学,江苏南京210009【正文语种】中文【中图分类】O657.3;TS227食用油中游离脂肪酸含量的多少,反映了食用油质量、精炼程度和储藏品质变化,它是食用油品质评定的重要指标,常用酸价来表示。
酸价以中和1 g油脂中的游离脂肪酸所需氢氧化钾的毫克数表示。
国家标准中,食用油的检测是利用酸碱滴定的方法测定酸价。
这种方法过程繁琐,需要消耗很多有机试剂,不便于现场检测。
近红外光谱法具有快速、无损、环保等特点[1],近年来在食用油有关成分的检测应用方面有一定的报道[2-5],Yulan Rao等[5]首次将近红外光谱法应用于花生油酸价的测定,结果较佳,校正相关系数为0.972 5,校正均方根误差为0.308,预测相关系数为0.937 9,预测均方根误差为0.333。
红外光谱的原理及应用综述
红外光谱分析基本原理及应用摘要红外光谱分析技术具有很快速,非破坏性,低成本及同时测定多种成分等特点,在很多领域得到了广泛应用。
本文介绍了红外光谱技术的检测原理,红外光谱仪的构造,指出了其检测的优点与不足。
综述了红外光谱法的发展、应用以及对红外光谱研究前景的展望.关键词: 红外光谱原理构造发展1。
引言红外光谱法(infrared spectrometry,IR)是根据物质对红外辐射的选择性吸收特性而建立起来的一种光谱分析方法.分子吸收红外辐射后发生振动和转动能级跃迁。
所以,红外光谱法实质是根据分子内部振动原子间的相对振动和分子转动等信息来鉴别化合物和确定物质分子结构的分析方法.2。
红外光谱分析的基本原理2.1 红外光谱产生的条件物质分子吸收红外辐射发生振动和转动能级跃迁,必须满足以下两个条件:一是辐射光子的能量与发生转动和转动能级跃迁所需的能量相等;二是分子转动必须伴随有偶极距的变化,辐射与物质间必须有相互作用。
2.2 红外吸收光谱的表示方法红外吸收光谱一般用T_σ曲线或T_λ曲线来表示,λ与σ的关系式为:σ(cm-1)=1/λ(cm)=10^4/λ(μm)2.3 分子的振动与红外吸收2。
3.1 双原子分子的振动若把双原子分子(A—B)的两个原子看成质量分别为M1,M2的两个小球,中间的化学键看做不计质量的弹簧,那么原子在平衡位置附近的伸缩振动可以近似地看成沿键轴方向的简谐振动.量子力学证明,分子振动的总能量为:E=(u+1/2)hv当分子发生△v=1 的振动能级跃迁时(由基态跃迁到第一激发态)根据胡克(Hooke)定律它所吸收的红外光波数σ为:σ=(1/2пc)√(k/μ)其中:c—光速,3×10^8cm/s;k—化学键力常数N/cm;μ—两个原子的折合质量,g,μ=(m1。
m2)/(m1+m2)显然,振动频率σ与化学键力常数k成正比,与两个原子的折合质量成反比。
不同化合物k和μ不同,所以不同化合物有自己的特征红外光谱。
近红外光谱法定量分析及其应用研究
近红外光谱法定量分析及其应用研究一、本文概述随着科学技术的发展,光谱分析技术以其独特的优势在多个领域得到了广泛的应用。
其中,近红外光谱法作为一种重要的光谱分析技术,因其无损、快速、环保等特点,在定量分析领域具有独特的优势。
本文旨在深入探讨近红外光谱法定量分析的基本原理、方法、技术及其在各个领域的应用研究,以期为该领域的研究者提供有益的参考和启示。
本文将简要介绍近红外光谱法的基本原理和定量分析的基本方法,包括光谱数据的获取、预处理、特征提取以及模型的建立与优化等。
本文将重点分析近红外光谱法在农业、食品、医药、石油化工等领域的应用案例,探讨其在实际应用中的优势和局限性。
本文还将对近红外光谱法定量分析的发展趋势和前景进行展望,以期为该领域的发展提供新的思路和方向。
通过本文的研究,我们期望能够为近红外光谱法定量分析的理论研究和实际应用提供有益的参考,同时也希望能够推动该领域的技术创新和发展。
二、近红外光谱法的基本原理与技术近红外光谱法(Near-Infrared Spectroscopy,NIRS)是一种利用物质在近红外区(波长范围通常为780-2500nm)的吸收特性进行定性和定量分析的技术。
其基本原理主要基于分子振动产生的吸收光谱,这些光谱信息能够反映分子内部的结构和组成。
近红外光谱法的基本原理是物质对近红外光的吸收与其内部的分子结构、化学键合状态以及分子间的相互作用有关。
当近红外光通过物质时,某些特定波长的光会被物质吸收,这些被吸收的波长与物质的特定化学成分和分子结构密切相关。
因此,通过测量物质在近红外区的吸收光谱,可以获取到关于物质成分和结构的信息。
近红外光谱法的技术包括光谱采集、光谱预处理、模型建立与验证等步骤。
光谱采集是使用近红外光谱仪对样品进行扫描,得到其近红外吸收光谱。
光谱预处理是为了消除光谱中的噪声和干扰,提高光谱的质量和可靠性。
模型建立与验证是通过化学计量学方法,如多元线性回归、主成分回归、偏最小二乘回归等,建立光谱数据与物质成分之间的定量关系模型,并对模型进行验证和优化。
近红外光纤光谱法快速检测葡萄酒中酒精度
6食品与药品Food and Drug2021年第23卷第1期近红外光纤光谱法快速检测葡萄酒中酒精度刁娟娟「,李玮2,李莉2**,艾尔肯•依布拉音「,钟德全2(1.新疆医科大学中心实验室,新疆乌鲁木齐830011;2.新疆医科大学药学院,新疆乌鲁木齐830011)摘要:目的构建近红外光纤传感检测系统,结合近红外光谱分析技术和化学计量学,对葡萄酒中酒精度进行快速检测。
方法以葡萄酒为研究对象,构建近红外光纤传感检测系统,分别使用偏最小二乘法和主成分回归对葡萄酒中酒精度进行近红外光谱分析,进行模型参数的比较。
采用国标GB/T15038-2006《葡萄酒、果酒通用分析方法》中气相色谱法对近红外预测结果进行验证。
结果采用偏最小二乘法建模的预测性能优于主成分回归分析。
在偏最小二乘法建模中,其决定系数(R)为0.9534,交叉验证均方根误差(RMSECV为0.0283,预测均方根误差(RMSEP)为0.0179,相对分析误差(RPD)为3.0607。
统计学分析表明近红外分析的预测值与气相色谱法测定值之间的差异无统计学意义。
结论研究表明,近红外光纤光谱法用于葡萄酒中酒精度的检测,操作简便、快速。
近红外技术在酒类品质监测中具有良好的应用前景。
关键词:近红外光谱;光纤传感;葡萄酒;酒精度中图分类号:TS207文献标识码:A文章编号:1672-979X(2021)01-0006-05DOI:10.3969/j.issn.l672-979X.2021.01.002Rapid Detection of Alcohol in Wine by Near Infrared Optical Fiber SpectroscopyDIAO Juan-juan1,LI Wei2,LI Li2,ARKIN Iburarim1,ZHONG De-quan1(1.Central Laboratory,Xinjiang Medical University,Urumqi830011,China;2.College of P harmacy,XinjiangMedical University,Urumqi830011,China)Abstract:Objective To establish a method for rapid determination of alcohol in wine using near-infrared optical fiber sensing detection system based on near infrared spectroscopy and chemometrics.Methods Taking wine as the research object,the near infrared optical fiber sensor detection system was constructed,using partial least squares(PLS)and principal component regression(PCR)to analyze alcohol content in wine by near-inrared spectroscopy,and compare the model parameters.The near infrared prediction results are verified by gas chromatography in GB/T15038-2006“Ggeral肚刃ysis Me比ods for Wine and Fruit Wine”.Results The results showed that the prediction ability of PLS was better than PCR.The coefficient of determination(R)was0.9534,the root mean square error of cross validation (RMSECV was0.0283,血e root me血square error of prediction(RMSEP)was0.0179,and the relative percent deviation(RPD)was3.0607in the PLS analysis model.Statistical analysis showed that there was no significant difference between the predicted value of near infrared analysis and the measured value of gas chromatography. Conclusion The studies have shown that near infrared optical fiber spectroscopy is simple,fast,and can be used for alcohol detection in wine.This technology has good application prospects in wine quality monitoring.Key Words:near infrared spectroscopy;optic fiber sensing;wine;alcohol content收稿日期:2020-07-08基金项目:国家自然科学基金项目(No.81760645)作者简介:刁娟娟,博士研究生,研究方向:食品和药品分析E-mail:*****************通讯作者:李莉,教授,博士生导师,研究方向:药物分析E-mail:**************食品与药品Food and Drug2021年第23卷第1期7新疆是我国葡萄的主产地之一,葡萄酒也是新疆的特色产品。
利用近红外光谱和偏最小二乘回归法预测脂肪酸组成
试 验用 3 植 物油 购 于超 市 , 0种 没有 进 一 步 提纯 等 处理 , 它 们 逐 个 编 号 。将 所 有 的测 试 样 品作 为 将 校 正集 , 机抽取 1 样 品作 为预测 集 。 随 0个 N xs7 傅 里 叶 近 红 外 光 谱 仪 : 国 T e eu80型 美 hr mo
21 0 0年 6月 第2 5卷 第 6期
中国粮油学报
J u n lo e C iee C r asa d Oi s cain o r a ft hn s ee l n l Aso it h s o
Vo . 5, . 1 2 No 6
Jn 2 1 u .0 0
利 用 近 红外 光谱 和偏 最 小 二 乘 回归 法 预测 脂 肪 酸 组 成
含量 为参 考值 , 用偏 最小二 乘 回归 法建立 了基 于近 红外光 谱 的测 定植 物 油主要 成 分 含 量 的校 正模 型 。四种 应
成分校 正模 型 的 交叉验证 误 差均方根 为 0 2 11 ~1 4 64 , 测误 差均 方根 为 1 0 0 8 ~1 . 6 % , .8 % .9 % 预 .8 % 8 0 30
李建 蕊 李九生
( 中国计 量学 院信 息工程 学 院 , 州 杭 摘 要 30 1 ) 108
采集了3 0种植 物 油样品在 1 0 5 0c 范 围 内的近 红外 透射 光谱 , 000~ 5O m 将所 有样 品作 为校 正
集, 随机抽 取 l 0种样 品 作 为预 测 集 , 气相 色谱 方 法测 得植 物 油 中主 要 成 分 油酸 、 油酸 、 以 亚 棕榈 酸、 脂 酸 的 硬
近红外光谱法测定 了玉米完整籽粒蛋 白质和淀粉含 量 。D vdPzenk等 用 近 红 外 技 术 分 析 了 大 豆 ai adri
近红外光谱法快速测定白酒中的酒精度
近红外光谱法快速测定白酒中的酒精度摘要:为了得到白酒工业中酒精度的快速检测技术,将偏最小二乘法与傅立叶变换近红外光谱法相结合,建立白酒酒精度的快速定量模型。
通过标准归一化预处理光谱,光谱范围选择5731.40~5897.25、5901.11~6063.10、8327.12~8423.54 cm-1,主成分数为5,得到模型的内部交互验证相关系数(R)为0.9992,交互验证均方差(RMSECV)为0.263;模型的预测值与实测值的相关系数为0.99,预测标准偏差(RMSEP)为0.435。
结果表明,模型的预测效果很好,具有较高的精密度和良好的稳定性,能满足生产中白酒酒精度的快速检测要求。
关键词:近红外光谱法;快速;白酒;酒精度Rapid determination of alcohol content in distilled spirit by NIR spectroscopy Abstract:In order to measuring alcohol concentration in distilled spirit accurately and quickly,a calibration model was established based on Fourier Transform Near Infrared Spectroscopy with partial least square.According to the selected spectra ranges of 5731.40~5897.25、5901.11~6063.10、8327.12~8423.54cm-1and standard nomral variate processing method,the rank was five.the correlation coefficient(R) of the model and the root mean square error of cross validation (RMSECV) are 0.99916,0.263 respectively.Then the model was tested and evaluated and the result showed the R of the test set and the root mean square error of prediction(RMSEP) are 0.99,0.453 respectively. the method has been applied to quick determination of alcohol concentration with satisfactory results in the distilled spirit industry.Keywords:near infrared spectroscopy;rapid;distilled spirit;alcohol concentration;白酒工业是中国食品工业中重要的一个产业部门,且年产量巨大。
近红外光谱法快速测定烟草中的常规化学成分含量
近红外光谱法快速测定烟草中的常规化学成分含量张朝;葛少林;佘世科;黄兰;田振峰【摘要】[目的]探讨近红外光谱法快速测定烟草中的常规化学成分含量.[方法]采用近红外光谱技术,选取单品种样品681个,结合偏最小二乘法(PLS),定量分析了烟草中总氯、烟碱、总钾、总糖、还原糖及总氮含量,并用实际样品对模型进行了验证.[结果]使用偏最小二乘法(PLS)为建模方法,建立了烟草中6种常规化学成分:总氯、烟碱、总钾,总糖、还原糖及总氮的近红外预测模型.6种组分最佳PLS预测模型的相关系数r分别为0.977 4、0.992 7、0.982 1、0.986 0、099 1和0.975 0.交叉检验的均方差(RMSECV)分别为0.057、0.126、0.160、1.170、0.994和0.127.[结论]所建模型精密度良好,近红外光谱法与行业标准方法所测值不存在显著差异,近红外光谱模型可以快速预测烟草中总氯、烟碱、总钾、总糖、还原糖及总氮的含量.【期刊名称】《安徽农业科学》【年(卷),期】2015(000)002【总页数】3页(P286-288)【关键词】近红外光谱;烟草;化学成分【作者】张朝;葛少林;佘世科;黄兰;田振峰【作者单位】安徽中烟工业有限责任公司技术中心,安徽合肥230088;安徽中烟工业有限责任公司技术中心,安徽合肥230088;安徽中烟工业有限责任公司技术中心,安徽合肥230088;安徽中烟工业有限责任公司技术中心,安徽合肥230088;安徽中烟工业有限责任公司技术中心,安徽合肥230088【正文语种】中文【中图分类】S572近红外光(简称NIR)是介于可见光和中红外光之间的电磁波,波长范围为780~2 526 nm(12 800~3 959 cm-1)。
近红外光谱区的信息主要是分子内部原子间振动的倍频与合频的信息,几乎包括有机物中所有含氢基团(如C-H、O-H、N-H和C=O等)的信息[1]。
烟草中的大多数有机化合物如烟碱、氮、总糖、还原糖、钾、氯、蛋白质、水分等都含有各种含氢基团,所以通过对烟叶的红外光谱分析可以测定这些成分的含量[2]。
样条变换集成罚函数偏最小二乘方法用于光谱数据重构和定量分析
样条变换集成罚函数偏最小二乘方法用于光谱数据重构和定量分析(作者:___________单位: ___________邮编: ___________)【摘要】针对高维小样本光谱数据所显现的函数型数据(Functional data)特性、与性质参数的非线性关系及变量间存有的严重共线性,采用了样条变换集成罚函数偏最小二乘回归新技术。
它首先以三次B基样条变换实现非线性光谱数据的线性化重构,随后将重构的新光谱矩阵交由罚函数偏最小二乘法(Penalized PLS)构建其与性质参变量间的校正模型,其中罚函数中的光滑因子由交叉验证优化确定以调控模型的拟合精度。
最后,通过小麦样品水分含量的近红外光谱定量分析,结果显示该技术光谱数据重构稳健,去噪明显,并有效解决高维小样本的过拟合和变量间的共线性,而预测集的均方根误差(RMSEP)为0.1808%,方法的非线性校正模型预测能力得到了明显提高。
【关键词】样条函数,偏最小二乘, 粗糙惩罚, 近红外光谱, 定量分析, 小麦1 引言现代光谱以其分析速度快、重现性好、成本低、不消耗样品、易于实现在线分析等特点而得到广泛应用。
而光谱化学计量学是近代红外光谱分析技术的重要组成部分,它通过多变量校正技术来进行数据(样本光谱和其性质参数)处理,以获得准确的分析结果[1,2]。
考虑到近红外光谱数据通常呈多变量、强相关性,并与样品性质参变量间的非线性关系,适宜选用非线性偏最小二乘法(Non linear PLS,NLPLS)。
目前,NLPLS实现方式有3种:一是基于样本矩阵的非线性变换,即在建模自变量中引入某些原始变量的非线性项,如二次项、交叉项等[3];二是将建模变量投影到低维的曲线或曲面上得到非线性特征向量,再建立输入输出特征向量间的非线性关系[4],但该方法计算复杂,建模受初值影响大;三是保留PLS的线性外部模型,而内部模型采用多项式、样条函数、模糊规则、神经网络、支持向量机等非线性形式[5~9],该方法缺乏对建模物理变量的直观解释能力。
现代近红外光谱分析技术的原理及应用
现代近红外光谱分析技术的原理及应用1简介近红外光〔near infrared,NIR 〕是介于可见光〔VIS〕和中红外光〔MIR或IR〕之间的电磁波美国材料检测协会〔ASTM将近红外光谱区定义为波长780-2526nm的光谱区〔波数为12820-3959cm1〕习惯上乂将近红外区划分为近红外短波〔780-1100nS 和近红外长波〔1100-2526ng 两个区域。
从20世纪50 年代起,近红外光谱技术就在农副产品分析中得到广泛应用,但是由于技术上的原因,在随后的20多年中进展不大。
进入20世纪80年代后,随着计算机技术的迅速开展,以及化学计量学方法在解决光谱信息提取和消除背景十扰方面取得的良好效果,加之近红外光谱在测试技术上所独有的特点,人们对近红外光谱技术的价值有了进一步的了解从而进行了广泛的研究。
数字化光谱仪器与化学计量学方法的结合标志着现代近红外光谱技术的形成。
数字化近红外光谱技术在20世纪90年代初开始商品化。
近年来,近红外光谱的应用技术获得了巨大开展,在许多领域得到应用,对推进生产和科研领域的技术进步发挥了巨大作用。
近红外光谱技术是90年代以来开展最快、最引人注目的光谱分析技术,测量信号的数字化和分析过程的绿色化使该技术具有典型的时代特征。
由于近红外光在常规光纤中有良好的传输特性,使近红外光谱技术在实时在线分析领域中得到很好的应用。
在工业兴旺国家,这种先进的分析技术已被普遍接受,例如1978年美国和加拿大采用近红外法代替凯氏法,作为分析小麦蛋白质的标准方法。
20世纪90年代初,外国厂商开始在我国销售近红外光谱分析仪器产品,但在很长时间内,进展不大,其原因主要是:首先,近红外光谱分析要求光谱仪器、光谱数据处理软件〔主要是化学计量学软件〕和应用样品模型结合为一体,缺一不可。
但被分析样品会由于样品产地的不同而不同,国内外的样品通常有差异,因此,进口仪器的应用模型一般不适合分析国内样品。
如果自己建立模型,就需要操作人员了解和熟悉化学计量学知识和软件,而外商在中国的代理机构缺乏这方面的专业人才,不能有效地根据用户的需要组织培训,因此,用户对这项技术缺乏全面了解,影响到了它的推广使用。
近红外光谱结合不同偏最小二乘法无损检测食醋中总酸含量
( . c o l fFo d & Bilgc lE gn e ig,in s ie st , h n in 1 0 3 Chn ; 1 S h o o o oo ia n i e rn Ja g u Un v r iy Z e ja g 2 2 1 , ia 2 Ja g u He g h n Gr u . Lt ., h nin 1 0 3 Ch n ) . in s n s u o p Co , d Z e j g 2 2 1 , ia a
三 个 子 区 间 , 因子 数 为 4时 最 佳 , RMS C 和 R E 主 其 E V MS P分 别 为 0 2 9 . 9 8和 0 2 7 , 正 集 和 预 测 集 . 97 校
相 关 系数 分别 为 0 9 8和 0 9 1 。不 同偏 最 小二乘 算 法所 选取 区域 大多集 中于 5 0  ̄ 6 0 m- 范围 .2 .2 3 5 0 0 0c 1 内, 明该 波数 范 围应 该是 总酸 的相 应特征 区间。 证
关键 宇 : ; 醋 近红 外 ; 最 小二 乘算 法 偏 中图分 类号 : S 6 . 2 T 2 4 2 文 献标识 码 : B 文章 编号 : o O 9 3 2 1 ) 1 1 7 4 1 0 一9 7 (0 1 0 一O 0 一O NO d tu tv et c i ft t I i o t n n vie arb s n es r c i e d e t on o o a d c n e t l n g a ed ac on NI o ed w i a t R c mbi t p ri ea ts u r n h alI s q a es
近红外光谱(NIR)分析技术的应用
近红外光谱(NIR)分析技术的应用近红外光谱分析是近20年来发展最为迅速的高新技术之一,该技术分析样品具有方便、快速、高效、准确和成本较低,不破坏样品,不消耗化学试剂,不污染环境等优点,因此该技术受到越来越多人的青睐。
一、近红外光谱的工作原理有机物以及部分无机物分子中各种含氢基团在受到近红外线照射时,被激发产生共振,同时吸收一部分光的能量,测量其对光的吸收情况,可以得到极为复杂的红外图谱,这种图谱表示被测物质的特征。
不同物质在近红外区域有丰富的吸收光谱,每种成分都有特定的吸收特征。
因此,NIR能反映物质的组成和结构信息,从而可以作为获取信息的一种有效载体。
二、近红外光谱仪的应用NIR分析技术的测量过程分为校正和预测两部分(如图一所示),(1)校正:①选择校正样品集,①对校正样品集分别测得其光谱数据和理化基础数据,①将光谱数据和基础数据,用适当的化学计量方法建立校正模型;(2)预测:采集未知样品的光谱数据,与校正模型相对应,计算出样品的组分。
由此可知,建立一个准确的校正模型是近红外光谱分析技术应用中的重中之重。
图一2.1 定标建模2.1.1 为什么要建立近红外校正模型2.1.1.1 建立近红外校正模型的最终目标是获得一个长期稳定的和可预测的模型。
2.1.1.2 近红外光谱分析是间接的(第二手)分析方法,所以①需要定标样品集;①利用定标样品集的参比分析数据与近红外光谱建立校正模型;③近红外分析准确度与参比方法数据准确度高度相关;④近红外分析精度一般优于参比方法分析精度。
2.1.2 模型的建立与验证步骤2.1.2.1 扫描样品近红外光谱准确扫描校正样品集中各个样品规范的近红外光谱:为了克服近红外光谱测定的不稳定性的困难,必须严格控制包括制样、装样、测试条件、仪器参数等测量参数在内的测量条件。
利用该校正校品集建立的数学模型,也只能适用于按这个的测量条件所测量光谱的样品。
2.1.2.2 测定样品成分(定量)按照标准方法(如饲料中的粗蛋白GB/T6432、水分GB/T6435、粗脂肪GB/T6433)准确测定样品集中每个样品的各种待测成分或性质(称为参考数据)。
近红外光谱分析技术的数据处理方法
引言近红外是指波长在780nm〜2526nm范围内的光线,是人们认识最早的非可见光区域。
习惯上又将近红外光划分为近红外短波(780nm〜llOOnm)和长波(1100 nm〜2526 nm)两个区域•近红外光谱(Near Infrared Reflectance Spectroscopy,简称NIRS)分析技术是一项新的无损检测技术,能够高效、快速.准确地对固体、液体、粉末状等有机物样品的物理、力学和化学性质等进行无损检测。
它综合运用了现代计算机技术.光谱分析技术、数理统计以及化学计量学等多个学科的最新研究果,并使之融为一体,以其独有的特点在很多领域如农业、石油.食品、生物化工.制药及临床医学等得到了广泛应用,在产品质量分析.在线检测、工艺控制等方面也获得了较大成功。
近红外光谱分析技术的数据处理主要涉及两个方面的内容:一是光谱预处理方法的研究,目的是针対特定的样品体系,通过对光谱的适当处理,减弱和消除各种非目标因素对光谱的影响,净化谱图信息,为校正模型的建立和未知样品组成或性质的预测奠定基础;二是近红外光谱定性和定量方法的研究,目的在于建立稳定. 可靠的定性或定量分析模型,并最终确定未知样品和对其定量。
1工作原理近红外光谱区主要为含氢基团X-H (X=0, N, S,单健C,双健C,三健C等) 的倍频和合频吸收区,物质的近红外光谱是其各基团振动的倍频和合频的综合吸收表现,包含了大多数类型有机化合物的组成和分子结构的信息。
因为不同的有机物含有不同的基团,而不同的基团在不同化学环境中对近红外光的吸收波长不同,因此近红外光谱可以作为获取信息的一种有效载体。
近红外光谱分析技术是利用被测物质在其近红外光谱区内的光学特性快速估测一项或多项化学成分含量。
被测样品的光谱特征是多种组分的反射光谱的综合表现,各组分含量的测定基于各组分最佳波长的选择,按照式(1)回归方程自动测定结果^组分含量=C0+C1 (Dp) 1+C2 (Dp) 2 +…+Ck (Dp)k⑴式中:CO〜k为多元线性回归系数;(Dp) 1〜k为各组分最佳波长的反射光密度值(D=-lgp, p为反射比)。
近红外光谱的主要技术特点
近红外光谱的主要技术特点近红外光谱(NIR)是一种分析物质成分、结构和性质的科学技术。
它具有非侵入性、非破坏性和快速分析等优势。
近年来,NIR技术在农业、食品、化工、制药、环保等领域得到广泛应用。
本文就近红外光谱的主要技术特点进行探讨。
波长范围广NIR波长范围约为780 ~ 2500 nm,这个范围涵盖了紫外线、可见光和近红外线。
NIR区域的光谱数据呈现出许多的谷、峰、肩峰和平台,反映出样品中所包含的化学组分和结构信息。
由于样品中各种化学键的振动方式不同,所以相应的光谱峰也会呈现出不同的位置和形态。
信噪比高NIR技术具有很高的信噪比,这是因为近红外光的穿透能力较强,即使通过较厚的样品,也能得到较好的光谱数据。
此外,NIR分析的样品常为固体和液体,与传统光谱分析相比,无需样品前处理、无需消耗试剂,不仅可以保证采样的代表性,同时也能保证较佳的信噪比,减少了仪器检测误差。
精度高NIR技术可以对样品中的有机物、肥料、农药和化工原料等进行快速的非破坏性检测,而且具有高精度。
在光谱图中,NIR区域的光谱峰宽度较大,峰面台阶较平滑,因此它所反映的成分信息是全面而准确的。
此外,NIR技术可以对多种成分进行同时分析,相比传统化学分析方法,不仅速度更快,而且准确度也更高。
全谱扫描NIR技术的主要设备是一种称为近红外光谱仪的仪器,可以进行全谱扫描。
全谱扫描要求在分析时覆盖尽可能大的波长范围,这样可以更全面地获取样品信息。
近红外光谱仪可以根据实验要求设置多种扫描模式,调节仪器的参考光和采集光,使得数据采集更加稳定,且更有规律可循。
数据处理NIR光谱仪可以输出大量的光谱数据,但光谱数据并不一定能够直接反映出样品的有用信息。
因此,在NIR光谱检测中,数据处理也至关重要。
常用的数据处理方法包括常规分析、多元统计分析、偏最小二乘回归、支持向量机等。
这些方法能够有效地提取样品中所包含的信息,进行样品分类、定量分析、反演分析等。
结论总体而言,近红外光谱技术具有波长范围广、信噪比高、精度高、全谱扫描和数据处理等特点。
应用近红外光谱分析技术定量检测植物油脂肪酸含量的研究
应用近红外光谱分析技术定量检测植物油脂肪酸含量的研究梁丹【摘要】[目的]建立一种简单、快速、准确且无损的脂肪酸含量的定量检测方法.[方法]应用近红外光谱分析技术快速准确定量检测植物油中3种脂肪酸含量,采用偏最小二乘法PLS建立植物油中3种脂肪酸(油酸、亚油酸、亚麻酸)含量的近红外定量分析模型,并对比分析了10种光谱预处理方法对植物油中3种脂肪酸含量定量分析校正模型结果的影响.[结果]一阶导数(FD)结合多元散射校正(MSC)法的光谱预处理效果最优,经FD+ MSC法预处理后采用PLS建立的植物油脂肪酸含量检测的校正模型,对油酸的验证决定系数R2为0.969 3,预测标准差RMSEP为1.3%;对亚油酸的验证决定系数R2为0.960 6,预测标准差RMSEP为1.66%;对亚麻酸的验证决定系数R2为0.973 1,预测标准差RMSEP为0.479%.[结论]研究表明,所建模型可较好地检测植物油中油酸、亚油酸、亚麻酸含量.%[ Objective] To establish a new method for the quantitative detection research for the fatty aeid of vegetable oil using near infrared spectroscopy. [Method] Using partial least squares (PLS) to establish near-infrared quantitative analysis model, and compare and analysis the results of the calibration model for quantitative detection of fatty acids (oleic acid, linoleic acid, linolenic acid) using 10 kinds of pretreat-ment methods on vegetable oil. [ Result] Results showed that FD + MSC is the best pretreatment method, determination coefficient R2 of oleic acid validation model was 0. 969 3, KMSEP was1. 3% ; determination coefficient R of linoleic acid validation model was 0. 960 6, RMSEP was 1. 66% ;determination coefficient R2 of linolenic acid validation model was 0. 973 1 , RMSEP was 0. 479% , they allhave high determination coefficient. [Conclusion] It shows that the model can detect oleic acid, linoleic acid, linolenic acid simultaneously very well.【期刊名称】《安徽农业科学》【年(卷),期】2012(000)030【总页数】4页(P14933-14936)【关键词】近红外光谱;偏最小二乘法;植物油;脂肪酸【作者】梁丹【作者单位】武汉职业技术学院电信学院,湖北武汉430074【正文语种】中文【中图分类】S123植物油中主要含有油酸、亚油酸、亚麻酸等不饱和脂肪酸,油酸、亚油酸、亚麻酸等脂肪酸具有促进健康的作用。
偏最小二乘回归方法及其应用
偏最小二乘回归方法及其应用
偏最小二乘回归(Partial Least Squares Regression,PLSR)
是一种广泛应用于多变量分析和预测的统计学方法。
它适用于样本数
量小于变量数量的情况,并可以解决多重共线性问题。
在PLSR中,首先对原始数据进行归一化处理,然后进行主成分
分析(PCA),将自变量和因变量同时转换到主成分空间中。
接着,通
过求解主成分之间的协方差来建立起自变量和因变量之间的关系模型。
在建立模型的同时,也会得到每个自变量对于回归模型的贡献程度,
这些贡献程度就是偏最小二乘回归中的载荷(loading)。
PLSR方法的应用非常广泛,包括化学、食品、医学、环境科学等领域。
例如,PLSR可以用于分析各种检测数据,如红外光谱、近红外
光谱、核磁共振波谱等。
同时,PLSR也可以用于预测各种样本性质,
如蛋白质含量、糖含量、杂质含量等。
总之,PLSR是一种非常有用的数据分析和预测方法,在多个领域中都有广泛应用。
近红外光谱-偏最小二乘法快速测定八角茴香中莽草酸含量
近红外光谱-偏最小二乘法快速测定八角茴香中莽草酸含量范铭然;孟庆繁;王迪;王天然;杨光;滕利荣;林凤【期刊名称】《时珍国医国药》【年(卷),期】2009(20)5【摘要】目的采用偏最小二乘法(PLS)建立测定八角茴香中莽草酸含量的近红外光谱定量分析模型。
方法应用多种光谱预处理方法分别对八角茴香固体粉末样品的近红外光谱进行预处理,并采用预处理后的光谱分别建立定量分析模型,模型经过选择最适主因子数进行优化。
结果经过比较各个模型的内部交互验证均方根误差(RMSECV)和交互验证预测值与实验测得值间的相关系数(Rv),外部均方根误差(RMSEP),选取最优的模型。
结论结果表明定量分析模型稳健性好和预测精度高,在中药有效成分定量分析方面有很大的应用前景。
【总页数】2页(P1199-1200)【关键词】八角茴香;近红外光谱;偏最小二乘法;莽草酸【作者】范铭然;孟庆繁;王迪;王天然;杨光;滕利荣;林凤【作者单位】吉林大学生命科学学院【正文语种】中文【中图分类】R284.2【相关文献】1.近红外光谱结合偏最小二乘法快速测定糖果中水分含量 [J], 沈乐丞;刘书航;邓海玲;何美霞;吴燕蕙;彭建飞;黄勇旗2.近红外光谱结合偏最小二乘法快速测定奥硝唑片的含量 [J], 王小亮;张秉华;衷红梅;席志芳;杜亚俊3.近红外光谱技术结合偏最小二乘法快速测定砂仁中乙酸龙脑酯的含量 [J], 樊明月;白雁;雷敬卫;谢彩侠;郝敏4.基于偏最小二乘法的近红外光谱定量分析模型测定八角茴香中莽草酸含量 [J], 逯家辉;郭伟良;越柏玲;王迪;孟庆繁;滕利荣5.近红外光谱结合偏最小二乘法快速检测山苍子精油中柠檬醛的含量 [J], 陈梓云;黄晓霞;姚婉清;彭梦侠因版权原因,仅展示原文概要,查看原文内容请购买。
近红外 特征波长提取
近红外特征波长提取近红外光谱是指波长范围为780-2500纳米之间的电磁波。
近红外光谱具有很多应用领域,其中之一就是特征波长提取。
本文将探讨近红外光谱中的特征波长提取方法及其应用。
一、近红外光谱特征波长提取的方法1. 统计分析法统计分析法是一种常用的特征波长提取方法。
通过对近红外光谱数据进行统计分析,包括均值、方差、标准差等指标的计算,可以找出具有显著差异的波长点。
这些波长点即为特征波长。
2. 反射率差异法反射率差异法是通过比较不同样品在近红外光谱下的反射率差异来提取特征波长。
如果某个波长点上的反射率在不同样品之间存在显著差异,那么该波长点即为特征波长。
3. 偏最小二乘法偏最小二乘法是一种常用的多元统计分析方法,也可以用于提取近红外光谱的特征波长。
该方法可以通过建立样品的数学模型,利用光谱数据和样品的属性信息进行特征波长的提取。
二、近红外光谱特征波长提取的应用1. 农产品质量检测近红外光谱可以用于农产品的质量检测。
通过提取农产品近红外光谱中的特征波长,可以快速、准确地判断农产品的成熟度、品质等指标,为农业生产提供科学依据。
2. 药品质量控制近红外光谱在药品质量控制中也有广泛应用。
通过提取药品近红外光谱中的特征波长,可以对药品的成分、纯度等进行快速检测,提高药品的质量和安全性。
3. 环境监测近红外光谱可以用于环境监测。
通过提取环境样品近红外光谱中的特征波长,可以对大气污染物、水质污染物等进行监测和分析,为环境保护提供科学依据。
4. 食品安全检测近红外光谱在食品安全检测中也有重要应用。
通过提取食品近红外光谱中的特征波长,可以对食品中的有害物质、添加剂等进行快速检测,保障食品的安全性和质量。
5. 医学诊断近红外光谱在医学诊断中有着广泛的应用。
通过提取人体组织或生物体近红外光谱中的特征波长,可以实现对疾病的早期诊断和监测,为临床医学提供重要的辅助手段。
三、总结近红外光谱特征波长提取是一种重要的数据处理方法,可以用于实现对光谱数据的降维和特征提取。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第26卷,第6期 光谱学与光谱分析Vol 126,No 16,pp1046210502006年6月 Spectroscopy and Spectral Analysis J une ,2006 快速稳健偏最小二乘回归及其在近红外光谱分析中的应用成 忠1,2,陈德钊131.浙江大学化学工程与生物工程学系,浙江杭州 3100272.浙江科技学院生物与化学工程系,浙江杭州 310012摘 要 现代近红外光谱,作为一种间接分析技术,将建立校正模型,实现对未知样本的定量分析。
针对近红外光谱分析灵敏度低、抗干扰性差的弱点,构建一种快速稳健的偏最小二乘回归(RRPL SR )算法。
它运用峭度法快速识别离群点,排除它们后,再实施偏最小二乘回归,消除复共线性,建立稳健可靠的定量校正模型。
将RRPL SR 方法实际应用于鱼类物质的近红外光谱数据分析,实现脂肪含量的定量检测,效果良好。
与已有的其他方法相比,它能准确识别离群点,所建模型预测性能良好,且计算省时,效率高,适用于快速检测。
主题词 偏最小二乘;离群点识别;峭度法;稳健回归;近红外光谱;定量检测中图分类号:O65713 文献标识码:A 文章编号:100020593(2006)0621046205 收稿日期:2005201218,修订日期:2005206206 基金项目:国家自然科学基金(20276063)和浙江省重点科技项目(2004C21SA120002)资助 作者简介:成 忠,1973年生,浙江大学化学工程与生物工程学系博士研究生 3通讯联系人引 言 近红外谱区(780~2526nm )含有含氢集团的振动信息,可用于生物样品的定量分析,如肉类鱼类中脂肪、水和蛋白质含量测定,果品或蔬菜中营养物质测量,牛奶品质分析,种子的非破坏性分析,饲料的快速分析等[125]。
由于近红外光谱峰宽,信号强度微弱、不明确,且严重重叠,常需建立数学模型进行定量分析。
近红外光谱数据通常呈多变量、强相关性,并与样品组分含量构成线性关系,适于用偏最小二乘回归(partial least squares regression ,PL SR )方法快速地为定量构效关系建模,进而实现物质组成的实时检测[628]。
在光谱仪测试采样过程中,难免会有环境干扰、仪表偏差和人为失误等,导致某些样本数据点偏离正常样本较远,被视为异常、失效等,又称为离群点(Outliers )[9],Hawkins 认为“离群点的观测值偏离其他点如此严重,不禁令人怀疑它们由另外一种完全不同的机制所产生”[10],它们将影响模型的准确性。
为此,亟需构建一种能识别离群点,又无需过多计算的回归建模算法。
本文拟用峭度法(Kurtosis )快速识别离群点,排除它们后再由PL SR 提取成分,建立稳健的模型,称其为快速稳健偏最小二乘回归(rapid robust PL SR ,RRPL SR )。
本文还将其用于鱼类近红外光谱数据分析[11],实现其脂肪含量的定量校正,效果良好。
1 RRPL SR 方法的构建111 P LSR 方法与离群点影响设样本数据构成为n ×p 的自变量阵X 和n ×p 的因变量阵Y ,n 为样本容量,p ,q 分别为自、因变量维数。
回归线性模型为y i =β0+βx i εi ,i =1,2,…,n(1)式中εi 为残差。
当自变量间存在复共线性时,宜用PL SR 建模,PL SR 有多种方式,奇异值分解的SIMPL S 算法较为常用[12],它将计算自、因变量的样本均向量 m x 和 m y ,并据此将X,Y 中心化为X cen ,Y cen ,再计算协方差矩阵A =X T cen Y cen 和B =X T cen X cen ,并通过A 的奇异值分解,提取h 个成分,得到转换权阵W =[w 1w 2…w h ]与得分阵T =X cen W ,并计算协方差阵S T =T T T 及S TY =T T Y 。
最后得到回归系数^β=W (S T )-1S TY ,^β0= m y -βTm x 。
SIMPL S 算法并不识别离群点,它们将使均向量 m x 和 m y 发生较大偏移,并使A 和B 中方差元素值增大,最终导致回归模型的误差明显增大[13,14],还可能造成掩盖现象(Masking )和淹没现象(Swamping ),使真正的异常点未被识别,而将正常点误判为异常的离群点。
112 用于离群点识别的峭度法若产生正常样本的机制已知,则可以此为基准识别离群点。
然而在适用模型尚未建成前,该机制往往是未知的,离群点的识别有相当的难度。
当前应用较为广泛的有最小椭球体积(minimum volume ellipsoid,MV E)法、最小协方差行列式(minimum covariance determinant,MCD)法及其改进[15,16],它们需事先估计离群点数r,对于容量为n的样本集,将以一定的策略从C n-r n个容量为n-r的子样中,搜寻具有MV E或MCD的子样,在该子样外的样本点即为离群点。
这类方法的计算量随n与r的关系呈指数增长,r选择不当时,还需重选再算,十分费时。
本文将基于MV E或MCD的稳健偏最小二乘回归[17]简记为MRPL SR。
针对MRPL SR计算量过大,本文拟用快速的峭度法识别离群点[15],峭度是表征样本分布峰态的统计参数,它将随对称离群点或少量非对称离群点的增多而增大,随大量非对称离群点的增多而减小,峭度法将据此启发式地快速地识别离群点,其主要步骤为[15]。
(1)标准化处理:设容量为n变量数为m的样本数据构成n×m维矩阵Z,对各变量进行均值为0、方差为1的标准化处理,使之成为Z std。
(2)搜寻使样本峭度最大的m个投影成分:记Z(1)= Z std,其第i个行矢量为z(1)i,用牛顿法求解令目标函数μ4=1 n ∑ni=1k1′z(1)i4,s1t1k T1k1=1达到最大的系数向量k1,max,称其为第1峭度最大方向矢量。
Z(1)在该方向上的投影成分为n维向量z(1)max,而在与k1,max正交的m-1维超平面上Z(1)的投影样本为n×(m-1)矩阵Z(2)。
进而,针对Z(2)可求得第2峭度最大方向矢量k2,max,Z(2)在该方向上的投影成分n 为维向量z(2)max。
以此类推,可得到第3,…,m峭度最大方向矢量,以及样本数据在这些方向上的投影成分,m个峭度最大化的投影成分构成矩阵Z max=[z(1)max z(2)max…z(m)max]。
(3)搜寻使样本峭度最小化的m个投影成分:搜寻过程与2)类似,可得到m个峭度最小化的投影成分,它们构成矩阵Z min=[z(1)min z(2)min…z(m)min]。
(4)投影矩阵与偏离参数:将上述两个矩阵合并为投影矩阵Z pro=[Z max Z min],对每个样本个体,按式(2)计算它在2m方向上的极大值d i,i=1,2,…,n,它是一种偏离参数,d i=max1≤j≤2m |z(j)i,pro-M ED(z(j)pro)|MA D(z(j)pro)(2)其中z(j)i,pro为Z pro的第i行第j列元素,z(j)pro为Z pro的第j列, M ED(z(j)pro)为z(j)pro的n个元素的中值,MA D(z(j)pro)为z(j)pro的n 个元素相对MA D(z(j)pro)绝对偏差的中值。
(5)对离群点个数的初步估计:将偏离参数d i值按降序排列,设满足d i>ξm的样本个数为s,初步估计离群点个数为r0=min{s,(n+m+1)/2},ξm为偏离参数的阈值,常为m的经验函数,可查表并插值得到[15]。
(6)离群点的识别:将d i值较大的r0个样本点作为嫌疑离群点,排除嫌疑离群点,再计算样本的均向量 m3和协方差矩阵 S3,然后按(3)式计算各嫌疑离群点x#i的马氏距离M D i,M D2i=(x#i- m3)T( S3)-1(x#i- m3)(3)给定风险率为α,记χ2m,α为自由度为m的χ2分布的临界值,凡满足M D2i>χ2p,α的为样本离群点,其余的被认定为正常样本点。
113 RRPLSR方法为排除离群点的不良影响,本文提出基于峭度法的RRPL SR算法,其基本思路为,(1)离群点的识别:将自、因变量阵X和Y合并为n×(p +q)的矩阵Z=[XY],对Z采用112节的峭度法识别样本数据中的离群点,设个数为r。
(2)排除离群点的稳健偏最小二乘回归:从自、因变量数据矩阵中剔除由第1步识别出的离群点,余下的样本点分别构成为n-r行的X3和Y3,列数未变。
对它们应用SIMPL S方法,包括计算它们的均向量 m3x和 m3y等,在提取h个成分数后,求得自变量成分的转换权矩阵W3和得分矩阵T3,以及协方差阵S3T及S3TY,最后得到回归系数的估计值^β=W3(S3T)-1S3TY,^β0= m3y-^βT m3x,由此建立了估计y i 的RRPL SR模型y i=^β0+^βx i。
114 离群点的确认所建模型可视为正常样本点的产生机制,可据此确认样本点(x i,y i)(i=1,2,…,n)中的离群点,常采用马氏距离法[17],将计算各样本点的两种马氏距离如(4),(5)式所示,S D2i=(t i- t)T(S T)-1(t i- t)(4)R D2i=εT i(Sε)-1εi(5)式中t i,S T,Sε为参与回归建模的样本得分向量的均向量及其协方差阵、因变量残差向量的协方差阵,在SIMPL S方法中所有样本均参与建模,而在MRPL SR和RRPL SR方法中则将剔除各自识别出的离群点,t i和εi为样本点(x i,y i)的得分向量和因变量残差向量。
而S D i和R D i分别为得分空间和回归残差空间中(x i,y i)与建模样本重心间的马氏距离。
在给定风险率α后,记χ2h,α,χ21,α分别为自由度是h和1时χ2分布的临界值。
凡S D2i>χ2h,α的样本点,被确认为杠杆离群点(Leverage point),这表明自变量的取值x i严重偏离正常样本范围,而有R D2i>χ21,α的,也被确认为离群点,这表明因变量的估计值^y i对实际观测值y i偏离过大。
2 RRPL SR用于鱼类脂肪含量的光谱数据分析 将应用RRPL SR法为鱼类近红外光谱数据进行离群点识别,并建立其脂肪含量的线性回归模型。
同时还将选用SIMPL S和MRPL SR方法,以作对照比较。
211 样本数据说明样本数据取自文献[11],为一种绿锦鱼的有关数据,自变量为近红外光谱在多个波长处的分光光度值,维数p=9,因变量为鱼的脂肪含量,维数q=1,样本容量n=45,各样本个体用序号标识。