一种光谱分析中的降维方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3期 光谱学与光谱分析 1) 犌) 2) ( ) ( , , 1 犛=( 狊 =( 犇 犎=( 犺 =( δ 犻 犻 犻 犻 犼) 犼 犼) 犼- 狀 0犻 ≠ 犼 其中δ ; 犻 犼= 1犻 = 犼 犌 犌 的最大 ( ) / ,记τ 2 = -犎 犛 犎 2 τ λ 1, 2, 狇 个特征值λ …, 对应的特征向 量 , ,…, 所 构 成 的 矩 阵 狌 狌 犝= λ 1 狌 2 狇 狇
一种光谱分析中的降维方法
李庆波,贾召会
北京航空航天大学仪器科学与光电工程学院,精密光机电一体化技术教育部重点实验室,北京 1 0 0 1 9 1
摘 要 在可见 / 近红外光谱分析中,提取光谱数据中的有用信息是建立稳健准确模型的前提。 I S OMA P是 一种有效的提取数据本真维的降维方法,但对噪声和邻域参数都比较敏感。提出了一种改进的I S OMA P有 监督降维方法,利用光谱数据本身的相关性指导邻域图的构建,降低对噪声和邻域参数的敏感程度,以正确 表达数据的邻域结构。采用该方法对两组光谱数据降维并进行 P L S 建模,结果表明,改进后的算法消弱了 邻域大小的影响,提取出的本真维数更小,同时提高了模型精度。 关键词 等距映射;有监督降维;可见 / 近红外光谱分析;植物叶片生化参数 中图分类号: : / ( ) O 6 5 7 . 3 A 犇 犗 犐 1 0 . 3 9 6 4 2 0 1 3 0 3 0 7 8 0 0 5 . i s s n . 1 0 0 0 0 5 9 3 文献标识码: j 的类别标签,然后结合类别信息重新定义一种样本间距离计
[ ] 1 , ) 等线性降维的应用有了一定局限性。 美国斯 MD S s c a l i n g 坦福大学 T 等提出一种非线性降维方法 — — — 等距 e n e n b a u m [ ] 2 , , 映射( i s o m e t r i cm a i n I S OMA P) 2 0 0 9 年杨辉华等尝 p p g
( ) : ; a T h e c l a s s e s d i s s i m i l a r i t i ad i f f e r e n t c l a s s i f i c a t i o nn u m b e r s yv ) : ( b C o i n c i d ed e r e e so f c l a s s i f i c a t i o na n dc o n t e n t s t a n d a r dv a l u e g
从图2看出,叶绿素数据被分成 4 类时,类间相似度差 异最大,同时还看出,分类结果与叶绿素含量梯度分布有很 大的吻合性,这是因为实验是选取同一水分条件下的绿色程 度不同的叶片,光谱间的相似度差异主要是由叶绿素含量差 异造成的。水分实验数据被分成2类时,类间差异最大。 3 2 参数选择 I m I S OMA P 有两个可调参数 犽 和狇,其中 犽 为邻域个 数, 狇 为样本本真维数。采用网格搜索法进行参数优选,即 下, 分别让犽 和狇 从初始值增加到最大值,在每一对 ( 犽, 狇) 将原始数据集进行 I S OMA P 降维,然后进行 P L S 回归,交 互验证均方根误差( 作为评价依据。本文中,叶绿 RM S E C V) , ;水分数据的犽 素实验数据的犽 最优值为 2 0 狇 最优值为 2 8 最优值为9 , 。 0 狇 最优值为2
第3 第3期 光 谱 学 与 光 谱 分 析 3卷 , 2013 年 3 月 S e c t r o s c o n dS e c t r a lA n a l s i s p p ya p y
V o l . 3 3, N o . 3, 7 8 0 7 8 4 p p , M a r c h 2 0 1 3
第四步,构建狇 维嵌入。将 MD S 应用于最短距离矩阵
犇 。方法如下,

,修订日期: 2 0 1 2 0 8 0 9 2 0 1 2 1 1 1 2 收稿日期: ) ,长江学者和创新团队发展计划项目( ) 和北京航空航天大学蓝天新星项目资助 6 0 7 0 8 0 2 6 I R T 0 7 0 5 基金项目:国家自然科学基金项目( 作者简介 : 李庆波 , 女 , 年生 , 北京航空航天大学仪器科学与光电工程学院副教授 : 1 9 7 5 e m i l b l e e b u a a u a a . e d u . c n q a @b
其中, 狓 狓 犻, 犻, 狔 狔 犼 为 任 意 两 样 本, 犼 为 它 们 的 类 别 标 签, 表示两样本的欧式距离。参数β用于防止因两样本 犱( 狓 狓 犻, 犼) 陡变, 依赖于数据集的密度, 欧式距离较大造成的犇( 狓 狓 犻, 犼) 一般取为数据集所有样本点欧式距离的平均值。调整因子α 使类间样本距离有小于类内样本距离的几率,以符合真实的 光谱数据,其中0 ( , 0 . 6 5 0 . 6 5 为两曲线相切时的α 值 ) < α < 文中取为0 。 . 5 第三步,计算最短路径。当图 犌 有边犈 设最短路径 犻 犼 时,
7 8 1
即样本数) ,选取使类间相似度差异最大的分类数作为 大值( 最终类别数。叶绿素实验数据的分类情况如图 2 所示,水分 示意图略。

/ / / 1 2 1 2 1 2 [ ,则 犜=d ( 狌 狌 狌 i a 犝T 是狇 维 λ λ λ 1, 2,…, 1 , 2 ,…, g 狇] 狇 ) 嵌入结果,即降维之后的样本数据。
2 实验部分
植 物 叶 片 在 可 见 和 近 红 外 波 段 呈 现 出 特 有 的 光 谱 特 ] 7 性[ ,利用可见 / 近红外光谱可以实现叶片生化参数的无损
, ] 8 9 。将改进的I 快速、多参数同ห้องสมุดไป่ตู้检测[ S OMA P 算法应用于
/ 犉 犻 1 犲 犳 犾 犲 犮 狋 犪 狀 犮 犲犞 犻 狊 犖 犐 犚狊 犲 犮 狋 狉 犪狅 犳 犾 犲 犪 狏 犲 狊 犚 犵 狆
犌 ,否则设犱 在图 犌 上,根据 D 犱 =犇( 狓 狓 i k s t r a 犻, 犻 j 犼) 犼 =∞ ; 犌。 算法求出所有对点之间的最短路径,得到最短距离矩阵 犇 犌 犻 犼
1 改进的降维算法原理
[] S OMA P 算法单纯依据欧氏距离构造邻域图 2 , 传统的I 忽略了光谱自身相关性,改进算法基于图像处理中的 “ 可视 ] 4 化” 思想[ ,先对光谱数据进行聚类分析,得到每一条光谱
引 言
目前光谱仪分辨率都很高,所获光谱数据量大,增加细 节信息的同时增加了信息冗余度,建模之前有必要对光谱数 据进行降维处理。同时,光谱测量过程中杂散光、散射效应 等多种因素导致光谱偏离朗伯比尔定律,待测参数浓度与光 谱之间 形 成 非 线 性 关 系,多 维 尺 度 变 换 ( m u l t i d i m e n s i o n a l
3 1 聚类分析 对两组数据进行聚类分析,设置类别数目从 1 增加到最
7 8 2
光谱学与光谱分析 第3 3卷 模型平稳很多,且在相同犽 值下,前者均小于后者。这说明 I m I S OMA P 算法对邻域大小的依赖程度要比传统I S OMA P 算法弱,能在一定程度上避免邻域大小选取不当的影响,更 具鲁棒性和拓扑稳定性;同时I m I S OMA P 算法更能准确降 维,有利于提高校正模型的精度。 3 3 犔 犛建模用于定量分析 结合 犘 在最优参数组合下,将原始光谱数据分别利用I S O MA P 和I m I S O MA P降维,然后采用留一法交互验证方式建立叶绿 素和水分含量的 P L S校正模型。叶绿素实验和水分实验的两 种模型预测结果分别如图4和图5所示, 综合情况比较见表1 。
] 6 到分类目的[ 。
第二步,构建邻域图 犌。计算原始样本点两两之间的欧 氏距离犱( ,按式 ( ) 计算 犇( ,得到权重矩阵 狓 狓 1 狓 狓 犻, 犻, 犼) 犼)
犇。如果狓 犽 个最近邻点之一,连接它们记为边 犈 犻 是狓 犻 犼, 犼 的 并赋予边权重 犇( 。 狓 狓 犻, 犼)
犻 犼 烄 1-e β 犻 =狔 狔 犼 犇( 狓 狓 =烅 犻, 犼) 2 , ) 犱 ( 狓 犻 狓 犼 犻 ≠狔 犼 烆 e β -α 狔
) 。改进的I 算方法,如公式( 1 S OMA P 算法具体如下: 第一步:聚类分析。本文将光谱角制图法 ( s e c t r a l a n l e p g [ ] 5 , ) 融入 算法 , 将光谱数据视为多维 m a i n S AM K m e a n s p pg 空间的矢量,计算光谱角大小确定光谱间的相似程度,以达
为了说明不同算法对邻域个数的依赖性,下面以水分数 据为例,计算了不同邻域个数选取情况下 RM S E C V 的平均 值和标准偏差, 如图3所示。 图中的每一点表示, 犽 值固定时 不同狇 值选取下的 RM S E C V 的平均值或标准偏差。
所获植物光谱数据,提取出其内在本真低维结构,精简数据 维数,降低建模复杂度的同时提高精度。 2 1 仪器 光谱测量仪器采用海洋光学 U S B 4 0 0 0 微型光谱仪,其 有效波段为4 0 0 11 0 0n m,分辨率为 0 . 2n m。叶片光谱采 ~ 用漫反射式测量。 S P A D 5 0 2 叶绿素仪用来测定叶绿素含量 的相对值,测量精度为± 1 . 0S P A D,重复性为 ± 0 . 3S P A D。 梅特勒 A L 1 0 4分析天平和烘箱用来测定水分含量标准值, 天平量程为0 ,精度为± ,烘箱温度可设置范 2 0 0g 0 . 1m ~ g 围为4 0 3 0 0℃。 ~ 2 2 样品 选用盆栽绿萝( 品种为青叶葛) 作为待分析植物,实验前 已对所选植株分三组进行水分胁迫培养。 2 . 2 . 1 叶绿素实验 选择来自同一水分条件下的植株上绿色程度不同的叶片 作为叶绿素光谱采集样本。每一叶片测量光谱后,即刻在同 一位置使用 S P A D 5 0 2 测量其叶绿素标准值。共获取 5 5个 样本 数 据,其 叶 绿 素 含 量 标 准 值 范 围 分 布 在 7 . 4~4 3 . 6 S P A D,标准偏差为8 . 1S P A D。 2 . 2 . 2 水分实验 选择不同水分条件下的植株叶片作为水分实验样本。每 一鲜叶光谱采集后,迅速称量鲜重 犕1,然后放入已标号培 养皿中。全部叶片光谱采集完毕一起放入烘箱,首先在 1 2 0 ,然后降到 8 0m i n 0 ℃ 下烘烤至恒重,最后 ℃恒温下烘烤3 取出叶片称其干重 犕2,水分相对含量的计算公式如下: 犉 犻 2 犾 犪 狊 狊 犻 犳 犻 犮 犪 狋 犻 狅 狀 犻 狀犮 犺 犾 狅 狉 狅 犺 犾 犾 犱 犪 狋 犪 犆 犵 狆 狔
试将其引入了光谱分析中。 I S OMA P 算法单纯依据欧式距离 降维会忽略光谱数据本身的相关性,而且对邻域大小和噪声
] 3 都比较敏感[ ,不能正确表达数据的邻域结构,从而使该算
槡 槡
2( 犱 狓, 狓 ) -
( ) 1
法具有较差的鲁棒性和拓扑稳定性。 本文提出一种改进的I , S O MA P 算法 ( i m r o v e dI S O MA P p 简称I ) ,先利用光谱相似性对样本进行分类,然后 m I S O MA P 基于类别指导邻域图的构建, 是一种有监督降维方法。 文章首 先阐述了改进算法的原理,然后将其应用在两组植物光谱数 据中,再结合 P L S建立校正模型,取得了较好的效果。
犕1 - 犕2 ( ) WC% = 0 0 % 2 ×1 犕1 9 个 样 本 ,其 水 分 含 量 标 准 值 范 围 分 布 在 共 获 取 5 8 1 . 8 %~ 9 0 . 6 %,标准偏差为1 . 6 %。以水分实验数据为例, 植物叶片可见 / 近红外反射光谱图如图1所示。
3 结果与讨论
相关文档
最新文档