三维荧光光谱的特征区域选择方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 33 卷
第3 期
发
光
学
报
Vol. 33
No. 3
2012 年 3 月
CHINESE JOURNAL OF LUMINESCENCE
Mar. , 2012
7032 ( 2012 ) 03034105 文章编号: 1000-
三维荧光光谱的特征区域选择方法
1* 1 2 杜树新 ,杜阳锋 ,袁之报 ( 1. 浙江大学工业控制技术国家重点实验室 工业控制研究所,浙江 杭州 310027 ; 2. 海南出入境检验检疫局,海南 海口 570311 )
3 ) 凸点集合中的凸点数量小于设定阈值, 认 作为孤立集予以删 为该凸点集是由于噪声引起, 除, 剩余的凸点集构成候选区域; 4 ) 在候选区域中, 采用常规的前向选择法或 后向剔除法选择模型性能最优的区域 。 凸点的判定计算 三维荧光光谱是一个二元函数, 可以根据二 元凸函数判定定理
[4 ]
判定二元函数是否为凸函
[
]
2
≥ 0. ( 1)
对于三维荧光光谱的任一激发发射波长点 ( i, j) , 可通过该定理来判定是否为凸点 。三维荧 5] 。 光导数光谱的计算参见文献[ 2. 4 基于网格相对密度的多密度聚类方法 由 2. 3 节得到的凸点构成凸集, 尽管同一个
第3 期
杜树新,等: 三维荧光光谱的特征区域选择方法
Three dimensional fluorescence spectrometry of a water sample,( a) the raw fluorescence spectrometry; ( b) the fluorescence spectrometry after removing Rayleigh scatter.
(b) 500
Intensity / a. u.
1000
Intensity / a. u.
600 400 200 200 姿em/nm
250
0 400 姿ex/nm 300
0 400 姿ex/nm 300 200 200 600 400 姿em/nm
图2 Fig. 2
( a) 原始三维荧光光谱; ( b) 去除瑞利散射后的三维荧光光谱 。 某一水样的三维荧光光谱 ,
三维荧光描述了荧光强度同时随激发波长和 发射波长变化的关系, 因此能完整地描述物质的荧 光特征, 是一种光谱指纹技术, 被广泛应用于水质
1226 ; 修订日期: 20120116 收稿日期: 2011“863 ” 基金项目: 国家自然科学基金( 60974111 ) ; 国家 计划( 2009AA04Z123 ) 资助项目 作者简介: 杜树新( 1967 - ) , 男, 浙江东阳人, 副教授, 博士, 主要从事模式识别与智能系统、 基于光谱分析的过程在线检测等的研究。
源自文库
、 遗传算法
[2 ]
、 间隔
Á
报 第 33 卷
检测值 检测 建模 标准样本 光谱测量 与预处理 光谱特征 区域选择 定量分析 模型建立 标准方法检测
图1
基于三维荧光光谱的定量分析过程
Detection process based on three dimensional fluores-
cence spectrometry
2
2. 1
基于凸集和聚类分析的三维荧光 光谱区域选择方法
基于三维荧光光谱的分析过程 基于三维荧光光谱的定量分析过程如图 1 所
示, 包括根据标准样本建立定量分析模型和对待 测样本进行定量检测两个独立的过程 。光谱预处 理主要包括去除噪声( 平滑 ) 和去除瑞利散射光, 标准样本的光谱特征区域选择是应用本文所提出 的光谱区域选择方法得到特征光谱区域, 而待测 样本的光谱特征区域选定是根据特征光谱区域得
[3 ] [1 ]
到待测样本光谱的特征区域。通过光谱特征区域 的选择一方面可以减少定量分析模型的输入参 以提高模型的精度和增强模型的稳健性 。
待测样本 光谱测量 与预处理 选定光谱 特征区域 检测值计算
数, 简化模型, 同时可以去除一些信噪比小的区域
Fig. 1
2. 2
荧光的区域形成了若干个凸集, 这些凸集包含了 有效的光谱数据。本文所提出的三维荧光光谱区 域选择方法就是如何从光谱图中提取出含有丰富 光谱信息的这些凸集区域, 方法分以下几个步骤: 凸点; 2 ) 对所识别的所有凸点采用聚类方法将凸 点进行聚类, 得到多个凸点集合;
342
发
光
学
的区别在于, 三维荧光光谱是用曲面来表征。在利 用三维荧光光谱进行定量分析时, 不适宜采用全谱 数据进行模型学习和计算, 原因在于: 55 型 ( 1 ) 计算量庞大, 以美国 PE 公司的 LS激发波长范围为 200 ~ 800 nm, 荧光光谱仪为例, 发射波长范围为 200 ~ 900 nm, 波长间隔为 5 nm, 则三维荧光光谱数据为 120 × 140 的矩阵, 如此庞 大的数据, 给模型学习和计算带来影响; ( 2 ) 在某些光谱区域, 样品的光谱信息很弱, 或与样品的组成和性质缺乏相关关系, 将这些关 联度弱的光谱区域引入到模型计算, 会造成计算 的浪费; ( 3 ) 存在冗余光谱区域和部分噪声光谱区域 或信噪比很低的光谱区域, 会造成用于定量分析 的校正模型的预测精度和稳定性降低 。 因此, 选择合适的光谱区域对简化定量分析 模型、 提高模型的预测能力、 增强模型的稳健性具 有重要的实际意义。尽管光谱区域选择在诸如近 红外光谱分析中得到了深入的研究, 并取得了许 多研究成果( 如相关系数法 偏最小二乘法
[7 ]
提出的基于网格相对密度的多密度
聚类算法, 使用网格相对密度识别具有不同密度 聚簇的相对密度网格单元, 聚类时从相对高密度 网格单元开始逐步扩展生成聚簇, 能有效地识别 不同密度的聚簇, 并对噪声数据不敏 不同形状、 感, 具有聚类精度高的优点。因此, 本文将该聚类 方法应用于凸点聚类以得到聚类效果较好的光谱 区域。由于篇幅限制, 具体的基于网格相对密度 的多 密 度 聚 类 算 法 在 此 不 再 描 述, 具体参见文 6] 。 献[
Abstract: Based on combination of binary convex function discriminant theorem with clustering analysis,a new method of characteristic region selection for threedimensional fluorescence spectrometry is proposed. By this method,the convex regions with valid spectral data are obtained. Experiment for detecting total organic carbon ( TOC ) in water and AFB1 in liquor are carried out. The experimental results show that the proposed method improves the accuracy of the regress model with increase of 6. 17% and 4. 97% respectively.
三维荧光光谱区域选择方法的基本思路
对三维荧光光谱数据的观察分析可以发现,
1 ) 采用凸函数判定方法识别光谱数据中的
以及其他算法 ) , 但针对三维荧
光光谱的光谱区域选择的研究, 无论国内还是国 外都非常少。 实际上, 这些应用于近红外光谱的 光谱区域选择方法对光谱曲线有较好的效果 , 但 对光谱曲面是不适合的。 本文将数学中的二元凸函数判定和数据挖掘 中的聚类分析方法相结合, 提出了针对三维荧光 的光谱区域选择方法, 从而在应用三维荧光光谱 数据进行定量分析时只选择所选定的特征区域进 行建模或预测, 减少了定量模型的输入维数和增 加了光谱数据的信噪比, 提高了定量分析模型的 预测精度。 2. 3
y) 在区域 D 上有连续的二阶偏导 数。设 z = f ( x , y ) 为 D 上凸函数的充分必要条件 数, 则 z = f ( x, y ) ∈D, 是对于任意的( x, 有
2 y) f( x, ≥ 0, 2 x 2 2 y ) 2 f ( x , y) f( x, y) - f( x, 2 2 x y x y
343
区域的凸点可构成一个凸集, 不同的区域构成不 同的凸集, 但这样会导致许多零乱的凸集, 需要对 这些凸集根据一些规则合理地区分或合并 , 即需 要采用聚类分析方法对所有的凸点进行聚类 。 聚类是指根据数据对象的某些属性, 将其划 分为若干的类, 使得类间相似性最小, 类内相似性 最大。目前聚类算法分有分裂法、 层次法、 基于密 度方法、 基于网格的方法和基于模型的方法等。 程国庆等
中图分类号: O657. 3
Characteristic Region Selection Methods for Threedimensional Fluorescence Spectrometry
DU Shuxin1* ,DU Yangfeng1 ,YUAN Zhibao2
( 1 . State Key Laboratory of Industrial Control Technology,Institute of Industrial Process Control, Zhejiang University,Hangzhou 310027 ,China; 2 . Hainan EntryExit Inspection and Quarantine Bureau, 570311 Haikou,China) * Corresponding Author,Email: shxdu@ iipc. zju. edu. cn
[6 ]
3
结果与讨论
为了验证本文所提出的方法, 分别以检测水
体中 TOC ( 总有机碳) 、 白酒中黄曲霉素浓度为实 验对象研究光谱区域选择方法。 3. 1 3. 1. 1 实验数据 水体中 TOC 实验数据 应用三维荧光光谱分析技术进行水体有机污 染物浓度( 如总有机碳 TOC , 化学耗氧量 COD ) 的 检测是近几年的研究热点
Key words: threedimensional fluorescence spectrometry; characteristic regions selection; binary convex function; cluster analysis
1
引
言
检测、 油品检测、 药物成分检测、 食品安全检测以及 化学成分检测等领域。在三维荧光中, 荧光强度是 激发光和发射光的函数, 从数学的角度看, 其本质 上是一个二维矩阵, 因此三维荧光也称为激发发射 矩阵。与用曲线表示的常规光谱( 如近红外光谱)
摘要: 将数学中的二元凸函数判定和数据挖掘中的聚类分析方法结合 , 提出了针对三维荧光的光谱区域选
择方法, 并利用此种方法从光谱图中提取出含有丰富光谱信息的凸集区域 。 对水体中总有机碳的检测和白 酒中黄曲霉素的检测进行了实验研究 , 实验结果表明, 采用本文提出的三维荧光光谱区域选择方法提高了模 型的精度, 与利用全光谱所建立的回归模型相比 , 模型精度分别提高了 6. 17% 和 4. 97% 。 关 键 词: 三维荧光; 特征光谱区域选择; 二元凸函数判别; 聚类分析 文献标识码: A DOI: 10. 3788 / fgxb20123302. 0341
(a) 2000
。 用于实验的水样
采集自某市地表水和生活排污水, 共 32 个水样。 4500 型荧光光 三维荧光光谱通过日立公司的 F激发波长为 225 ~ 400 nm, 发射波长为 谱仪测量, 250 ~ 700 nm, 采样波长间隔为 5 nm, 扫描速度为 2 400 nm / min。所测量的总有机碳采用日本岛津 VCSH 总 有 机 碳 分 析 仪 测 量 得 到。 公司的 TOC( b) 分别为某一水样的原始三维荧光光 图 2 ( a) 、 谱和去除瑞利散射后的三维荧光光谱 。
第3 期
发
光
学
报
Vol. 33
No. 3
2012 年 3 月
CHINESE JOURNAL OF LUMINESCENCE
Mar. , 2012
7032 ( 2012 ) 03034105 文章编号: 1000-
三维荧光光谱的特征区域选择方法
1* 1 2 杜树新 ,杜阳锋 ,袁之报 ( 1. 浙江大学工业控制技术国家重点实验室 工业控制研究所,浙江 杭州 310027 ; 2. 海南出入境检验检疫局,海南 海口 570311 )
3 ) 凸点集合中的凸点数量小于设定阈值, 认 作为孤立集予以删 为该凸点集是由于噪声引起, 除, 剩余的凸点集构成候选区域; 4 ) 在候选区域中, 采用常规的前向选择法或 后向剔除法选择模型性能最优的区域 。 凸点的判定计算 三维荧光光谱是一个二元函数, 可以根据二 元凸函数判定定理
[4 ]
判定二元函数是否为凸函
[
]
2
≥ 0. ( 1)
对于三维荧光光谱的任一激发发射波长点 ( i, j) , 可通过该定理来判定是否为凸点 。三维荧 5] 。 光导数光谱的计算参见文献[ 2. 4 基于网格相对密度的多密度聚类方法 由 2. 3 节得到的凸点构成凸集, 尽管同一个
第3 期
杜树新,等: 三维荧光光谱的特征区域选择方法
Three dimensional fluorescence spectrometry of a water sample,( a) the raw fluorescence spectrometry; ( b) the fluorescence spectrometry after removing Rayleigh scatter.
(b) 500
Intensity / a. u.
1000
Intensity / a. u.
600 400 200 200 姿em/nm
250
0 400 姿ex/nm 300
0 400 姿ex/nm 300 200 200 600 400 姿em/nm
图2 Fig. 2
( a) 原始三维荧光光谱; ( b) 去除瑞利散射后的三维荧光光谱 。 某一水样的三维荧光光谱 ,
三维荧光描述了荧光强度同时随激发波长和 发射波长变化的关系, 因此能完整地描述物质的荧 光特征, 是一种光谱指纹技术, 被广泛应用于水质
1226 ; 修订日期: 20120116 收稿日期: 2011“863 ” 基金项目: 国家自然科学基金( 60974111 ) ; 国家 计划( 2009AA04Z123 ) 资助项目 作者简介: 杜树新( 1967 - ) , 男, 浙江东阳人, 副教授, 博士, 主要从事模式识别与智能系统、 基于光谱分析的过程在线检测等的研究。
源自文库
、 遗传算法
[2 ]
、 间隔
Á
报 第 33 卷
检测值 检测 建模 标准样本 光谱测量 与预处理 光谱特征 区域选择 定量分析 模型建立 标准方法检测
图1
基于三维荧光光谱的定量分析过程
Detection process based on three dimensional fluores-
cence spectrometry
2
2. 1
基于凸集和聚类分析的三维荧光 光谱区域选择方法
基于三维荧光光谱的分析过程 基于三维荧光光谱的定量分析过程如图 1 所
示, 包括根据标准样本建立定量分析模型和对待 测样本进行定量检测两个独立的过程 。光谱预处 理主要包括去除噪声( 平滑 ) 和去除瑞利散射光, 标准样本的光谱特征区域选择是应用本文所提出 的光谱区域选择方法得到特征光谱区域, 而待测 样本的光谱特征区域选定是根据特征光谱区域得
[3 ] [1 ]
到待测样本光谱的特征区域。通过光谱特征区域 的选择一方面可以减少定量分析模型的输入参 以提高模型的精度和增强模型的稳健性 。
待测样本 光谱测量 与预处理 选定光谱 特征区域 检测值计算
数, 简化模型, 同时可以去除一些信噪比小的区域
Fig. 1
2. 2
荧光的区域形成了若干个凸集, 这些凸集包含了 有效的光谱数据。本文所提出的三维荧光光谱区 域选择方法就是如何从光谱图中提取出含有丰富 光谱信息的这些凸集区域, 方法分以下几个步骤: 凸点; 2 ) 对所识别的所有凸点采用聚类方法将凸 点进行聚类, 得到多个凸点集合;
342
发
光
学
的区别在于, 三维荧光光谱是用曲面来表征。在利 用三维荧光光谱进行定量分析时, 不适宜采用全谱 数据进行模型学习和计算, 原因在于: 55 型 ( 1 ) 计算量庞大, 以美国 PE 公司的 LS激发波长范围为 200 ~ 800 nm, 荧光光谱仪为例, 发射波长范围为 200 ~ 900 nm, 波长间隔为 5 nm, 则三维荧光光谱数据为 120 × 140 的矩阵, 如此庞 大的数据, 给模型学习和计算带来影响; ( 2 ) 在某些光谱区域, 样品的光谱信息很弱, 或与样品的组成和性质缺乏相关关系, 将这些关 联度弱的光谱区域引入到模型计算, 会造成计算 的浪费; ( 3 ) 存在冗余光谱区域和部分噪声光谱区域 或信噪比很低的光谱区域, 会造成用于定量分析 的校正模型的预测精度和稳定性降低 。 因此, 选择合适的光谱区域对简化定量分析 模型、 提高模型的预测能力、 增强模型的稳健性具 有重要的实际意义。尽管光谱区域选择在诸如近 红外光谱分析中得到了深入的研究, 并取得了许 多研究成果( 如相关系数法 偏最小二乘法
[7 ]
提出的基于网格相对密度的多密度
聚类算法, 使用网格相对密度识别具有不同密度 聚簇的相对密度网格单元, 聚类时从相对高密度 网格单元开始逐步扩展生成聚簇, 能有效地识别 不同密度的聚簇, 并对噪声数据不敏 不同形状、 感, 具有聚类精度高的优点。因此, 本文将该聚类 方法应用于凸点聚类以得到聚类效果较好的光谱 区域。由于篇幅限制, 具体的基于网格相对密度 的多 密 度 聚 类 算 法 在 此 不 再 描 述, 具体参见文 6] 。 献[
Abstract: Based on combination of binary convex function discriminant theorem with clustering analysis,a new method of characteristic region selection for threedimensional fluorescence spectrometry is proposed. By this method,the convex regions with valid spectral data are obtained. Experiment for detecting total organic carbon ( TOC ) in water and AFB1 in liquor are carried out. The experimental results show that the proposed method improves the accuracy of the regress model with increase of 6. 17% and 4. 97% respectively.
三维荧光光谱区域选择方法的基本思路
对三维荧光光谱数据的观察分析可以发现,
1 ) 采用凸函数判定方法识别光谱数据中的
以及其他算法 ) , 但针对三维荧
光光谱的光谱区域选择的研究, 无论国内还是国 外都非常少。 实际上, 这些应用于近红外光谱的 光谱区域选择方法对光谱曲线有较好的效果 , 但 对光谱曲面是不适合的。 本文将数学中的二元凸函数判定和数据挖掘 中的聚类分析方法相结合, 提出了针对三维荧光 的光谱区域选择方法, 从而在应用三维荧光光谱 数据进行定量分析时只选择所选定的特征区域进 行建模或预测, 减少了定量模型的输入维数和增 加了光谱数据的信噪比, 提高了定量分析模型的 预测精度。 2. 3
y) 在区域 D 上有连续的二阶偏导 数。设 z = f ( x , y ) 为 D 上凸函数的充分必要条件 数, 则 z = f ( x, y ) ∈D, 是对于任意的( x, 有
2 y) f( x, ≥ 0, 2 x 2 2 y ) 2 f ( x , y) f( x, y) - f( x, 2 2 x y x y
343
区域的凸点可构成一个凸集, 不同的区域构成不 同的凸集, 但这样会导致许多零乱的凸集, 需要对 这些凸集根据一些规则合理地区分或合并 , 即需 要采用聚类分析方法对所有的凸点进行聚类 。 聚类是指根据数据对象的某些属性, 将其划 分为若干的类, 使得类间相似性最小, 类内相似性 最大。目前聚类算法分有分裂法、 层次法、 基于密 度方法、 基于网格的方法和基于模型的方法等。 程国庆等
中图分类号: O657. 3
Characteristic Region Selection Methods for Threedimensional Fluorescence Spectrometry
DU Shuxin1* ,DU Yangfeng1 ,YUAN Zhibao2
( 1 . State Key Laboratory of Industrial Control Technology,Institute of Industrial Process Control, Zhejiang University,Hangzhou 310027 ,China; 2 . Hainan EntryExit Inspection and Quarantine Bureau, 570311 Haikou,China) * Corresponding Author,Email: shxdu@ iipc. zju. edu. cn
[6 ]
3
结果与讨论
为了验证本文所提出的方法, 分别以检测水
体中 TOC ( 总有机碳) 、 白酒中黄曲霉素浓度为实 验对象研究光谱区域选择方法。 3. 1 3. 1. 1 实验数据 水体中 TOC 实验数据 应用三维荧光光谱分析技术进行水体有机污 染物浓度( 如总有机碳 TOC , 化学耗氧量 COD ) 的 检测是近几年的研究热点
Key words: threedimensional fluorescence spectrometry; characteristic regions selection; binary convex function; cluster analysis
1
引
言
检测、 油品检测、 药物成分检测、 食品安全检测以及 化学成分检测等领域。在三维荧光中, 荧光强度是 激发光和发射光的函数, 从数学的角度看, 其本质 上是一个二维矩阵, 因此三维荧光也称为激发发射 矩阵。与用曲线表示的常规光谱( 如近红外光谱)
摘要: 将数学中的二元凸函数判定和数据挖掘中的聚类分析方法结合 , 提出了针对三维荧光的光谱区域选
择方法, 并利用此种方法从光谱图中提取出含有丰富光谱信息的凸集区域 。 对水体中总有机碳的检测和白 酒中黄曲霉素的检测进行了实验研究 , 实验结果表明, 采用本文提出的三维荧光光谱区域选择方法提高了模 型的精度, 与利用全光谱所建立的回归模型相比 , 模型精度分别提高了 6. 17% 和 4. 97% 。 关 键 词: 三维荧光; 特征光谱区域选择; 二元凸函数判别; 聚类分析 文献标识码: A DOI: 10. 3788 / fgxb20123302. 0341
(a) 2000
。 用于实验的水样
采集自某市地表水和生活排污水, 共 32 个水样。 4500 型荧光光 三维荧光光谱通过日立公司的 F激发波长为 225 ~ 400 nm, 发射波长为 谱仪测量, 250 ~ 700 nm, 采样波长间隔为 5 nm, 扫描速度为 2 400 nm / min。所测量的总有机碳采用日本岛津 VCSH 总 有 机 碳 分 析 仪 测 量 得 到。 公司的 TOC( b) 分别为某一水样的原始三维荧光光 图 2 ( a) 、 谱和去除瑞利散射后的三维荧光光谱 。