稀疏表示的说明

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要

高光谱成像(HSI)的光谱特征包含显著结构,如果得到适当的特点,可以实现更高效的数据采集和提高数据分析。因为大多数像素包含少数材料反射率,我们建议稀疏编码模型是能够很好的与HAI数据相匹配的。稀疏模式把每个像素认为是一种元素的结合,而这种元素来自更大的字典,并且在大范围的应用中,这种方法已经被证明是高效的。此外,先前的工作表明,最优的稀疏编码字典可以从没有其它先验信息的数据集(在对比许多HSI“端元”的发现算法即假设纯光谱或侧面信息的存在)中学习到。我们修改现有的无监督学习方法,并把它应用到HSI数据(带有显著地面真实标签)来学习一个最佳稀疏编码字典。使用这种训练字典,我们证明三个主要结论:1)稀疏编码模型学习材料光谱特征并且为每个单独材料逼近非线性流行;2)本词典以非常高的精确度去推断HSI分辨率数据,在多光谱级分辨率采集模拟图像;3)本训练词典提高了监督分类算法的运行效果,无论是在分类器复杂性方面还是在总结小训练数据。

关键词:去模糊字典学习高光谱成像(HSI)反问题材料分类多光谱影像遥感稀疏编码

(一) 引 言

高光谱成像( HSI )是一种光谱成像方式,包含环境及地域信息,这些信息是由信息星载平台或机载拍摄地面位置。而多光谱影像器( MSI )通过一些不规则空间光谱谱带获得数据(如3-10 ),HSI 通常使用数以百计的连续光谱带,这些光谱带规律的按照红外到紫外的空间排布。例如,世界观II 微星卫星[1]采用八条光谱带代表波长从0.435微米到1.328微米, 在同样的范围内,典型的HSI 大约采用60条光谱带除了许多更多的光谱带在更高的波长。 由于空间分辨率低至1米,HSI 增长频谱分辨率意味着估计地面反射率数据可用于确定场景可一本文中的人物或多个颜色版本在线 在 。 数字对象标识符10.1109/JSTSP.2011.2149497 )的属性,包括材料分类,地质特征的识别和环境监测。HSI 的一个很好的概述和相关的传感器可以在[ 36 ]中找到。

利用HSI 往往是困难的,由于遥感环境特定的挑战。例如,即使单一材料组成的“纯”像素将具有反射率谱,其沿着非线性流行由于变化的光照,视觉角度,材料的异质性,本地场景的几何形状,并存在水分的射散[5],[36]。此外,纯粹的像素本质上是不可能在实际地观察到,由于材料在相邻区域的像素和散射的混合[36]。其中最常见的方法是来确定材料中存在的给定像素x (称为“光谱分离” [37] )使用线性混合模型,比如:

1M

k k k x φαε==+∑ (1)

其中{k φ}是一个字典里近似的元素,{k α}是分解系数,并且ε是加性噪声。需要注意的是,{},,N k x R φε∈,其中N 是光谱带的数目,向量是通过λ(这是抑制我们的符号)进行索引。 当这个字典代表不同材料组成的光谱特征出现在场景,它们通常被叫做“端元”,以及所得的系数(假定是一对一)代表在每个像素材料的丰富度。该端元矢量概念化为形成有关HSI 数据的凸包(例如,见红向量如图.1)。这种分解通常被用于检测场景中出现的材料或对呈现在一个像素的材料进行分类。许多方法已被提出确定端元,包括算法,这些算法基于像素纯度的量度从数据中选择端元[48]或由此产生的凸锥的质

量[53],有助于从数据中手动选择端元的工具[9],优化端元线性滤波算法[12],求解凸锥的主要方法是成分分析(PCA )或独立分量分析(ICA)的分解[21],[24],[27],[32],迭代统计方法优化所得凸锥[10],迭代测量去选择潜力较大的最优端元集[50]。然而,这些算法要么依靠假设候选端元组进行初始化[ 50] ,要么假设存在纯像素在场景中[48],[53],试图用一个圆锥包含数据,而不是直接代表数据的变化[9],[10],[32],使用正交线性过滤器试图分离出高度非正交谱[12],或试图从分解的光谱统计在空间维度而不是频谱维度确定光谱数据,[21] ,[24]。这些方法没有哪一个试图直接学习频谱数据,一个低维,固有非线性光谱变化的很好的代表,在HIS中。

图1.1 典型端元分析使用向量,这些向量组成了围绕数据的一个凸包。在这种程式化的说明,用虚线表示数据流形和红色矢量表示这些端元。与此相反,一个稀疏编码的学习字典尝试直接学习非线性数据特征的一个局部逼近。

除了确定HSI数据集基本组成光谱的困难,还由于数据的高维数所造成的很多资源成本(即,时间,金钱,计算,传感器平台的可用性)。在数据采集时,HSI数据的

高分辨率是以复杂的传感器为代价,传感器需要相对长的扫描时间以得到有用的信噪比。数据采集后,显而易见的是,获得数据利用价值的同时降低维数能够节省计算和存储资源。如果HSI数据中的高阶统计可被运用,该信息可用于执行已存高维数据的降维和从低分辨率数据推断高分辨率(无论是从便宜的MSI传感器或修改HSI传感器测量粗糙的光谱分辨率,从而降低扫描时间)。一种常见的降维方法是PCA ,然而,在相关的高斯模型下,PCA意味着它只能在数据中捕获两两相关系数,而不是较高阶(和非高斯)统计数。

伴随着计算神经科学社区的发展,信号处理领域近年来采用基于稀疏概念的信号模型去特性化高阶统计依赖关系和产生最先进的成果在许多信号和图像处理算法[20]方面。具体而言,这种方法以嘈杂的测量矢量x为模型,x由字典{}kφ的一些元素的直线结合所生成。这和(1)是相同的模型,但其中的系数是尽可能少的非零元素。很像PCA,稀疏编码可以被看作是一种维数减约的类型,当一个高维数据集在活性系数的低维空间表示时。但是,PCA只是计算几个主成分,并运用它们去代表每一个像素,稀疏编码模型通常采用较大的字典,但是只使用少数这些元素来表示每一个像素。当以一个概率模型为例时,这种稀疏性约束对应于先验非高斯,使该模型在数据中获取更高阶次统计。

由于现代HSI传感器的高空间分辨率(导致,在一个像素里有很少占主导地位的材料),稀疏模型似乎尤其适用于这种传感方式。事实上,最初在HSI数据集上对稀疏模式混合像元分解的研究已经显示出可喜的结果[29],[33]。但是稀疏分解可以被估计为任何字典,先前研究[43]表明,无监督学习技术可以用一个例子的数据集结合使用迭代学习字典,这个字典可以优化稀疏系数(无需数据集包含任何“纯”对应于单个字典元件信号)。这些方法利用本实例数据集的特定的高阶统计以找到相关低维度结构,这是最有效的表示数据方法。

与上面描述的典型的端元模型相反,稀疏编码模型并不假定数据包含在字典的凸包里。取而代之的是,这个训练稀疏编码字典元素看起来像基本光谱特性,包括现场(早期令人鼓舞的光谱特征,这方面的证据可以在[ 28 ] )。事实上,稀疏编码模型可以真正学到一些字典元素来表示某些类型的材料,特别是当该材料光谱表明现场的高度非线性变化。由于稀疏性约束,人们会期望这些训练字典来反映HIS数据的特定的统计,这些HSI数据由本地近似非线性数据流行[45](如图1中所示,与包含数据的凸包的典型端

相关文档
最新文档