高维数据的低维化

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高光谱成像数据的低维表示

摘要:随着大数据时代的到来,高维数据的分析越来越困难。而基于高光谱成像技术的人类情感识别所要分析的数据量的维度也是越来越大,因此,也诞生了很多降维方法。通过降维,可以非常容易地发现数据的极小维度表示,降低后期大数据分析的复杂度。通过采用这些方法进行数据降维,可以找出数据内在的相互关系,非常有利于数据分布规律的分析。

关键词:降维;高光谱成像技术;主成分分析;线性判别法;局部线性嵌入;非负矩阵分解

Lower Dimensionality of High-Dimension Data

With the large volume of data coming,high dimensional data is very difficult to be analyzed.Then the dimension of data on emotion recognition by hyperspectral imaging is larger and larger. So several ways are introduced to reduce the data dimensionality.They will show the low dimensional structure of high dimensional data, and can reduce the complexity of data analysis. After, the intrinsic connection between the data can be got easily,and is helpful to research the distributing rules.

Keywords: Dimension Reduction; Hyperspectral Imaging; Principal Component Analysis; Linear Discriminant Analysis; Locally Linear Embedding; Non-negative Matrix Factorization

一、研究背景

从采用各种身体信号(面部表情、语音、身体姿势)到采用生理信号识别人类情感,从利用单一特征作为情感识别系统的输入,到融合多通道信号特征来识别人类情感,科研工作者一直在试图获取更丰富,更有效的人类情感特征用于情感的识别。光谱成像技术可远程无接触地获取所需生理情感信号,是未来情感识别的发展方向之一[1][2]。

高光谱成像技术能够在可见光和红外光谱范围内的100-1000 个连续窄波段上成像,所成的图像具有3 个维度—2 个空间维度和1 个波长维度。传统的成像技术只在3 个宽波段上成像(红、绿、蓝),每个波段的带宽在100nm 数量级上,而高光谱成像在上百至上千个波段上成像,每个波段的带宽可小于1nm,且成像波段不局限在可见光范围内。其数据量也相应以指数的量级增加,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。

数据降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余:

a)有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的;

b)有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系);

c)可以找到一组新的不相关的变量;

从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。

数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空间中,势必会造成一些原始信息的损失。所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示,是研究的重点。

二、降维问题

1.定义

定义1.1降维问题的模型为(,)X F ,其中D 维数据空间集合{}1N l l X x ==(一般为D R 的一个子集),映射F

:F X Y → (),

x y F x →= Y 是d 空间集合(一般是d R ,d D <<)的一个子集,我们称F 是数据集X (到Y )的降维。

若F 为X 的线性函数,则称F 为线性降维;否则,称为非线性降维。 定义1.2 称映射1F -

1:F Y X -→ 1()y xF y -→

为嵌入映射。

2.分类

针对降维问题的目的和待处理数据集合表象维数的多少,对其进行初步的、粗略的分类如下:

1. 硬降维问题:数据维数从几千到几万甚至几十万的变化,此时需要对数据集进行“严厉”的降维,以至于达到便于处理的大小,如图像识别、分类问题以及语音识别问题等。

2. 软降维问题:此时数据集合的维数不是太高,降维的需求不是非常的迫切。如社会科学、心理学以及多元统计分析领域皆属于此类。

3. 可视化问题:此时数据集合的绝对维数不是很高,但为了便于利用人们的直观洞察力,即为了可视化,我们将其降到2或3维。虽然我们可以可视化更高维数的数据,但是它们通常难于理解,不能产生数据空间的合理形态。

若我们还考虑时间变量的话可以对降维问题进行更加进一步的分类,静态降维问题和动态降维问题。后者对于时间序列来讲是有用的,如视频序列、连续语音信号等的处理。

3.降维方法

实际处理中,由于线性方法具有简单性、易解释性、可延展性等优点,使得

相关文档
最新文档