机器学习中的降维方法综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中 tr 表示矩阵的迹,
(2)
1 m A ( X i X )( X i X )T m 1 i 1
(3)
A 是数据协方差矩阵。容易得到最优的 W 是由数据协方差矩阵前 k 个最大的特征值对应的 特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信 息。
PCA 的输出就是 Y = W’ X,由 X 的原始维度降低到了 k 维。PCA 追求的是在降维之后能够 最大化保持数据的内在信息, 并通过衡量在投影方向上的数据方差的大小来衡量该方向的重 要性。 但是这样投影以后对数据的区分作用并不大, 反而可能使得数据点揉杂在一起无法区 分。这也是 PCA 存在的最大一个问题,这导致其在某些情况下的分类效果并不好。
2.2 线性判别分析(LDA)
线性判别分析(LDA)是 R.Fisher 于 1936 年提出来的,也叫做 Fisher’s Linear Discriminant[1]。LDA 是一种有监督的线性降维算法。与 PCA 类似,LDA 也要寻找一组投影 向量,并将高维数据投影到低维空间以实现数据的降维。与 PCA 不同的是,LDA 要使得原 始数据投影到该低维空间后,不同类的数据尽可能地分开,同类的数据尽可能地紧凑,也就 是在最小均方议一下选择能够最好分开各类数据的低维特征。 由于数据降维的过程含有数据 的判别信息,LDA 所得到的低维特征更有利于分类。因此,LDA 是目前在机器学习领域经 典的一个方法。将 LDA 与 PCA 相比较的话,两者的动机不同,因此对于相同的数据所寻找 的投影向量也不尽相同,PCA 在投影方向可以最大程度地保留原始数据信息,而 LDA 的投 影方向更有利于区分两类数据, (加入 LDA 的计算过程)
[i]
Fisher R A. The use of multiple measurements in taxonomic problems[J]. Annals of eugenics, 1936, 7(2): 179-188.
[1]Hale Waihona Puke Baidu
[]
Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of cognitive neuroscience, 1991, 3(1): 71-86. [] Schölkopf B, Smola A, Müller K R. Nonlinear component analysis as a kernel eigenvalue problem[J]. Neural computation, 1998, 10(5): 1299-1319. [] Zou H, Hastie T, Tibshirani R. Sparse principal component analysis[J]. Journal of computational and graphical statistics, 2006, 15(2): 265-286.
2.数据降维方法 2.1 主成分分析(PCA)
主成分分析(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维 的数据映射到低维的空间中表示, 并期望在所投影的维度上数据的方差最大, 以此使用较少 的数据维度,同时保留住较多的原数据点的特性。 通俗的理解,如果把所有的点都映射到一起,那么几乎所有的信息,如点和点之间的距 离关系会丢失掉,而如果映射后方差尽可能的大,那么数据点则会分散开来,以此来保留更 多的信息。可以证明,PCA 是丢失原始数据信息最少的一种线性降维方式。设 n 维向量 w 为 目标子空间的一个坐标轴方向(称为映射向量),最大化数据映射后的方差,有:
3.总结与展望
1901 年 K.Pearson 首次提出了主成分分析这个概念[i],1933 年 H.Hotelling 完善了其数学基 础,所以 PCA 又称为 Hotelling 变换。PCA 的目的是将原始变量转换为一小部分反映事物主 要性质的变量,也就是主成分。从而将数据从高维空间投影到低维空间,并且保证投影后的 低维数据能够在最小平方意义下最优地描述原有高维数据。PCA 的各个主成分可通过求解 基于数据协方差矩阵的特征向量得到。PCA 的这些特点使得它成为分析多元数据的重要工 具之一,并且在模式识别中得到广泛应用。例如,基于 PCA 的特征脸方法(Eigenfaces)方 法已被证明在人脸识别中是相当成功的。 众多研究者在此基础上进一步提出了许多扩展和变 化方法, 其中有代表性的有与和方法相结合得到的核主成分分析 (Kernel Principal Component Analysis, KPCA)、结合稀疏学习的稀疏主成分分析(Sparse Principal Component Analysis, SPCA)、概率主成分分析(Probabilistic Principal Component Analysis, PPCA)、可有效处理 二维图像的二维主成分分析(2-Dimensional Principal Component Analysis, 2DPCA)、局部 主成分分析(Local Principal Component Analysis, LPCA)等。
1 m max (W T ( X i X )) 2 w m 1 i 1
(1)
其中 m 是数据实例的个数, X i 是数据实例 i 的向量表达, X 是所有数据实例的平均 向量。定义 W 为包含所有映射向量为列向量的矩阵,经过线性代数变换,可以得到如下优 化目标函数:
min tr (W T AW ) , s.t. W T W I W
上海大学 2014~2015 学年春季学期研究生课程考试
文献阅读报告
课程名称:
模式识别与机器学习
课程编号:
07SBE9004
论文题目:
机器学习中的数据降维方法
研究生姓名:
廖 宇
学 号:
14723542
评语:
成 绩:
任课教师:
评阅日期:
机器学习中的数据降维方法
1.引言
随着科技的进步, 尤其是数据采集和存储技术的飞速发展, 不同行业和领域的数据如航 天遥感数据,生物数据,网络数据以及金融市场交易数据等大量涌现,意味着大数据时代的 来临。如何从复杂多样,变化迅速的大数据中有效地挖掘和提炼人类感兴趣的信息,对数据 进行分析和建立模型,成为了一个热门话题。 机器学习是近 20 多年兴起的一种从数据中自动分析获得规律,并利用规律对未知数据 进行预测的算法, 其大量的应用都与大数据高度耦合, 是一种十分适用于大数据环境下的算 法。从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测 的一种方法。 在机器学习算法中, 降维算法是重要的一部分。 由于机器学习算法在处理数据或特征时, 过高的维数空间会包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差, 降低了准确率,因此需要通过降维算法来减少冗余信息所造成的误差,提高识别的精度。另 外,通过降维算法还可以寻找数据内部的本质结构特征,以及加速后续计算的速度,解决数 据的稀疏问题等。
(2)
1 m A ( X i X )( X i X )T m 1 i 1
(3)
A 是数据协方差矩阵。容易得到最优的 W 是由数据协方差矩阵前 k 个最大的特征值对应的 特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信 息。
PCA 的输出就是 Y = W’ X,由 X 的原始维度降低到了 k 维。PCA 追求的是在降维之后能够 最大化保持数据的内在信息, 并通过衡量在投影方向上的数据方差的大小来衡量该方向的重 要性。 但是这样投影以后对数据的区分作用并不大, 反而可能使得数据点揉杂在一起无法区 分。这也是 PCA 存在的最大一个问题,这导致其在某些情况下的分类效果并不好。
2.2 线性判别分析(LDA)
线性判别分析(LDA)是 R.Fisher 于 1936 年提出来的,也叫做 Fisher’s Linear Discriminant[1]。LDA 是一种有监督的线性降维算法。与 PCA 类似,LDA 也要寻找一组投影 向量,并将高维数据投影到低维空间以实现数据的降维。与 PCA 不同的是,LDA 要使得原 始数据投影到该低维空间后,不同类的数据尽可能地分开,同类的数据尽可能地紧凑,也就 是在最小均方议一下选择能够最好分开各类数据的低维特征。 由于数据降维的过程含有数据 的判别信息,LDA 所得到的低维特征更有利于分类。因此,LDA 是目前在机器学习领域经 典的一个方法。将 LDA 与 PCA 相比较的话,两者的动机不同,因此对于相同的数据所寻找 的投影向量也不尽相同,PCA 在投影方向可以最大程度地保留原始数据信息,而 LDA 的投 影方向更有利于区分两类数据, (加入 LDA 的计算过程)
[i]
Fisher R A. The use of multiple measurements in taxonomic problems[J]. Annals of eugenics, 1936, 7(2): 179-188.
[1]Hale Waihona Puke Baidu
[]
Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of cognitive neuroscience, 1991, 3(1): 71-86. [] Schölkopf B, Smola A, Müller K R. Nonlinear component analysis as a kernel eigenvalue problem[J]. Neural computation, 1998, 10(5): 1299-1319. [] Zou H, Hastie T, Tibshirani R. Sparse principal component analysis[J]. Journal of computational and graphical statistics, 2006, 15(2): 265-286.
2.数据降维方法 2.1 主成分分析(PCA)
主成分分析(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维 的数据映射到低维的空间中表示, 并期望在所投影的维度上数据的方差最大, 以此使用较少 的数据维度,同时保留住较多的原数据点的特性。 通俗的理解,如果把所有的点都映射到一起,那么几乎所有的信息,如点和点之间的距 离关系会丢失掉,而如果映射后方差尽可能的大,那么数据点则会分散开来,以此来保留更 多的信息。可以证明,PCA 是丢失原始数据信息最少的一种线性降维方式。设 n 维向量 w 为 目标子空间的一个坐标轴方向(称为映射向量),最大化数据映射后的方差,有:
3.总结与展望
1901 年 K.Pearson 首次提出了主成分分析这个概念[i],1933 年 H.Hotelling 完善了其数学基 础,所以 PCA 又称为 Hotelling 变换。PCA 的目的是将原始变量转换为一小部分反映事物主 要性质的变量,也就是主成分。从而将数据从高维空间投影到低维空间,并且保证投影后的 低维数据能够在最小平方意义下最优地描述原有高维数据。PCA 的各个主成分可通过求解 基于数据协方差矩阵的特征向量得到。PCA 的这些特点使得它成为分析多元数据的重要工 具之一,并且在模式识别中得到广泛应用。例如,基于 PCA 的特征脸方法(Eigenfaces)方 法已被证明在人脸识别中是相当成功的。 众多研究者在此基础上进一步提出了许多扩展和变 化方法, 其中有代表性的有与和方法相结合得到的核主成分分析 (Kernel Principal Component Analysis, KPCA)、结合稀疏学习的稀疏主成分分析(Sparse Principal Component Analysis, SPCA)、概率主成分分析(Probabilistic Principal Component Analysis, PPCA)、可有效处理 二维图像的二维主成分分析(2-Dimensional Principal Component Analysis, 2DPCA)、局部 主成分分析(Local Principal Component Analysis, LPCA)等。
1 m max (W T ( X i X )) 2 w m 1 i 1
(1)
其中 m 是数据实例的个数, X i 是数据实例 i 的向量表达, X 是所有数据实例的平均 向量。定义 W 为包含所有映射向量为列向量的矩阵,经过线性代数变换,可以得到如下优 化目标函数:
min tr (W T AW ) , s.t. W T W I W
上海大学 2014~2015 学年春季学期研究生课程考试
文献阅读报告
课程名称:
模式识别与机器学习
课程编号:
07SBE9004
论文题目:
机器学习中的数据降维方法
研究生姓名:
廖 宇
学 号:
14723542
评语:
成 绩:
任课教师:
评阅日期:
机器学习中的数据降维方法
1.引言
随着科技的进步, 尤其是数据采集和存储技术的飞速发展, 不同行业和领域的数据如航 天遥感数据,生物数据,网络数据以及金融市场交易数据等大量涌现,意味着大数据时代的 来临。如何从复杂多样,变化迅速的大数据中有效地挖掘和提炼人类感兴趣的信息,对数据 进行分析和建立模型,成为了一个热门话题。 机器学习是近 20 多年兴起的一种从数据中自动分析获得规律,并利用规律对未知数据 进行预测的算法, 其大量的应用都与大数据高度耦合, 是一种十分适用于大数据环境下的算 法。从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测 的一种方法。 在机器学习算法中, 降维算法是重要的一部分。 由于机器学习算法在处理数据或特征时, 过高的维数空间会包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差, 降低了准确率,因此需要通过降维算法来减少冗余信息所造成的误差,提高识别的精度。另 外,通过降维算法还可以寻找数据内部的本质结构特征,以及加速后续计算的速度,解决数 据的稀疏问题等。