PCA主成分分析原理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中
可知β=0 ,并且可得 w2 ,w2
这表明 w2 应该是 的特征向量,具
有第二大特征值 2 ,
类似的,可以证明其它维被具有递减 的特征值的特征向量给出。
三、从相关阵出发求主成分
另一种推导:z W T x ,W是矩阵。
如果建立一个矩阵C,其第i列是 的规范
化的特征向量,则 CTC I ,并且
主成分分析的困难之处主要在于要 能够给出主成分的较好解释,所提取的 主成分中如有一个主成分解释不了,整 个主成分分析也就失败了。
找出数据中最“主要”的元素和结构,去 除噪音和冗余,将原有的复杂数据降维,揭示 隐藏在复杂数据背后的简单结构。
PCA的优点是简单,而且无参数限制,可以方 便的应用与各个场合。
因此应用极其广泛,从神经科学到计算机图 形学都有它的用武之地。被誉为应用线形代数最 价值的结果之一。
主成分分析由皮尔逊(Pearson,1901)首先引入, 后来被霍特林(Hotelling,1933)发展了。
四.主成分分析总结
在主成分分析中,我们首先应保证所 提取的前几个主成分的累计贡献率达到 一个较高的水平,其次对这些被提取的 主成分必须都能够给出符合实际背景和 意义的解释。
主成分的解释其含义一般多少带有点 模糊性,不像原始变量的含义那么清楚、 确切,这是变量降维过程中不得不付出 的代价。
如果原始变量之间具有较高的相关 性,则前面少数几个主成分的累计贡献 率通常就能达到一个较高水平,也就是 说,此时的累计贡献率通常较易得到满 足。
为了使它等于一个对角矩阵,可以令W=C
在实践中,即使所有的特征值都大于 0,某些特征值对方差的影响很小,并且 可以丢失,因此,我们考虑例如贡献90% 以上方差的前k个主要成分,当 i 降序排 列时,由前k个主要成分贡献的方差比例 为:
1 2 k 1 2 n
实践中,如果维是高度相关的, 则只有很少一部分特征向量具有较 大的特征值,k远比n小,并且可能 得到很大的维度归约。
同时我们还得到
为了使方差最大,选择具有最大特征值 的特征向量 ,因此,第一个主成分 是输入样本协方差阵的具有最大特征值 对应的特征向量。
第二个主成分 w2 也应该最大化方差,具
有单位长度,并且与 w1正交。
对于第二个主成分,有
关于 w2求导并令其为0,得到
上式两边乘以 w1T 得:
2w1T w2 2 ,w1T w2 w1T w1 0
在PCA中,我们感兴趣的是找到一个从原d维输入 空间到新的k维空间的具有最小信息损失的映射。
X在方向w上的投影为:
二、主成分的定义及导出
设 x (x1, x2 ,..., xn )T 为一个n维随机向量,Cov(x) 主成分 w1是这样的,样本投影到 w1上之后被广泛散
布,使得样本之间的差别变得最明显,即最大化方差。
总方差中属于主成分i 的比例为
i
k
j
称为主成分 zi 的贡献率。
j 1
第一主成分 z1 的贡献率最大,表明它解释原
始变量 x1, x2,..., xn 的能力最强,而 z1, z2 ,..., zk 的解释能力依次递减。
主成分分析的目的就是为了减少变量的个 数,因而一般是不会使用所有主成分的,忽 略一些带有较小方差的主成分将不会给总方 差带来大的影响。
k
前k个主成分的贡献率之和
i
i 1
n
j
j 1
称为主成分1, 2,..., k 的累计贡献率,它表明
z1, z2 ,..., zk 解释 x1, x2,..., xn 的能力。
通常取较小的k,使得累计贡献达到一个较
高的百分比(如80%~90%, xn ,从而达到降维的目的, 而信息的损失却不多。
CCT (c1, c2,cn )CT ( c1, c2, cn )CT
1 c1c1T ncncnT
CDCT
其中,D是对象矩阵,其对角线元素是特征值
1,2 ,n ,称为的谱分解
由于C是正交的,并且 CCT CTC I ,在
的左右两边乘以 CT 和C,得到 C T C D 如果 z W T x 则 cov(z) W T W
PCA主成分分析
principal component analysis
内容
一、PCA背景 二、主成分的定义及导出 三、从相关阵出发求主成分 四、主成分分析总结
一、主成分分析背景
在模式识别中,一个常见的问题就是特征 选择或特征提取,理论上我们要选择与原始数 据空间相同的维数。但是,为了简化计算,设 计一种变换使得数据集由维数较少的“有效” 特征来表示。
设 z1 w1T x
希望在约束条件 w1 1 下寻求向量w1 ,
使 var z1 w1T w1 最大化
写成拉格朗日问题
max w1
w1T
w1
(w1T
w1
1)
(1)
现在关于 w1 求导并令其等于0,得到
2 w1 2w1 0 w1 w1
如果 w1 是 的特征向量, 是对应的
特征值,则上式是成立的
可知β=0 ,并且可得 w2 ,w2
这表明 w2 应该是 的特征向量,具
有第二大特征值 2 ,
类似的,可以证明其它维被具有递减 的特征值的特征向量给出。
三、从相关阵出发求主成分
另一种推导:z W T x ,W是矩阵。
如果建立一个矩阵C,其第i列是 的规范
化的特征向量,则 CTC I ,并且
主成分分析的困难之处主要在于要 能够给出主成分的较好解释,所提取的 主成分中如有一个主成分解释不了,整 个主成分分析也就失败了。
找出数据中最“主要”的元素和结构,去 除噪音和冗余,将原有的复杂数据降维,揭示 隐藏在复杂数据背后的简单结构。
PCA的优点是简单,而且无参数限制,可以方 便的应用与各个场合。
因此应用极其广泛,从神经科学到计算机图 形学都有它的用武之地。被誉为应用线形代数最 价值的结果之一。
主成分分析由皮尔逊(Pearson,1901)首先引入, 后来被霍特林(Hotelling,1933)发展了。
四.主成分分析总结
在主成分分析中,我们首先应保证所 提取的前几个主成分的累计贡献率达到 一个较高的水平,其次对这些被提取的 主成分必须都能够给出符合实际背景和 意义的解释。
主成分的解释其含义一般多少带有点 模糊性,不像原始变量的含义那么清楚、 确切,这是变量降维过程中不得不付出 的代价。
如果原始变量之间具有较高的相关 性,则前面少数几个主成分的累计贡献 率通常就能达到一个较高水平,也就是 说,此时的累计贡献率通常较易得到满 足。
为了使它等于一个对角矩阵,可以令W=C
在实践中,即使所有的特征值都大于 0,某些特征值对方差的影响很小,并且 可以丢失,因此,我们考虑例如贡献90% 以上方差的前k个主要成分,当 i 降序排 列时,由前k个主要成分贡献的方差比例 为:
1 2 k 1 2 n
实践中,如果维是高度相关的, 则只有很少一部分特征向量具有较 大的特征值,k远比n小,并且可能 得到很大的维度归约。
同时我们还得到
为了使方差最大,选择具有最大特征值 的特征向量 ,因此,第一个主成分 是输入样本协方差阵的具有最大特征值 对应的特征向量。
第二个主成分 w2 也应该最大化方差,具
有单位长度,并且与 w1正交。
对于第二个主成分,有
关于 w2求导并令其为0,得到
上式两边乘以 w1T 得:
2w1T w2 2 ,w1T w2 w1T w1 0
在PCA中,我们感兴趣的是找到一个从原d维输入 空间到新的k维空间的具有最小信息损失的映射。
X在方向w上的投影为:
二、主成分的定义及导出
设 x (x1, x2 ,..., xn )T 为一个n维随机向量,Cov(x) 主成分 w1是这样的,样本投影到 w1上之后被广泛散
布,使得样本之间的差别变得最明显,即最大化方差。
总方差中属于主成分i 的比例为
i
k
j
称为主成分 zi 的贡献率。
j 1
第一主成分 z1 的贡献率最大,表明它解释原
始变量 x1, x2,..., xn 的能力最强,而 z1, z2 ,..., zk 的解释能力依次递减。
主成分分析的目的就是为了减少变量的个 数,因而一般是不会使用所有主成分的,忽 略一些带有较小方差的主成分将不会给总方 差带来大的影响。
k
前k个主成分的贡献率之和
i
i 1
n
j
j 1
称为主成分1, 2,..., k 的累计贡献率,它表明
z1, z2 ,..., zk 解释 x1, x2,..., xn 的能力。
通常取较小的k,使得累计贡献达到一个较
高的百分比(如80%~90%, xn ,从而达到降维的目的, 而信息的损失却不多。
CCT (c1, c2,cn )CT ( c1, c2, cn )CT
1 c1c1T ncncnT
CDCT
其中,D是对象矩阵,其对角线元素是特征值
1,2 ,n ,称为的谱分解
由于C是正交的,并且 CCT CTC I ,在
的左右两边乘以 CT 和C,得到 C T C D 如果 z W T x 则 cov(z) W T W
PCA主成分分析
principal component analysis
内容
一、PCA背景 二、主成分的定义及导出 三、从相关阵出发求主成分 四、主成分分析总结
一、主成分分析背景
在模式识别中,一个常见的问题就是特征 选择或特征提取,理论上我们要选择与原始数 据空间相同的维数。但是,为了简化计算,设 计一种变换使得数据集由维数较少的“有效” 特征来表示。
设 z1 w1T x
希望在约束条件 w1 1 下寻求向量w1 ,
使 var z1 w1T w1 最大化
写成拉格朗日问题
max w1
w1T
w1
(w1T
w1
1)
(1)
现在关于 w1 求导并令其等于0,得到
2 w1 2w1 0 w1 w1
如果 w1 是 的特征向量, 是对应的
特征值,则上式是成立的