主成分分析法(PCA)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 在PCA中,我们感兴趣的是找到一个从原d维输入空间到新 的k维空间的具有最小信息损失的映射
❖ X在方向w上的投影为
z wT x
主成分分析(PCA)
❖ 一、主成分的定义及导出 ❖ 二、主成分的性质 ❖ 三、从相关阵出发求主成分
一、主成分的定义及导出
❖ 设 x (x1, x2, , xn )T 为一个 n 维随机向量,Cov(x)
❖ 对于第二个主成分,我们有
max w2
w2T
w2
(w2T
w2
1)
(w2T
w1
0)
(2)
❖ 关于w2求导并令其为0,我们有
2 w2 2w2 w1 0
❖ 上式两边乘以 w1T
2w1T w2 2 ,w1T w2 w1T w1 0
❖ 其中 w1T w2 0,且w1T w2是标量 w1T w2 w2T w1
2 w1 2w1 0 w1 w1
如果 w1 是 的特征向量, 是对应的特征值,则上
式是成立的
❖ 同时我们还得到
w1T w1 w1T w1
❖ 为了使方差最大,选择具有最大特征值的特征向量 ,
因此,第一个主成分 w1 是输入样本的协方差阵的
具有最大特征值对应的特征向量
❖ 第二个主成分 w2 也应该最大化方差,具有单位长度, 并且与 w1 正交
❖ 其中C是一个训练误差和惩罚项 w 2 之间的权衡
❖ 受限于
yi
(wT
xi
b)
i
(wT
xi
b)
yi
i
❖ 和我们做分类的方法一样,建立拉格朗日函 数,然后取它的对偶问题(这里也可以使用 核函数),与分类一样,我们也会得到一些 支持向量,而回归线将用它们表示.
支持向量机(补充讲义)
❖ 上节课,我们讨论了SVM的分类,这里简略地讨论 如何将SVM推广到回归上
❖ 我们还是使用线性模型:
❖
f (x) wT x b
❖ 对于回归,我们使用差的平方作为误差:
e( yi , f (xi )) ( yi f (xi ))2
❖ 对于支持向量机的回归,我们使用 - 敏感损失函数
❖ 主成分分析的目的就是为了减少变量的个数,因而一般是不 会使用所有 主成分的,忽略一些带有较小方差的主成分将 不会给总方差带来大的影响。
❖ 前 k 个主成分的贡献率之和
k
i
i1 n
j
j 1
称为主成分 1, 2 k 的累计贡献率,它表明 z1, z2, zk
解释 x1, x2 xn 的能力。
1 2 ห้องสมุดไป่ตู้ k 1 2 n
❖ 实践中,如果维是高度相关的,则只有很少 一部分特征向量具有较大的特征值,k远比n 小,并且可能得到很大的维度归约
❖ 总方差中属于主成分 zi 的比例为
i k j j 1
称为主成分 zi 的贡献率。
❖ 第一主成分 z1的贡献率最大,表明它解释原始变量 x1, x2, xn 的能力最强,而 z1, z2 zk 的解释能力依次递减。
❖ 通常取较小的 k ,使得累计贡献达到一个较高的百分比(如 80%~90%)。此时,z1, z2, zk 可用来代替 x1, x2 xn ,从而 达到降维的目的,而信息的损失却不多。
主成分分析的应用
❖ 在主成分分析中,我们首先应保证所提取的前几个 主成分的累计贡献率达到一个较高的水平,其次对 这些被提取的主成分必须都能够给出符合实际背景 和意义的解释。
❖ 主成分的解释其含义一般多少带有点模糊性,不像 原始变量的含义那么清楚、确切,这是变量降维过 程中不得不付出的代价。
❖ 如果原始变量之间具有较高的相关性,则前面少数 几个主成分的累计贡献率通常就能达到一个较高水 平,也就是说,此时的累计贡献率通常较易得到满 足。
❖ 主成分分析的困难之处主要在于要能够给出主成分 的较好解释,所提取的主成分中如有一个主成分解 释不了,整个主成分分析也就失败了。
❖ 由于C是正交的,并且CCT CTC I,我们在 的左 右两边乘以CT 和 C ,得到 CT C D
❖ 我们知道如果 z W T x ,则 cov(z) W T W ,我们希 望它等于一个对角矩阵,于是,可以令 W C
❖ 在实践中,即使所有的特征值都大于0,我们知道, 某些特征值对方差的影响很小,并且可以丢失,因 此,我们考虑例如贡献90%以上方差的前k个主要 成分,当 i 降序排列时,由前k个主要成分贡献的 方差比例为
❖ 如果我们建立一个矩阵C,其第i列是 的规范化
的特征向量,则 CTC I ,并且 CCT (c1, c2, cn )CT ( c1, c2, cn )CT
1 c1c1T ncncnT
CDCT
❖ 其中, D是对象矩阵,其对角线元素是特征值
❖ 1,2 ,n,这称为 的谱分解
e
(
yi
,
f
(xi
))
0
如果 yi f (xi ) yi f (xi ) 否则
❖ 这意味着我们容忍高达 的误差,并且超出的误
差具有线性而不是平方影响。这种误差函数更能抵 制噪声,因而更加鲁棒
❖ 类似的,我们引入松弛变yi量来处理超过 的偏差
min
1 2
m
w 2 C
(
i
i
)
i1
w1T w2 w2T w1 w2T 1w1 1w2T w1 0
❖ 可知 0 ,并且可得 w2 ,w2
❖ 这表明w2应该是 的特征向量,具有第二大特征 值 2 ,
❖ 类似的,我们可以证明其它维被具有递减的特征值
的特征向量给出
❖ 我们来看另一种推导: z W T x,W是矩阵
❖ 主成分是这样的 w1,样本投影到 w1 上之后被广泛 散布,使得样本之间的差别变得最明显,即最大化 方差。
❖ 设 z1 w1T x 希望在约束条件 w1 1 下寻求向量 w1,使 var(z1) w1T w1 最大化
写成拉格朗日问题
max w1
w1T
w1
(w1T
w1
1)
(1)
现在关于 w1 求导并令其等于0,得到
维度规约
主成分分析(PCA)
❖ 在模式识别中,一个常见的问题就是特征选 择或特征提取,在理论上我们要选择与原始 数据空间具有相同的维数。然而,我们希望 设计一种变换使得数据集由维数较少的“有 效”特征来表示。
主成分分析
❖ 主成分分析(或称主分量分析,principal component analysis) 由皮尔逊(Pearson,1901)首先引入,后来被霍特林 (Hotelling,1933)发展了。
❖ X在方向w上的投影为
z wT x
主成分分析(PCA)
❖ 一、主成分的定义及导出 ❖ 二、主成分的性质 ❖ 三、从相关阵出发求主成分
一、主成分的定义及导出
❖ 设 x (x1, x2, , xn )T 为一个 n 维随机向量,Cov(x)
❖ 对于第二个主成分,我们有
max w2
w2T
w2
(w2T
w2
1)
(w2T
w1
0)
(2)
❖ 关于w2求导并令其为0,我们有
2 w2 2w2 w1 0
❖ 上式两边乘以 w1T
2w1T w2 2 ,w1T w2 w1T w1 0
❖ 其中 w1T w2 0,且w1T w2是标量 w1T w2 w2T w1
2 w1 2w1 0 w1 w1
如果 w1 是 的特征向量, 是对应的特征值,则上
式是成立的
❖ 同时我们还得到
w1T w1 w1T w1
❖ 为了使方差最大,选择具有最大特征值的特征向量 ,
因此,第一个主成分 w1 是输入样本的协方差阵的
具有最大特征值对应的特征向量
❖ 第二个主成分 w2 也应该最大化方差,具有单位长度, 并且与 w1 正交
❖ 其中C是一个训练误差和惩罚项 w 2 之间的权衡
❖ 受限于
yi
(wT
xi
b)
i
(wT
xi
b)
yi
i
❖ 和我们做分类的方法一样,建立拉格朗日函 数,然后取它的对偶问题(这里也可以使用 核函数),与分类一样,我们也会得到一些 支持向量,而回归线将用它们表示.
支持向量机(补充讲义)
❖ 上节课,我们讨论了SVM的分类,这里简略地讨论 如何将SVM推广到回归上
❖ 我们还是使用线性模型:
❖
f (x) wT x b
❖ 对于回归,我们使用差的平方作为误差:
e( yi , f (xi )) ( yi f (xi ))2
❖ 对于支持向量机的回归,我们使用 - 敏感损失函数
❖ 主成分分析的目的就是为了减少变量的个数,因而一般是不 会使用所有 主成分的,忽略一些带有较小方差的主成分将 不会给总方差带来大的影响。
❖ 前 k 个主成分的贡献率之和
k
i
i1 n
j
j 1
称为主成分 1, 2 k 的累计贡献率,它表明 z1, z2, zk
解释 x1, x2 xn 的能力。
1 2 ห้องสมุดไป่ตู้ k 1 2 n
❖ 实践中,如果维是高度相关的,则只有很少 一部分特征向量具有较大的特征值,k远比n 小,并且可能得到很大的维度归约
❖ 总方差中属于主成分 zi 的比例为
i k j j 1
称为主成分 zi 的贡献率。
❖ 第一主成分 z1的贡献率最大,表明它解释原始变量 x1, x2, xn 的能力最强,而 z1, z2 zk 的解释能力依次递减。
❖ 通常取较小的 k ,使得累计贡献达到一个较高的百分比(如 80%~90%)。此时,z1, z2, zk 可用来代替 x1, x2 xn ,从而 达到降维的目的,而信息的损失却不多。
主成分分析的应用
❖ 在主成分分析中,我们首先应保证所提取的前几个 主成分的累计贡献率达到一个较高的水平,其次对 这些被提取的主成分必须都能够给出符合实际背景 和意义的解释。
❖ 主成分的解释其含义一般多少带有点模糊性,不像 原始变量的含义那么清楚、确切,这是变量降维过 程中不得不付出的代价。
❖ 如果原始变量之间具有较高的相关性,则前面少数 几个主成分的累计贡献率通常就能达到一个较高水 平,也就是说,此时的累计贡献率通常较易得到满 足。
❖ 主成分分析的困难之处主要在于要能够给出主成分 的较好解释,所提取的主成分中如有一个主成分解 释不了,整个主成分分析也就失败了。
❖ 由于C是正交的,并且CCT CTC I,我们在 的左 右两边乘以CT 和 C ,得到 CT C D
❖ 我们知道如果 z W T x ,则 cov(z) W T W ,我们希 望它等于一个对角矩阵,于是,可以令 W C
❖ 在实践中,即使所有的特征值都大于0,我们知道, 某些特征值对方差的影响很小,并且可以丢失,因 此,我们考虑例如贡献90%以上方差的前k个主要 成分,当 i 降序排列时,由前k个主要成分贡献的 方差比例为
❖ 如果我们建立一个矩阵C,其第i列是 的规范化
的特征向量,则 CTC I ,并且 CCT (c1, c2, cn )CT ( c1, c2, cn )CT
1 c1c1T ncncnT
CDCT
❖ 其中, D是对象矩阵,其对角线元素是特征值
❖ 1,2 ,n,这称为 的谱分解
e
(
yi
,
f
(xi
))
0
如果 yi f (xi ) yi f (xi ) 否则
❖ 这意味着我们容忍高达 的误差,并且超出的误
差具有线性而不是平方影响。这种误差函数更能抵 制噪声,因而更加鲁棒
❖ 类似的,我们引入松弛变yi量来处理超过 的偏差
min
1 2
m
w 2 C
(
i
i
)
i1
w1T w2 w2T w1 w2T 1w1 1w2T w1 0
❖ 可知 0 ,并且可得 w2 ,w2
❖ 这表明w2应该是 的特征向量,具有第二大特征 值 2 ,
❖ 类似的,我们可以证明其它维被具有递减的特征值
的特征向量给出
❖ 我们来看另一种推导: z W T x,W是矩阵
❖ 主成分是这样的 w1,样本投影到 w1 上之后被广泛 散布,使得样本之间的差别变得最明显,即最大化 方差。
❖ 设 z1 w1T x 希望在约束条件 w1 1 下寻求向量 w1,使 var(z1) w1T w1 最大化
写成拉格朗日问题
max w1
w1T
w1
(w1T
w1
1)
(1)
现在关于 w1 求导并令其等于0,得到
维度规约
主成分分析(PCA)
❖ 在模式识别中,一个常见的问题就是特征选 择或特征提取,在理论上我们要选择与原始 数据空间具有相同的维数。然而,我们希望 设计一种变换使得数据集由维数较少的“有 效”特征来表示。
主成分分析
❖ 主成分分析(或称主分量分析,principal component analysis) 由皮尔逊(Pearson,1901)首先引入,后来被霍特林 (Hotelling,1933)发展了。