线性判别分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 拉格朗日乘子法(约束条件 ete 1)
u etSe (ete 1)
u 2Se 2e 0
e
Se e
etSe ete
是S的本征值(eigenvalue)
e是S的本征向量(eigenvector)
最大本征值 对应 etSe 的最大值
• 结论:e为散布矩阵最大的本征值对应的本征向量
主成分分析(PCA)
• 原因?
• 假设的概率模型与真实模型不匹配 • 训练样本个数有限,导致概率分布的估计不准 • ……
• 对于高维数据,“维度灾难”使解决模式识别问 题非常困难,此时,往往要求首先降低特征向量 的维度
降维
• 降低特征向量维度的可行性
特征向量往往是包含冗余信息的!
• 有些特征可能与分类问题无关 • 特征之间存在着很强的相关性
最大本征值对应的本征向量
• S为实对称矩阵,所以e1,e2,K ed 相互正交 • e1,e2,K ed 可被视为特征空间的一个子空间的单位向量基
• aki 为 xk 对应于基 ei 的系数,或在 ei 上的投影 • aki 称为主成分(principal component)
• 几何意义 e1,e2 ,K ed 为沿数据云团方差最大的方向的直线
主成分分析(PCA)
• 用一维向量表示d维样本
• 用通过样本均值m的直线(单位向量为e)上的点表示
样本
xˆ k m ake
ak 唯一决定了xˆ k
xk
• 最小化平方重构误差
n
n
J1(a1,K , an ,e) (m ake xk ) 2 (ake (xk m)) 2
k 1
k 1
• 寻找e的最优方向
ak et (xk m)
n
n
n
J1(a1,K , an , e) ak2 e 2 2 aket (xk m) xk m 2
k 1
k 1
k 1
n
n
n
J1(e) ak2 2 ak2 xk m 2
k 1
k 1
k 1
n
n
[et (xk m)]2 xk m 2
• 利用PCA,可以将d维数据降维到 d(d d) 维,同时使得降维后
的数据与源数据的平方误差最小
主成分分析(PCA)
• 主成分分析步骤(d维降为 d(d d)维)
1. 计算散布矩阵S n S (xk m)(xk m)t k 1
2. 计算S的本征值和本证向量
Se e 3. 将本征向量按相应的本征值从大到小排序 4. 选择最大的d’个本征向量作为投影向量 e1,e2,K ed, 构成
n
n
n
ak2 e 2 2 aket (xk m) xk m 2
k 1
k 1
k 1
J1(a1,K , an , e) ak
2ak
2et (xk
m)
0
ak et (xk m) (xk-m)在e上的投影
主成分分析(PCA)
• 用一维向量表示d维样本
e
xk
ak
m
主成分分析(PCA)
引入新的特征可使r增大, 进而降低误差概率 P(e)
• 假设各特征独立:
Σ diag(1,2,K ,d )
r 2
d
i1
i1 i2 i
2
维度灾难
• 在实际应用中
• 当特征个数增加到某一个临界点后,继续增加反而会导 致分类器的性能变差——“维度灾难”(curse of dimensionality)
误差与维数
• 例子
p(x | j ) : N (μi , Σ), j 1, 2 P(1) P(2 )
• 贝叶斯误差概率
P(e)
1
eu 2 / 2 du
r/2
μ1到μ2 的马氏距离
r 2 (μ1 μ2 )t Σ1(μ1 μ2 )
• r增加,误差概率 P(e) 减小 • r , P(e) 0
• 降低维度的方法
• 特征组合
把几个特征组合在一起,形成新的特征
• 特征选择
选择现有特征集的一个子集
降维
• 降维问题
• 线性变换 vs. 非线性变换 • 利用类别标记(有监督) vs. 不用类别标记(无监督) • 不同的训练目标
• 最小化重构误差(主成分分析,PCA) • 最大化类别可分性(线性判别分析,LDA) • 最小化分类误差(判别训练,discriminative training) • 保留最多细节的投影(投影寻踪,projection pursuit) • 最大限度的使各特征之间独立(独立成分分析,ICA)
k 1
百度文库k 1
n
n
et (xk m)(xk m)t e xk m 2
k 1
k 1
n
etSe xk m 2 k 1
n
S (xk m)(xk m)t (n 1)C k 1
散布矩阵(scatter matrix)
主成分分析(PCA)
• 使 J1(e)最小的e最大化 etSe
投影d d ' 矩阵W,其中第i列为ei 5. 对任意d维样本x,其用PCA降维后的d’维向量为
y Wtx
主成分分析(PCA)
• 通常,最大的几个本征值占据了所有本征值之和 的绝大部分
• 少数几个最大本征 值对应的本征向量 即可表示原数据中 的绝大部分信息, 而剩下的小部分( 即对应较小的本征 值的本征向量所表 示的信息),通常 可以认为是数据噪 声而丢掉
• 将一维的 ak扩展到 d(d d) 维空间
ak1
•
用
yk
ak
2
M
来表示
xk
akd
d
xˆ k m akiei i 1
• 最小化平方误差
n
Jd (e)
m
d
akiei
xk
2
k 1
i 1
主成分分析(PCA)
• 将一维的 ak扩展到 d(d d) 维空间
• 结论:
• 使得平方误差最小的向量 e1,e2,K ed 分别为散布矩阵S的 d个
• 散布矩阵:1000010000
n
S (xk m)(xk m)t k 1
• 1000010000 的矩阵本征值分解?
Se e
空间复杂度和时间复杂度均无法接受!
奇异值分解(SVD)
• 解决方案:不直接对S进行本征值分解,而利用 SVD对一个较小的矩阵进行本征值分解
主成分分析(PCA)
主成分分析(PCA)
• 数据集:Iris • 原维度:4
主成分分析(PCA)
用PCA降到2维
用PCA降到3维
奇异值分解(SVD)
• PCA中对散布矩阵S的本征值分解计算量较大,如 特征向量维度较高,直接对S进行本征值分解十分 困难。
• 例如对图像的PCA分析:
• 图像:100100
u etSe (ete 1)
u 2Se 2e 0
e
Se e
etSe ete
是S的本征值(eigenvalue)
e是S的本征向量(eigenvector)
最大本征值 对应 etSe 的最大值
• 结论:e为散布矩阵最大的本征值对应的本征向量
主成分分析(PCA)
• 原因?
• 假设的概率模型与真实模型不匹配 • 训练样本个数有限,导致概率分布的估计不准 • ……
• 对于高维数据,“维度灾难”使解决模式识别问 题非常困难,此时,往往要求首先降低特征向量 的维度
降维
• 降低特征向量维度的可行性
特征向量往往是包含冗余信息的!
• 有些特征可能与分类问题无关 • 特征之间存在着很强的相关性
最大本征值对应的本征向量
• S为实对称矩阵,所以e1,e2,K ed 相互正交 • e1,e2,K ed 可被视为特征空间的一个子空间的单位向量基
• aki 为 xk 对应于基 ei 的系数,或在 ei 上的投影 • aki 称为主成分(principal component)
• 几何意义 e1,e2 ,K ed 为沿数据云团方差最大的方向的直线
主成分分析(PCA)
• 用一维向量表示d维样本
• 用通过样本均值m的直线(单位向量为e)上的点表示
样本
xˆ k m ake
ak 唯一决定了xˆ k
xk
• 最小化平方重构误差
n
n
J1(a1,K , an ,e) (m ake xk ) 2 (ake (xk m)) 2
k 1
k 1
• 寻找e的最优方向
ak et (xk m)
n
n
n
J1(a1,K , an , e) ak2 e 2 2 aket (xk m) xk m 2
k 1
k 1
k 1
n
n
n
J1(e) ak2 2 ak2 xk m 2
k 1
k 1
k 1
n
n
[et (xk m)]2 xk m 2
• 利用PCA,可以将d维数据降维到 d(d d) 维,同时使得降维后
的数据与源数据的平方误差最小
主成分分析(PCA)
• 主成分分析步骤(d维降为 d(d d)维)
1. 计算散布矩阵S n S (xk m)(xk m)t k 1
2. 计算S的本征值和本证向量
Se e 3. 将本征向量按相应的本征值从大到小排序 4. 选择最大的d’个本征向量作为投影向量 e1,e2,K ed, 构成
n
n
n
ak2 e 2 2 aket (xk m) xk m 2
k 1
k 1
k 1
J1(a1,K , an , e) ak
2ak
2et (xk
m)
0
ak et (xk m) (xk-m)在e上的投影
主成分分析(PCA)
• 用一维向量表示d维样本
e
xk
ak
m
主成分分析(PCA)
引入新的特征可使r增大, 进而降低误差概率 P(e)
• 假设各特征独立:
Σ diag(1,2,K ,d )
r 2
d
i1
i1 i2 i
2
维度灾难
• 在实际应用中
• 当特征个数增加到某一个临界点后,继续增加反而会导 致分类器的性能变差——“维度灾难”(curse of dimensionality)
误差与维数
• 例子
p(x | j ) : N (μi , Σ), j 1, 2 P(1) P(2 )
• 贝叶斯误差概率
P(e)
1
eu 2 / 2 du
r/2
μ1到μ2 的马氏距离
r 2 (μ1 μ2 )t Σ1(μ1 μ2 )
• r增加,误差概率 P(e) 减小 • r , P(e) 0
• 降低维度的方法
• 特征组合
把几个特征组合在一起,形成新的特征
• 特征选择
选择现有特征集的一个子集
降维
• 降维问题
• 线性变换 vs. 非线性变换 • 利用类别标记(有监督) vs. 不用类别标记(无监督) • 不同的训练目标
• 最小化重构误差(主成分分析,PCA) • 最大化类别可分性(线性判别分析,LDA) • 最小化分类误差(判别训练,discriminative training) • 保留最多细节的投影(投影寻踪,projection pursuit) • 最大限度的使各特征之间独立(独立成分分析,ICA)
k 1
百度文库k 1
n
n
et (xk m)(xk m)t e xk m 2
k 1
k 1
n
etSe xk m 2 k 1
n
S (xk m)(xk m)t (n 1)C k 1
散布矩阵(scatter matrix)
主成分分析(PCA)
• 使 J1(e)最小的e最大化 etSe
投影d d ' 矩阵W,其中第i列为ei 5. 对任意d维样本x,其用PCA降维后的d’维向量为
y Wtx
主成分分析(PCA)
• 通常,最大的几个本征值占据了所有本征值之和 的绝大部分
• 少数几个最大本征 值对应的本征向量 即可表示原数据中 的绝大部分信息, 而剩下的小部分( 即对应较小的本征 值的本征向量所表 示的信息),通常 可以认为是数据噪 声而丢掉
• 将一维的 ak扩展到 d(d d) 维空间
ak1
•
用
yk
ak
2
M
来表示
xk
akd
d
xˆ k m akiei i 1
• 最小化平方误差
n
Jd (e)
m
d
akiei
xk
2
k 1
i 1
主成分分析(PCA)
• 将一维的 ak扩展到 d(d d) 维空间
• 结论:
• 使得平方误差最小的向量 e1,e2,K ed 分别为散布矩阵S的 d个
• 散布矩阵:1000010000
n
S (xk m)(xk m)t k 1
• 1000010000 的矩阵本征值分解?
Se e
空间复杂度和时间复杂度均无法接受!
奇异值分解(SVD)
• 解决方案:不直接对S进行本征值分解,而利用 SVD对一个较小的矩阵进行本征值分解
主成分分析(PCA)
主成分分析(PCA)
• 数据集:Iris • 原维度:4
主成分分析(PCA)
用PCA降到2维
用PCA降到3维
奇异值分解(SVD)
• PCA中对散布矩阵S的本征值分解计算量较大,如 特征向量维度较高,直接对S进行本征值分解十分 困难。
• 例如对图像的PCA分析:
• 图像:100100