线性判别分析LDA与主成分分析PCA
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(此处推导过程见附录PDF)
a
17
第二部分 主成分分析(PCA)
a
18
介绍
在实际问题中,我们经常会遇到研究多个变量的问 题,而且在多数情况下,多个变量之 间常常存在一 定的相关性。由于变量个数较多再加上变量之间的 相关性,势必增加了分析问 题的复杂性。如何从多 个变量中综合为少数几个代表性变量,既能够代表 原始变量的绝大多 数信息,又互不相关,并且在新 的综合变量基础上,可以进一步的统计分析,这时 就需要进行主成分分析。
最终我们可以得到一个下面的公式,表示LDA投影到w后的目标 优化函数:
a
10
LDA
我们分类的目标是,使得类别内的点距离越近越好(集中), 类别间的点越远越好。
分母表示每一个类别内的方差之和,方差越大表示一个类别内 的点越分散,分子为两个类别各自的中心点的距离的平方,我 们最大化J(w)就可以求出最优的w
线性判别分析(LDA)
与
主成分分析(PCA)
重庆大学
余俊良
a
1
第一部分 线性判别分析(LDA)
a
2
介绍
线性判别分析(Linear Discriminant Analysis, LDA), 也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD), 是模式识别的经典算法,1936年由Ronald Fisher首次 提出,并在1996年由Belhumeur引入模式识别和人工 智能领域。
红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点,经过 原点的那条线就是投影的直线,从图上可以清楚的看到,红色的点和 蓝色的点被原点明显的分开了。下面我来推导一下二分类LDA问题的公 式:
a
9
LDA
假设用来区分二分类的直线(投影函数)为: LDA分类的一个目标是使得不同类别之间的距离越远越好,同 一类别之中的距离越近越好,所以我们需要定义几个关键的值: 类别i的原始中心点(均值)为:(Di表示属于类别i的点): 类别i投影后的中心点为: 衡量类别i投影后,类别点之间的分散程度(方差)为:
a
11
LDA
我们定义一个投影前的各类别分散程度的矩阵,其意思是,如 果 越 着m某近i,一,则个则S分Si里i里类面面的的元输元素入素的点值值集越就D更i越里接小面近,的0如.点果距分离类这的个点分都类紧的紧中地心围点绕mi 带入Si,将J(w)分母化为:
a
12
LDA
同样的将J(w)分子化为:
这样目标优化函数可以化成下面的形式:
a
4
基本思想
线性判别分析的基本思想是将高维的模式样本 投影到最佳鉴别矢量空间,以达到抽取分类信息 和压缩特征空间维数的效果。投影后保证模式样 本在新的子空间有最大的类间距离和最小的类内 距离,即模式在该空间中有最佳的可分离性。因 此,它是一种有效的特征抽取方法。使用这种方 法能够使投影后模式样本的类间散布矩阵最大, 并且同时类内散布矩阵最小。
当满足条件:对于所有的j,都有Yk > Yj,的时候,我们就说x 属于类别k。对于每一个分类,都有一个公式去算一个分值, 在所有的公式得到的分值中,找一个最大的,就是所属的分类 。
a
8
LDA
上式实际上就是一种投影,是将一个高维的点投影到一条高维的直线 上,LDA的目标是,给出一个标注了类别的数据集,投影到了一条直 线之后,能够使得点尽量的按类别区分开,当k=2即二分类问题的时 候,如下图所示:
a
13
LDA
•
a
14
LDA
•
a
15
LDA
至此,我们只需要求出原始样本的均值和方差就可 以求出最佳的方向w,这就是Fisher于1936年提出的 线性判别分析。
看上面二维样本的投影结果图:
a
16
LDA
对于N(N>2)分类的问题,就可以直接写出以下的结论:
这同样是一个求广义特征值的问题,求出的第i大的特征向量, 即为对应的Wi。
度是最大的)。
a
6
a
7
LDA
要说明白LDA,首先得弄明白线性分类器(Linear Classifier)
:因为LDA是一种线性分类器。对于K-分类的一个分类问题,
会有K个线性函数:
权向量(weight vector) 法向量(normal vector)
阈值(threshold) 偏置(bias)
a
5
下面给出一个例子,说明LDA的目标:
可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原 始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴, 不同类别之间 会有重复,导致分类效果下降。右图映射到的直线就是用
LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的 距离是最大的,而且每个类别内 部点的离散程度是最小的(或者说聚集程
a
3
例子
举一个例子,假设我们对一张100*100像素的图片 做人脸识别,每个像素是一个特征,那么会有 10000个特征,而对应的类别标签y仅仅是0,1值 ,1代表是人脸。这么多特征不仅训练复杂,而且 不必要特征对结果会带来不可预知的影响,但我 们想得到降维后的一些最佳特征(与y关系最密切 的),怎么办呢?
a
19
基本思想
主成分分析所要做的就是设法将原来众多具有一定 相关性的变量,重新组合为一组新的相互无关的综 合变量来代替原来变量。通常,数学上的处理方法 就是将原来的变量做线性组合,作为新的综合变量 ,但是这种组合如果不加以限制,则可以有很多, 应该如何选择呢?
a
20
基本思想
如果将选取的第一个线性组合即第一个综合变量记 为,,中分F这表所。1 里示选如,“ F取 果自1包信的 第然含息 F一希1应的”主望信该用成它息是方分尽越方差不可多差来足能。最测以多因大量代地此的,表反在,即原映所故希来原有称p望来个的FV变1a为变线量r(第F量性的1)一的越组信主信大合息成 息反,二,映主用再原成数考 来 分学虑 信 ,语选 息 依言,取 此表F1F类已达2即推有就第可的是二以信要个构息求线造就Co性出不v(组第F需1合三要,F2,、再)=为0四出,了…现称有第在F效2pF为2个地中第 主成分。
a21最大方差源自论在信号处理中认为信号具有较大的方差,噪声有较 小的方差,信噪比就是信号与噪声的方差比,越大 越好。因此我们认为,最好的k维特征是将n维样本 点转换为k维后,每一维上的样本方差都很大。