特征选择与特征提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性PCA的神经网络实现
x1
x2
...
xd
输出
1
2 ...
k 线性
...
输入
x1
x2
xd
8.4 核函数及其应用
非线性PCA的神经网络实现
x1
x2
xd
输出
...
非线性
1
k 线性
x1
x2
...
非线性
输入
xd
空间的非线性映射
建立一个R2R3的非线性映射 : x1, x2 t
2 : 5, 4t ,4,5t ,5,6t ,6,5t
将特征由2维压缩为1维。
x2
e2
e1
x1
特征人脸
PCA重构
原图像 d’=1 5 10
20 50 100 200
8.2 多重判别分析
(MDA, Multiple Discriminant Analysis)
x2
e2
e1
Leabharlann Baidu
x1
Fisher 线性判别准则
样本x在w方向上的投影: y wTx
定义类内散布矩阵:
2
Sw x mi x mi T i1 xDi
定义类间散布矩阵:
SB m1 m2 m1 m2 T
Fisher线性判别准则:
w
J
w
wT SB w wT Sww
FDA算法
1. 利用训练样本集合计算类内散度矩阵Sw和类 间散度矩阵SB;
2. 计算Sw-1SB的特征值; 3. 选择非0的c-1个特征值对应的特征矢量作成
一个变换矩阵W=[w1, w2, …, wc-1]; 4. 训练和识别时,每一个输入的d维特征矢量x
可以转换为c-1维的新特征矢量y: y = WTx。
MDA与PCA
PCA将所有的样本作为一个整体对待,寻找一个均方误差 最小意义下的最优线性映射,而没有考虑样本的类别属性, 它所忽略的投影方向有可能恰恰包含了重要的可分性信息;
MDA则是在可分性最大意义下的最优线性映射,充分保留 了样本的类别可分性信息;
MDA还被称为:FDA( Fisher Discriminant Analysis )或 LDA( Linear Discriminant Analysis )。
输入空间
特征空间
核函数
上个例子说明:特征空间中两个矢量之间的内积 可以通过定义输入空间中的核函数直接计算得到。
这就启示我们可以不必定义非线性映射Φ 而直接 在输入空间中定义核函数K来完成非线性映射。
这样做的条件是:
1. 定义的核函数K能够对应于特征空间中的内积; 2. 识别方法中不需要计算特征空间中的矢量本身,而只
8.0 问题的提出
一般来说,在建立识别系统时,抽取的原始特征 往往比较多,特征的维数比较大,这会给识别器 的训练带来很大的困难,因此希望能够采用某种
方法降低特征的维数。这些方法可以称作成分分 析的方法。
成分分析方法主要包括:
1. 主成分分析; 2. 多重判别分析; 3. 独立成分分析;
人脸识别举例
Analysis ):PCA去除掉的是特征之间的相关性, 但不相关不等于相互独立,独立是更强的要求。 ICA试图使特征之间相互独立。
多维尺度变换(MDS, Multidimensional Scaling) 典型相关分析(CCA, Canonical Correlation
Analysis) 偏最小二乘(PLS, Partial Least Square)
3类问题FDA
FDA的讨论
经FDA变换后,新的坐标系不是一个正交坐标系;
新的坐标维数最多为c-1,c为类别数;
只有当样本数足够多时,才能够保证类内散度矩
阵Sw为非奇异矩阵(存在逆阵),而样本数少时 Sw可能是奇异矩阵。
8.3 成分分析的其它问题
独立成分分析( ICA, Independent Component
此条件也称为Mercer条件。
常用的核函数
Gaussian RBF: Polynomial:
K x, y exp
xy c
2
K x, y xty d
Sigmoidal:
K x, y tanh xty
x12 ,
t
2x1x2 , x22
计算R3中2个矢量的内积:
x t y x12, 2x1x2, x22
y12 ,
2 y1 y2 , y22
t
xt y
2
定义核函数:K x,y xty 2 ,则:xt y K x, y
须计算特征空间中两个矢量的内积。
Hibert-Schmidt理论
作为核函数应满足如下条件:
K x,y 是 L2下的对称函数,对任意 g x 0 ,且
有:
g2 x dx
K x,y g x g ydxdy 0
成立,则K x,y 可以作为核函数。
Inv. Multiquardric:
K x, y
1
x y 2 c2
PCA的思想 y1
x2
y2
x1
PCA的思想 y1
x2
y2
x1
PCA算法
1. 利用训练样本集合计算样本的均值m和协方 差矩阵S;
2. 计算S的特征值,并由大到小排序; 3. 选择前d’个特征值对应的特征矢量作成一个
变换矩阵E=[e1, e2, …, ed’]; 4. 训练和识别时,每一个输入的d维特征矢量x
可以转换为d’维的新特征矢量y: y = Etx。
PCA的讨论
由于S是实对称阵,因此特 征矢量是正交的;
将数据向新的坐标轴投影之 后,特征之间是不相关的;
特征值描述了变换后各维特 征的重要性,特征值为0的 各维特征为冗余特征,可以 去掉。
例8.1
有两类问题的训练样本:
1 : 5, 4t ,4, 5t ,5, 6t , 6, 5t
8.1 主成分分析
(PCA,Principal Component Analysis)
PCA是一种最常用的线性成分分析方法;
PCA的主要思想是寻找到数据的主轴方向,由 主轴构成一个新的坐标系(维数可以比原维数 低),然后数据由原坐标系向新的坐标系投影。
PCA的其它名称:离散K-L变换,Hotelling变 换;