模式识别-第4章统计分类器及其学习_第四讲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有n个d维样本,x1,x2,..xn,
零维表达:仅用一个样本x0代表这些样本,使误差最小?
x0
m
1 n
n k 1
xk
简单,但不能反 映样本间的差异
一维表达:将这些样本,映射到过m的一条直线上使误差最小? n 1,选取散布矩阵 S (xk m)(xk m)t 最大特征值 max k 1 2,选取 max 对应的特征向量作为直线方向 x m ae 3,将样本向直线做垂直投影
n
J1(a1, an ,e) (m ake) xk 2 ake (xk m) 2
k 1
k 1
Leabharlann Baidu
n
n
n
ak2 e 2 2 aket (xk m) xk m 2
n
k 1 n
n 1
k 1
J1(e) ak2 2 ak2 xk m 2
k 1
ak et (xk m)
k 1
k 1
k 1
n
et (xk m)
2
n
xk m 2
kn1
k 1
n
et (xk m)(xk m)t e xk m 2 协方差矩阵的n-
k 1
k 1
1倍:散布矩阵
n
etSe xk m 2
n
S (xk m)(xk m)t
k 1
k 1
最小化J1(e)
最大化 etSe ,约束条件为:e =1
d’ 维表达:将这些样本,映射到以m为原点的d’维空间中,使误
差准则函数最小?
PCA算法d’ 维表达:
有样本集合x1,
, xn ,其中 x x1,
, xd ,t 以样本均值 m
d
为坐标原点建立新的坐标系,则有:x m 。
aiei ,其中
ei为标准正交向量基:
因此有: i1
etie j
1, 0,
每个样本在直线上存在不同的投影,可以反映样本间的差异
x m ae
ak
e为直线的单位向量
a为直线上的点到m的距离
xk m ake
n
J0 (m) m xk 2 k 1 0维平方误差
J1 (a1 ,
n
an ,e) (m ake) xk 2 k 1 1维平方误差
J1 (a1 ,
n
n
an ,e) (m ake) xk 2 ake (xk m) 2
i d 1
n k1
xk m
xk m eit
d
eti Seit
id 1
散布矩阵
最小化J(e) ,约束条件为:e =1 使用拉格朗日乘数法:
d
Je
eTi Sei i eTi ei 1
id 1
d
Je
eTi Sei i eTi ei 1
id 1
J e
ei
2Sei
2iei
0
1. 主成分分析;寻找最小均方意义下,最能代表原始 数据的投影方法
2. 多重判别分析;寻找最小均方意义下,最能分开各 类数据的投影方法
人脸识别举例
1 主成分分析
(PCA,Principal Component Analysis)
• PCA是一种最常用的线性成分分析方法;
• PCA的主要思想是寻找到数据的主轴方向, 由主轴构成一个新的坐标系(维数可以比 原维数低),然后数据由原坐标系向新的 坐标系投影。
i j i j
ai eti x m
d
将特征维数降低到 d d ,则有对 x 的近似:xˆ m aiei
误差平方和准则函数:
i 1
J
n
e
xk xˆ k 2
n
d
d
2n
aikei aikei
d
2
aik ei
k 1
k 1 i1
i1
k 1 id1
nd
dn
ai2k
eti xk m xk meti
Sei iei
i 为 S 的特征值,ei 为 S 的特征矢量。
d
d
d
J e eTi Sei
ieTi ei
i
id 1
id 1
id 1
要使 J e 最小,只需将 S的特征值由大到小排序,选择最大的前
d 个特征值对应的特征向量构成一个新的 d 维坐标系,将样本
向新的坐标系的各个轴上投影,计算出新的特征矢量
第四章统计分类器及其学习 第四讲
Principal Component Analysis
Fisher 线性判别准则
问题的提出
• 在建立识别系统时,抽取的原始特征往往比 较多,特征的维数比较大,这会给识别器的 训练带来很大的困难,因此希望能够采用某 种方法降低特征的维数。这些方法可以称作
成分分析的方法。
x1, , xd T a1, , ad T 其中 ai eTi x m
• PCA的其它名称:离散K-L变换,Hotelling 变换;
问题:有n个d维样本,x1,x2,..xn,如何仅用一个样本 x0代表这些样本,使误差准则函数最小?
n
J0 (x0 ) x0 xk 2 k 1
x0
m
1 n
n k 1
xk
n
(x0 m) (xk m) 2
k 1
n
n
n
x0 m 2 2 (x0 m)t (xk m) xk m 2
k 1
k 1
n
n
n
ak2 e 2 2 aket (xk m) xk m 2
k 1 1 k 1
k 1
J1 (a1 , ak
an , e)
2ak
2et (xk
m)
0
ak et (xk m)
xk
m
只需把向量 xk 向过 m的直线
垂直投影就能得到最小方差
如何找到直线的最优方向?
n
最大化 etSe ,约束条件为:e =1
Lagrange乘子法
u etSe ete u 2Se 2e =0
e
散布矩阵
散布矩阵的
Se e 特征值
etSe ete
为了最大化 etSe
选取散布矩阵最大特征值 max
选取max 对应的特征向量作为投影直线e 的方向
PCA算法——从0维,1维到d’ 维
k 1 id 1
id 1 k 1
PCA算法d’ 维表达:
J
n
e
xk xˆ k 2
n
d
d
2n
aikei aikei
d
2
aik ei
k 1
k 1 i1
i1
k 1 id1
nd
dn
ai2k
eti xk m xk meti
k 1 id 1
id 1 k 1
d
eti
k 1
k 1
k 1
n
n
n
x0 m 2 2(x0 m)t (xk m) xk m 2
k 1
k 1
k 1
x0=m时取得最小值
0
不依赖于x0
样本均值是样本数据集的零维表达。 将样本数据集的空间分布,压缩为一个均值点。
零维表达改为“一维”表达,将数据集空间, 压缩为一条过均值点的线。
简单,但 不能反映 样本间的 差异