第4章统计分类器及其学习第四讲精品PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简单,但 不能反映 样本间的 差异
每个样本在直线上存在不同的投影,可以反映样本间的差异
xmae
ak
e为直线的单位向量
a为直线上的点到m的距离
x k make
n
J0(m) mxk 2 k1 0维平方误差
n
J1(a1, an,e) (m ake)xk2 k1 1维平方误差
n
n
J 1 (a 1 , a n ,e )(m a k e ) x k2a k e (x k m )2
d
Je eT iSeii eT iei1 id1
Je
ei 2Sei
2iei
0
Sei iei
i 为 S 的特征值,e i 为 S 的特征矢量。
d
d
d
J e eTi Sei
i
e
T i
e
i
i
id1
id 1
i d 1
要使 J e 最小,只需将 S 的特征值由大到小排序,选择最大的前
k 1
k 1
1倍:散布矩阵
n
etSe xk m2
n
S (xk m)(xk m)t
k1
k1
最 小 化 J 1 ( e ) 最 大 化 e t S e , 约 束 条 件 为 : e = 1
最 大 化 e tS e, 约 束 条 件 为 : e= 1
Lagrange乘子法
uetSeete
u2Se 2e=0
• PCA的其它名称:离散K-L变换,Hotelling 变换;
问题:有n个d维样本,x1,x2,..xn,如何仅用一个样本 x0代表这些样本,使误差准则函数最小?
n
J0(x0) x0xk 2 kn1
x0
m
1 n
n
xk
k1
(x0m)(xkm)2
k1
n
n
n
x 0 m 2 2(x 0 m )t(x k m ) x k m 2
d 个特征值对应的特征向量构成一个新的 d 维坐标系,将样本
向新的坐标系的各个轴上投影,计算出新的特征矢量
x1, ,xdT a 1, ,ad T 其中 ai eTi xm
PCA算法
1. 利用训练样本集合计算样本的均值m和散 布矩阵S;
2. 计算S的特征值,并由大到小排序;
3. 选择前d’个特征值对应的特征矢量作成一 个变换矩阵E=[e1, e2, …, ed’];
误差平方和准则函数:
i1
n
Je
xk xˆk 2 n
dLeabharlann Baidu
d
2n
aikei aikei
d
2
aik ei
k1
k1 i1
i1
k 1 id1
nd
dn
a
2 ik
etixkmxkmeit
k 1 i d 1
id1k1
PCA算法d’ 维表达:
n
Je
xk xˆk 2 n
d
d
2n
aikei aikei
d
2
aik ei
k1
k1 i1
i1
k 1 id1
nd
dn
ai2k
etixkmxkmeit
k 1 i d 1
id1k1
idd1eti kn1 xkmxkmeit
d
e
t i
S
e
t i
i d 1
散布矩阵
最 小 化 J(e ), 约 束 条 件 为 : e= 1使用拉格朗日乘数法:
d
Je eT iSeii eT iei1 id1
e
散布矩阵
散布矩阵的
Se e 特征值
etSeete
为了最大化 e t S e
选取散布矩阵最大特征值 m a x
选取 m a x 对应的特征向量作为投影直线e 的方向
PCA算法——从0维,1维到d’ 维
有n个d维样本,x1,x2,..xn,
零维表达:仅用一个样本x0代表这些样本,使误差最小?
x0
k 1
k 1
k 1
n
n
n
x 0 m 2 2 (x 0 m )t (x k m ) x k m 2
k 1
k 1
k 1
x0=m时取得最小值
0
不依赖于x0
样本均值是样本数据集的零维表达。 将样本数据集的空间分布,压缩为一个均值点。
零维表达改为“一维”表达,将数据集空间, 压缩为一条过均值点的线。
第四章统计分类器及其学习 第四讲
Principal Component Analysis
Fisher 线性判别准则
问题的提出
• 在建立识别系统时,抽取的原始特征往往比 较多,特征的维数比较大,这会给识别器的 训练带来很大的困难,因此希望能够采用某 种方法降低特征的维数。这些方法可以称作
成分分析的方法。
差准则函数最小?
PCA算法d’ 维表达:
有样本集合x1, ,xn,其中 xx1, ,xd,t 以样本均值 m d
为坐标原点建立新的坐标系,则有:x m 。
aiei ,其中
e i 为标准正交向量基:
因此有: i1
etie j
1, 0,
i j i j
ai eti xm
d
将特征维数降低到 d d ,则有对 x 的近似:xˆ m aiei
1. 主成分分析;寻找最小均方意义下,最能代表原始 数据的投影方法
2. 多重判别分析;寻找最小均方意义下,最能分开各 类数据的投影方法
人脸识别举例
1 主成分分析
(PCA,Principal Component Analysis)
• PCA是一种最常用的线性成分分析方法;
• PCA的主要思想是寻找到数据的主轴方向, 由主轴构成一个新的坐标系(维数可以比 原维数低),然后数据由原坐标系向新的 坐标系投影。
k 1
k 1
n
n
n
ak 2e22 aket(xkm ) xkm 2
n
k 1 n
n 1
k 1
J1(e) ak22 ak2 xkm2
k 1
ak et(xk m)
k1
k1
k1
n
et(xkm )2n
xkm2
kn 1
k1
n
et(xkm )(xkm )te xkm 2协方差矩阵的n-
m
1 n
n k1
xk
简单,但不能反 映样本间的差异
一维表达:将这些样本,映射到过m的一条直线上使误差最小? n 1,选取散布矩阵 S (xk m)(xk m)t 最大特征值 m a x k1 2,选取 m a x 对应的特征向量作为直线方向 xmae 3,将样本向直线做垂直投影
d’ 维表达:将这些样本,映射到以m为原点的d’维空间中,使误
k 1
k 1
n
n
n
ak 2e22 aket(xkm ) xkm 2
k 1 1
k 1
k 1
J1(a 1 ,akan,e)2ak2et(xkm )0
ak et(xk m)
xk
m
只需把向量 x k 向过 m 的直线
垂直投影就能得到最小方差
如何找到直线的最优方向?
n
n
J 1 (a 1 , a n ,e )(m a k e ) x k2a k e (x k m )2