第5章判别分析fisher判别等
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
)( x 2
)
(x
)2
2
Discriminant analysis
p(x)
G1:N(,1)
p(x)
d
2
(X
, G1)
(x
)2
2 1
x
|x-|
G2:N(,2)
d
2(X
, G2 )
(x )2
2 2
x
Discriminant analysis
G1, G2 … Gk
f1(x), f2 (x)..... fk (x)
D1
D2
Dj
Discriminant analysis
目标函数(平均损失)
k
k
g(D1, D2 ,..., Dk ) = qi L(i, j) p(j/i)
i =1
j=1
假定属于第i类,把它判为第j类造成的损失为 L(i, j)
x 1 1
p(x)
d ( X ,G2 )
x 2 2
G1:N(1,1)
1 *
G2:N(2,2)
2
x
Discriminant analysis
多类总体的距离判别
已知:考虑具有n个属性的m类总体Gl ( l = 1, 2, …, m) ,每类总体已知 tl (l=1, 2, …, m)个训练样本:
Discriminant analysis
训练样本 训练集
学习
检测 判别准则
检测样本 检测集
评价
判别效率
Fisher判别法 距离判别法 Bayes判别法 逐步判别法
……
Discriminant analysis
距离判别法
距离判别的基本思想 样本与哪一类总体的距离最近,就判别它属于哪一类总体。
Discriminant analysis
马氏(Mahalanobis)距离
定义:Mahalanobis距离 设总体G为n维变量,即含有n个属性指标(x1, x2, …, xn)。已知总体G中 的 t个样本Xk (xk1, xk2, …, xkn),k=1, 2, …, t。总体均值可用样本均值估 计:
Discriminant analysis
判别分析问题 设有k个m维的总体G1, G2, …, Gk, (1). 它们的分布特征已知,可以表示为F1(x), F2(x), …,
Fk(x) (2). 或者知道来自各个总体的样本(训练样本)。 对于给定的一个未知样本X(检测样本),判别X属于
哪个总体。 多元的、复杂的、高度综合的统计分析问题
xn(l )
其中
x (l) i
1 tl
tl k 1
x(l) ki
i 1,2,..., n
s (l ) ij
1 tl 1
tl
(
x(l ki
)
k 1
xi(l
)
)(
x(l kj
)
x
(l j
)
)
i, j 1,2,..., n
Discriminant analysis
能使平均损失达到最小
判别函数
k
hl ( y)
qifi (x) L(i, l) dx
i =1
G1, G2 … Gk
f1(x), f2 (x)..... fk (x)
q1, q q 2,..... k
D1
D2
Dj
Discriminant analysis
Fisher线性判别法
Fisher判别的基本思想 将 m组n维的数据投影到某一个方向,使得投影后的组 与组之间尽可能地分开。
x(1) 11
x(1) 21
x(1) 12
x(1) 22
... ...
x(1) 1n
x(1) 2n
... ... ... ...
x(1) t11
x(1) t1 2
...
x(1) t1n
x(2) 11
x(2) 21
...
x(2) 12
x(2) 22
p k 1
(
x (1) ki
x (1) i
)(
x (1) kj
x
(1) j
)
s(2) ij
1 q 1
q
(
x(2) ki
k 1
x (2) i
)(
x(2) kj
x
( j
2)
)
i, j 1,2,..., n i, j 1,2,..., n
Discriminant analysis
判别分析方法 (Discriminant analysis)
Discriminant analysis
判别分析
用于判别样本所属类型的统计分析方法 基因识别:根据某一DNA序列的核苷酸组分、信号特 征等指标,判别是否编码蛋白序列? 医学诊断:某一病人肺部存在阴影,判别:
肺结核?良性肿瘤?肺癌? 人类考古学:根据头盖骨的特征,判别:民族、性别、 生活年代? 股票分析预测: 气象分析预测: 自然灾害分析预测: ……
xi
1 t
t k 1
xki
i 1,2,..., n
则对于任一点X(x1, x2, …, xn) ,定义它与总体G的Mahalanobis距离为:
d 2 ( X ,G) ( X X )S 1( X X )
Discriminant analysis
其中,矩阵S=(sij)n×n为:
s(2) 11
s(2) 21 ...
s(2) n1
s(2) 12
s(2) 22 ...
s(2) n2
...
s(2) 1n
1
x1
x1( 2 )
...
s(2) 2n
x2 x2(2)
...
...
...
...
s(2) nn
xn xn(2)
x
(1) pn
x(2) 11
x(2) 21
x(2) 12
x(2) 22
... ...
x(2) 1n
x(2) 2n
... ... ... ...
x(2) q1
x(2) q2
...
x(2) qn
问题:对于未知样本点X(x1, x2, …, xn),判别其类型?
Discriminant analysis 构造判别函数W(X):
W (X ) d 2 (X ,G2 ) d 2 (X ,G1)
判别准则为:
W ( X ) 0时,X G1 W ( X ) 0时,X G2
Discriminant analysis
特例:考虑n=1的两类正态总体:
ss12((1ll1))
s(l) 12
s(l) 22
... ....
s(l) 1n
s(l) 2n
1
x1 x2
x1(l ) x2(l )
... ... ... ... ...
sn(l1)
s(l) n2
...
s(l) nn
xn
X (x1, x2 ,..., xn )
已知总体数据分为两类: G1和G2 ,总体G1有p个样本点,总体G2有q 个样本点。
总体G1 (i=1, …, p)
总体G2 (i=1, …, q)
1 X1(1) …
i Xi(1) …
p Xp(1) 1 X1(2)
… i Xi(2)
… q Xq(2)
1
x11(1) … xi1(1) … xp1(1) x11(2) … xi1(2) … xq1(2)
Discriminant analysis
G1、G2的总体均值根据样本均值估计得到:
x (1) i
百度文库
1 p
p k 1
x(1) ki
x (2) i
1 q
q k 1
x(2) ki
i 1,2,..., n
分别求出总体G1、G2的协方差矩阵S(1)、S(2):
s(1) ij
1 p 1
对于任一新样本X(x1, x2, …, xn),分别计算它到总体G1、G2的 Mahalanobis距离:
d 2 ( X , G1 ) ( x1 x1(1) , x2 x2(1) ,..., xn xn(1) )
s (1) 11
s (1) 12
...
s (1) 1n
1
W (x) 2 x x 1 1 2 ( x)
2
1
1 2
其中
21 12 1 2
于是,判别准则为:
W ( x) 0时,x G1 W ( x) 0时,x G2
Discriminant analysis
d ( X ,G1)
G1:N(1, 1) G2:N(2, 2)
p(x)
G1:N(1,1) 1
G2:N(2,2)
2
x
Discriminant analysis
d ( X ,G1)
x 1 1
d ( X ,G2 )
x 2 2
不妨设2 > 1 , 2 > 1 ,且检测值满足2 >x> 1 ,则:
x1
x1(1)
s (1) 21 ...
s (1) 22 ...
...
s (1) 2n
x2 x2(1)
...
...
...
s (1) n1
s (1) n2
...
s (1) nn
xn xn(1)
d 2 ( X , G2 ) ( x1 x1(2) , x2 x2(2) ,..., xn xn(2) )
...
... ... ...
x(2) 1n
x(2) 2n
...
...
x(m) 11
x(m) 21
...
x(m) 12
x(m) 22
...
... ... ...
x(m) 1n
x(m) 2n
...
x(2) t21
x(2) t2 2
...
x(2) t2n
Discriminant analysis 定义线性判别函数为:
F (x1, x2,..., xn ) C1x1 C2 x2 ... Cn xn
其中Ci (i = 1, 2, …, n)为常数(待定系数)。 若判别值为 C , 对于任何未知数据点X(x1, x2, …, xn),代入判别函数, 依据F (x1, x2, …, xn)与C值的比较,可以判别点X属于哪一类。
1 t
sij t 1 k1 (xki xi )( xkj x j )
i, j 1,2,..., n
矩阵S称为协方差矩阵(covariance matrix),反映属性指标中第i个 分量与第j个分量的相关性。
特别地,当n=1时, Mahalanobis距离为:
d
2(X
,G)
(x
Fisher线性判别法
x2
G1
L: c1x1+c2x2-c=0
令:F(x1,x2)=c1x1+c2x2 F(x1,x2): 判别函数 c:判别值
G2
x1 平面上两类数据训练样本的散点图
(两组数据样本在平面上存在一个合理的分界线L)
Discriminant analysis 已知:数据属性有n个,每个数据点为n维向量X:
两类总体的距离判别
已知:考虑具有n个属性的两类总体G1、G2, 已知G1的p个训练样本, G2的q个训练样本:
xx12((1111))
x(1) 12
x(1) 22
... ...
x(1) 1n
x(1) 2n
... ... ... ...
x
(1) p1
x(1) p2
...
比较找到其中的最小距离:
d
2(X
, Gi
)
min
l 1,2,..., m
d
2
(X
, Gl
)
点X(x1, x2, …, xn)到类Gi的距离d2(X, Gi )最小,最后判别点X(x1, x2, …, xn)属于第 i 类。
Discriminant analysis
Bayes判别法
Bayes判别的基本思想 在p维空间中找出一种分法,使得平均损失最小
属性
2
x12(1) … xi2(1) … xp2(1) x12(2) … xi2(2) … xq2(2)
(分量) …
… … … … … … … … … …
目标:求解在n维空间中总体G1和总体G2的最优分界平面。
n
x1n(1) … xin(1) … xpn(1) x1n(2) … xin(2) … xqn(2)
造成这一损失的概率为 p(j/i) = fi (x) dx
Dj
G1, G2 … Gk
f1(x), f2 (x)..... fk (x)
q1, q q 2,..... k
D1
D2
Dj
Discriminant analysis
判别准则 如果取
Dl {y | hl ( y) hj ( y), j 1, 2,...k}
x(m) tm1
x(m) tm 2
...
x(m) tmn
问题:对于未知样本点X(x1, x2, …, xn),判别其类型?
Discriminant analysis
类似地,分别计算点X(x1, x2, …, xn)到每一类Gl的Mahalanobis距离 d2(X, Gl )。
d 2 ( X , Gl ) x1 x1(l) x2 x2(l) ... xn xn(l)