判别分析与聚类分析方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ward最小方差法一般是在多元正态混合型、 等球形协方差、等抽样概率假设下合并类。
密度估计法
非参数概率密度的聚类方法。
k最近邻估计法
d * (xi ,
xj
)
百度文库
=
⎧(1/ ⎩⎨∞
f
(xi )
+1/
f
(x j
)) /
2
如果d (xi , x j ) ≤ max(rk (xi ), rk (x j )) 否则
判x属于Gk, 若p (Gk|x)最大(等价于D2k(x)最小)
协方差相同:线性判别函数
设有两个协方差相同的正态总体,且先验概
率相等,
Di2 (x, Gi ) = (x − ui )′V −1(x − ui )
D12 (x, G1) −
线性判别函数
D22 w(
( x, G2 x) = (
) x
= −
判别分析中各种误判的后果看作是相同的, 而在假设检验中,犯两类错误的后果一般是 不同的,通常将犯第一类错误的后果看得更 严重些。
SAS判别分析过程 Discrim
proc discrim <选项列表> ; class 变量 ; by 变量表 ; freq 变量 ; id 变量 ; priors 概率表 ; testclass 变量 ; testfreq 变量 ; testid 变量 ; var 变量表 ; weight 变量 ;
样品聚类法1:系统(递阶)聚类法
系统聚类法(Hierarchical clustering method) 是目前使用最多的一种方法。 基本思想是首先将n个样品看成n类,然后规 定样品之间的距离和类与类之间的距离。
将距离最近的两类合并为一个新类,再计算 新类和其他类之间的距离,从中找出最近的 两类合并,继续下去,最后所有的样品全在 一类。将上述并类过程画成聚类图,便可以 决定分多少类,每类各有什么样品。
∑ ( ) k exp i =1

0.5Di2
( x, Gi
)
广义平方距离
Di2 (x)
=
d
2 i
(
x)
+
gi
+
hi
gi
=
⎧log ⎨
Σi
⎩0
若各组协方差阵Σi不全相等 若各组协方差阵Σi全相等
判别准则:h(i D= ⎧⎨⎩与−2dlo0稍g p有i 不若若各同各组组)先先验验概概率率pip不i全全相相等等
−2(x − u1 + u2
2
u1
+ 2
u2
)′V
−1 (u1
)′V −1(u1 − u2 )

u2
)
判别准则: 若 w( y) ≥ 0,则判定y属于G1.
多类线性判别函数
wj
(x)
=
x 'V
−1u j

1 2
uj
'V
−1u j
)
判别规则:判给函数值最大的类。
注:这里V用 pooled covariance 计算
proc candisc <选项列表>; class 变量; by 变量表; freq 变量; var 变量表; weight 变量; run;
candisc选项
out=数据集名——生成一个包含原始数据和 典型变量得分的SAS数据集。 ncan=——指定将被计算的典型变量的个数。
实例分析
Fisher鸢尾花(Iris)数据 修改后的程序chap8_01B
严重地倾向于产生直径粗略相等的类
重心距离: D( p, q) = (x p − xq )′ (x p − xq )
在处理异常值上比其他方法更稳健
类平均距离:D( ∑ ∑ p,趋q) 向= p于1q i合∈Gp并j∈Gq具dij有较小偏差的类
Ward最小方差法 (Ward离差平方和 )
Dw ( p, q) = Dp+q − Dp − Dq

0.5d
2 i
(
x,
Gi
)
d
2 i
(
x,
Gi
)
=
(
x

μi
)′Σ
−1 i
(x

μi
)
Bayes判别
后验估计
∑ ( ( ) ) p(Gi | x) =
pi
exp

0.5d
2 i
(
x,
Gi
)
Σi
−1/ 2
p k
i=1 i
exp

0.5d
2 i
(
x,
Gi
)
Σi
−1/ 2
( ) = exp − 0.5Di2 (x,Gi )
两类聚类问题
1. 对样品的聚类: 统计指标是类与类之间的距 离,它是把每一个样品看成高维空间中的 一个点,类与类之间用某种原则规定它们 的距离,将距离近的点聚合成一类,距离 远的点聚合成另一类。
2. 对变量的聚类: 统计指标是变量间相似系 数,根据这个统计指标将比较相似的变量 归为一类,而把不怎么相似的变量归为另 一类。
线性判别
45
40
35
30
25
20
10
20
30
40
50
60
70
协方差不同:二次判别函数
Zi(x)=-0.5 D2i(x)
判别准则: 若Zk(y)最大,则判定y属于Gk.
当各组方差相等,退化为线性判别函数
二次判别
45
40
35
30
25
20
10
20
30
40
50
60
70
2
误判的概率
样品x来自G1 , 被误判来自G2
均方根标准差 RMSSTD = DG /(v( p −1))
∑ 直径DG = m (xi − xG )′(xi − xG ) = tr(AG )
v为观察样品i的=1 变量维数,p为类中的观察数目。
R2统计量
∑ R2 = 1 − Di / TSS
其中∑D为i 各类的直径求和,TSS为所有观察的总
离差平方和。
伪F统计量: 伪F值大表示对应分类显著。 (峰顶好)
伪t2统计量: 伪t2值大表示上一次分类显著。(谷底 好)
立方聚类准则CCC(Cubic Clustering Criterion): CCC大表示对应分类显著。 (峰顶好)
综合分析: CCC统计量和伪F统计量的局部峰值所 对应的聚类数,与这个聚类数伪t2统计量的一个 较小值和下一个聚类数的一个较大伪t2统计量相 吻合。
样品聚类法2:动态(快速)聚类法
K-means cluster ①选择若干个观察作为“凝聚点”或称类的中心点,作
3
修改后的程序
data newiris;/*测试新数据*/
input sepallen sepalwid petallen petalwid @@;
cards;
56 30 41 13
51 35 14 23
67 25 18 15
run;
proc discrim data=iris pool=test outstat=plotiris testdata=newiris testout=plotp;
不同形式的类需要不同聚类方法
类间的距离
令Gp和Gq中分别有p和q个样品,它们的重 心分别记为 x p 和 xq 。
{ } 最短距离:D( p, q) = min d jk j ∈ Gp , k ∈ Gq
不对类的形状加以限制,适合不规则类
{ } 最长距离: D( p, q) = max d jk j ∈ G p , k ∈ Gq
⎪⎩∞
如果G P 和Gq 是近邻 否则
聚类方法比较
综合特性最好的聚类方法为类平均法或Ward 最小方差法,而最差的则为最短距离法。 Ward最小方差法倾向于寻找观察数相同的类。 类平均法偏向寻找等方差的类。 拉长的或无规则的类使用最短距离法比其他 方法好。 非参数问题的聚类方法为密度估计法。
5
类的统计量
( ) ( ) ∑ Dp =
xi − x p ′ xi − x p
i∈G p
∑ D p+q =
(xi − x )′ (xi − x )
i∈G p UGq
( ) ( ) ∑ Dq =
x j − xq ′ x j − xq
i∈Gq
∑ x
=
1
p
+
q
i∈G p
xi
UGq
每次合并类时,总是选择这样两个p类和q 类,使它们合并成类后的Dw值最小
距离判别分析
Mahalanobis距离(统计距离)
Euclid Vs Mahalanobis
按照Mahalanobis距离判别
0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01
0 50 55 60 65 70 75 80 85 90 95 100
1
理论基础: 贝叶斯公式
R2统计量越接近1,表示类内离差平方和在总离 差平方和中所占的比例越小,说明了这个类越分 开,故聚类效果越好。
类的合并总是使R2值变小,如果这种变小是均匀
的,合并是应该的,但当某次合并使值减少很 多,这次合并就不应该 .
根据统计量确定分类个数
半偏R2统计量=上次合并后R2值-这次合并后R2 值 (谷底好)
样本Fisher判别函数
y = (V1 + V2 )−1 (u1 − u2 )x
本质上: Fisher判别函数是一个典型相关函 数,将原始指标(高维)转化到典型相关指标 (低维)
应注意的几个问题
判别分析方法首先根据已知所属组的样本给 出判别函数,并制定判别规则,然后再判断 每一个新样品应属于哪一组。 从马氏距离的角度来看 统计量是很直观的。 这个距离越小,越倾向于接受假设 ;反之, 这个距离越大,就越倾向于拒绝 。
class species;
var petallen petalwid sepalwid sepallen; proc print data=plotp;/*判别结论新数据*/ proc print data=plotiris;/*输出数据包含二次判别函数*/
run;
SAS典型Fisher判别分析 candisc
设有k个组 G1,G2 ,L,Gk,每一组的先验概率pi已 知,且在x处的组Gi密度fi(x)可以估计。样品
属于组Gi的后验概率为:
∑ p(Gi | x) =
pi f i(x)
k i =1
pi
fi
(x)
设每组内样品为多维正态分布,那么
( ) fi (x)
=
(2π ) − p / 2
Σi
−1/ 2
exp
1. 基本用法 2. 判别新数据集 3. 较多选项
• 典型(Fisher)判别chap8_01_4
第二节 聚类分析
“物以类聚”
判别分析中必须事先知道各种判别的类型和 数目,并且要有一批来自各判别类型的样 本,才能建立判别函数来对未知属性的样本 进行判别和归类。
聚类分析把分类对象按一定规则分成组或 类,这些组或类不是事先给定的而是根据数 据特征而定的。若对一批样品划分的类型和 分类的数目事先并不知道,对数据的分类就 需借助聚类分析方法来解决。
run ;
选项及语句
method=normal | npar——当指定method= normal时,基 于类内服从多元正态分布,并导出线性或二次判别函数;当 指定method=npar时,采用非参数方法。 pool= no| test | yes——pool=test要求对组内协方差阵的齐性 的似然比检验进行Bartlett修正,线性判别函数会直接给 出,而二次型判别函数需通过建立输出数据集方式获得。 Outstat=数据集名——指定输出数据集名 testdata=数据集名——指定欲分类观测的一般SAS数据集 testout=数据集名——生成一个输出SAS数据集。 listerr表示要求仅仅输出由后验概率产生错误分类的那些样 品点的有关信息 crosslisterr表示要求以交叉表的形式输出实际类别与分类结 果之间一致和不一致的有关信息。 priors语句——指定先验概率
均匀核估计法
d * (xi , x j )
=
⎧(1 / ⎩⎨∞
f
(xi )
+1/
f
(x j )) / 2
Wong混合法
如果d (xi , x j ) ≤ r 否则
d *(xp , xq ) =
⎧ ⎪
(
D
p

+
Dq
+
( p + q)d 2 (x p , xq ) / 4)v / 2 ( p + q)1+v / 2
第八章
判别和聚类分析
第八章 判别和聚类分析
第一节 判别分析 第二节 聚类分析
第一节 判别分析
判别分析: 根据已掌握的一批分类明确的 样品,建立一个判别函数,使得用此判别 函数进行判别时错判事例最少,进而能用 此判别函数对给定的新样品判别它来自哪 个总体。
距离判别分析方法 Fisher线性函数判别方法
G1
G2
u1
u x u2
Fisher判别(典型判别)
Fisher判别函数
u-均值, V-方差
求a, 使得
1 2
a′(u1

u2 )(u1
− u2 ) 'a
=
max
a′(V1 + V2 )a
得到 a = (V1 + V2 )−1(u1 − u2 )
书上证明有错
判别函数为: y = (V1 + V2 )−1 (u1 − u2 )x
4
样品间的距离
设有n组样品,每组样品有m个变量,第i样
品第k变量数据为xik,
1
∑ ( ) Euclid距离:dij
= ⎜⎛ m ⎝ k =1
xik
− x jk
2 ⎟⎞ 2 ⎠
1
∑ Minkowski距离:dij
= ⎜⎛ m ⎝ k =1
xik − x jk
g ⎟⎞ ⎠
g
Mahalanobis距离: dij = (xi − x j )′S −1(xi − x j ) S为样品的协方差矩阵
相关文档
最新文档