第十讲 Modeler分类预测:判别分析资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

距离判别
• 假设有两个总体G1和G2,从第一个总体中抽取n个样本, 从第二个总体中抽取m个样本,每个样本有p个判别变量
• X(到1), G(i的2), 马(1氏), 距(2离)分定别义为为G:1和G2的均值向量和协差阵,则点
为什么用马氏距离? D2 (X ,Gi ) (X (i) )'( (i) )1(X (i) ) i 1,2
W(X ) (X (i) )'( (i) )1(X (i) ) (X ( j) )'( ( j) )1(X ( j) )
Fisher判别
• Fisher判别也称典型判别 • 基本思想是投影,即将原来p维空间的样本点投影到低
维y空间中,以简化问题和提高判别精度
-4 -3 -2 -1 0 1 2 3
越小越好
Fisher判别 ---基本计算
• 即下式越大越好。利用求极值原理,可以求出使I达到 最大时的系数b
I n
( y (1) y (2) )2
m
(
y (1) i
y (1) i
)
2
(
y (2) i
y (2) i
)
2
i 1
i 1
Fisher判别 ---基本思想
• 首先,在判别变量的p维空间中,找到某个线性组合, 使各类别的平均值差异最大,作为判别的第一维度, 代表判别变量组间方差中的最大部分,得到第一判别 函数
D2 (X ,Gi ) (X (i) )'( (i) )1(X (i) ) i 1,2
• 如果各组协方差阵相等,采用(pooled within-groups covariance),记为:
n1
1 n2
2 (S1
S2)
Байду номын сангаас
(S为SSCP)
ni
Si
(X
(i) j
X
(i) )( X
(i) j
yi(1)
a1 xi(11)
a2
x (1) i2
.
.
.a
p
x (1) ip
,
i
1,2,...n
yi( 2 )
a1
x(2) i1
a2 xi(22)
.
..a
p
x(2) ip
,
i
1,2,...m
p
y (1) ai xi(1) i 1
p
y (2) ai xi(2) i 1
• 为使判别函数很好地区分来自两个不同总体的样本, 希望:y (1)和 y (2) 相差越大越好,且组内的离差平方和
• 然后,按照同样规则依次找到第二判别函数、第三判 别函数等,这些判别函数之间完全独立
• 得到的每个函数都可以反映判别变量组间方差的一部 分,各判别函数所代表的组间方差比例之和为100%。
• 前面的判别函数相对重要,后面的判别函数只代表很 少一部分方差,可以被忽略
Fisher判别 ---基本计算
• 点x在以a为法方向的投影为a’x,则各组数据的投影为:
X
(i) )'
i
1,2
j 1
• 则判别函数(线性):
W(X ) (X X )' 1(X (1) X (2) )
X 1 ( X (1) X (2) ) 2
距离判别
• 计算时:
• 如果各组协方差阵不相等(separated-groups covariance) ,则 判别函数(非线性):
分类预测:判别分析
判别分析的一般内容
• 判别分析是一种实现统计分类的分析方法 – 例如:不同类型客户的预测应用
• 特点: – 数据中包含用于预测的判别变量(自变量),其类型 可以为定距,也可以为定类 – 数据中包含已知所属类别的类别变量(因变量),为 定类型 – 判别分析可以根据已有数据,确定分类与判别变量 之间的数量关系,建立判别函数,并可通过判别函 数实现对未知数据类别的判定和预测
维度上的坐标,进而决定了样本点在低空间中的位 置 • 寻找最佳的投影方向: • 能够将总体尽可能分开的方向
Fisher判别 ---基本计算
• 假设有两个总体G1和G2,从第一个总体中抽取n个样本, 从第二个总体中抽取m个样本,每个样本有p个判别变量
Fisher判别 ---基本计算
• 假设所建立的判别函数为 y a1x1 a2 x2 ...ap xp • 将属于不同两类的样本观测值代入判别函数中,则:
距离判别
• 距离判别的目的:求D2(X,G2)=D2(X,G1),即判别函数等于0 时X的解。解集形成的轨迹是一条分隔线或平面或超平面
• 分隔线与两类的中心连线垂直且垂足为连线的中点
• 可见:只有当两个总体的均值存在显著差异时,判别分析 才有意义
距离判别
• 计算时: • (i)未知时,可用样本估计
距离判别
• 根据D(X,G1)、D(X,G2)判断: • 如果D(X,G1)<D(X,G2),则:X∈G1 • 如果D(X,G2)<D(X,G1),则:X∈G2 • 如果D(X,G1)=D(X,G2),则待判
• 判别函数:W(X)=D(X,G2)-D(X,G1),判断: • 如果W(X)>0,则:X∈G1 • 如果W(X)<0,则:X∈G2 • 如果W(X)=0,则待判
Gi
:
a
'
x(i) 1
a
'
x(i) ni
,
i
1,...,
k
• 将Gm组中数据投影的均值记为 a ' x (m) 有:
-4
-2
0
2
4
6
Fisher判别 ---基本模型
• Fisher判别的基本模型即是Fisher判别函数,是判别变 量的线性函数形式:
y a1x1 a2 x2 ...a p xp
• 系数ai称为判别系数,表示各判别变量对于判别函 数的影响
• Y反映的是样本在低维空间中某个维度上的坐标 • 判别函数通常为多个,于是得到在低维空间中多个
判别分析的一般内容
• 判别分析与聚类分析的不同点: – 聚类分析中的类别是未知的,完全通过数据来确定 – 判别分析,通过对已知类别的“训练样本”的学习, 建立判别准则,具有“预测”意义
• 判别分析方法的划分: – 根据类数:两组判别分析、多组判别分析 – 根据数学模型:线性判别、非线性判别 – 根据判别准则:距离判别法、Fisher判别法、Bayes 判别法
距离判别
• 设有来自k2个总体的k组样本,每组样本有ni(i=1,2,..k)个关 于X1,X2,…,Xp个输入(判别)变量的观察值(p> k)
• 将n个样本数据看成p维空间中的点,计算出每个类别的中 心(分类均值)
• 分别计算任一样本点到各个类别中心的马氏距离 • 根据距离最近的原则,距离哪个中心近,则属于哪个类
相关文档
最新文档