第六章判别分析方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d2 (x0, G2 ) d2 (x0, G1) : x0 G2
2 2
12
75
x0=78x1
80 x2
误判率:4.5%
判别函数W(x) (x 75)2 (x 80)2 0
4
0.25
x1
79, x2
x 81.7x
G1,当x1 x x2 G2 ,当x x1或x
n2
)2
dd
'
]a
(d μ2 μ1)
SSA a'dd'a
Fisher : 选择a使得L a'dd' a 取得最大值 a' Σa
L a
[(a'Σa)(2dd' a) (add' (a'Σa)2
a)(2Σa)]
0
两边乘a'Σa / 2,得到:dd' α LΣa 0 a 1 Σ1dd'a L
一个新的样本为x=(0.0,0.5),问x属于(1)类还 是(2)类。
解法1:马式等距离法 解法2:Fisher法
x(1)
(0.5,0.0)',
x(2)
(0.5,0.0)', 1
1.82 0.91 0.91 1.45
解:求Fisher判别函数z=x-1(2-1)
判别函数W(x)为x的二次函数
考察p=1的情况
已知G1是设备A生产的产品,G2是设备B生产的产品。 A设备质量高,其产品平均耐磨度1=80,方差12=0.25, B设备质量较差,其产品平均耐磨度2=75,方差22=4。 现有一产品X0,其耐磨度x0=78,试判断该产品是哪台 设备生产的。建立判别规则,误判率多大?
第六章 判别分析 discriminant analysis
判别分析的基本概念 两总体判别分析 多总体判别分析 SPSS的判别分析过程
一、判别分析的基本概念
判别分析问题的描述:
– 已知若干组分类数据 – 现有一新样本,要求判定新样本数据属于已知分类
中的哪一类
判别分析的关键:
Maximizes posterior probability of correct classification
Many others
– For example minimizes the cost of misclassification
具体问题具体分析
– 疾病的诊断 – 市场分析
Lots of perspectives suggest this basic rule as best
类分界线
样本点到 某一类的 距离越近, 属于该类 的概率越 大
线性判别函数
设G1~N(1,∑1)和G2~N(2,∑2)为两正态总体, 且协差阵相等,即∑1=∑2=∑,则样本x到G1、 G2的马氏距离为
可以证明:
d 2 (x, G1) (x μ1)' Σ1(x μ1) d 2 (x, G2 ) (x μ2 )' Σ1(x μ2 )
Linear Discriminators
判别得分 critical value
投影方向 判别函数
c2<c1, x∈G1 c3<c1, x∈G2
练习题
两类总体相关统计资料如下:
x(1)
(0.5,0.0)',
x(2)
(0.5,0.0)', 1
1.82 0.91 0.91 1.45
判别规则:若d2(x, G1)< d2(x, G2),则认为x属于G1 , 反之若d2(x, G1)> d2(x, G2),认为x属于G2 。
– 或判别函数:
W(x)= d2(x, G2)- d2(x, G1)
>0,x∈ G1 <0,x∈ G2
所谓“等距离”:到两总体距离相等的点构成类分界线
两指标、正态分布且方差相等的两总体
数学模型
设:线性组合的系数向量为a, 考虑线性 组合:z=xa——z: x在a方向的投影
通过寻找合适的a,使投影到此方向的组 间变异大,组内变异比较小,即使组间 变异/组内变异(离差平方和)取最大值。
两总体Fisher判别函数
设:两协差阵相等的总体G1:n1个样本,G2:n2, 1,2和分别表示两总体均值和总均值 线性组合的系数向量为a, 考虑线性组合:z=xa
1 L
和d'
a都是标量,有:a
Σ1d
Σ1
(μ2
μ1
)
以上证明,当a∝-1(2-1)时满足我们的
要求,即:判别投影方向在两类均值点 的连线上。通常我们将a标准化。
∴判别函数为:z=x-1(2-1)
判别规则:z>c时,x∈G2; z<c时, x∈G1,c (z1 z2) / 2
误判问题
– 肝功指标高就一定是肝炎病人吗?
误判率Misclassification (1-D case)
两总体单指标的判别分析,假设正态分布,等方差
判别规则
转氨酶
非患者
肝炎 患者
?
非典?
Best - In What Sense?
Minimizes probability of misclassification
x∈G1,当W(x)>0, x∈ G2 当W(x)<0,
令W(x)=0可以得到两类分界线
Linear Discrimination Rule
W(x1,x2)=0
W(x1,x2)>0
考察p=1的情况
设G1~N(1,2)和G2~N(2,2),判别函数为:
W(x)
(x
μ1
2
μ2
)
1
z xΣ1(μ2 μ1 ) 0,0.51.802.91 0.455 0
结论:x属于(1)类
Z(1) Z C=0 Z(2)
例:books by mail
某书商从事邮购书业务。有50,000个顾客的统计数据, 现公司计划推销一本新的艺术类书“the art history of Florence”。希望有针对性地邮寄订购单,即只向有可 能购买该书的顾客推销,以降低成本。为了了解顾客 情况,公司从50,000个现有顾客中随机抽取1000人发 订购单,其中83人购买了该书。要求利用此数据中分 析潜在购买者的特征。
i
i
SSw a'Σa
投影后的组间变异:组间离差平方和为
SSA n1(z(1) z )2 n2 (z(2) z )2
a'[n1(u1 μ)(u1 μ)'a n2 (u2 μ)(u2 μ)']a
a'[n1
(
n1
n1
n2
)
2
dd
'n2
(
n1
n2
影响误判率的因素 ——组均值差异
三总体单指标
当分布中心过于接近,误判率很高
Three groups - Two features
二、两总体判别分析
1. 马氏等距离法
基本思想:样品和哪个总体距离最近,就判断它属 于那个总体。
设:两个总体G1和G2,x是一个p维样本,x到总体 G1和G2的马氏距离分别记为d2(x, G1)和d2(x, G2),
2
(1
2)
a(x
μ)
其中
μ1
2
μ2
,a
1
2
(1
2)
若1
0,2
1,
2
1,则:W(x)
(x
0.5)
0 0
x G1 xG2
x=0.5 G1
G2
或:令W(
x)
0,
解出x
0.
5
x x
0.5 0.5
x x
G1 G2
Mean of group 1 – from data you have
如何判别:x与哪类距离近, 就归属于哪类:
若dx1<dx2,则x属于第1类 判别规则
若dx1>dx2,则x属于第2类
判别函数:f=dx1-dx2
>0, x∈2, <0, x∈1
Pattern Recognition Problem
d 2 (x, G2 ) d 2 (x, G1) (x μ2 )'Σ-1(x - μ2 ) - (x μ1 )'Σ-1(x - μ1 )
2x'Σ1(μ1 μ2 ) μ'2Σ1μ2 μ1' Σ1μ1
2[x
(μ1
2
μ
2
)
)
1
(μ1
μ
2
)
令μ (μ1 μ2 ) / 2,
对1000个顾客样本进行判别分析,选取“最近一次购 买至今的月数”和“购买艺术类书的本数”为判别变 量。分类变量“buystatu”:0未购买者,1购买者
wk.baidu.com
求判别函数系数a∝-1(2-1) 组统计量
buystatu 0
1
合计
month artnum month artnum month artnum
– 判别函数:由描述各类的数值指标构成的分类规则, 明确已知各类应如何区别
例:肝炎病人的诊断
– 两总体判别:肝炎病人和正常人 – 判别依据:一些化验指标,形成判别公式-判别函数
Simple, Two-Group DA
Unknown observation
x
中国属于发展中国 家还是发达国家?
Mean of group 2 – from data you have
0
1
误判率P(1/2)=?
误判率P(2/1)=0.3085
∑1≠∑2时,非线性判别函数
d 2 (x, G1) (x μ1)' Σ11(x μ1)
d
2
(x,
G
2
)
(x
μ2
)'
Σ
1 2
(x
μ2
)
W(x) d 2 (x, G2 ) d 2 (x, G1)
(x μ2 )' Σ21(x μ2 ) (x μ1)' Σ11(x μ1)
判别分析与方差分析、聚类分析
聚类分析与判别分析间的联系
先采用聚类分析获得各个个体 的类别(classification );然后采 用判别分析建立判别函数,对新个 体进行类型识别(identification )
聚类分析的数据格式
k
判别分析的数据格式
判别分析的方法与数学描述
数据描述
– 对于m类总体G1,G2,……,Gm,其分布函 数分别为f1(y),f2(y),…… fm(y),对于一个给 定样品y,我们要判断出这个样本来自哪个总 体。判别分析的主要问题就是如何寻找最佳的 判别函数和建立判别规则。
判别准则 G2:N(75,4)
直观上看,x0距1较近,但
G1:N(80,0.25)
直观判断
是考虑到相对分散度,
d2 (x0, G1)
(x0 1)2
2 1
(78 80)2 0.25
16
x0属于哪 一类?
d2(x0,G2)
(x0 2)2
2 2
(78 75)2 4
2.25
均值 12.73 .33 9.41 1.00 12.46 .39
标准差 8.107 .607 5.951 1.059 8.001 .681
投影后的组内变异:组内离差平方和为
SSw (zi(1) z(1) )2 (zi(2) z(2) )2
i
i
a'(xi(1) μ1)(xi(1) μ1)'a a'(xi(2) μ2 )(xi(2) μ2 )'a
i
i
a'[ (xi(1) μ1)(xi(1) μ1)' (xi(2) μ2 )(xi(2) μ2 )']a
Σ 1
(μ2
μ1
)
1.82 0.91
0.91 1.45
1 0
1.82 0.91
z(1) 0.5,0.01.802.91 0.91, z(2) 0.5,0.01.802.91 0.91
c z(1) z(2) 0 2
x2
2. Fisher 判别法
判别思想:投影,使多维问题简化为一维问 题来处理
方法:寻找原变量x的一个线性组合,使得 各组在此方向上投影的差异最大化,再选择 合适的判别规则对样品进行分类判别。
Fisher’s approach
Find a linear combination of variables x that would produce “maximally different” discriminant scores across group
判别函数W
(x)
d
2 (x, G2 )
2
d
2 (x, G1)
(x
μ ) ' 1 (μ1
μ2 )
判别函数 W
(x)
d
2 (x, G2 )
2
d
2 (x, G1)
(x
μ)' 1(μ1
μ2)
容易看出上述函数W(x)为x的线性函数,称为线性判 别函数,判别准则:W(x)与0比较