第八章 判别分析 课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相应的判别规则为:
X
Gi , 如果Wi
X
max
1 jk
I j
X
Cj
2、如果总体 G1, G2 , , Gk 得协方差矩阵分别 是 1, 2 , , k ,而且它们不全等。
计算新样本 X 到每一个总体的距离,即:
则判别D规2 X则,G为j : X j j1 X j , j 1,2, , k
别的解。
因此,贝叶斯思想得到的划分 R R1, R2 , , Rk
为:
Ri
x
hi
x
min
1 j k
hj
x,
i
1,2,
,k
即,当抽取了一个未知总体的样本值 X ,要
判断它属于哪一个总体 ,只要先计算出 k 个
按先验分布加权的误判平均损失
h
j
x
k
qiC
j
i
f
i
x
i 1
j 1,2, , k ,然后比较这 k 个误判平均损失
设有 k 个总体 G1,G2 , ,Gk ,其各自的分
布密度函数 f1x, f2 x, , fk x 互不相同,假设
k 个总体各自出现的概率分别为 q1, q2, , qk , qi 0
k
qi 1。假设已知若将本来属于 Gi 总体的
i 1
样本错判到总体 G j 时造成的损失为
C j i,i, j 1,2, ,k ,则 Ci i 0,C j i 0,i, j 1,2, ,k
其销售价格为3.0,顾客对其口味的评分平均 为8,信任评分平均为5,试预测该饮料的销 售情况。
销售情况 产品序号 销售价格 口味评分 信任度评分
畅销
1
2.2
5
8
2
2.5
6
7
3
3.0
3
9
4
3.2
8
6
平消
5
2.8
7
6
6
3.5
8
7
7
4.8
9
8
滞销
8
1.7
3
4
9
2.2
4
2
10
2.7
4
3
习8.2 银行的贷款部门需要判别每个客户的 信用好坏(是否未履行还贷责任),以决定 是否给予贷款。可以根据贷款申请人的年龄 (X1)、受教育程度(X2)、现在所从事工 作的年数(X3)、未变更住址的年数(X4)、 收入(X5),负债收入比例(X6)、信用卡 债务(X7)、其他债务(X8)等来判断信用
设 X和Y 是来自均值向量为 协方差为
0的总体G中的p 维样本,则总体 G 内两
样点 X和Y 之间的马氏距离定义为:
D2 X ,Y X Y 1X Y
定义点 X到总体G 的马氏距离为:
D2 X , G X 1X
注:当 I(单位矩阵)时,即为欧几里得 距离的情形。 二、距离判别的思想及方法 (一)两个总体的距离判别问题
故在规则 R 下,将属于Gi 的样品错判为 G j 的
概率为:P j i, R Rj fi xdx,i, j 1,2, , k,i j
如果实属 Gi 的样品,错判到其他总体 G1,G2 , Gi1,Gi1, ,Gk 所造成的损失为
C1i, ,Ci 1i,Ci 1i, ,Ck i ,则这种判别规则
,k
b k ui u 2 , e k u i u u k i u uEu
i 1
i 1
i1
其中:
1 k
k i 1
i, E
k i 1
i
选择目标函数:u b 达到极大。
e
注:如果得到线性判别函数 uX ,对于一个
新样品 X 可以构造一个判别规则,即
uX u j
min uX
测得同样的 p 项指标(变量)的数据的一个
新样本,能判定这个样本归属哪一类。 判别分析内容很丰富,方法很多。按判
别的总体数来区分,有两个总体判别分析和 多总体判别分析;按区分不同总体所用的数 学模型来分,有线性判别和非线性判别;按 判别时所处理的变量方法不同,有逐步判别 和序贯判别。
§8.2 距离判别法 一、马氏距离的概念
6
37 1 1 3 24 15.10 1.80 1.82
7
29 1 13 1 42 7.40 1.46 1.65
8
32 2 11 6 75 23.30 7.76 9.72
9
28 2 2 3 23 6.40 0.19 1.29
10 26 1 4 3 27 10.50 2.47 0.36
计算新样本 X 到每一个总体的距离,即:
D2 X ,G j X j 1 X j X 1 X 2j 1 X j 1 j X 1 X 2 I j X C j
其中: I
j
1
j ,C j
1 2
j
1
j,
j
1,2,
,k
则线性判别函数为:W j X I j X C j , j 1,2, , k
观测数据,借助方差分析的思想构造一个线
性判别函数 U X u1 X1 u2 X 2 u p X p uX
其中,系数 u u1,u2 , ,u p 确定的原则是使
得总体之间区别最大,而使每个总体内部的 离差最小。有了线性判别函数后,对于一个
新的样品,将它的 p 个指标值代入线性判别
qi C
i1 j1
ji
f R j i
x dx
j 1
Rj
i 1
qiC
j i fi
x dx
令
k
qiC
i 1
ji
fi x hj x
,则 gR
k j 1
Rj h j xdx
如果空间 R p 有另一种划分 R* R1* , R2* , , Rk*
则它的总平均损失为:g
R
*
k
j 1
X
Gi , 如果D2 X , Gi
min D2 1 jk
X,Gj
§8.2 贝叶斯判别法 距离判别法虽然简单,但是该方法也有
其明显不足之处。第一,判别方法与总体各 自出现的概率大小无关;第二,判别方法与 错判之后造成的损失无关。贝叶斯判别法就 是为了解决这些问题而提出的一种判别方法
一、贝叶斯判别的基本思想
情况。下表是从某银行的客户资料中抽取的 部分数据。(1)根据样本资料用费希尔判别 法建立判别函数,对样本进行回判。(2)某 客户的如上情况资为(53,1,9,18,50,11.20, 2.02,3.58),对其进行信用好坏的判别。
目前信用 客户序号 X1 X2 X3 X4 好坏
已履行还 贷职责
1
产生的误判概率记为
P j i, R Rj fi xdx,i, j 1,2, , k,i j
如果已知样品 X 来自总体 Gi 的先验概率
为 q1, q2 , , qk ,则在规则 R 下,误判的总
平均损失为:
g
R
k
qi
r
i,
R
k
qi
k
C
j
i
P
j
i,
R
i1
i1 j1
k
k
k k
设有协方差矩阵 相等的两个总体 G1和G2 其均值分别为 1和2 ,对于一个新样品 X , 要判断它来自哪个总体。
新样品 X 到两个总体的马氏距离
D2 X , G1 和D2 X , G2 ,并按照如下的判别规则
进行判断
X
G1
X G2
如果D2 X , G1 D2 X , G2 如果D2 X , G1 D2 X , G2
该判别规则的等价描述是:求新样品X到G1
的距离与到 G2 的距离之差,如果其值为正,
X属于G2 ;否则 X属于G1 。
(二)多个总体的距离判别问题
1、设有 k 个总体 G1, G2 , , Gk ,其均值和协
方差矩阵分别为 1 , 2 , , k 和 1 ,2 , ,k , 而且 1 2 k ,对于一个新样本 X , 要判断它来自哪个总体。 方法同上。
函数式中求出U X 值,然后根据一定的判别
规则,就可以判别新的样品属于哪个总体。
二、费希尔判别函数的构造
(一)、针对两总体情形
设有两总体G1,G2 ,其均值分别为 1和2
协方差矩阵为 1 和2。当 X Gi 时,可求出 uX 的均值和方差,即:
EuX EuX Gi uEX Gi ui i ,i 1,2
DuX
DuX
Gi
uDX
Gi
u
u
i
u
2 i
,
i
1,2
在求线性判别函数时,尽量使得总体之间差
异大,也就是要求 u1 u2 尽可能的大,即
1 2 大;同时要求每一个总体内的离差平方
和最小,即
2 1
2 2
最小。则建立一个目标函
百度文库
u 数:u 1 2 ,只需要找出 使得目标函数
2 1
2 2
u 最大即可。
第八章 判别分析
§8.1 引言
设有 n 个样本,对每个样本测得 p 项指
标(变量)的数据,已知每个样本属于 k 个 类别(或总体)G1, G2 , , Gk 中的某一类,且
它们的分布函数分别为 F1x, F2 x, , Fk x 。
我们希望利用这些数据,找出一种判别函 数,使得这一函数具有某种最优性质,能把 属于不同类别的样点尽可能地区分开来并对
R 对总体 Gi 而言,样本错判后所造成的平均
损失为:ri
R
k
C
j
iP j
i,
R , i
1,2,
,k
,其中
Ci i 0
j 1
由于 k 个总体
G1, G2 ,
,
G
出现的先验概
k
率分别为 q1, q2 , , qk,则用规则 R 来进行判
别所造成的总平均损失为:
g
R
k
qi
r
i,
R
k
qi
k
C
j
i
P
j
i,
(二)、针对多个总体的情形
设有 k 个总体G1,G2 , ,Gk ,其均值和协方
差矩阵分别为 i , i 0,i 1,2, , k 。同样可求
出 uX 的均值和方差,即:
EuX EuX Gi uEX Gi ui ,i 1,2, , k
DuX
令
DuX
Gi
uDX
Gi
u
ui
u,i
1,2,
R
i 1
i1 j1
所谓贝叶斯判别法则,就是要选择 R1, R2 , , Rk
使得 gR 表示的总体平均损失达到最小。
二、贝叶斯判别的基本思想 设每一个总体 Gi 的分布密度为 fi x,i 1,2, , k
来自总体 Gi 的样品 X 被错判为来自总体
G j , j 1,2, , k 时所造成的损失记为 Cj i,i, j 1,2, ,k 并且 Ci i 0 。那么,对于判别规则R R1, R2 , , Rk
R
* j
h
j
x
dx
则,在两种划分下的总平均损失之差为:
k k
g R
g R*
i1 j 1
h Ri R*j i
x
hj
x
dx
由 Ri 的定义,在 Ri上hi x hj x 对一切 j 成立
即 gR g R* 0 ,则说明 R1, R2 , , Rk
确能使总平均损失达到极小,它是贝叶斯判
设有 k 个总体 G1,G2 , ,Gk 相应的 p 维
空间为 R1, R2 , , Rk 即为一个划分,故可记判 别规则为 R R1, R2 , , Rk
从描述平均损失的角度出发,如果原来
属于总体 Gi 且分布密度为 fi x 的样品,正
好取值落入了 R j ,我们就会错判为属于 G j 。
23 1 7 2
2
34 1 17 3
3
42 2 7 23
4
39 1 19 5
5
35 1 9 1
X5 X6 X7
31 6.60 0.34 59 8.00 1.81 41 4.60 0.94 48 13.10 1.93 34 5.00 0.40
X8
1.71 2.91 0.94 4.36 1.30
未履行还 贷职责
1ik
ui
uX与其均值之差
则判定 X来自总体 G j 。
习8.1 某超市经营十种品牌的饮料,其中有 四种畅销、三种滞销、三种平消。下表是这 十种品牌饮料的销售价格(元)和顾客对各 种饮料的口味评分、信任度评分的平均数。 (1)根据数据建立贝叶斯判别函数,并根据 判别函数对原样本进行回判。 (2)现有一新品种的饮料在该超市试销,
h1x,h2x, ,hk x 的大小,选取其中最小的,
则判定样品 X 来自该总体。
§8.4 费希尔判别法 费希尔判别法的主要思想是通过将多维
数据投影到某个方向上,投影的原则是将总 体与总体之间尽可能的放开,然后再选择合 适的判别规则,将新的样品进行分类判别。
一、费希尔判别的基本思想
从 k 个总体中抽取具有 p 个指标的样品