Fisher判别-jing
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i 1
综上(1),(2) Fisher最优判别准则为函数
L(l1 , l2 , l p ) ( y 0 y 1 )2
(y
i 1
s
0 i
y ) ( yi1 y 1 ) 2
0 2 i 1
t
越大越好。从而最优判别函数的系数 c1 , c2 , c p 为函数 L(l1 , l2 ,l p ) 的极大值点。由微分学可知, 1 , c2 , c p 为方 c 程组
编号 1 购 买 者 2 3 4 5 6
式样X1 包装X2 耐久 性X3
编号 8 非 9 购 买 10 者 11
式样X1 包装X2
耐久 性X3
0 0 ( x11 , x12 , x10p )
1 1 1 ( x11 , x12 , x1 p )
组A的数据
0 0 0 ( x21 , x22 , x2 p )
0 ( xs01 , xs02 , xsp )
组B的数据
( x1 , x1 , x1 p ) 21 22 2
1 ( xt11 , xt12 , xtp )
组B的数据矩阵
1 x11 1 1 x21 W 1 xt1
1 1 x12 x1 p x1 x1 p 22 2 1 1 xt 2 xtp
矩阵 W 和 W
0
1
的列平均数分别为 ( x10 , x20 , x p0 ) 和 ( x1 , x2 , x p )
判别分析分为两组判别分析和多组判别分析, 两组判别分析就是将要判别的对象分为两组,例 如,判别一个地区的消费者对某种产品的反应是 “喜欢”还是“不喜欢”,判别一种产品在某地 区是处于“饱和”状态还是“有需求”,多组判 别分析则是将要判别的对象分为三组或更多组, 例如某种产品的市场潜力可分为:“大”,“一 般”,“没有”三种。 判别分析的方法很多,我们这里只涉及 Fisher判别方法,且重点放在两组判别问题上。
判别分析— Fisher判别
景元萍 数理部
一.判别问题 二.两组判别分析基本思想 三.Fisher判别准则和判别函数 四.计算步骤 五.判别函数的检验 六.应用举例
一.判别问题
在我们的日常生活和工作实践中,常常会遇到判别分 析问题,即根据历史上划分类别的有关资料和某种最优准 则,确定一种判别方法,判定一个新的样本归属哪一类。 例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等 病人的资料,记录了每个患者若干项症状指标数据。现在 想利用现有的这些资料找出一种方法,使得对于一个新的 病人,当测得这些症状指标数据时,能够判定其患有哪种 病。又如,在天气预报中,我们有一段较长时间关于某地 区每天气象的记录资料(晴阴雨、气温、气压、湿度等), 现在想建立一种用连续五天的气象资料来预报第六天是什 么天气的方法。这些问题都可以应用判别分析方法予以解 决。
1)当 y A y0 时,若 y y0 则判别该对象属于组A,若 y y0 判别该对象属于组B。 2)当 yB y0 时,若 y y0 判别该对象属于组B,则若 y y0 则判别该对象属于组A。
五.判别函数的检验
前面已经说过,在进行两组判别时,首先要求来自两 组的原始数据必须有明显的区别,或者说从统计意义上 讲,两组应给有明显的不同,否则我们所作的判别就没
三.Fisher判别准则和判别函数
假设预测因子有p个指标,即 x1 , x2 , x p ,有n组 观察或调查得到的数据。判别分析就是要根据这些数 据,在适当的判别准则下,确定判别函数:
y c1 x1 c2 x2 c p x p 并找出临界值 y0 。 我们将要判别的两组分别标记为A和B(如A代表 畅销,B代表滞销).对于p个判别指标。不妨设组A有 s组数据,组B有t组数据,n=s+t,现将数据分组如下:
这种预测分析的方法就是判别分析法。在利用这种方 法时必须要求畅销期的数据和滞销期的数据之间有一条较 明显的分界线,对这一点,我们后面将进一步阐述。 我们令
y c1 x1 c2 x2
称此函数为线性判别函数,称 y0 c0为临界值。 进行判别分析就是要在某种最优准则下,确定线性判
别函数的系数 c1 , c2 以及临界值 c0 。
把这类问题用数学语言来表达,可以叙述如下: 设有n个样本,对每个样本测得p项指标(变量)的数 据,已知每个样本属于k个类别(或总体)G1,G2, …,Gk 中的某一类,且它们的分布函数分别为F1(x),F2(x), …,
Fk(x)。我们希望利用这些数据,找出一种判别函数,使得这
一函数具有某种最优性质,能把属于不同类别的样本点尽可 能地区别开来,并对测得同样p项指标(变量)数据的一个新 样本,能判定这个样本归属于哪一类。
即
x10 x11 c1 0 1 c2 x2 x2 S 1 0 c x x1 p p p
(5)写出判别函数
y c1 x1 c2 x2 c p x p
(6)算出组A,组B的代表的判别值
下面反过来思考整个问题,假定用 y l1 x1 l2 x2 l p x p 作为判别函数,则组A的数值对应的判别值为
0 0 y10 l1 x11 l2 x12 l p x10p
0 0 0 0 y2 l1 x21 l2 x22 l p x2 p
二.两组判别问题的基本思想
例如 设某种产品的市场情况有“畅销”,“滞 销”两种,我们要预测产品在一个时期是“畅销” 还是“滞销”。
根据过去的销售情况可知,该产品销路好坏与价格有 关,也和市民的收入有关,因此可以用产品的价格和市民 的收入这两个量去预测该产品的销路的好坏。 以 x1 代表产品的价格,以 x2 表示市民的收入。现在 假定调查了n个时期,得到n组数据。这n组数据反应的有 畅销的也有滞销的,不妨设有r组畅销,l组滞销(l=n-r), 则可将n组数据分组如下:
0 ys0 l1 xs01 l2 xs02 l p xsp
组B的数值对应的判别值为
1 1 1 1 y1 l1 x11 l2 x12 l p x1 p
y1 l1 x1 l2 x1 l p x1 p 2 21 22 2
1 y l x l2 xt12 l p xtp 1 t 1 1 t1
y1 2 又 y10 , y20 , ys0 同属于组A, 1 , y1 , yt1 同属于组B我们 希望它们于期其代表之间的差距越小越好,即
(2) ( y y ) ( yi1 y 1 )2 越小越好。
s
t
上述(1),(2)就是Fisher提出的最优判别准则。
i 1
0 i
0 2
S1 AA, S2 BB, S S1 S2
(4)可以证明,最优判别函数系数 c1 , c2 , c p 为下 述方程的解
c1 x10 x11 0 1 c2 x2 x2 S 0 c x x1 p p p
0 y A c1 x10 c2 x20 c p x p
1 1 yB c1 x11 c2 x2 c p x p
sy A tyB y0 st
(7)作判别。有一判别的对象若其数据为 ( x01 , x02 ,, x0 p ) , 则其判别值为
y c1 x01 c2 x02 c p x0 p
有意义,为此需进行统计检验。
首先检验两组在统计意义上是否有明显区别是有一定 困难的,通常转化成检验最优判别函数是否有效。步骤
如下:
(1)计算统计量
s t s t p 1 F y A yB st p
(2)对给定的显著性水平 ,从F分布表里查出
F ( p, s t p 1)
(3)检验结果:若 F F ( p, s t p 1) ,说明所作的判别函 数有效,从而可以用来作判别;若 F F ( p, s t p 1) 说明所作的判别函数无效,不能用来作判别分析。
六.应用举例
例
设某外贸公司生产一种产品,为正式上式之前,将样 品寄往12个国家的进口代理商,并附意见调查表,要求对 该产品进行评估。评估的内容有式样,包装,耐久性三个 方面。评估的结果采用10分制计分,评估后并被要求说明 是否愿意购买,调查结果列入表1中,表中的分数,高者 表示代理商认为其特性良好,否则即较差。 今有第13个国家的进口代理商对该产品的评分分别是: 式样9分,包装5分,耐久性4分,要预测该国是否愿意购 买该产品。
0 0 ( x11 , x12 )
1 1 ( x11 , x12 )
畅销组
(x , x )
0 21 0 r1
0 22
滞销组
( x1 , x1 ) 21 22
( x , xl12 )
1 l1
(x , x )
0 r2
将这n组数据标在平面上,以“ ”表示畅销组所对 应的点,以“ ”表示滞销数据对应的点,若能得到如图 所示的点聚图,即产品畅销时期的数据和滞销时期的数据 x2 有较为明显的区别 l
又作
y0
1 yi0 s i 1
s
,
1 t 1 y 1 yi t i 1
0 1 即 y 为组A的代表, y 为组B的代表。
我们通过判别值y来进行判别,为使组A同组B之间有 明显的区别,自然希望它们的代表值之间的差距越大越 好。即 (1) y 0 y 1 )2 越大越好; (
1
1
1
(2)算出各组数据的代表,即平均值
1 s 0 x xij s i 1 1 s 1 1 x j xij s i 1
0 j
j 1, 2 p
j 1, 2 p
(3)作新的矩阵A,B及两组的离差矩阵 S1 S 2
0 x11 x10 0 x21 x10 A 0 xs1 x10
1 0 0 x11 x11 x12 x20 x10p x p 1 0 0 0 x21 x11 x22 x20 x2 p x p B 1 0 0 0 0 xt1 x11 xs 2 x2 xsp x p 1 1 1 1 x12 x2 x1 p x p 1 1 x1 x2 x1 p x p 22 2 1 1 1 xt12 x2 xtp x p
L(l1 , l2 , l p ) li 0, j 1, 2, p
的解。
四.计算步骤
(1)先将原始数据写成矩阵形式。组A的数据矩阵:
0 x11 0 0 x21 W 0 xs1 0 x12 x10p 0 0 x22 x2 p 0 0 xs 2 xsp
x1
我们就可以根据这种趋势直观的做出某些判断。
例如,若某个预测时期的数据对应的点为“ ”则 我们应判断这一时期为畅销期,若对应点为“ ”则应判 断这一时期为滞销期。因此,在预测时,重要的问题是 要找出分界线l,其方程为 c0 c1 x1 c2 x2 0 使得当某个时期的数据( x1 , x2 ) 为已知时代入上式左端, 若有 c0 c1 x1 c2 x2 0 即 c1 x1 c2 x2 c0 则预测这时期为畅销期,若有 c0 c1 x1 c2 x2 0 即 c1 x1 c2 x2 c0 则预测这个时期为滞销期。