判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经检验计算, F=33.18 > F0.01(7,16)=4.03,判别 函数有实际价值。
4. 费歇尔(Fisher)准则多级判别
4.1 概念
多总体Fisher判别法,与两总体Fisher判别法类似。 判别法类似 总样本容量为n、含m个变量的资料划分为G类,每 类的样本容量为n1, n2, … ,ng,且n=n1+n2+…+ ng。 线性判别函数基本表达式为:
z
费歇尔判别法基本特征:
线性判别 基本思路-类间距离最大、类内距离最小的原则确定 线性判别函数,再根据建立的线性判别函数判定待判 样品的类别。
z
Fisher判别法1936年提出,对总体的分布并无特 定要求。 费歇尔准则二级判别:只划分成两类的费歇尔判 别。
z
例:某气象站根据2个前期变量预报第二天是晴 天还是雨天。两个变量为:24小时的气压差 (x1)、温度露点差(x2)。 ① 据经验,当x1和x2大时,第二天晴天;当x1和x2小 时,第二天雨天。以线性组合函数y: y=c1x1 + c2x2
1.3 判别分析的种类
① 按判别的组数:两组判别和多组判别; ② 按区分不同总体所用的数学模型:线性判别和 非线性判别; ③ 按对参与分析变量的处理方法:逐步判别;非 逐步判别。 ④ 按判别准则不同:距离判别;费歇尔(Fisher)判 别;贝叶斯(Bayes)判别。
2 距离判别
基本思想
① 根据已知分类的数据,分别计算各类的重心即 分组(类)的均值 ② 判别准则是对任给的一次观测,若它与第i类的 重心距离最近,就认为它来自第i类。
所以判别函数为
判别函数为: y = 0.0815375 x1 + 0.001525 x2 + 0.00109125 x3
② 计算判别临界值y0
y
(1)
=
∑
k =1
3
(1) ck x k
= 12.1615
(1) ( 2)
y
( 2)
=
∑
k =1
3
( 2) ck x k
= 9.6266
n1 y + n2 y 所以:y0 = n1 + n2
式中-y称为(线性)判别函数, c1和 c2称为判别系数。
② 找到一个阈值yc:代入前期因子x1和x2,计算得到 判别函数值y0;如果y0> yc,预报为晴天,如果y0< yc,预报为雨天。 ③ 此即费歇尔准则二级判别法。
3.2 判别原则
判别分析关键-确定判别函数中的判别系数。 判别系数求解原则
dk = xk(A) - xk(B)
1 xk (B) = n2
∑x
t =1
n2
kt
(B)
3.4 判别函数的检验
判别分析是假设两组样品取自不同总体; 如两个总体的均值向量在统计上差异不显著,作 判别分析意义就不大。 所谓判别函数的检验就是检验两个正态总体的均 值向量是否相等
构造统计量F:
两总体相互靠近,错判概率大。 两个总体均值有显著差异,判别分析才有意义。
2.2 多总体距离判别
计算样本x到每个总体的距离di2(x∈Gi) i=1,2,…,k; 比较这些距离,如x距离总体Gi的距离最 短,则判x属于总体Gi 。 其它特征类似
3. 费歇尔(Fisher)准则二级判别
3.1 概念
从1995年世界各国人文发展指数的排序中,选取高 发展水平、中等发展水平的国家各五个作为两组样 品,另选四个国家作为待判样品作判别分析。
数据选自《世界经济统计研究》1996年第1期
序 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 出生时预期寿 命(岁) X1 76 79.5 78 72.1 73.8 71.2 75.3 70 72.8 62.9 68.5 69.9 77.6 69.3 成人识字率 (%) 1992 x2 99 99 99 95.9 77.7 93 94.9 91.2 99 80.6 79.3 96.9 93.8 90.3 调正后人均 GDP 1992 x3 5374 5359 5372 5242 5370 4250 3412 3390 2300 3799 1950 2840 5233 5158
特点
① 计算相对简单,容易理解; ② 对各类(或总体)的分布,无特定要求。
距离判别步骤
① 确定类别,划分成G类,样品类别归属; ② 确定各类的类中心(重心),即分组 (类)的均值 ; ③ 计算待判样品到各类的距离(一般采用样 品点到类中心的欧氏距离或马氏距离); ④ 最后根据距离最小原则,判定待判样品属 于的类别。
判别分析
(Discriminant analysis)
1. 背景和概念 2. 距离判别 3. 费歇尔(Fisher)准则二级判别 4. 费歇尔(Fisher)准则多级判别 5. 逐步判别
1 背景和概念
1.1 背景
实际问题中,经常遇到需要根据事物的各种特性 来判断其类别的问题。例如: 1) 根据人均国民收入、人均消费水平、人均住房面 积等,判定一个国家的经济发展程度所属类型。 2) 根据土样的理化指标,判断所属土壤类型。 3) 根据植物标本的花瓣、花弯等指标,判断它属于 哪一品种。 4) 根据某些气候指标,判断晴雨天气状况; 5) 根据发掘出的人头盖骨的高、宽等,判断性别。
⎧ x ∈ G1 ⎪ ⎨ x ∈ G2 ⎪ ⎩待判
若d 2 ( x, G1 )〈 d 2 ( x, G2 )
若d 2 ( x, G1 ) = d 2 ( x, G2 )
若d 2 ( x, G1 )〉 d 2 ( x, G2 )
距离判别准则颇合理,但有时也会错判:
如X来自G1,但却落入D2,被判为属G2,错判概率为图 中阴影面积。
s kl =
∑ [x
t =1
n1
kt
(A)- x k (A) ][x lt (A)- x l (A) ]
kt
+
z
∑ [x
t =1
n2
(B)- x k (B) ][x lt (B)- x l (B) ]
n1和n2分别为A、B两类的观测样品个数
1 n1 xk (A) = ∑ x kt (A) n1 t =1
1.2 概念
判别分析:
在事物已分类的基础上,根据各类样品的数量特征,建 立含多个变量的一个或多个判别函数,并根据判别函数 对新样品进行判别分类。
判别分析与聚类分析不同:
聚类分析:对目前研究考察的样品,并无已知的类别可 供参照,甚至该分成多少类别也不清楚,只能根据样本 数据计算距离,并把相互接近的样品并成一类。 判别分析:事先知道一定数量样本的类别,并按一定原 则总结出归类的规律,在数学上建立起判别公式。以后 遇到新的样品时,根据判别公式判断即可。 判别分析和聚类分析可联合使用。当总体分类不清楚 时,可先用聚类分析对原来的一批样品进行分类,然后 再用判别分析建立判别式以对新样品进行判别。
3.8 实例2-费歇尔二级判别
判别分析在水文地质分析中的应用
杜绍敏, 赵秀云, 彭卉 黑龙江水专学报 2000,第27卷第4期
矿井涌水水源的判别分析
采矿生产过程中,正确判断矿井涌水水源(基岩水 和湖水),对于做好水患预测,及时判定防治水害 措施,保证矿井安全生产,具有极其重要的意义。 根据殷庄煤矿涌水水源水质特征 , 选取 Ca+2 、 Na+ 、 Ma+2 、 Cl- 、 SO4-2 、 HCO-3 、 pH 值 7 项 指 标 为 判 别 变 量 , 对采集的 24 组 可能发生涌水的 基岩水(16组)及 湖水(8组)进行判别计算。 建立判别函数为:
⑤ 对判别效果作检验
F = 12.6746 > F0.05 (3, 6) = 4.76
所以在检验水平a=0.05下判别有效 ⑥ 待判样品判别结果
序号 11 12 13 14 国 家 中 国 罗马尼亚 希 腊 哥伦比亚 判别函数y的值 7.8342 8.9464 12.1809 11.4169 判属类别 2 2 1 1
类别
国家名称
第一类 (高发展 水平 国家 ) 第二类 (中等发 展水 平国 家)
美国 日本 瑞士 阿根廷 阿联酋 保加利亚 古巴 巴拉圭 格鲁吉亚 南非 中国 罗马尼亚 希腊 哥伦比亚
待判样品
步骤
① 建立判别函数,得Fisher判别函数的3个系数
⎡0.0815375⎤ ⎡c1 ⎤ ⎡d1 ⎤ ⎢c ⎥ = S −1 ⎢d ⎥ = 1 Σ ˆ −1 ( X (1) − X ( 2 ) ) = 1 × a = ⎢0.001525 ⎥ ⎥ ⎢ ⎢ 2⎥ ⎢ 2⎥ 8 8 ⎢ ⎢ ⎥ ⎢ ⎦ ⎣0.00109125 ⎣c 3 ⎥ ⎦ ⎣d 3 ⎥ ⎦
在 y(1) > y(2) 成立时, 若 y > y 0 , 则预报1类出现,否则 2类出现 在 y(1) < y(2) 成立时, 若 y > y 0 , 则预报 2 类出现,否则 1类出现
3.6 实例1-费歇尔二级判别
人文发展指数
9 联合国开发计划署1990年5月发表第1份《人类发展报告》 中建议:目前对人文发展的衡量应以人三大要素为重点, 即出生时预期寿命、成人识字率和实际人均GDP。 9 三个指标的数值合成为一个复合指数-人文发展指数。 9 资料来源:UNDP《人类发展报告》1995年。
k =1
检验结果 若F≥Fa,则认为判别的两类总体有 显著差异, 即判别函数是显著的,否则 相反。
3.5 新样品判别归类
z
确定判别临界值( 阈值)y0:取两类y值重心:
n 1 y(1) + n 2 y(2) y0 = = n1 + n 2
∑y
t =1
n1
t
(1) +
∑y
t =1
n2
t
(2)
n1 + n 2
2.1 两总体距离判别
ቤተ መጻሕፍቲ ባይዱ
设有两总体G1和G2,x是一个P维样本,定义样本x 到总体G1和G2的距离d2(x,G1)和d2(x,G2) 若样本x到总体G1的距离小于到总体G2的距离,则 样本x属于总体G1,反之则样本x属于总体G2;若 样本x到总体G1和G2的距离相等,则让它待判。 这个准则的数学模型可描述为:
式中:样品划分为A、B两类,样品个数分别为n1、n2。
类间差异的平方和Q:
Q = y(A) -y(B)
类内平方和F:
n1 2
[
]
2
F = ∑[yt (A)- y(A) ] + ∑[yt (B)- y(B) ]
t =1 t =1
n2
2
则:
I =
Q F
3.3 判别系数的确定
对于含m个变量的判别函数:
y = c1x1 + c 2 x 2 + L + c m x m
根据微分学求极值原理,对I=Q/F求偏微分:
∂Q ∂F F -Q ∂C k ∂C k ∂I = =0 2 ∂C k F
1 ∂Q ∂F = I ∂C k ∂C k
求解结果:
z
C=S d
-1
S为类内离差乘积和矩阵;d为A、B两类的均值差异矩阵;
¾ 类间差异大,类内差异小,使得类间差异与类内差异的 比值达到最大。 ¾ 判别函数划分后,同类样品在空间上的分布集中,而不 同类之间距离较远,差别明显。
类间差异与类内差异的数学表达。
I=
[y(A) - y(B) ]
∑
n1 t =1
2
[y t (A) - y(A) ] 2 +
∑
n2
t =1
[y t (B) - y(B) ] 2
(n 1 + n 2 - m - 1) F= (n 1 + n 2 - 2)m
⎛ n 1n 2 ⎜ ⎜n +n 2 ⎝ 1
⎞ 2 ⎟ ⎟D ⎠
F统计量服从自由度为m和(n1+n2-m-1)的F分 布, m为参与判别分析的变量个数。D2 指两类间 的马氏距离,计算公式为:
2 m
D = ( x A − x B )' S −1 ( x A − x B ) = (n - 2) ∑ (c k d k )
③ 判别准则
= 10.8941
Qy
(1)
>y
( 2)
Q
⎧当 y > y 0时 , 判 X ∈ G 1 ⎪ ⎨当 y < y 0时 , 判 X ∈ G 2 ⎪当 y = y 时 , 待判 0 ⎩
④ 对已知类别的样品判别归类
序号 1 2 3 4 5 6 7 8 9 10 国 家 美 国 日 本 瑞 士 阿根廷 阿联酋 保加利 亚 古 巴 巴拉圭 格鲁吉 亚 南 非 判别函数y的值 12.2122 12.4812 12.3731 11.7450 11.9960 10.5851 10.0078 9.5460 8.5968 9.3973 原类号 1 1 1 1 1 2 2 2 2 2 判归类别 1 1 1 1 1 2 2 2 2 2