判别分析实例汇总
10-判别分析
1
,判别规则简化为
1 I i Σ μi , ci μiΣ 1 μi , i 1, 2, , k 2
x l , 若I lx cl max I ix ci
1 i k
这里Ii′x+ci为线性判别函数。 • 当组数k=2时,可将上式写成
x 1 , 若I1x c1 I 2 x c2 x 2 , 若I1x c1 I 2 x c2
误判概率: P 2 |1 P 1| 2 1 2 2 2
误判概率图示:
抽取样本估计有关未知参数
• 设 x11 , x12 ,, x1n1 是来自组π1的样本, x21 , x22 ,, x2 n2是来自 组π2的样本,n1+n2−2≥p,则μ1和μ2的一个无偏估计分别为
• (3)称为交叉验证法或刀切法。该方法既避免了样本数据在构 造判别函数的同时又被用来对该判别函数进行评价,造成不 合理的信息重复使用,又几乎避免了构造判别函数时样本信 息的损失。 从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个 观测值构造判别函数,然后对x1j进行判别,j=1,2,⋯,n1。同 样,从组π2中取出x2j,用这一组的其余n2−1个观测值和组π1 的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,⋯,n2。 令n*(2|1)为样本中来自π1而误判为π2的个数,n*(1|2)为样本 中来自π2而误判为π1的个数,则两个误判概率P(2|1)和P(1|2) 的估计量为 n* 2 |1 n* 1| 2 ˆ ˆ P 2 |1 , P 1| 2 n1 n2 它们都是接近无偏的估计量。
ˆ ˆ W x a x x
多元统计分析课件第六章-判别分析例题与操作过程可修改文字
.
(一) 操作步骤 1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调 出判别分析主界面,将左边的变量列表中的“group”变量选 入分组变量中,将—变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判 别分析。
1
5
50.06 23.03 2.83 23.74 112.52 63.3
1
6
33.24 6.24 1.18 22.9 160.01 65.4
2
7
32.22 4.22 1.06 20.7 124.7 68.7
2
8
41.15 10.08 2.32 32.84 172.06 65.85
2
9
53.04 25.74 4.06 34.87 152.03 63.5
由此表可知,两个Fisher判别函数分别为:
y1 74.99 1.861X1 1.656X 2 0.877 X3 0.798X 4 0.098X 5 1.579X 6 y2 29.482 0.867X1 1.155X 2 0.356X 3 0.089X 4 0.054X 5 0.69 X 6
判别分析例题
例1:设有两个正态总体 G1 和 G2 ,已知:
(1)
ห้องสมุดไป่ตู้
10 15
(2)
20 25
18 12 1=12 32
20 7
2
=
7
5
试用距离判别法判断:样品:
X
20 20
,应归属于哪一类
判别分析例题 解:比较X到两个总体的马氏距离的大小
所以X属于正态总体 G1
例2:
08聚类分析与判别分析的例题
聚类分析与判别分析的例题1、某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
(1)根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。
(2)现有一新品牌的饮料再该超市试销,其销售价格为3.0,顾客对其口味的评分平均分为8,信任评分为5,试预测该饮料的销售情况。
2、银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄、受教育程度、现从事工作的年龄、未变更住址的年数、收入,负债收入比例、信用卡债务、其他债务等来判断其信用情况。
下表是某银行的客户资料中抽取的部分数据,(1)根据样本资料分别用距离判别法、贝叶斯判别法和费系尔判别法建立判别函数和判别规则。
(2)某客户的如上情况资料为(53,1,9,18,50,11,20,2.02,3.58),对其进行信用好坏的判别。
目前信用好坏客户序号已履行还贷责任1 23 1 7 2 31 6.6 0.34 1.712 34 1 173 59 8.0 1.81 2.913 42 2 7 23 41 4.6 0.94 0.944 39 1 195 48 13.1 1.93 4.365 35 1 9 1 34 5.0 0.40 1.30未履行还贷责任6 37 1 1 3 24 15.1 1.80 1.827 29 1 13 1 42 7.4 1.46 1.658 32 2 11 6 75 23.3 7.76 9.729 28 2 2 3 23 6.4 0.19 1.2910 26 1 4 3 27 10.5 2.47 0.363、从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行思想生化指标的化验:血清铜蛋白、蓝色反应、尿吲哚乙酸和中性硫化物,数据见下表。
试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。
判别分析案例
表示市场份额增长。
表示流动资金比例。
表示资金周转速度。
h
10
数gr据oup展示
表示类别
8个用来建立 判别标准的变量
•该数据disc.sav共有90个样本,其中30个属于上升型,30个属
于稳定性,30属于下降型。这个已知类别的数据称为一个“训
练样本”。
h
11
SPSS实现——数据读入 File → Open → Data → “Disc.sav”
h
6
逐步判别法
逐步判别法就是在前面的方法中加入变量选择功能。有时,一些变量对于判别没有什么作用,为了得到对判 别最合适的变量,可以使用逐步判别。
逐步判别的思想是先用少数变量进行判别,然后一边判别,一边引进判别能力最强的变量,同时淘汰判别能 力不强的的变量。
主要利用一些检验来判断变量的判别能力。
和它们已知的类别,找出分类标准,并对没分类的企业进行分类。
h
9
变量描述
变量名称 group
is se sa prr ms msr cp cs
涵义描述
表示类别。group-1代表上升,group-2代表稳定,group-3代表 下降。
表示企业规模。
表示服务。
表示雇员工资比例。
表示利润增长。
表示市场份额。
Prior Probabilities:设定先验概率。
All groups equal:各组等概率。
Compute from group sizesplay:输出。
Casewise result:每个观察单位判别分析后所属类别。
Limit cases to first []:前若干观察单位判别分析后所属类别。
距离判别法 Fisher判别法 Bayes判别法 逐步判别法
判别分析 实例共67页
35、不要以为自己成功一次就可以了 ,也不 要以为 过去的 光荣可 以被永 远肯定 。
55、 为 中 华 之 崛起而 读书。 ——周 恩来
判别分析 实例
31、别人笑我太疯癫,我笑他人看不 穿。(名 言网) 32、我不想听失意者的哭泣,抱怨者 的牢骚 ,这是 羊群中 的瘟疫 ,我不 能被它 传染。 我要尽 量避免 绝望, 辛勤耕 耘,忍 受苦楚 。我一 试再试 ,争取 每天的 成功, 避免以 失败收 常在别 人停滞 不前时 ,我继 续拼搏 。
谢谢!
5—陆 游 52、 生 命 不 等 于是呼 吸,生 命是活 动。——卢 梭
53、 伟 大 的 事 业,需 要决心 ,能力 ,组织 和责任 感。 ——易 卜 生 54、 唯 书 籍 不 朽。——乔 特
bayes判别分析案例及结果
例:研究某年全国各地区农民家庭收支的分布规律,根据抽样调查资料进行分类,共抽取28个省、市、自治区的六个指标数据。
先采用聚类分析,将28个省、市、自治区分为三组。
北京、上海、广州3个城市属于待判样本。
(家庭收支.sav)1.选中判别分析,2.选择Fisher 即bayes判别分析方法,易混!!!3.确定组别4. 选择保存结果5. 模型检验(即判别准确率)重要结果分类函数系数类别1 2 3食品.480 .473 .429 衣着 1.612 1.354 .933 燃料 2.421 2.189 .777 住房.555 .335 .052 用品及其它 1.032 .580 .847 文化支出 5.387 5.446 4.317(常量) -117.620 -89.052 -53.616Fisher 的线性判别式函数按照案例顺序的统计量案例数目实际组最高组第二最高组判别式得分预测组P(D>d |G=g)P(G=g| D=d)到质心的平方Mahalanobis距离组P(G=g| D=d)到质心的平方Mahalanobis距离函数1函数2 p df初始 1 1 1 .320 2 1.000 2.282 2 .000 22.754 3.163 -2.7172 1 1 .799 2 1.000 .449 2 .000 17.611 3.559 -1.6593 1 2**.095 2 .688 4.705 1 .312 6.283 2.737 1.2754 1 1 .797 2 .984 .453 2 .016 8.670 2.855 -.5695 1 1 .504 2 1.000 1.372 2 .000 20.770 4.205 -1.4616 1 1 .313 2 .996 2.321 2 .004 13.305 1.847 -2.1317 2 2 .788 2 .986 .476 1 .011 9.482 .566 .5958 2 2 .405 2 .992 1.806 1 .008 11.456 1.756 1.9139 2 2 .532 2 .987 1.263 1 .013 9.942 1.645 1.60710 2 2 .451 2 .999 1.593 1 .001 15.008 1.358 2.26911 2 2 .826 2 .984 .383 1 .015 8.758 .816 .71812 2 2 .769 2 .994 .524 1 .006 10.742 1.252 1.52313 2 2 .378 2 .861 1.945 3 .139 5.594 -.611 .53914 2 2 .219 2 .639 3.034 3 .361 4.179 -1.036 .60515 2 2 .304 2 .941 2.379 3 .059 7.903 -.943 1.59616 2 2 .935 2 .997 .134 1 .003 12.046 .874 1.48517 3 3 .387 2 .994 1.899 2 .006 12.039 -1.570 -1.44818 3 3 .801 2 1.000 .443 2 .000 19.449 -3.157 -1.07619 3 3 .413 2 .991 1.767 2 .009 11.104 -1.531 -1.30320 3 3 .570 2 .984 1.124 2 .016 9.398 -1.635 -.84721 3 3 .880 2 .997 .255 2 .003 11.791 -2.562 -.12822 3 3 .826 2 .993 .383 2 .007 10.155 -2.282 -.14023 3 3 .130 2 1.000 4.077 2 .000 29.305 -4.643 -.18324 3 3 .078 2 .995 5.095 2 .005 15.558 -3.369 1.52625 3 3 .323 2 1.000 2.260 2 .000 25.638 -3.294 -1.98926 未分组的1 .0002 1.000 20.223 2 .000 62.899 7.054 -3.27827 未分组的1 .0002 1.000 82.160 2 .000 150.236 11.796 -3.63028 未分组的1 .0052 1.000 10.431 2 .000 25.808 5.621 .759交叉验证a 1 1 1 .349 6 1.000 6.707 2 .000 27.3012 1 1 .025 6 .999 14.400 2 .001 29.4123 1 2**.087 6 1.000 11.051 1 .000 37.7404 1 1 .233 6 .900 8.064 2 .100 12.4595 1 1 .136 6 1.000 9.738 2 .000 28.7186 1 1 .182 6 .975 8.851 2 .025 16.1797 2 2 .249 6 .945 7.850 1 .043 14.0428 2 2 .734 6 .984 3.575 1 .016 11.8079 2 2 .039 6 .880 13.285 1 .120 17.26810 2 2 .078 6 .996 11.349 1 .004 22.46511 2 2 .701 6 .967 3.819 1 .031 10.68312 2 2 .461 6 .984 5.669 1 .016 13.90313 2 3**.129 6 .703 9.898 2 .297 11.62214 2 3**.444 6 .684 5.820 2 .316 7.36815 2 2 .123 6 .635 10.047 3 .365 11.15116 2 2 .000 6 .878 35.006 1 .121 38.97317 3 3 .114 6 .955 10.252 2 .044 16.40718 3 3 .925 6 1.000 1.939 2 .000 20.37119 3 3 .288 6 .959 7.373 2 .041 13.67820 3 3 .652 6 .963 4.186 2 .037 10.70721 3 3 .526 6 .991 5.139 2 .009 14.63422 3 3 .834 6 .986 2.792 2 .014 11.30223 3 3 .101 6 1.000 10.616 2 .000 39.41124 3 3 .018 6 .917 15.261 2 .083 20.05725 3 3 .268 6 1.000 7.611 2 .000 32.555对初始数据来说,平方Mahalanobis 距离基于典则函数。
判别分析例子
例1. 现有分别来自总体A 和总体B 的两组随机样本,样本量分别为5和6,样本均值分别为⎪⎪⎭⎫⎝⎛00和⎪⎪⎭⎫⎝⎛23,样本离差阵分别为⎪⎪⎭⎫⎝⎛4004和⎪⎪⎭⎫ ⎝⎛5005.2。
今欲判别一个新样本⎪⎪⎭⎫⎝⎛2.11来自哪一个总体:(1). 请使用距离判别法(采用马氏距离)对上述新样本进行判别(不假设两个总体有相同的自协方差阵)。
(2). 请采用Fisher 判别法求出判别函数,并利用此判别函数对上述新样本进行判别。
解答:(1)、先求取新样本到不同总体均值的马氏距离: 44.22.11002.114004151002.112212=+=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛=-AMD64.88.022232.115005.2161232.112212=+⨯=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛=-B MD显然有22B AMD MD<,故此,应判别新样本来自总体A 。
(2) 、先求取线性判别函数: ⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛+⎪⎪⎭⎫⎝⎛=-+=--9/213/600235005.24004)()(11)2()1(A BX XSSu线性判别函数为:X X u y u '⎪⎪⎭⎫⎝⎛='=9/213/6)(。
新样本的判别函数值:7282.02.119/213/6)()0(≈⎪⎪⎭⎫⎝⎛'⎪⎪⎭⎫ ⎝⎛=X u ; 总体A 的均值的判别函数值:0)(=A X u ;总体B 的均值的判别函数值:829.1239/213/6)(≈⎪⎪⎭⎫⎝⎛'⎪⎪⎭⎫⎝⎛=B X u ; 临界值:9977.00116829.1)()(≈+⨯=+++BA B B BA A A n n n X u n n n X u ;由于)()(B A X u X u <,且7282.0)()0(≈X u 小于临界值0.9977,所以应判别新样本来自总体A 。
多元统计第五章判别分析
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
判别分析实例汇总
例:人文与发展指数是联合国开发计划署于 1990 年 5 月发表的第一份《人类发展报告》中公布的。
该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。
衡量人生的三大要素的指标分别为:实际人均 GDP 指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按 2/3、 1/3 的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。
今从 2007 年世界各国人文发展指数 (2005 年) 的排序中,选取高发展水平、中等发展水平和低发展水平国家各 6 个作为三组样品,另选四个国家作为待判样品,资料如下表所示。
试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。
国家人均 GDP(美出生时的预成人识字率初等、中等和元) 期寿命(岁)(%) 高等教育入学率(%)第一类:高发美国41890 77.9 99.5 93.3 展水平国家德国29461 79.1 99.2 88希腊23381 78.9 96 99新加坡29663 79.4 92.5 87.3意大利28529 80.3 98.4 90.6韩国22029 77.9 99 96第二类:中等古巴6000 77.799.8 87.6发展水平国罗马尼亚906071.997.376.8家巴西8402 71.7 88.6 87.5 泰国8677 69.6 92.6 71.2data develop;input type gdp life rate zhrate@@;cards ;1 41890 77.9 99.5 93.31 29461 79.1 99.2 881 23381 78.9 96 991 29663 79.4 92.5 87.31 28529 80.3 98.4 90.61 22029 77.9 99 962 6000 77.7 99.8 87.62 9060 71.9 97.3 76.82 8402 71.7 88.6 87.52 8677 69.6 92.6 71.22 5137 71 92.6 81.12 8407 71.4 87.4 68.73 1550 62.6 48.6 58.13 1128 46.5 69.1 56.23 2299 49.8 67.9 62.33 2370 64.6 49.9 403 3071 73.7 90.3 63.93 3843 69.7 90.4 68.2. 31267 82.3 99 85.9. 3452 63.7 61 63.8. 6757 72.5 90.9 69.1. 11110 50.8 82.4 77;proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。
判别分析-实例-PPT
n2组数据为非购买者(B) 由已知变量X1,X2,将n1+n2=n组数据分成两大类; 购买者(A)—— X1i (A), X2i (A) (I=1,2,…,n1)
非购买者(B)—— X1 j (B), X2 j (B) (j=1,2,…,n2)
例:样本A,舒张血压为75mmHg,血浆胆固醇为150mg%, 分别代入方程后
G1=1.12364*75+0.21222*150-72.60310=43.5029
G2=0.94031*75+0.16755*150-49.34373=46.31202
由于G1小于G2,所以样本A判为正常人组(G=2)。
大家好
19
6、计算判别指标
y 1
C1
X
1
1
C2
X
1
2
C3
X
1
3
0.216928.29 0.01820 6.42 0.05604 6.00
2.251533
y 2
C1
X
2
1
C2
X
2
2
C3
X
2
3
0.21692 3.20 0.01820 3.80 0.05604 4.00
0.987464
判别指标为
大家好
35
大家好
36
大家好
37
大家好 待判样品
38
大家好
39
大家好
40
大家好
41
大家好
42
大家好
43
大家好
44
大家好
45
大家好
46
《判别分析》课件
在金融领域的应用
信用评分
利用判别分析模型,通过借款人 的特征和历史表现,预测其未来 违约风险,为金融机构提供信贷
决策依据。
市场风险评估
判别分析用于评估金融市场风险 ,通过分析市场数据和变量,预 测市场走势,帮助投资者做出合
理决策。
投资组合优化
利用判别分析对投资组合进行优 化,通过评估不同资产的风险和 回报,为投资者提供最佳资产配
对判别分析的未来展望
改进算法
针对判别分析的假设严格问题,未来研究可以尝试改进算法,放宽 假设条件,使其更适用于实际数据。
结合其他技术
可以考虑将判别分析与其它机器学习算法相结合,如神经网络、支 持向量机等,以提高分类性能和泛化能力。
拓展应用领域
随着大数据时代的到来,判别分析在各个领域的应用越来越广泛,未 来可以进一步拓展其应用领域,解决更多实际问题。
在市场营销中,判别分析可用于市场 细分,根据消费者的购买行为、偏好 和需求等因素,将市场划分为不同的 细分市场,帮助企业制定更加精准的 市场策略。
广告投放优化
通过判别分析对广告投放效果进行评 估和优化,基于历史数据和实时监测 数据,分析不同广告渠道和创意的表 现,提高广告投放的效率和效果。
06 判别分析的案例分析
金融领域的判别分析案例
信用风险评估
利用判别分析对银行客户进行信用风险评估,根据客户的历 史表现和其他相关信息,预测其未来违约的可能性,帮助银 行制定更加精准的信贷政策。
股票市场预测
通过判别分析对股票市场走势进行预测,基于历史数据和市 场信息,构建预测模型,以指导投资者进行投资决策。
1. 单变量判别函数
基于单个特征的判别函数。
2. 多变量判别函数
判别分析的案例分
§4. 实例分析
例1、 为研究舒张期血压和血浆胆固醇对冠心病的作用, 某医师测定了50—59岁冠心病人15例和正常人16例的舒张压和 胆固醇指标,结果如下表所示。试做判别分析,建立判别函数 以便在临床中用于筛选在临床中用于筛选冠心病人(数据文件: discriminant.sav)
均数(means)、标准差(standard deviation)和有效个案的 例数。
表1.3 分组统计量
Group Statistics
Mean
Std. Deviation
Valid N (listwise)
组别 1.00
2.00
Total
舒张压 胆固醇 舒张压 胆固醇 舒张压 胆固醇
Unweighted 12.3794 4.6931 10.6267 3.7687 11.5313
1 舒张压
胆固醇 (Constant)
Unstandardized coefficients
.613 .606 -9.638
7、分类过程摘要 表1.8分类过程摘要,显示参与分类的个案例数和剔除例数
表1.8分类过程摘要
Classification Processing Summary
Processed Excluded
冠心病人组
编号 舒张压 胆固醇
1
9.86
5.18
2
13.33
3.73
3
14.66
3.89
4
9.33
7.10
5
12.80
5.49
6
10.66
4.09
7
10.66
4.45
8
13.33
3.63
判别分析案例(多元统计)
实验、判别分析
一、实验名称:判别分析
二、实验目的:通过本实验掌握使用SPSS进行判别分析
三、实验过程:
1.判断解释变量是属性变量而解释变量是度量变量。
2.判断各组的变量得协方差矩阵相等,并用很简单的公式来计算判别函数和进行显著性检验。
3. 各判别变量间具有多元正态分布,精确计算显著性检验值和分组归属的概率。
四、分析结果:
特征值
函数特征值方差的 % 累积 % 正则相关性
1 18.207a91.6 91.6 .974
2 1.460a7.
3 98.9 .770
3 .212a 1.1 100.0 .419
a. 分析中使用了前 3 个典型判别式函数。
从表显示出典型分析最终形成三个判别函数,判别函数F1的特征值为18.207,判别函数F2的特征值为1.460,判别函数F3的特征值为0.212.可见判别函数F1的判别能力大于F2和F3。
该表是非标准化的典型判别函数系数,写成函数为:
对原始数据中未进行分类的职工进行典型的判别分析。
得到结果如上图,可知职工号为26、27、28三个职工分别被判入了第三类和第四类。
数据:
表示工作产量,表示工作质量,表示工作出勤
表示工作损耗,表示工作态度,表示工作能力
五、心得体会:
通过判别,我们知道了当遇到需要识别一个个体所属类别的情况时,就能够运用自己所学的判别分析的知识,去解决这一类的问题,并能够准确的将其分类,甚至在遇到多重共线性问题,也能使用判别分析来解决。
通过此次的报告过程,我们对判别分析有了更进一步得认识,受益颇多。
多元统计作业-判别分析
第五章 判别分析1、 已知两总体的概率密度分别为f 1(x )和f 2(x ),且总体的先验分布为p1=0.2,p2=0.8,误判损失为c (2|1)=50,c (1|2)=100. (1) 建立Bayes 判别准则(2) 设有一个新样品x 0满足f1(x 0)=6.3,f 2(x 0)=0.5,判定x 0的归属 解: (1)在X 处的值,判定:X ∈G 1,1()2()f x f x ≥2(1|2)1(2|1)q c q c ,即1()2()f x f x ≥8X ∈G 2,1()2()f x f x 2(1|2)1(2|1)q c q c ,即1()2()f x f x 8(2)1(0)2(0)f x f x =12.6≥8,故x 0∈G 12、某商学院在招收研究生时,以学生在大学期间的平均学分x 1与管理能力考试成绩x 2帮助录取研究生,对申请者划分为3类。
G 1:录取;G 2:未录取;G 3:待定。
下表记录了近期报考者的值和录取情况。
(1)在先验概率相等的假定下,进行Bayes 判别,并确定回代和交叉确认误判率;(2)在先验概率由样本比例计算的假定下,进行Bayes 判别,并确定回代和交叉确认误判率;(3)设有两名新申请者的(x 1,x 2)分别为(3.61,513)和(2.91,497),利用所建立判别准则判别他们应该归为哪一类? 解:(1)回代误判率:8/85=0.0941,交叉确认误判率同样为8/85=0.0941,第2号、3号、24号、30号、31号、58号、74号、75号被误判。
(2)号、30号、31号、58号、74号、75号被误判。
(3)建立Fisher线性判别准则W1=-151.902+60.431X1+0.172X2W2=-89.815+45.255X1+0.138X2W3=-110.818+53.024X1+0.137X2把(3.61,513)代入以上三式,W1=154.48991,W2=144.34955,W3=150.87964把(2.91,497)代入以上三式,W1=109.43621,W2=110.46305,W3=111.57084故第一个申请者判为W1(W1最大),第二个申请者判为W3(W3最大)。
第六章 bayes判别分析+ 举例
学 习 目 的
本章只介绍判别分析的几种最基本的方法: 贝 叶斯判别、距离判别及费歇判别.学习本章,要密 切联系实际, 着重理解判别分析的基本思想方法及 具体实现步骤,了解几种不同判别分析方法的优、 缺点及应用背景.
第六章
判 别 分 析
贝 贝 叶 叶 斯 斯 判 判 别 别
距 离 判 别 费 歇 判 别 费 歇 判 别
i =1
给定 R 的一个划分 R = ( R1 , R2 ,
Ri ∩ R j = φ (i ≠ j , i, j = 1,2,
, Rk ) , 即 ∪ Ri =R m ,
i =1
k
, k) , 由 R 规 定 的 判 别 准
空间 R m 的一个分划(有时也称为判别) 。即
R m = {R1 , R2 | R1 ∪ R2 = R m , R1 ∩ R2 = φ }
由 R 规定的判别准则如下: 如果 x 落在 R1 内,则判其来自总体 π 1 ; 如果 x 落在 R2 内,则判其来自总体 π 2 。 给定分划的损失函数及平均损失 设 C (1 | 2) 为样品 x 来自总体 π 2 而误判为总体 这 其 π 1 的损失, 一 误 判 的 概 率 记 为 P (1 | 2 , R ) , 中 R = ( R1 , R2 ) ; (2 | 1) 为样品 x 来自总体 π 1 而误判 C 于是有 为总体 π 2 的损失,误判的概率记为 P(2 | 1, R) 。
R m 的任一划分,即
(6-4)
* * 证明:设 R = ( R1 , R2 ) 由(6-4)给出, R * = ( R1 , R2 ) 为
* * * * R1 ∪ R2 = R m , R1 ∩ R2 = φ 。
g(R1 , R2 ) = q1C(2 | 1) P(2 | 1, R) + q2 C(1 | 2) P(1 | 2, R)
判别分析
判别分析假设有k 个总体,判别分析就是根据某个个体的观察值来推断该个体是来自这k 个总体中哪一个总体。
下面的例子说明判别分析有着广泛的应用。
(1)根据已有的气象资料,如气温、气压等判断明天是晴天还是阴天,是有雨还是无雨。
明天的天气情况是未来的行为。
因为是未来行为,难以得到它的完全信息。
已有的气象资料仅是它的一部分信息。
基于未来行为的不完全信息对未来行为进行预测是判别分析的一个应用。
(2)在非洲发现了一种头盖骨化石,考古学家要研究它究竟是像猿(如黑猩猩)还是像人。
倘若研究对象是活的,就能对他进行各方面的观察,有充足乃至完全的信息。
但研究对象早就死了,他的很多重要信息都丢失了。
考古学家只能根据不完全信息,如牙齿的长宽来进行判断。
当信息丢失后,对过去的行为进行判断是判别分析的另一个应用。
(3)有时人们难以得到完全的信息,这里有两种情况。
情况之一是信息完全只能来自破坏性试验。
例如,汽车的寿命只有在把它用坏之后才知道。
一般地,希望根据一些测量指标(如零部件的性能)就能事先对汽车的寿命作出判断。
情况之二是获得完全信息的代价太高。
例如,有些疾病可用代价昂贵的检查或通过手术得到确诊。
但人们往往更希望用便于观察得到的一些外部症状来诊断体内的疾病,以避免过大的开支和损失。
在完全信息难以得到时,对行为判断是判别分析的又一格应用。
正因为判别分析是基于不完全信息作出的判断,它就不可避免地会犯错误,一个好的判别法则错判的概率应很小。
除了错判概率,在判别分析问题中还应考虑费用,一个好的判别法则错误的损失应很小。
关于判别法则优良性的讨论从略。
判别分析问题的描述:设有k 个m 维总体k G G G ,,,21 ,其分布特征已知(如已知分布函数分别为)(,),(),(21x F x F x F k ,或知道来自各个总体的训练样本)。
对给定的一个新样品X ,我们要判断它来自哪个总体。
在进行判别归类时,由假设的前提,判别的依据及处理的手法不同,可得出不同判别方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
判别分析实例汇总
例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。
该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。
衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。
今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。
试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。
data develop;
input type gdp life rate zhrate@@; cards;
1 41890 77.9 99.5 93.3
1 29461 79.1 99.
2 88
1 23381 78.9 96 99
1 29663 79.4 92.5 87.3
1 28529 80.3 98.4 90.6
1 22029 77.9 99 96
2 6000 77.7 99.8 87.6
2 9060 71.9 97.
3 76.8
2 8402 71.7 88.6 87.5
2 8677 69.6 92.6 71.2
2 5137 71 92.6 81.1
2 8407 71.4 87.4 68.7
3 1550 62.6 48.6 58.1
3 1128 46.5 69.1 56.2
3 2299 49.8 67.9 62.3
3 2370 64.6 49.9 40
3 3071 73.7 90.3 63.9
3 3843 69.7 90.
4 68.2
. 31267 82.3 99 85.9
. 3452 63.7 61 63.8
. 6757 72.5 90.9 69.1
. 11110 50.8 82.4 77
;
proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。
由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。
*/
class type;
var gdp life rate zhrate;
run;
proc discrim pool=test slpool=0.05list; /*simple: */
class type;
priors'1'=0.3'2'=0.4'3'=0.3 ;
run;
proc discrim method=npar k=2list; /*simple: */
class type;
run;
proc candisc out=result ncan=2; /*simple: */
class type;
var gdp life rate zhrate;
run;
proc gplot data=reult;
plot can1*can2=type;
run;
proc discrim data=result distance list;
class type;
var can1 can2;
run;
表1 已知样本分类水平信息
表2 样本统计量信息
表3 类间距离及三类总体均值差异的显著性检
验
表3给出了类1与类2之间的马氏距离为37.58288,类1与类3之间的马氏距离为75.97603,类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值分布为22.54978,45.58562,22.54973,对应的检验概率分别为<0.0001, <0.0001,<0.0001, 说明三类总体均值两辆之间的差异是显著的,因此判别分析有意义。
表4 线形判别函数
由表4可写出线形判别函数如下:
高发展水平:
y1=-157.18932+0.00204gdp+1.66582life-0.37085r ate+1.72851zhrate
中等发展水平
Y2=-99.12840+0.0006250gdp+1.49389life-0.0926 2rate+1.19559zhrate
低发展水平:
Y3=-62.22473+0.0002576gdp+1.31631life-0.0894 0rate+0.85253zhrate
表5:用距离判别法判别分析结果
由表5得,最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。
表6 距离判别法判别分析结果小结
表6给出了分类错误信息,由输出结果可知分类错误的比率为0,即正确的比率为100%。
本程序中第二个判别分析过程的选项“pool=test”,要求进行类内协方差阵一致性检验,检验的显著性水平由选项”slpool=0.05”给出为0.05. priors语句给出了各发展水平国家的先验概率。
表7 分类信息及类内协方差阵一致性检验结果
表7表明3个类的先验概率分别为0.3,0.4,0.3,类内协方差阵行列式的自然对数不相等,表明类内协方差阵不相等,而卡方统计量值为46.068898,对应的概率是0.0008,在0.05的显著性水平下是显著的,即类内协方差阵存在显著差异。
由于类内协方差阵不等,所以判别函数应是二次函数。
表8 类间配对广义马氏距离
由表8可知,类内广义马氏距离不再为0,而且类间的广义马氏距离也不再相等,因而类内协方差和先验概率对后验概率的计算是起作用的。
表9 用Bayes判别法得到的判别分析部分结果
由表9可知,用BAYES判别法对待判样品的判别结果与距离判别法结果一致。
本程序中的第三个过程要求进行非参数分析,即对类密度函数进行非参数估计。
选项K=2要求用最近邻的两个样品进行密度函数估计,选项list要求输出重复替换归类结果。
该过程运行
结果如下:
表10 用NPAR方法得到的判别分析部分结
果
由表10可知,4个待判的样品中19号和21号归类结果与BAYES判别归类结果是一致的,但20号和22号所属类别则不能确定,这是与前面2中判别方法结果不一致的地方。
第四种FISHER判别:第一个过程执行典型判别分析。
第二个过程要求绘制第一个典型变量CAN1和第二个典型变量CAN2的散点图,以便更加直观了解分类情况。
第一、二个过程输出结果如下:
表11 典型相关的多变量检验结果
由上表对相关阵的显著性检验结果可知,至少有
表12 典型相关与特征值
上表可知,第一典型相关为0.969875,而第二典型相关为0.653396。
第一个特征值为15.8514,所占比例为95.51%,第二个特征值为0.7450,所占比例仅有4.49%,说明只需用第一个典型变量即可。
表13 原始变量的典型相关系数
由表12可得两个典型变量分别为:
CAN1=0.0002096544gdp+0.0382960552life-0.0346472260rate+0.0988009134zhrate
Can2=-0.0001135485gdp+0.0394378902life+ 0.0500655661rate+0.0390500134zhrate
表14 类间马氏距离及各类总体均值的显著
性检验
由上表的显著性概率可知,在0.05的显著性水平下,三个类的总体均值两两显著不等。
表15 线性判别函数
由表15得3个类的线形判别函数分别为:
第一类:Y1=-12.01131+4.88922can1-0.34378can2
第二类:Y2=-1.16768-1.07130can1+1.08981can2
第三类:y3=-7.56654-3.81792can1-0.74604can2
表16 由DISCRIM利用两个典型变量进行
判别部分样品归类结果
上表分类结果与前几种分类方法结果一样,总错判率为0.。