判别分析方法与SPSS分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a
Count %
破 产企 业 为 1, 正 常 运行 企 业 为 2 1 2 Ung rouped cases 1 2 Ung rouped cases 1 2 1 2
Total 17 21 8 100.0 100.0 100.0 17 21 100.0 100.0
a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 81.6% of orig inal g rouped cases correctly classified. c. 78.9% of cross-validated g rouped cases correctly classified.
判别分析方法
基于SPSS应用软件
一、判别分析意义
判别分析是根据表明事物特点的变量值和它们所属 的类,求出判别函数。根据判别函数对未知所属类别的 事物进行分类的一种分析方法。
在自然科学和社会科学的各个领域经常遇到需要对 某个个体属于哪一类进行判断。如动物学家对动物如何 分类的研究和某个动物属于哪一类、目、纲的判断。 不同:判别分析和聚类分析不同的在于判别分析要 求已知一系列反映事物特征的数值变量的值,并且已知 各个体的分类(训练样本)。
待判 待判
距离的判别
由于已经知道所有点的类别了,所以可以求 得每个类型的中心。这样只要定义了如何计算距 离,就可以得到任何给定的点(企业)到这三个 中心的三个距离。 显然,最简单的办法就是离哪个中心距离最 近,就属于哪一类。通常使用的距离是所谓的 Mahalanobis距离(马氏距离)。用来比较到 各个中心距离的数学函数称为判别函数 (discriminant function). 这 种 根 据 远 近 判 别的方法,原理简单,直观易懂。
方法有
距离判别——根据个案与总体均值间的距离大 小的原则,进行判别。 贝叶斯判别——根据后验概率最大的原则。 典型判别——求原始变量的线性组合,使产生 的新变量之更能将类分开。 逐步判别——有逐步筛选的办法,将对判别有 贡献的变量选出。
例 中小企业的破产模型 为了研究中小企业的破产模型,选定4个经 济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企业 (2类)进行了调查,得如下资料:
Fisher's linear discriminant functions
F1 3.887 2.961x1 0.509 x2 1.533x3 9.397 x4 F2 6.664 2.303x1 2.815x2 2.902 x3 8.344 x4
错判和正判的结果。标志处是回代核实和交叉核实的 正判率。
F 2.947 x1 1.291x2 0.767 x3 0.590 x4 1.648
典型变量在两类的均值。
Functions at Group Centroids 破 产企 业 为 1, 正 常 运行 企 业 为 2 1 2 Function 1 -.987 .799
Unstandardized canonical discriminant functions evaluated at g roup means
3.27 2.25 4.24 4.45 2.52 2.05 2.35 1.80 2.17 2.50 .46 2.61 3.01 1.24 4.29 1.99 2.92 2.45 5.06 1.50 1.37
.55 .33 .63 .69 .69 .35 .40 .52 .55 .58 .26 .52 .47 .18 .45 .30 .45 .14 .13 .71 .40
贝叶斯判别
根据后验概率最大的原则,在企业的财务状 况下,利用贝叶斯公式计算其判给各类的后验概 率,哪个概率越大,则判给哪类。
典型判别法(先计算新变量的线性组合)
考虑只有两个(预测)变量的判别分析问题。 假定这里只有两类。数据中的每个观测值是二维空 间的一个点。见图(下一张幻灯片)。 这里只有两种已知类型的训练样本。其中一类有38 个点(用“ o” 表示),另一类有 44 个点(用“ * ”表 示)。按照原来的变量(横坐标和纵坐标),很难将这 两种点分开。 于是就寻找一个方向,也就是图上的虚线方向,沿 着这个方向朝和这个虚线垂直的一条直线进行投影会使 得这两类分得最清楚。可以看出,如果向其他方向投影, 判别效果不会比这个好。 有了投影之后,再用前面讲到的距离远近的方法来 得到判别准则。这种首先进行投影的判别方法就是典型 判别法。
Classification Resultsb,c Predicted Group Membership 1 2 15 2 5 16 4 4 88.2 11.8 23.8 76.2 50.0 50.0 15 2 6 15 88.2 11.8 28.6 71.4
Original
Count
%
Cross-validated
F 0.67 x 0.266 x 0.672 x 0.115x
* 1 * 2 * 3
* 4
典型判别函数和原始变量的相关系数。
Structure Matrix Function 1 短 期支 付 能 力( 流 动 资 产 /流 动负 债 ) 总 负债 率 ( 现 金收 益 /总 负债 ) 收 益性 指 标 ( 纯 收入 /总 财产 ) 生 产效 率 性 指标 ( 流 动 资产 /纯 销售 额 ) .846 .751 .255 .031
类别 1 1 1 1 1 1 1Fra Baidu bibliotek1 1 1 1 1 1 1 1 1 1 2 2
.38 .19 .32 .31 .12 -.02 .22 .17 .15 -.10 .14 .14 -.33 .48 .56 .20 .47 .17 .58 .04 -.06
.11 .05 .07 .05 .05 .02 .08 .07 .05 -1.01 -.03 .07 -.09 .09 .11 .08 .14 .04 .04 .01 -.06
距离判别法的判别函数。在正态假定下,它与 贝叶斯判别等价。
Classification Function Coefficients 破 产企 业 为 1, 正 常 运 行企 业 为 2 1 2 总 负债 率 ( 现 金收 益 /总 负债 ) 收 益性 指 标 ( 纯 收入 /总 财产 ) 短 期支 付 能 力( 流 动 资 产 /流 动负 债 ) 生 产效 率 性 指标 ( 流 动 资产 /纯 销售 额 ) (Constant) -2.961 -.509 1.533 9.397 -3.887 2.303 -2.815 2.902 8.344 -6.664
总负债率 -.45 -.56 .06 -.07 -.10 -.14 -.23 .07 .01 -.28 .15 .37 -.08 .05 .01 .12 -.28 .51 .08
收益性指标 -.41 -.31 .02 -.09 -.09 -.07 -.30 .02 .00 -.23 .05 .11 -.08 .03 .00 .11 -.27 .10 .02
关于逐步判别的选项。
下面来观察输出结果
一、首先做全模型 要求: 所有本来均进入; 先验概率相等; 输出判别函数; 做交叉核实; 画分类散点地图; 保存后验概率,判类结果和判别函数得分。
标准化的典型变量的函数
Standardized Canonical Discriminant Function Coefficients Function 1 总 负 债率 ( 现 金 收益 /总 负 债) 收 益 性指 标 ( 纯 收 入 /总 财 产) 短 期 支付 能 力 ( 流 动 资 产 /流 动 负债 ) 生 产 效率 性 指 标( 流 动 资 产 /纯 销 售额 ) .670 -.266 .672 -.115
关于协方差矩阵的要求。
第五步:选择判类的一些前提条件和输出。
Prior—对先验概率的要求,上一个选项是先验概率相等,后一个是以样本 的频率为先验概率; Display-对输出数据的要求。Casewise result——所有个案的结果; Summary table——判别结果的表格; Leave-out-classification——交叉核实。 Use Covariance—利用什么矩阵计算判别函数。组内的协方差矩阵,还是分组协 方差矩阵; Plot—对典型变量进行分组,画直方图。 分类区域散点图。
-4
-3 -2
-1
0
1
2
3
-4 -2 0 2 4 6
逐步判别法(仅仅是在前面的方法中加入变 量选择的功能)
有时,一些变量对于判别并没有什么作用,为 了得到对判别最合适的变量,可以使用逐步判别。 也就是,一边判别,一边引进判别能力最强的变 量, 这个过程可以有进有出。一个变量的判别能力 的判断方法有很多种,主要利用各种检验,例如 Wilks’ Lambda 、 Rao’s V 、 The Squared Mahalanobis Distance 、 Smallest F ratio 或 The Sum of Unexplained Variations等检验。其细节这里就不赘述了;这 些不同方法可由统计软件的各种选项来实现。逐 步判别的其他方面和前面的无异。
短期支付能力 1.09 1.51 1.01 1.45 1.56 .71 .22 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27 2.49 2.01
生产效率指标 .45 .16 .40 .26 .67 .28 .18 .25 .70 .66 .27 .38 .42 .95 .60 .17 .51 .54 .53
第一步:打开判别分析的窗口。
变量全部选入。
变量逐步选入全部选入。
第二步:定义类的代码。
第三步:将变量放入独立变量框。
第四步:选择统计量。
Means-计算平均数; Univariate ANOVAs—讨论单变量的方差分析,看哪些本来在组 Box’s M统计量—总体的协方差相等的检验。
Fisher’s-判别函数的系数; Unstandardized 没有标准化的判别函数的系数;
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 待判 待判
.07 -.13 .15 .16
-.01 -.14 .06 .05
1.37 1.42 2.23 2.31
.34 .44 .56 .20
待判 待判 待判 待判
.29 .54
.06 .11
1.84 2.33
.38 .48
典型判别函数的系数,判别函数的得分由此计 算。
Canonical Discriminant Function Coefficients Function 1 总 负债 率 ( 现 金收 益 /总 负债 ) 收 益性 指 标 ( 纯 收入 /总 财产 ) 短 期支 付 能 力( 流 动 资 产 /流 动负 债 ) 生 产效 率 性 指标 ( 流 动 资产 /纯 销售 额 ) (Constant) Unstandardized coefficients 2.947 -1.291 .767 -.590 -1.648