Ch07-判别分析统计操作
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Step 1 2
判别分析的每一步,模型的显著性检验。
结果分析(续) Summary of Canonical Discriminat Functions
Eigenvalues Funct ion 1 2 Eigenv alue % of Variance Cumulat iv e % .908a 82. 3 82. 3 .195a 17. 7 100.0 Canonical Correlat ion .690 .404
判别分析SPSS操作
Analyze/Classify/Discriminant
注意:将组别变量纳入Grouping Variable框,并对 其取值范围进行定义 注意:Independents框中自变量的进入方式,需要 根据实际需要,选择不同的方法(类似于多元线性 回归分析) 注意:Statistics/function coeffients/Fisher’s实际是 Bayes判别准则的判别函数
alpha_at alpha_at pa
判别分析的每一步,模型中所包含的变量。
结果分析(续)
Variables Not in the Analysi s Step 0 Toleranc e 1. 000 1. 000 1. 000 1. 000 .916 .721 .765 .719 .692 Min. Toleranc e 1. 000 1. 000 1. 000 1. 000 .916 .721 .765 .667 .643 F to Enter 12. 804 12. 416 27. 395 6. 352 7. 220 1. 403 6. 255 1. 104 3. 262 Wilks' Lambda .714 .720 .539 .834 .439 .516 .450 .424 .397 pa alpha_ag alpha_at hp pa alpha_ag hp alpha_ag hp
判别函数分析实例
为了进行肝癌的计算机辅助鉴别诊断,探讨 以下哪些指标对区别正常人、肝硬化和肝癌 (又分为AFP检测结果阳性和阴性)有鉴别 诊断价值,某医师对25例正常人、40例血清 甲胎蛋白阳性患者、20例血清甲胎蛋白阴性 患者及15例肝硬化患者的4种血清蛋白成分 (PA、a1-AG、 a1-AT、HP)进行观察,请 据此建立判别函数。
结果分析
Analysis Case Processing Summary Unweighted Cases Valid Excluded Missing or out-of -range group codes At least one miss ing disc riminating v ariable Both miss ing or out -of -range group codes and at least one missing disc riminating v ariable Tot al Tot al N 100 0 0 Percent 100.0 .0 .0
1
2
判别分析的每一步,排除在模型之外的变量的情况
结果分析(续)
Wilks' Lambda Exact F Lambda .539 .439 df 1 1 2 df 2 3 3 df 3 96 96 Statistic 27.395 16.141 df 1 3 6 df 2 96.000 190.000 Sig. .000 .000 Number of Variables 1 2
判别分析统计操作
判别分析简介
适用资料:样本的因变量已经有明确的分类, 需要从现有的已知的样本数据中寻找出一个 判别函数,对于将来的未知类别数据,即可 利用判别函数判断其类别归属。 判别函数的一般形式:Y=a1X1+…+anXn
注意:根据所用方法不同,判别指标Y可能是 概率,也可能是坐标值或分值
a. First 2 c anonic al dis criminant f unct ions were used in t he analy s is .
Wil ks' Lambda Tes t of Function(s) 1 tห้องสมุดไป่ตู้rough 2 2 Wilks' Lambda .439 .837 Chi-square 79. 090 17. 085 df 6 2 Sig. .000 .000
正常人
肝癌,AFP 检测阳性
肝癌,AFP 检测阴性
肝硬化
Tot al
pa alpha_ag alpha_at hp pa alpha_ag alpha_at hp pa alpha_ag alpha_at hp pa alpha_ag alpha_at hp pa alpha_ag alpha_at hp
Uns tandardized coef f icient s
非标化的典型判别函数的系数值:据此可以写出典型判别 函数:
Pooled within-groups correlations between discriminating v ariables and standardized c anonic al disc riminant functions Variables ordered by absolute size of correlation within f unction. *. Largest abs olute correlation between each v ariable and any discriminant f unction a. This v ariable not used in the analy sis.
判别函数效果的验证
自身数据验证:将样本依次代入判别函数,难以外推。 外部数据验证:再收集一部分数据,数据浪费,难以 保证数据同质 样本二分法:随机将样本分为两部分2:1,前者用于 建立、后者用于验证判别函数。要求样本量较大。 交互验证:建立判别函数时,依次去掉一例。可非常 有效地避免强干扰点。 Bootstrap法:充分利用样本信息,有效避免强干扰 点的影响,可以求出最稳健的判别函数。
0 0 100
.0 .0 100.0
记 录 纳 入 情 况
结果分析(续)
Group Statistics Valid N (listwise) Unweighted Weighted 25 25. 000 25 25. 000 25 25. 000 25 25. 000 40 40. 000 40 40. 000 40 40. 000 40 40. 000 20 20. 000 20 20. 000 20 20. 000 20 20. 000 15 15. 000 15 15. 000 15 15. 000 15 15. 000 100 100.000 100 100.000 100 100.000 100 100.000 group
At each step, the v ariable that minimizes the overall Wilks' Lambda is entered. a. Maximum number of steps is 8. b. Minimum partial F to enter is 3.84. c. Maximum partial F to remov e is 2.71. d. F lev el, tolerance, or VIN insuf f icient f or f urther computation.
各 变 量 与 主 成 分 的 相 关 系 数
结果分析(续) *****
Canoni cal Discri mi nant Functi on Coeffici ents Funct ion pa alpha_at (Constant) 1 -. 033 .008 -2.516 2 .120 .005 -4.419
常用判别方法
最大似然法:适用于自变量均为分类变量的情况 距离判别:适用于自变量均为连续变量的情况,对 变量分布类型无严格要求,且不严格要求总体协方 差阵相等 Fisher判别:适用于自变量均为连续变量的情况, 对于分布和方差都没有什么限制,可以直接用手工 计算的方法进行新观察对象的判别 Bayes判别:适用于自变量均为连续变量的情况, 对各类别的比例分布情况有一定的先验信息,强项 是进行多类判别,要求总体呈多元正态分布 注意:SPSS默认后两种判别法,用于Bayes判别式的 复选框名字是Fisher!
判别分析运行记录,可见第一步纳入了alpha_at, 第二步纳入了pa,本例中,分别纳入判别函数的变 量对正确判断都是有作用的。
结果分析(续)
Variables in the Analysis Step 1 2 Tolerance 1. 000 .916 .916 F to Remov e 27. 395 19. 884 7. 220 Wilks' Lambda .714 .539
Pooled wit hin-groups
The ranks and natural logarithms of det erminant s printed are those of the group c ov arianc e matric es.
Test Results Box's M F 81. 116 Approx. 8. 618 df 1 9 df 2 30599.954 Sig. .000
判别分析适用条件
自变量为连续型或有序分类变量,如果是无序分类 变量需要利用哑变量方式纳入。 自变量服从多元正态分布。 自变量在各组的方差齐,且协方差矩阵相等。 自变量间独立,不存在多重共线性。 样本量:样本量为所使用的自变量个数的10-20倍 以上,自变量个数在8-10个之间。 相对而言,判别分析在违反这些适用条件时,显得 非常稳健,它们对结果的影响其实不大
D1=-0.281*pa+0.882alpha_at D2=1.006*pa+0.561alpha_at
结果分析(续)
Structure Matrix Function alpha_at alpha_ag a hp a pa 1 .963* .497* .394* -.537 2 .269 .183 .391 .844*
各 组 例 数 报 告
结果分析(续)
Log Determinants group Rank 2 2 2 2 2 Log Det erminant 9. 940 14. 593 12. 094 12. 429 13. 465
正常人 肝癌,AFP 检测阳性 肝癌,AFP 检测阴性 肝硬化
各 类 别 协 方 差 相 等 的 检 验
Tes ts null hy pot hesis of equal populat ion cov ariance matrices.
结果分析(续)Stepwise Statistics
a,b,c,d Variables Entered/Removed
Wilks' Lambda Exact F Step 1 2 Entered alpha_at pa Statistic .539 .439 df 1 1 2 df 2 3 3 df 3 96.000 96.000 Statistic 27.395 16.141 df 1 3 6 df 2 96.000 190.000 Sig. .000 .000
典型判别函数的提取以及显著性检验
结果分析(续)*****
Standardized Canonical Discri mi nant Functi on Coefficients Funct ion pa alpha_at
1 -. 281 .882
2 1. 006 .561
两个典型判别函数中各个变量的标准化系数:可以用来判断 两个典型判别函数分别主要受哪些变量的影响较大,可写出 如下标准化的判别函数式: