判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Sig. .000 .000 .000 .001
各指标各组均值均不相等,分类较好, 预计模型的预测能力也较好; 反之则反。
逐步法对变量进行筛选
Variables Entered/Removeda,b,c,d
Wilks' Lambda Step 1 2 Entered alpha_at pa Statistic .539 .439 df1 1 2 df2 df3 3 96.000 3 96.000 Statistic 27.395 16.141 Exact df1 3 6 F df2 96.0 190 Sig. .000 .000
正常人 .539 .038 -14.414
肝硬化 .455 .039 -12.582
Fisher's linear discriminant functions
1 2 4 * 3
Unstandardized coefficients
未标化典型判别函数及第一例的坐标值:
Territorial Map D1= -2.515809-0.033497*pa+0.008437 *alpha_at = - 0. 22 D2= -4.41889 + 0.119948*pa+0.005366 * alpha_at= - 1.01 第一条记录的坐标值,属于误判。
假设有两个总体G1和G2, 如果能够 定义点x到它们的中心的距离D(x,G1) 和D(x,G2), 则
如果D(x,G1) < D(x,G2),则 x∈G1
如果D(x,G2) < D(x,G1),则 x∈G2
如果D(x,G1) = D(x,G2),则待判
Fisher判别法
一种先投影的方法。
试根据这6项指标做心梗组与正常组的判别分 析。
心肌梗塞病的危险因素.sav
6
心梗组
tc 245 236 238 233 240 235 204 200 297 177 200 195 166 144 233 … tg 157 275 354 250 149 166 365 95 240 97 172 211 217 111 107 hdlc ldlc 38 168 40 125 38 126 31 150 35 170 40 164 38 90 43 100 38 207 49 108 43 116 47 106 33 86 28 46 42 156 apoa 1.10 1.22 0.90 1.02 1.26 1.30 1.33 1.24 1.14 1.49 1.25 1.22 1.10 0.71 0.95 apob 1.01 1.12 1.06 0.98 1.13 1.15 0.95 0.98 1.51 1.02 1.03 0.94 0.74 0.65 0.77 tc 174 106 173 178 198 180 134 204 168 219 189 180 177 172 166 …
函数)的变量,另一个(group)是类别。 因此每一个人的得分在这 6个变量所构成的 6 维空间中是一个点(这个数据有60个点)。 由于已经知道所有点的类别(正常/心肌梗塞) 了,所以可以求得每个类型的中心。
定义了如何计算距离,就可以得到任何给定
的点(受试者)到这2个中心的距离。
距离判别法
对于第二个判别函数,pa起主要作用。
Bayes判别函数:
Classification Function Coefficients group 肝 癌 , AFP 肝 癌 , AFP 检 测 阳性 检 测 阴性 .424 .366 .055 .037 -18.280 -10.203
pa alpha_at (Constant)
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a. Maximum number of steps is 8. b. Minimum partial F to enter is 3.84. c. Maximum partial F to remove is 2.71. d. F level, tolerance, or VIN insufficient for further computation.
(One-way ANOVA)
Tests of Equality of Group Means
Wilks' Lambda pa .714 alpha_ag .720 alpha_at .539 hp .834
F 12.804 12.416 27.395 6.352
df1 3 3 3 3
df2 96 96 96 96
α1-AT, PA 进入了模型
没有进入了模型的变量:
Variables Not in the Analysis Step 0 Tolerance 1.000 1.000 1.000 1.000 .916 .721 .765 .719 .692 Min. Tolerance 1.000 1.000 1.000 1.000 .916 .721 .765 .667 .643 F to Enter 12.804 12.416 27.395 6.352 7.220 1.403 6.255 1.104 3.262 Wilks' Lambda .714 .720 .539 .834 .439 .516 .450 .424 .397
a. First 2 canonical discriminant functions were used in the analysis.
一共提取了两个典型判别函数,第一个函数解释了 所有变异的82.3%, 第二个函数解释了所有变异的17.7%,
Fishers判别函数的系数值:
Canonical Discriminant Function Coefficients Function pa alpha_at (Constant) 1 -.033 .008 -2.516 2 .120 .005 -4.419
判别函数的建立
为建立判别函数需要使用训练样本,即一 个已知实际分类且各指标的观测值已知的样 本。必须是由金标准确定的分类,如果错分 太多,判别函数的判别效率会大大下降。 用来建立判别函数的自变量可以是任意测 量尺度,甚至无序的多分类变量也可以。
判别函数的验证方法
1. 样本二分法:部分用于建立判别函 数,剩下的用于验证。 2. 交互验证: 依次去掉一例,然后用 建立起来的判别函数对该例进行判别。
函数。
Analyze → Classify → Discriminant
所有变量都进入模型
使用逐步法进行筛选。
给出Bayes判别 准则的判别函数 给出Fishers判别函数 的未标化系数
先验概率: 默认各组相等
也可以从样本的实际情况计算
交叉验证
绘领域图 (Fisher’s判别)
各组均值相等的检验
1
2
pa alpha_ag alpha_at hp pa alpha_ag hp alpha_ag hp
Eigenv alues Function 1 2 Eig envalue .908a .195a % of Variance 82.3 17.7 Cumulative % 82.3 100.0 Canonical Correlation .690 .404
标准化判别系数
Standardized Canonical Discriminant Function Coefficients
pa alpha_at
Function 1 2 -.281 1.006 .882 .561
通过标准化判别系数,可以了解每个变量对 判别值的相对作用。
对于第一个判别函数,alpha_at起主要作用,
影值所形成的类内的离差尽可能小,而不同 类间的投影值所形成的类间离差尽可能大。
有了投影之后,再用前面讲到的距离远近的
方法来得到判别准则。这种首先进行投影的 判别方法就是Fisher判别法。
Bayes判别法
贝叶斯(Bayes)判别思想是根据先验概率 求出后验概率,并依据后验概率的分布作出统 计推断。 所谓先验概率(如正常与发病概率相等 p=0.5;鸢尾花有三类p=0.333 ),就是用概率 来描述人们事先对所研究的对象的认识的程度; 所谓后验概率,就是根据具体资料、先验 概率、特定的判别规则所计算出来样本属于哪 一类的概率。它是对先验概率修正后的结果。
正常组
tg hdlc ldlc apoa apob 140 47 120 0.84 0.57 110 52 40 1.08 0.87 82 53 103 0.97 0.66 100 43 117 0.98 0.65 112 53 123 0.98 0.72 114 48 110 1.02 0.80 60 36 84 0.98 0.58 118 63 119 1.02 0.84 80 52 90 1.07 0.80 157 28 142 1.02 0.83 158 43 115 0.92 0.80 90 59 102 1.32 0.90 227 75 64 1.40 0.99 55 51 102 1.31 0.97 110 40 96 1.18 0.99
考虑只有两个(预测)变量的情形。
这里只有两类。数据中的每个观测值
是二维空间的一个点。见下图。
11
按照原来的变量(横坐标和纵坐标),很难将这两种点分开。
Fisher判别法
于是就寻找一个方向,也就是图上的红线方
向,沿着这个方向朝和这个红线垂直的一条 直线进行投影会使得这两类分得最清楚。
这个投影轴的方向需要满足:每一类内的投
Spss判别分析过程
为了进行肝癌的计算机辅助诊断,探讨以下哪些
指标对区别正常人、肝硬化和肝癌(又分为血清甲胎
蛋白(AFP)阳性和阴性)有鉴别价值。某医师对25 例正常人、15例肝硬化、40例AFP阳性肝癌和20例 AFP阴性肝癌患者的四种血清蛋白(PA, α1-AG, α1-AT, HP)进行观察,数据见discim.sav,请据此建立判别
2
判别分析与聚类分析有何异同?
在聚类分析中,一般事先并不知道或一
定要明确应该分成几类,完全根据数据 本身来确定。
在判别分析中,至少有一个已经明确知
道类别的“训练样本”,利用这个数据, 建立判别准则,并通过预测变量来为一 些不知道类别的观测值进行判别。
3
聚类分析数据格式
k
判别分析数据格式
判别分析的基本思路
设有G1、G2、…、GБайду номын сангаас个总体(类);
从不同的总体中抽出不同的样本
;
根据样本的指标→建立判别法则(什么
模型、哪些指标进入?)→判别新的样 品属于哪一个总体(类) ;
常用的判别方法有:距离判别、Fisher判
别、Bayes判别。
8
根据距离的判别
心肌梗塞病数据有6个用来建立判别标准(或
第16章 判别分析
Discriminant analysis
1
有什么用?
有一些动物(昆虫、鹌鹑等)的性别很难有肉眼 辨别,只有通过解剖才能够判别; 但是雄性和雌性昆虫在若干体表度量上有些综合 的差异。根据已知雌雄的昆虫体表度量(称为预 测变量)得到一个标准,并且利用这个标准来判 别其他未知性别的昆虫。 这样的判别虽然不能保证百分之百准确,但至少 大部分判别都是对的,而且用不着杀死昆虫来进 行判别了。
判别分析的基本模型
判别的过程是先建立一个判别函数, 利用此函数进行判别:
Y = a1X1+a2X2+……+anXn
Y为判别指标,可以是概率(Bayes),也 可以是坐标值(Fisher’s)。X1,…,Xn为反 映研究对象的特征变量,a1,…,an为各变量 的判别系数。
在判别分析时,判别变量较多时,判别函 数也往往有多个。
Multinomial logistic?
判别分析的例子
为研究心肌梗塞病的危险因素,某研究者考察 了2组人群(即心梗组与正常组)中血脂方面的6 项指标:tc(总胆固醇)、tg(甘油三酯)、hdlc (高密度脂蛋白胆固醇)、ldlc(低密度脂蛋白胆 固醇)、apoa(载脂蛋白AI)、apob(载脂蛋白 B)。指标的测定结果如下(每组各取了30例)。