利用SPSS进行判别分析的几个问题的说明_陈敏琼

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

趷趦 现代计算机 2015.02 中
研究与开发
k
Σμr
k
ቤተ መጻሕፍቲ ባይዱ
Σ μ= r=1
k
,B= (μr-μ)(μr-μ)', A=kΣ
r=1
B,A 分 别 称 为 k 个 总 体 组 间 离 差 阵 与 组 内 离 差
阵 , 则 有 结 论 [1~2]:
设 Σ-1B 的非零特征根为 λ1≥λ2≥…λp>0, 对应的
单位特征向量分别为 l1,l2,…,lp,令:
0 引言
判别分析是根据观测到的样品的若干数量特征 (称为因子或判别变量)对样品进行归类、识别,判断其 属性的预报(预测)的一种多元统计分析方法。 其基本 原理大致为:建立判别函数,给出判别准则,最后将待 判样品代入判别函数进行判别。 根据建立判别函数的 方法的不同,具体可分为距离判别与 Bayes 判别,Bayes 判别法又可分两种: 最大后验概率法与最小误判损失 法。 还有一种先对样品进行投影后再采用距离判别的 方法,即 Fisher 判别法,这三种方法是判别分析最常采 用 的 方 法 。 在 SPSS 操 作 中 只 能 实 现 Bayes 判 别 法 与 Fisher 判别法两种,并且这两种方法的操作是合在一起 进行的,输出结果也比较混乱,据经验归纳,对于初学 者来说常会提出以下几点疑问:
(1)SPSS 只能完成 Bayes 判别与 Fisher 判别,无法 直接完成距离判别;
(2)SPSS 中 Bayes 判 别 与 Fisher 判 别 的 操 作 没 有 分开进行;
(3)SPSS 中给出的判别表达式(投影函数)都是针 对协方差阵相等的情形下给出的, 对于协方差阵不相 等的情况须手动计算。
②打开 Statistics 对话框,在 Descriptives 菜单下选 择:
Univariate ANOVAs, 对各类中同一自变量均值都 相等的假设进行检验,输出单变量的方差分析结果。
Box's M ,对各类的协方差矩阵相等的假设进行检 验。
在 Function Coefficients 菜单下选择: Fisherh's:给出 Bayes 判别函数系数 Unstandardized: 给 出 未 标 准 化 的 典 型 判 别 系 数 (Fisher 投影函数)。 ③打开 Classify 对话框: 在 Prior Probabilities 菜单下 , 选择先验概率赋值 方式(此项为 Bayes 判别选项): All groups equal:各类先验概率相等(若选此项,得 出结果便为距离判别法结果); Compute from groups sizes: 各类的先验概率 与 其 样本量成正比(本例选择)。 在 Use Covariance Matrix 菜单下,选择计算中使用 的共同协方差矩阵的估计方式: Within-groups: 使用合并类内协方差矩阵进行分 类(系统默认)(本例选择); Separate-groups:使用各类协方差矩阵进行分类。 在 Display 菜单下,选择生成到输出窗口中的分类 结果(此项为 Bayes 判别选项)。 Casewise results:输出每个观测量包括判别分数实 际类预测类(根据判别函数求得的分类结果)和后验概 率等; Summary table: 输出分类的小结给出正确分类观 测量数(原始类和根据判别函数计算的预测类相同)和 错分观测量数和错分率(本例选择)。 Leave-one-out classification:输出交互验证结果。 在 Plots 菜 单 下 ,选 择 要 求 输 出 的 样 品 投 影 图 (此 项为 Fisher 判别选项)。 Combined-groups:生 成 一 张 包 括 各 类 的 散 点 图 ( 本
gr (x) =qrfr (x) =exp (-
1 2
(d2 (X,Gr) +ln |Σr|-2lnqr)),
r=1,2,…,k
进一步可简化为:
gr(x)=d2(X,Gr)+ln|Σr|-2lnqr r=1,2,…,k (4)
判别准则为:gt(x) min gr(x),则判样品 X∈Gt。 1≤r≤k
(4)SPSS 判别以 Bayes 判别为主,主要菜单与选项 都是针对 Bayes 判别分析设置, 并且最终保存的判别 结果也是以 Bayes 判别为依据;Fisher 判别操作仅给出 投影表达式、各类投影中心坐标及投影分界图,最终判 别结果须我们自己根据各类投影中心坐标或投影分界 图 去 做 判 别 [5]。 2.2 例子说明
研究与开发
文 章 编 号 :1007-1423(2015)05-0034-07
DOI:10.3969/j.issn.1007-1423.2015.05.007
利用 SPSS 进行判别分析的几个问题的说明
陈敏琼
(中山大学新华学院,广州 510520)
摘要: 判别分析是多元统计分析中最常用的方法之一,但由于其原理的复杂性与方法的多样性,使其成为《多元统计分析》 课程学习特别是 SPSS 软件操作学习的难点之一。 为此,对判别分析的几种方法的原理进行总结,针对利用 SPSS 进行 判别分析过程中常见的若干疑点,先从理论上做推导说明,结合例子对 SPSS 判别分析的步骤和输出结果作详细解释 和说明。 关键词: 判别分析; SPSS 判别分析; 步骤; 解释说明 基金项目: 中山大学新华学院 2014 年院级教改项目(No.2014J001)
(2)
判别准则为:gt(X)=max gr(X),则判样品 X∈Gt。 1≤r≤k
趲趦 现代计算机 2015.02 中
研究与开发
距离判别法思想很简单,适用条件也很宽松,只须
知道各类的均值和协方差阵即可, 实际应用中常用样
本均值与样本协方差阵来估计。
1.2 Bayes 判别
此处仅介绍 SPSS 能操作完成的最大后验概率法:
假设有 k 个 p 维的总体 G1,G2,…,Gk,各总体的期 望 与 协 方 差 阵 分 别 为 μr,Σr>O,r=1,2,… ,k,且 已 知 若 Σ1=Σ2=…=Σk=Σ,Fisher 判别法的思想是先 对样品进行 投影再采用距离判别法判 别 ,寻 找 的 投 影 函 数 F(X)= a'X,a∈Rp 必 须 使 得 投 影 后 的 各 总 体 间 差 异 能 尽 可 能 大地拉开,若记:
li' li'
Σli Σli
=1,i=1,
2,…,p,即对每一总体来说投影后的各指标的方差为 1。
故对于待判样品 X, 只须计算其投影后的点到各
类总体投影后中心的欧氏距离再作判别, 即投影后可
建立判别函数:
gr (X) =(F1(X) -F1(μr))2+(F2(X) -F2(μr))2+ … +(Fp
①如何利用 SPSS 完成距离判别? ②SPSS 菜 单 中 哪 些 选 项 是 针 对 Bayes 判 别 设 置 的,哪些选项是针对设置的? ③SPSS 输出结果哪些部分是 Bayes 判别结果,哪 些部分是 Fisher 判别结果? ④SPSS 输出判别函数或投 影 函 数 对 应 的 理 论 表
某地市场上销售的收录机有多种牌号, 该地某商 场从市场上随机抽取了 13 种牌号的收录机, 其中有 4 种畅销,有 5 种销售一般,有 4 种滞销。 所调查的各种 收录机的质量评分、 功能评分和销售价格资料如下表 所示:
表 1 某地各种收录机的销售状况
其中变量 x1 指“质量评分”,x2 指“功能评分”,x3 指 “销售价格”,g 指“销售状态”:g=1 指代“畅销”状态,g= 2 指代“平销”状态,g=3 指 代“滞销”状态,14 号样品为 待判样品。
x1~x3 进入 Independents 框,作为判别分析的基础数据 变量。 从对话框左侧的变量列表中选分组变量 g 进入 Grouping Variable 框,并点击 Define Range...按钮,在 Define Range 对话框中, 定义判别原始数据的类别数,在 Minimum(最小值)处输入 1,在 Maximum(最大值)处输 入 3。
(X)-Fp(μr))2,r=1,2,…,k
(8)
判别准则为: gt(X)= min gr(X),则判别样品 X∈Gt。
1≤r≤k
当然, 实际中只须取前一两个投影函数即可将投 影后各类样品明显分开。
现代计算机 2015.02 中 趶趦
研究与开发
2 判别分析的 SPSS 操作步骤 2.1 判别分析的 SPSS 操作的几点说明
a1= l1
,a2= l2
, …,ap= lp
,则
姨l1' Σl1
姨l2' Σl2
姨lp' Σlp
可分别建立第 i 个投影函数为:
Fi(X)=ai'X= li' X, i=1,2,…,p
(6)
姨li' Σli
注:由于投影函数的不唯一性,有时为了计算上方
便可对投影函数做一些线性变换, 如为了将 k 个总体
gr(X)=d2(X,Gr)=(X-μr)'Σr-1 (X-μr),
r=1,2,…,k
(1)
判别准则为:gt(X)= min gr(X),则判样品 X∈Gt。 1≤r≤k
特别地,若 Σ1=Σ2=…=Σk=Σ,则判别函数可简化为 线性函数:
gr(X)=μr'Σ-1X-
1 2
μr'Σ-1μr,
r=1,2,…,k
gr(x)=P(X∈Gr|X=x)=
qrfr(x)
k
,r=1,2,…,k
Σqrfr(x)
j=1
简化后为:
gr(x)=qrfr(x), r=1,2,…,k
(3)
判别准则为:
gt(X)=max gr(X),则判别样品 X∈Gt。 1≤r≤k
若 G1,G2,…,Gk 分别为 p 维正态总体,均值与协方 差阵分别为 μr,Σr>O,r=1,2,…,k,此时判别函数为:
特别地,若 Σ1=Σ2=…=Σk=Σ,则判别函数可再简化 为线性函数:
gr(x)=μr'Σ-1x-
1 2
μr'
Σ-1μr+2lnqr,r=1,2,…,k
(5)
判别准则为:gt(x)=max gr(x),则判样品 X∈Gt。 1≤r≤k
对 比 式 (2)和 式 (5)可 知 ,距 离 判 别 为 Bayes 判 别 法在各类总体为同方差的多维正态总体且先验概率相 同时有特殊情况。 1.3 Fisher 判别
0,r=1,2,…,k,i≠j,i,j=1,2,…,p。 其中 li'Σlj=0 是由于
li'
Σlj=
li' Blj λj
= lj' Bli λj
= λi lj'Σli λj
= λi λj
li'Σlj,
即对每一总体
来说投影后的各指标之间互不相关。
性质二:
坌X∈Gr,cov(Fi,Fj)=ai'cov(X,X)ai=
设有 k 个总体 G1,G2,…,Gk,已知这 k 个总体各自出现 的 概 率 (验 前 概 率 )为 q1,q2,… ,qk,各 总 体 有 概 率 密 度 函 数 f1(x),f2(x),… ,fk(x), 则 可 建 立 判 别 函 数 为 样 品 X=x 已知时,它属于 Gr 的后验概率 P(X∈Gr|X=x),即:
假设有一新厂商来推销其产品, 其产品的质量评 分 为 7.0,功 能 评 分 为 7.0,销 售 价 格 为 660 元 ,现 须 将 该产品的销售前景进行预测(归类)。
对本例采用 SPSS 进行判别分析的具体步骤如下: ①单击 Analyze→Classify→Discriminant,从对话框 左侧的变量列表中选中进行判别分析的有关变量
达是什么? ⑤利用 SPSS 进行 Fisher 判别时, 为何将样品投
影后按距离判别, 此处距离只要计算欧氏距离而非统 计学意义的马氏距离?
针对上述种种疑点下文将逐步给出详细解释说明。
1 判别分析常用的三种方法的原理总结
1.1 距离判别
设有 k 个总体,已知总体 Gr 的均值向量与协方差 阵 分别为 μr,Σr>O,r=1,2,…,k,对于 任 意 待 判 样 品 X, 可建立判别函数为:
的总的中心投至原点,投影函数可进一步变换为:
Fi(X)=ai' (X-μ), i=1,2,…,p
(7)
对 于 (7)式 给 出 的 投 影 表 达 式 易 知 有 以 下 两 点 性
质:
性质一:
坌X∈Gr,cov(Fi,Fj)=ai'cov(X,X)aj=
li'Σlj
=
姨li' Σli 姨lj' Σlj
相关文档
最新文档