spss--判别分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

表15-23
2.表15-24输出了系统聚类过程的详细步骤，可以看到，第一步，13和 16号样品先聚为一类；第二步，13、16和19号样品聚为一类等；直到最后全部样品聚为一类。
表15-24
3.图15-19输出了样品聚类的聚类图，可以看到，24份样品可聚为两类或3类。
结果表述：对24份样品根据12个指标进行系统聚类结果可聚成两类或3类。两类结果中，除 HP9外，其余聚成一类；3类结果中，HP9 独成一类，XX1~XX4为一类，剩余样品聚为一类。
变量设置在Variable View中设置11个变量，病变情况变量为 GROUP，轻度为1，中度记为2，重度为3.
选入分组变量，点击define range 定义分组变量的范围
选入进行判别分析的变量
选择所有自变量全部进入判别方程用逐步方法筛选变量进入判别方程选择符合某变量取值条件的观测进行分析，点击value设定符合条件的取值
无需事先指定
是否迭代类间相似矩阵
不用迭代
需要迭代
不用迭代
不用计算类间相似不用计算类间相似需计算类间相矩阵矩阵似矩阵
第五节判别分析 discriminant过程
一、统计方法回顾和聚类分析一样，判别分析也是对样本个体进行分类的一种统计方法。但是，判别分析和聚类分析最大的区别在于：1.聚类分析可以对样品分类，也可以对变量分类；但判别分析只能对样品分类。2.在聚类分析中，样品的类别事先是未知的，甚至样品可以分几类都不知道，只要知道样品各变量的观察值，就可以对样品进行分类；但判别分析必须事先明确样品可以分为几类，以及每个样品的类别。根据这批样品（称为训练样品）建立一个判别函数和判别准则，再对未知分类的新样品分类。SPSS中 Discriminant过程可提供两种方法判别分析方法：Fisher判别分析法和Bayes判别分析法。两种方法的区别在于两种分析方法准则不同，Fisher判别以距离作为判别准则，即样品与那个类的距离最短就分到哪一类；Bayes判别以概率作为判别准则，即样品属于哪一类的后概率最大，就分到哪一类。
4 表15-16给出各变量的单因素方差分析表，从方差分析表可以看到，五个聚类变量在各类间的均数差异都有统计学意义，表明对聚类分析均有作用。
5 表15-17 给出最终聚类后的各类的频数。此外，各观测的聚类结果及各观测到类中心的距离作为新变量保存到了原始数据集中。
结果表述
最终聚类结果，300例样品按5个变量聚为4类，各样品所属类别可见数据集中的新变量。
3.关于3种聚类方法的比较见表15-25.
两步聚类
样本量大小非常大数值变量分类变量对样品聚类
K均值聚类
比较大
系统Baidu Nhomakorabea类
小样本数值变量或分类变量对样品聚类或对变量聚类有多种选择
聚类变量
聚类对象距离测度
数值变量
对样品聚类
聚类数
数值变量和分类变量，用对数似然；欧氏距离全部是数值变量，可选欧氏距离可预先指定或自动需事先指定给出最优聚类数
在SPSS中，用户除了可以选择不断迭代更替类中心的聚类方法，也可以选择不要迭代更新类中心，而仅仅根据初始凝聚点聚类，将其作为最终的分类结果。
二、SPSS操作指南 15-2 用耳长（EC）、耳宽（EK）、耳外展距(EZ)、耳指数（EI）和外展指数（AI）5个数值变量对300份样品聚类。
原始数据例15-1
K均值聚类分析的具体步骤： 1.先选择K个初始凝聚点，把每个凝聚点作为此后聚类的核心。 2. 计算样本中每个观测到这些凝聚点的距离，按照距离最近原则将每个观测分类到凝聚点所代表的类中，得到一个初始分类方案。 3. 计算g个初始分类的“重心”——类内各样品观测值的均值作为新的凝聚点 4. 重复步骤2，直到前后两次的类均数变化小于一个给定的临界值或分类方案没有变化为止。
（一）变量设置在Viriable view中设置13个数值型变量NAME和X1~X12
1 Hierarchical Cluster 过程主对话框
选入聚类变量
选入标签变量
指定对样品聚类还是对变量聚类
2 statistics子对话框
指定结果输出统计量（Statistic）和统计图（Plot）
输出聚类过程的详细步骤输出聚类样品/变量的距离/相似性矩阵选择输出聚类结果
四、输出结果解释 2 这部分输出了逐步分析步骤，可以看到，最后变量vision、at、age、 bv进入模型，用了建立判别函数（表15-31 、 15-32、 15-33）
表15-31
表15-32、
表15-33
3.这部分输出了判别系数所对应的特征和占总特征值的百分比，以及两个判别函数的无统计学意义的检验。可以看到，建立两个判别函数，第一个函数的判别作用已占78% （表15-34、15-35）。
选择对变量标准化的一些方法，推荐使用标准化正态分布（Z scores）
选择对距离测度再变换的方法，通常很少用到绝对取值改变符号将范围设在0~1之间
5 Save 子对话框
创建新变量，保存聚类结果不保存设定某一聚类数时的聚类结果
设定某一聚类范围时的聚类结果
输出结果解释：
1.表15-23输出了有效的样品数和缺失值数以及所占的百分比
输出统计量
各组的均数和标准差各变量在各组间的单变量方差分析表，有助于判断各变量是否对判别有作用
输出矩阵
组间协方差齐性检验
组内相关系数内组内协方差阵各组协方差阵
总协方差阵
变量未标准化的判别系数，可方便手工回代考核，或对新样品手工计算判别
如果样本时随机抽样得到的，可选择用样本估计值估计先验概率，即样本中每组例数除以总数。默认各类先验概率相等用样本估计值估计先验概率输出判别考察结果输出每一例判别后的所属类别，即回顾性考核输出判别错判率结果表交叉验证考核结果选择计算所用的协方差阵组内协方差阵用变量均值代替缺失值
表15-2
2.表15-3给出迭代聚类过程，可以看到，第11次迭代后，聚类结果收敛。
3. 表15-14、表15-15给出最终的类中心坐标和最终类中心间两两距离。可以看到，最终类中心坐标为各类中的变量均值。
表15-14
表15-14给出最终的类中心坐标
表15-15
表15-15。最终类中心间两两距离
二 SPSS操作指南
例15-3 某研究院欲用气相色谱法分析细菌全细胞脂肪酸的含量来研究细菌的分类和鉴定。采用被试菌株共24株，其中空肠弯曲菌8株（标号CJ1~CJ8），结肠弯曲菌3株（标号 CC1~CC3）,幽门螺杆菌（标号HP1~HP9）和其他肠道杆菌 4株（标号XX1~XX4）。分别用气相色谱法测得各菌株的12 种脂肪酸的百分含量（变量名X1~X12）。要求依据变量 X1~X12对24个菌株进行聚类分析。（原始数据见例153.sav）
三应用注意事项 1 在运用K均值聚类方法时，研究者必须事先指定期望的聚类数K。因此，当对样品的分类一无所知时，只能尝试地定义不同的聚类数K，或者选用上一节的两步聚类法。 2 K均值聚类方法需要事先指定初始聚类点。初始聚类点可以人为地选择，或人为地先将所有样品分类，计算每一类的均值作为初始凝聚点。 3选用不同的变量对样品进行聚类可以得到不同的聚类结果。用于聚类的变量不同，聚类结果也不同。因此，在不同的准则下，比较聚类结果的优劣是没有意义的。 4 选择不同的聚类方法得到的聚类结果往往也不同，实际工作应结合背景选择适当的聚类结果。
选择计算所用的协方差阵组内协方差阵各组的协方差阵输出判别图所有类在一张图纸上各类图单独输出领域图
创建新变量，表示用判别函数判别的各样品所属类别，对应于回顾性考核
创建新变量，表示各观察单位的判别得分，两类判别时得分者高者为所属类别，多类判别时不如概率值直观
创建新变量，表示各观察单位被判入每一类的概率，最大概率值对应的类别为判定所属类别。
迭代更新聚类：是在初始凝聚点基础上不断迭代聚类，形成新的凝聚点，直到前后凝聚结果没有变化为止，系统默认不用迭代聚类：是在初始凝聚点基础上聚类，作为最终聚类结果。 1.K-means Cluster 过程主对话框
指定最大迭代次数，规定为1到 999之间的整数指定收敛准则，系统默认为初始凝聚点间最小距离的2%
二、SPSS操作指南例15-4 某医院眼科为研究视网膜病变严重程度和视网膜电图的关系，以便用各种指标来判断糖尿病病人的视网膜病变严重起来，测量了131例糖尿病病人的10个指标：年龄（AGE），患糖尿病年数（TIME），血糖水平（GLUCOSE）,视力（VISION）及视网膜电图的A波峰时（AT）、A波振幅（AV）、B波振幅（BV）、QP波峰时（QPT）和QP波振幅（QPV）。同时也详细检查了这些病人的视网膜病变情况，根据统一标准诊断为轻、中或重度。病变情况变量为GROUP，轻度为1，中度记为2，重度为3.要求利用训练用品，通过逐步判别分析选出作用较大的指标建立判别函数。（数据见15-4.sav）
。
应用注意事项： 1.系统聚类方法对聚类变量的要求可以是数值变量，也可以是分类
变量，不同类型的变量选用不同的距离测度方法。SPSS对几种类型变量都提供了多种距离测度方法，但只能单选几种变量类型的其中之一，因此原始数据中用于聚类的变量最好是相同类型的。如需要用不同类型的变量进行聚类分析，可选用前述的两步聚类方法。 2.聚类分析属于探索性的分析工具，对聚类分析结果的优劣评价目前还没有系统的检验理论，因此实际工作中，只能通过多次尝试，结合实际意义选取较优的分类结果。
3 Save子对话框
初始类中心
单变量方差分析表，对每个用于聚类的变量做单变量方差分析，比较各类间均数有无差异，可用于判断变量对聚类有无作用
每个样品的聚类信息，指每个样品的最终聚类类别以及与类中心的欧式距离
4 Options 子对话框
输出结果解释 1. 表15-2给出初始类中心的坐标，可以看到，这几个初始凝聚点来自原始数据集中4个观测。
第三节 K均值聚类分析（K-means Cluster）
一、系统方法回顾
K均值聚类分析，也称快速聚类或动态聚类法，适用于较大样本时的样品聚类。该法要求资料中聚类指标均为数值变量，可使用欧氏距离（计算两类间的直线距离，只有当所有变量都是数值变量时才可选用）描述样品间的相似度。此外，研究者必须事先知道应该分为多少类，即必须事先指定期望的聚类数K。
指定数据文件中的观察值作为初始凝聚点
选此项后，每聚类一个样品，就会重新计算类中心
将最终聚类的凝聚点坐标写入指定数据文件
类内各样品观测值的均值作为新的凝聚点
2.Iterate子对话框
创建新变量，说明每个样品的聚类结果，新变量将出现在当前数据集中创建新变量，说明每个样品和凝聚点的欧式距离，新变量将出现在当前数据集中
不输出各样品/变量的聚类结果
指定类数时的聚类结果指定类范围时的聚类结果
3 plot子对话框
输出分类结果树状图，推荐常规使用输出冰柱图输出所有类冰柱图输出指定范围的冰柱图
不输出冰柱图纵向输出
横向输出
4 Method 子对话框
选择计算类间距离的方法组间连接法，又叫类平均法，默认，推荐使用对不同类型的变量选择不同的距离度量方法数值变量默认分类变量二分量变量
第四节系统聚类（Hierachical Cluster）
一系统方法回顾系统聚类适用于小样本资料的样品聚类或变量聚类。原始数据可以是数值变量，也可以是多分类变量，或二分类变量，但最好不要有不同类型变量的混合，三种变量可选择不同的距离度量。系统聚类的具体步骤如下： 1 每个样品/变量各成一类，假设共有n类。 2 计算上述n类的两两类间距离，将距离最小的两类合为一类，这时共有 n-1类。 3 计算上述n-1类的两两类间距离，将距离最小的两类合并，这时共有n2类。 4 重复上述过程，直到所有类都和并为一大类。 5 根据类间距离和实际意义选择适当的分类。 SPSS中，用户可以选择样品聚类或变量聚类，也有多种相似性度量。多种数据标准化的方式可供选择。系统给出聚类图，据此可直观地确定适当的分类。