spss--判别分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
指定收敛准则,系 统默认为初始凝聚 点间最小距离的2%
选此项后,每聚类 一个样品,就会重
新计算类中心
类内各样品观测值的均 值作为新的凝聚点
2.Iterate子对话框
创建新变量, 说明每个样 品的聚类结 果,新变量 将出现在当 前数据集中
创建新变量,说 明每个样品和凝 聚点的欧式距离, 新变量将出现在
迭代更新聚类:是在初始 凝聚点基础上不断迭代聚 类,形成新的凝聚点,直 到前后凝聚结果没有变化 为止,系统默认
不用迭代聚类:是在初始凝聚点 基础上聚类,作为最终聚类结果。
1.K-means Cluster 过程主对话框
指定数据文件中的观察值作为初始凝聚点 将最终聚类的凝聚点坐标写入指定数据文件
指定最大迭代次 数,规定为1到 999之间的整数
SPSS中,用户可以选择样品聚类或变量聚类,也有多种相似性度量。 多种数据标准化的方式可供选择。系统给出聚类图,据此可直观地确定 适当的分类。
二 SPSS操作指南
例15-3 某研究院欲用气相色谱法分析细菌全细胞脂肪酸的含 量来研究细菌的分类和鉴定。采用被试菌株共24株,其中空 肠弯曲菌8株(标号CJ1~CJ8),结肠弯曲菌3株(标号 CC1~CC3),幽门螺杆菌(标号HP1~HP9)和其他肠道杆菌 4株(标号XX1~XX4)。分别用气相色谱法测得各菌株的12 种脂肪酸的百分含量(变量名X1~X12)。要求依据变量 X1~X12对24个菌株进行聚类分析。(原始数据见例153.sav)
表15-2
2.表15-3给出迭代聚类过程,可以看到,第11次迭 代后,聚类结果收敛。
3. 表15-14、表15-15给出最终的类中心坐标和最终类中心间 两两距离。可以看到,最终类中心坐标为各类中的变量均值。
表15-14
表15-14给出最终的类 中心坐标
表15-15
表15-15。最终类中心间 两两距离
二、SPSS操作指南 例15-4 某医院眼科为研究视网膜病变严重程度和视网膜电图的关系,以便 用各种指标来判断糖尿病病人的视网膜病变严重起来,测量了131例糖尿 病病人的10个指标:年龄(AGE),患糖尿病年数(TIME),血糖水平 (GLUCOSE),视力(VISION)及视网膜电图的A波峰时(AT)、A波振 幅(AV)、B波振幅(BV)、QP波峰时(QPT)和QP波振幅(QPV)。 同时也详细检查了这些病人的视网膜病变情况, 根据统一标准诊断为轻、
当前数据集中
3 Save子对话框
单变量方差分 析表,对每个 用于聚类的变 量做单变量方 差分析,比较 各类间均数有 无差异,可用 于判断变量对 聚类有无作用
4 Options 子对话框
初始类中心
每个样品的聚类信息,
指每个样品的最终聚 类类别以及与类中心
的欧式距离
输出结果解释 1. 表15-2给出初始类中心的坐标,可以看到,这几个 初始凝聚点来自原始数据集中4个观测。
表15-24
3.图15-19输出了样品聚类的聚类图,可以看 到,24份样品可聚为两类或3类。
结果表述: 对24份样品根据12个指标进行系统聚类
结果可聚成两类或3类。两类结果中,除 HP9外,其余聚成一类;3类结果中,HP9 独成一类,XX1~XX4为一类,剩余样品聚 为一类。

应用注意事项: 1.系统聚类方法对聚类变量的要求可以是数值变量,也可以是分类
(一)变量设置 在Viriable view中设置13个数值型变量NAME和X1~X12
指定结果输出统计 量(Statistic)和 统计图(Plot)
1 Hierarchical Cluster 过程主对话框
选入聚类变量
选入标签变量
指定对样品聚类还是对变量聚类
2 statistics子对话框
输出聚类过程的详细步骤 输出聚类样品/变量的距离/相似性矩阵 选择输出聚类结果 不输出各样品/变量的聚类结果 指定类数时的聚类结果 指定类范围时的聚类结果
选择计算所用的协方差阵 组内协方差阵 各组的协方差阵
输出判别图 所有类在一张图纸上 各类图单独输出 领域图
创建新变量,表示用判别函数判别的各样品所属 类别,对应于回顾性考核
创建新变量,表示各观察单位的判别得分,两类判别时 得分者高者为所属类别,多类判别时不如概率值直观
创建新变量,表示各观察单位被判入每一类的概 率,最大概率值对应的类别为判定所属类别。
变量,不同类型的变量选用不同的距离测度方法。SPSS对几种类 型变量都提供了多种距离测度方法,但只能单选几种变量类型的其 中之一,因此原始数据中用于聚类的变量最好是相同类型的。如需 要用不同类型的变量进行聚类分析,可选用前述的两步聚类方法。
2.聚类分析属于探索性的分析工具,对聚类分析结果的优劣评价目
前还没有系统的检验理论,因此实际工作中,只能通过多次尝试, 结合实际意义选取较优的分类结果。
3.关于3种聚类方法的比较见 表15-25.
样本量大小 聚类变量 聚类对象 距离测度
聚类数 是否迭代 类间相似矩阵
两步聚类
K均值聚类
系统聚类
非常大
数值变量 分类变量
对样品聚类
数值变量和分类变 量,用对数似然; 全部是数值变量, 可选欧氏距离 可预先指定或自动 给出最优聚类数
K均值聚类分析的具体步骤: 1.先选择K个初始凝聚点,把每个凝聚点作为此后聚类的核心。 2. 计算样本中每个观测到这些凝聚点的距离,按照距离最近原则将 每个观测分类到凝聚点所代表的类中,得到一个初始分类方案。 3. 计算g个初始分类的“重心”——类内各样品观测值的均值作为 新的凝聚点 4. 重复步骤2,直到前后两次的类均数变化小于一个给定的临界值 或分类方案没有变化为止。
第三节 K均值聚类分析 (K-means Cluster)
一 、 系统方法回顾
K均值聚类分析,也称快速聚类或动态聚类法,适用于较大 样本时的样品聚类。该法要求资料中聚类指标均为数值变量, 可使用欧氏距离(计算两类间的直线距离,只有当所有变量都是数值变量时才可选 用)描述样品间的相似度。此外,研究者必须事先知道应该分为 多少类,即必须事先指定期望的聚类数K。
中或重度。病变情况变量为GROUP,轻度为1,中度记为2,重度为3.要
求利用训练用品,通过逐步判别分析选出作用较大的指标建立判别函数。 (数据见15-4.sav)
变量设置 在Variable View中设置11个变量,病变情况变量为 GROUP,轻度为1,中度记为2,重度为3.
选入分组变量,点击define range 定 义分组变量的范围
不用迭代
不用计算类间相似 矩阵
比较大 数值变量 对样品聚类
欧氏距离
小样本 数值变量或 分类变量 对样品聚类或 对变量聚类
有多种选择
需事先指定
无需事先指定
需要迭代
不用迭代
不用计算类间相似 需计算类间相
矩阵
似矩阵
第五节 判别分析 discriminant过程
一、统计方法回顾 和聚类分析一样,判别分析也是对样本个体进行分类的一种统 计方法。但是,判别分析和聚类分析最大的区别在于:1.聚类分 析可以对样品分类,也可以对变量分类;但判别分析只能对样品 分类。2.在聚类分析中,样品的类别事先是未知的,甚至样品可 以分几类都不知道,只要知道样品各变量的观察值,就可以对样 品进行分类;但判别分析必须事先明确样品可以分为几类,以及 每个样品的类别。根据这批样品(称为训练样品)建立一个判别 函数和判别准则,再对未知分类的新样品分类。SPSS中 Discriminant过程可提供两种方法判别分析方法:Fisher判别分 析法和Bayes判别分析法。两种方法的区别在于两种分析方法准 则不同,Fisher判别以距离作为判别准则,即样品与那个类的距 离最短就分到哪一类;Bayes判别以概率作为判别准则,即样品 属于哪一类的后概率最大,就分到哪一类。
三 应用注意事项 1 在运用K均值聚类方法时,研究者必须事先指定期望的聚类数K。因 此,当对样品的分类一无所知时,只能尝试地定义不同的聚类数K,或 者选用上一节的两步聚类法。 2 K均值聚类方法需要事先指定初始聚类点。初始聚类点可以人为地选 择,或人为地先将所有样品分类,计算每一类的均值作为初始凝聚点。 3选用不同的变量对样品进行聚类可以得到不同的聚类结果。用于聚类 的变量不同,聚类结果也不同。因此,在不同的准则下,比较聚类结 果的优劣是没有意义的。 4 选择不同的聚类方法得到的聚类结果往往也不同,实际工作应结合 背景选择适当的聚类结果。
选择对距离测度再变换的方法,通常很少用 到 绝对取值 改变符号 将范围设在0~1之间
5 Save 子对话框
创建新变量,保存聚类结果 不保存 设定某一聚类数时的聚类结果 设定某一聚类范围时的聚类结果
输出结果解释:
1.表15-23输出了有效的样品数和缺失值数以及所占的 百分比
表15-23
2.表15-24输出了系统聚类过程的详细步骤,可以看到,第一步,13和 16号样品先聚为一类;第二步,13、16和19号样品聚为一类等;直到 最后全部样品聚为一类。
在SPSS中,用户除了可以选择不断迭代更替类中心的聚类方法, 也可以选择不要迭代更新类中心,而仅仅根据初始凝聚点聚类,将 其作为最终的分类结果。
二、SPSS操作指南 15-2 用耳长(EC)、耳宽(EK)、耳外展距(EZ)、耳指数(EI)和外展指 数(AI)5个数值变量对300份样品聚类。
原始数据例15-1
第四节 系统聚类 (Hierachical Cluster)
一 系统方法回顾 系统聚类适用于小样本资料的样品聚类或变量聚类。原始数据可以是
数值变量,也可以是多分类变量,或二分类变量,但最好不要有不同类 型变量的混合,三种变量可选择不同的距离度量。
系统聚类的具体步骤如下: 1 每个样品/变量各成一类,假设共有n类。 2 计算上述n类的两两类间距离,将距离最小的两类合为一类,这时共有 n-1类。 3 计算上述n-1类的两两类间距离,将距离最小的两类合并,这时共有n2类。 4 重复上述过程,直到所有类都和并为一大类。 5 根据类间距离和实际意义选择适当的分类。
四、输出结果解释 2 这部分输出了逐步分析步骤,可以看到,最后变量vision、at、age、 bv进入模型,用了建立判别函数(表15-31 、 15-32、 15-33)
表15-31
表15-32、 表15-33
3.这部分输出了判别系数所对应的特征和占总特征 值的百分比,以及两个判别函数的无统计学意义 的检验。可以看到,建立 两个判别函数,第一个 函数的判别作用已占78% (表15-34、15-35)。
输出矩阵
组内相关系数内果样本时随机抽样得到的, 可选择用样本估计值估计先验 概率,即样本中每组例数除以 总数。 默认各类先验概率相等 用样本估计值估计先验概率
输出判别考察结果 输出每一例判别后的所属类别, 即回顾性考核 输出判别错判率结果表 交叉验证考核结果 选择计算所用的协方差阵 组内协方差阵 用变量均值代替缺失值
4 表15-16给出各变量的 单因素方差分析表,从方差分 析表可以看到,五个聚类变量在各类间的均数差异都有 统计学意义,表明对聚类分析均有作用。
5 表15-17 给出最终聚类后的各类的频数。 此外,各观测的聚类结果及各观测到类中心的距离作为新变量保存到了原始数据 集中。
结果表述
最终聚类结果,300例样品按5个变量聚为4类,各样品所属类别 可见数据集中的新变量。
3 plot子对话框
输出分类结果树状图,推荐常规使用 输出冰柱图 输出所有类冰柱图 输出指定范围的冰柱图
不输出冰柱图 纵向输出 横向输出
选择对变量 标准化的一 些方法,推 荐使用标准 化正态分布 (Z scores)
4 Method 子对话框
选择计算类间距离的方法 组间连接法,又叫类平均法,默认,推荐使 用 对不同类型的变量选择不同的距离度量方法 数值变量 默认 分类变量 二分量变量
选入进行判别分析的变量
选择所有自变量全部进入判别方程 用逐步方法筛选变量进入判别方程 选择符合某变量取值条件的观测进行 分析,点击value设定符合条件的取值
输出统计量
各组的均数和标准差 各变量在各组间的单变量 方差分析表,有助于判断 各变量是否对判别有作用
组间协方差齐性检验
变量未标准化的判别 系数,可方便手工回 代考核,或对新样品 手工计算判别
相关文档
最新文档