(优选)讲聚类分析与判别分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS统计分析从基础到实践
(优选)第讲聚类分析与判别分析
• K-均值聚类法基本原理
K均值聚类法迭代终止条件
• 两次迭代计算的聚心之间距离的最大改变量小于初始聚心间
最小距离的 倍
• 到达迭代次数的上限
K均值聚类的优缺点 • 优点:占有内存少、计算量小、处理速度快,特别适合大样
本的聚类分析 • 缺点:1、应用范围有限,要求用户指定分类数目;
7.2 系统聚类法
系统聚类法的基本思想是: • 视观测量(或者变量)各自成为一类; • 找性质最接近的两个类合并成一个新类,计算在新的类别分
划下各类之间的距离; • 再将性质最接近的两类合并,直到所有模式聚成一类为止。
系统聚类法优点: • 既可以对观测量也可以对变量进行聚类; • 所使用的变量既可以是连续变量也可以是分类变量; • 提供的距离计算方法和结果显示方法也很丰富。
• 观测量聚类:按照交通情况对各地进行聚类
执行【Analyze】/【Classify】/【Hierarchical Cluster】 命令,弹出如图所示的对话框
• 结果解读 • 聚类进度表
• 龙骨图
• 变量聚类:按照日照数对月份进行聚类
结果解读 • 聚类进度表 • 垂直冰柱图
从下往上看
• 龙骨图
2、只能对观测量聚类,而不能对变量聚类; 3、所使用的聚类变量必须都是连续性变量。
• 利用如下数据将以下城市按照空气指标分类
执行【Analyze】 / 【Classify】/【K-means Cluster】命 令,弹出如图所示对话框
• 结果解读 • 初始聚类中心表
• 迭代史表
6次终止迭代
• 最终聚类中心表
• Fisher判别对各类分布、方差都没有限制。但当总体个数较 多时,计算比较麻烦。
• Bayes判别法:在考虑先验概率的前提下,利用Bayes公式 计算样品来自第i类的后验概率,使用错判损失最小的概念 作判别准则,建立判别函数,将待判样品归入来自概率最大 类。
• Bayes判别主要用于多类判别,它要求总体呈多元正态分布.
• 逐步判别法:逐步判别法与逐步回归法的基本思想类似, 都是逐步引入变量,每引入一个“最重要”的变量进入判别 式,同时也考虑较早引入判别式的某些变量,若其判别能力 不显著了,应及时从判别式中剔除去,直到判别式中没有不 重要的变量需要剔除,且也没有重要的变量要引入为止。
• 利用表格中的数据判断待判国家的人口发展水平
7.3 判别分析——Discriminant 过程
判别分析简介
• 干什么? 判别样品所属类型的一种统计方法
• 与聚类分析的关系 相同点:解决分类问题 不同点:判别分析是在已知研究对象分成若干类型,对未 知类型的样品进行判别分类
ຫໍສະໝຸດ Baidu 判别分析的一般步骤
常用判别法
• 距离判别法:根据已知分类的数据,分别计算各类的均值 (重心),判别准则是任给一次观测,若它与第i类的重心 距离最近,就认为它来自第i类。
◆注意: 距离一般采用马氏距离;
距离判别适合对自变量均为连续变量的情况进行分类;
距离判别对各类的分布无特定的要求。
• Fisher判别法:借助方差分析的思想构造一个判别函数, 其中判别系数的确定原则是使得类间的区别最大,而且类 内的离差最小,利用判别函数计算出待判样品的判别指标, 然后与判别临界值进行比较,判别它的类属。
• 结果解读
相关文档
最新文档