第八章 因子分析和聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ (一)聚类分析的概念
▪ 聚类分析是一种建立分类的多元统计分析方法, 它能够将一批样本(或变量)数据根据其诸多特 征,按照在性质上的亲疏程度在没有先验知识的 情况下进行自动分类,将所有的样品或变量分别 聚合到不同的类中,使同一类中的个体有较大的 相似性,不同类中的个体差异较大。
▪ 所谓“没有先验知识”是指没有事先指定分类 标准;所谓“亲疏程度”是指在各变量(特征) 取值上的总体差异程度。聚类分析正是基于此实 现数据的自动分类的。
框,指定旋转收敛的最大迭代次数。系统默认值 为25。可以在此项后面的矩形框中键入指定值。
▪ 5、Scores 对话框,有关因子得分的选择项 ▪ (l) Save as variables 复选项,将因子得分作
为新变量保存在数据文件中。
▪ (2) Method 栏,指定计算因子得分的方法。 ▪ (3) Display factor score coefficient matrix 复
▪ 2、Descriptives对话框,描述统计量选择项 ▪ (l) Statistics 统计量栏 ▪ (2) Correlation Matrix相关矩阵栏
▪ 3、Extraction 对话框 ▪ (l) Method ,因子提取方法选择项 ▪ (2) Analyze 栏,指定分析矩阵的选择项。 ▪ (3) Display 栏,指定与因子提取有关的输出项。 ▪ (4) Extract 栏,控制提取进程和提取结果的选择
二、层次聚类
▪ (一)层次聚类概述
▪ 层次聚类又称分层聚类、系统聚类,简单讲是指聚类 过程是按照一定层次进行的。
▪ 层次聚类的基本思想是:首先,在聚类分析的开始, 每个样本自成一类;然后,按照某种方法度量所有样本之 间的亲疏程度,并把其中最亲密或称最相似的样本首先聚 成一小类;接下来,度量剩余的样本和小类间的亲疏程度, 并将当前最亲密的样本或小类再聚成一类;再接下来,再 度量剩余的样本或小类(或小类和小类)间的亲密程度, 并将当前最亲密的样本或小类再聚成一类;如此反复,直 到所有样本聚成一类为止。
▪ 1、聚类分析的对象类型有Q型聚类和R型聚类
▪ (1)Q型聚类是对样品进行分类,即对观测进 行分类。根据观测有关变量的特征,将特征相似 的样品归为一类。
▪ (2)R型聚类是对变量进行分类处理。一般来说, 可以反映研究对象特点的变量有许多,由于对客 观事物的认识有限,往往难以找出彼此独立且有 代表性的变量,影响对问题进一步的认识和研究, 因此往往需要先进行变量聚类,找出相互独立又 有代表性的变量,而又不丢失大部分信息。
标变量的数量;
▪ 第二,因子变量并不是原有变量的简 单取舍,而是对原有变量的重新组构;
▪ 第三,因子变量具有命名解释性。
▪ (三)因子模型的假设 ▪ 1: m≤p; ▪ 2:模型为线性模型; ▪ 3:特殊因子之间是相互独立的; ▪ 4:公因子与特殊因子之间是相互独立的; ▪ 5:各公因子都是均值为0,方差为1的独
▪ 3 求R(Q)的特征值及相应的单位特征向量, 根据累计贡献率的要求取前m个特征值及相应的 特征向量,写出因子载荷矩阵;
▪ 4 对因子载荷矩阵施行方差最大正交旋转;
5 计算因子得分,然后将它们用于各种进一步 的分析中。
二、因子分析的微机实现
▪ 在 SPSS 主源自文库菜 单 中 选 择 Analyze→Data Reduction→Factor,可实现因子分析。
▪ 1、Factor Analysis主对话框:
▪ (1) Variables栏,存放分析变量栏。
▪ (2) Selection Variable选择变量栏,用于限制 有特殊值的样本子集的分析,当一个变量进入该 栏时,激活右侧的“Value”按钮。
▪ (3) 待“Value”按钮激活后,单击该键,打开 Set Value对话框,可在该对话框键入标识参与分 析的观测量所具有的该变量值。
▪
▪ 2、分层聚类法根据聚类过程不同又分为凝聚法 和分解法。
▪ (1)分解法:聚类开始把所有个体(观测量或 变量)都视为属于一大类,然后根据距离和相似性 逐层分解,直到参与聚类的每个个体自成一类为 止。
▪ (二)聚类分析的几点说明 ▪ 1、所选择的变量应符合聚类的要求 ▪ 2、各变量的变量值不应有数量级上的差异 ▪ 3、个变量间不应有较强的线性相关关系 ▪ 有两种处理方法:(1)首先进行变量聚类,
从每类中选一代表性变量,再进行样品聚类; (2)进行主成分分析或因子分析,降维,使之 成为不相关的新变量,再进行样品聚类。
第八章 因子分析和聚 类分析
第一节 因子分析
一、因子分析简介
▪ (一)因子分析的概念 ▪ 因子分析是从研究相关矩阵内部的依赖关系
出发,把一些具有错综复杂关系的变量归结为 少数几个综合因子的一种多变量统计分析方法。 它是多元分析中一种降维和分析、简化数据结 构的方法。
▪ (二)因子分析的特点 ▪ 第一,因子变量的数量远少于原有指
选项,选择此项将在输出窗中显示因子得分系数 矩阵,是标准化的得分系数。
▪ 6、“Options”对话框,有关输出的选择 项
▪ (l) Missing Values 栏,选择处理缺失值 方法。
▪ (2) Coefficient Display Format 栏,决定 载荷系数的显示格式。
第二节 聚类分析 一、聚类分析概述
项。
▪ (5) Maximum iterations for Convergence 参数框, 指定因子分析收敛的最大迭代次数。系统默认的 最大迭代次数为25。
▪ 4、Rotation 对话框 ▪ (l) Method 栏选择旋转方法 ▪ (2) Display 栏选择有关输出显示 ▪ (3) Maximum iterations for Convergence 参数
立正态随机变量。其协方差矩阵为单位 矩阵。
▪ (四)因子分析的任务
▪ 求出因子模型和因子得分函数中的全部 系数,利用旋转后的因子模型并结合具体 问题给公因子以恰当的解释,利用因子得 分函数样品的因子得分,对样品进行分类 或排序。
▪ (六)因子分析的计算步骤
▪ 1 将原始数据标准化;
▪ 2建立变量或样品的相关(似)系数阵R(Q);
▪ 聚类分析是一种建立分类的多元统计分析方法, 它能够将一批样本(或变量)数据根据其诸多特 征,按照在性质上的亲疏程度在没有先验知识的 情况下进行自动分类,将所有的样品或变量分别 聚合到不同的类中,使同一类中的个体有较大的 相似性,不同类中的个体差异较大。
▪ 所谓“没有先验知识”是指没有事先指定分类 标准;所谓“亲疏程度”是指在各变量(特征) 取值上的总体差异程度。聚类分析正是基于此实 现数据的自动分类的。
框,指定旋转收敛的最大迭代次数。系统默认值 为25。可以在此项后面的矩形框中键入指定值。
▪ 5、Scores 对话框,有关因子得分的选择项 ▪ (l) Save as variables 复选项,将因子得分作
为新变量保存在数据文件中。
▪ (2) Method 栏,指定计算因子得分的方法。 ▪ (3) Display factor score coefficient matrix 复
▪ 2、Descriptives对话框,描述统计量选择项 ▪ (l) Statistics 统计量栏 ▪ (2) Correlation Matrix相关矩阵栏
▪ 3、Extraction 对话框 ▪ (l) Method ,因子提取方法选择项 ▪ (2) Analyze 栏,指定分析矩阵的选择项。 ▪ (3) Display 栏,指定与因子提取有关的输出项。 ▪ (4) Extract 栏,控制提取进程和提取结果的选择
二、层次聚类
▪ (一)层次聚类概述
▪ 层次聚类又称分层聚类、系统聚类,简单讲是指聚类 过程是按照一定层次进行的。
▪ 层次聚类的基本思想是:首先,在聚类分析的开始, 每个样本自成一类;然后,按照某种方法度量所有样本之 间的亲疏程度,并把其中最亲密或称最相似的样本首先聚 成一小类;接下来,度量剩余的样本和小类间的亲疏程度, 并将当前最亲密的样本或小类再聚成一类;再接下来,再 度量剩余的样本或小类(或小类和小类)间的亲密程度, 并将当前最亲密的样本或小类再聚成一类;如此反复,直 到所有样本聚成一类为止。
▪ 1、聚类分析的对象类型有Q型聚类和R型聚类
▪ (1)Q型聚类是对样品进行分类,即对观测进 行分类。根据观测有关变量的特征,将特征相似 的样品归为一类。
▪ (2)R型聚类是对变量进行分类处理。一般来说, 可以反映研究对象特点的变量有许多,由于对客 观事物的认识有限,往往难以找出彼此独立且有 代表性的变量,影响对问题进一步的认识和研究, 因此往往需要先进行变量聚类,找出相互独立又 有代表性的变量,而又不丢失大部分信息。
标变量的数量;
▪ 第二,因子变量并不是原有变量的简 单取舍,而是对原有变量的重新组构;
▪ 第三,因子变量具有命名解释性。
▪ (三)因子模型的假设 ▪ 1: m≤p; ▪ 2:模型为线性模型; ▪ 3:特殊因子之间是相互独立的; ▪ 4:公因子与特殊因子之间是相互独立的; ▪ 5:各公因子都是均值为0,方差为1的独
▪ 3 求R(Q)的特征值及相应的单位特征向量, 根据累计贡献率的要求取前m个特征值及相应的 特征向量,写出因子载荷矩阵;
▪ 4 对因子载荷矩阵施行方差最大正交旋转;
5 计算因子得分,然后将它们用于各种进一步 的分析中。
二、因子分析的微机实现
▪ 在 SPSS 主源自文库菜 单 中 选 择 Analyze→Data Reduction→Factor,可实现因子分析。
▪ 1、Factor Analysis主对话框:
▪ (1) Variables栏,存放分析变量栏。
▪ (2) Selection Variable选择变量栏,用于限制 有特殊值的样本子集的分析,当一个变量进入该 栏时,激活右侧的“Value”按钮。
▪ (3) 待“Value”按钮激活后,单击该键,打开 Set Value对话框,可在该对话框键入标识参与分 析的观测量所具有的该变量值。
▪
▪ 2、分层聚类法根据聚类过程不同又分为凝聚法 和分解法。
▪ (1)分解法:聚类开始把所有个体(观测量或 变量)都视为属于一大类,然后根据距离和相似性 逐层分解,直到参与聚类的每个个体自成一类为 止。
▪ (二)聚类分析的几点说明 ▪ 1、所选择的变量应符合聚类的要求 ▪ 2、各变量的变量值不应有数量级上的差异 ▪ 3、个变量间不应有较强的线性相关关系 ▪ 有两种处理方法:(1)首先进行变量聚类,
从每类中选一代表性变量,再进行样品聚类; (2)进行主成分分析或因子分析,降维,使之 成为不相关的新变量,再进行样品聚类。
第八章 因子分析和聚 类分析
第一节 因子分析
一、因子分析简介
▪ (一)因子分析的概念 ▪ 因子分析是从研究相关矩阵内部的依赖关系
出发,把一些具有错综复杂关系的变量归结为 少数几个综合因子的一种多变量统计分析方法。 它是多元分析中一种降维和分析、简化数据结 构的方法。
▪ (二)因子分析的特点 ▪ 第一,因子变量的数量远少于原有指
选项,选择此项将在输出窗中显示因子得分系数 矩阵,是标准化的得分系数。
▪ 6、“Options”对话框,有关输出的选择 项
▪ (l) Missing Values 栏,选择处理缺失值 方法。
▪ (2) Coefficient Display Format 栏,决定 载荷系数的显示格式。
第二节 聚类分析 一、聚类分析概述
项。
▪ (5) Maximum iterations for Convergence 参数框, 指定因子分析收敛的最大迭代次数。系统默认的 最大迭代次数为25。
▪ 4、Rotation 对话框 ▪ (l) Method 栏选择旋转方法 ▪ (2) Display 栏选择有关输出显示 ▪ (3) Maximum iterations for Convergence 参数
立正态随机变量。其协方差矩阵为单位 矩阵。
▪ (四)因子分析的任务
▪ 求出因子模型和因子得分函数中的全部 系数,利用旋转后的因子模型并结合具体 问题给公因子以恰当的解释,利用因子得 分函数样品的因子得分,对样品进行分类 或排序。
▪ (六)因子分析的计算步骤
▪ 1 将原始数据标准化;
▪ 2建立变量或样品的相关(似)系数阵R(Q);