聚类分析、对应分析、因子分析、主成分分析spss操作入门

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


Display中 Stastics 表示输出聚类分析相关统计量 Plots表示输出聚类分析相关图形
聚类输出结果
参与聚类的 个体或小类 个体或小 类距离 计算的是个 体还是小类 本次结果 将在第几 步出现
3 3 4
5
系统聚类


Dendrogram:聚类树形图 Icicle:冰柱图,其中All clusters表示输出分析 中 每 个 阶 段 的 冰 柱 图 , Specified range of clusters 表示输出某个阶段的冰柱图, none 表 示不输出冰柱图 Orientation冰柱图的表现形式,Vertical表示纵 6 向显示,Hhorizontal表示横向显示
基本思想:根据所研究的样本或变量在观测数据上表现的不 同亲疏程度,采用不同的聚类方法将亲疏程度较大的样本/ 变量聚合为一类,把另外一些亲疏程度较大的样本/变量聚 合为一类,直到把所有的样本/变量都聚合完毕,形成一个 由小到大的分类系统 。
聚类方法不同: 聚类对象不同时的聚类类型: 亲疏程度的判定 hierarchical cluster),聚类过程是按 系统聚类:又称为层次聚类( 样本之间的聚类:即Q型聚类分析,常用距离来测度样本之间的亲疏程 照一定层次进行的; 距离:将每一个样本看作p维空间的一个点,并用某种度量测量点与点 度; 之间的距离,距离较近的归为一类,距离较远的点应属于不同的类; 均值聚类( K-means Cluster ); K 变量之间的聚类:即 R型聚类分析,常用相似系数来测度变量之间的亲 相似系数:性质越接近的变量或样本,它们的相似系数越接近于1或一l, 疏程度; 而彼此无关的变量或样本它们的相似系数则越接近于0,相似的为一类,不 相似的为不同类;
22
Scree plot:碎石图
输出结果
Initial Eigenvalue中13个因子解释了原有变量的总 方差 Extraction Sums of Squared Loadings表示的是 按照“特征根大于1”原则选取的因子 Rotation Sums of Squared Loadings表示旋转后 最终因子情况,因子的方差重新分布,但影响原有 变量的共同度没有变

聚类输出结果
初始类中心情况 中心点偏移情况

最终类中心情况

最终类成员情况
15

基本介绍: 一种数据简化的技术; 将原有变量中的信息重叠部分提取并综合成因子,实现减少变量个数的目的; 提取出来的因子能够反映原来众多变量的主要信息; 原始的变量是可观测的显在变量,而提取因子是不可观测的潜在变量;
系统聚类
Cluster method:


Nearest Neighbor:最短距离法
• • •


Further Neighbor:最长距离法
• • • • • • •
以两类中距离最近的两个个体之间的距离作为类间距离。
以两类中距离最远的两个个体之间的距离作为类间距离。


Between-group linkage:组间平均连接法
KMO 度 量 标 准 : 0.9 以 上 表 示 非 常 适 合 ; 0.8~0.9 表示适合; 0.7~0.8 表示一般; 0.6~0.7 表示不太适合;0.5以下表示极不适合。
此操作目的在于检验原始变量之 间是否存在一定线性关系,若线性 关系不显著,则不适合做因子分析
巴特利特球度检验:概率 p 值小于指定显著性 水平,则适合作因子分析;反之不适合作因子 分析。
24
输出结果
旋转后的因子载荷矩阵 获利 因子 变现 因子 运营 因子 成长 因子 旋转前的因子载荷矩阵
因子分析模型举例: 成本费用利润率=0.848*F1+0.214*F2+0.235*F3+0.254*F4; 主营业务利润率=0.845*F1+0.157*F2+0.255*F3+0.069*F4;
聚类输出结果
7
系统聚类

Cluster Method :计算个体与小类、小类与小 类之间距离的方法 Measure:不同变量类型的个体距离计算方式
Interval 适用连续型定距变量, Counts 适用 计数型变量,Binary适用于二值变量
Transform Values中的Standardize指的是消除 8 量纲的方法,再下面表示对针对Q还是R型聚类
21
软件操作
Method:提取因子的方法 Analyze:提取因子依据,Correlation matrix(相关 系数矩阵)和Covariance matrix(协方差阵) Extract:确定因子数目,Based on Eigenvalue(特 征根值)或Fixed number of factors(指定数目) Display:Unrotated factor solutions—输出旋转前 的因子方差贡献表和旋转前的因子载荷阵。
Correlation Matrix : Coefficients— 相关系数矩 阵,Significance levels—相关系数检验的概率P 值, Determinant — 变量相关系数矩阵的行列式 值 , Inverse — 相 关 系 数 矩 阵 的 逆 矩 阵 , Reproduced —再生相关阵, Anti-image:反映 像相关矩阵, KMO and Bartlett’s—巴特利特球 度检验和KMO检验 19
• • • •

Within-group linkage:组内平均连接法
• • • •

以两类个体两两之间距离的平均数作为类间距离。 d (d1 d 2 d 3 d 9 ) 9
将两类个体合并为一类后,以合并后类中所有个体之间的 平均距离作为类间距离。 d (d1 d 2 d 3 d 4 d 5 d 6 ) 6
1
聚类主要步骤
选择变量
• 和聚类分析的目的密切相关; • 反映要分类变量的特征; • 不同研究对象上的值有明显 的差异; • 变量之间不能高度相关;
数据处理
• 为消除各指标量纲的影响, 需对原始数据进行必要的变 换处理;
Байду номын сангаас
计算聚类 统计量
• 聚类统计量是根据变换
结果的 解释和证实
• 结果的解释是希望对各个类 的特征进行准确的描述; • 给每类起一个合适的名称; • 通常的做法是计算各类在各 聚类变量上的均值,对均值 进行比较;
系统聚类

此操作可将聚类分析的结果以变量的形式保存到 数据编辑窗口
10
聚类输出结果
3 4 5
11
K均值聚类
12
K均值聚类
默认就行

Clusters membership :保存个体所属类的类 号 Distance from clusters center:保存个体距各 自类中心点的距离

聚类
• 选择聚类的方法; • 确定形成的类数;
以后的数据计算得到的 一个新数据; • 用于表明各样本或变量 间的关系密切程度; • 常用的统计量有距离和 相似系数两大类;
2
系统聚类
例1:利用2001年全国31个省市自 治区各类小康和现代化指数的数 据,对地区进行聚类分析。 数据中所含指数:综合指数、社 会结构指数、经济与技术发展指 数、人口素质指数、生活质量指 数、法制与治安指数;
因子 编号 特征 根值 方差 贡献率 累积方差 贡献率
23
软件操作
Method:因子旋转的方法,Varimax—方差最大 法, Quartimax— 四次方最大法, Equamax— 等量 最大法, Display:输出与因子旋转相关的信息,Rotated solution— 旋 转 后 的 因 子 载 荷 矩 阵 , Loading plot(s)—旋转后的因子载荷散点图
采用聚类方法:系统聚类 K均值聚类
3
系统聚类

参与系统聚类的变量选到Variables(s)中 字符型变量作为标记变量选到Lable Cases by中 Cluster中确定聚类类型,是Q型聚类还是R型聚类

Agglomeration schedule:输出聚类过程表 Proximity matrix:输出个体之间的距离矩阵 Cluster Membership 中 None 表示不输出样本 所属类,Single solution表示当分成n类时各样 本所属类,Range of solutions表示当分成m-n 4 类时各样本属性所属类

因子具有命名解释性;
16
主要步骤
前提条件
因子提取
因子命名 可解释性
计算 因子得分
观测变量间有较 强的相关性; 若变量之间无相 关性或相关性较 小的,则不会有 公共因子;
根据因子方差的大 小:只取方差大于 1(或特征值大于1)的 那些因子; 按照因子方差累积 贡献率大于80%的原
坐标变换使每个 原始变量在尽可能 少的因子之间有密 切的关系; 这样因子的实际 意义更容易解释;

Statistics中Initial Clusters centers 表示输出 初始类中心点, ANOVA table 表示以聚类分析 产生的类为控制变量,以k个变量为观测变量进 行单因素方差分析,并输出各个变量的方差分析 表, Clusters information for each case表示 样本分类信息及距所属类中心点的距离 Missing Values中存在缺失值时Exclued cases listwise 表 示 将 含 有 缺 失 值 的 记 录 删 除 , Exclued cases listwise表示将配对状态下将含 14 有缺失值的数据删除,其他计算不受影响
25
软件操作
Scores为计算因子的方法
Save as variables:将因子得分保存在 SPSS变量中,method表示计算因子得分的 方法,Regression—回归法 Display factor score coefficient matix: 输出因子得分系数矩阵
输出结果
当采用“特征根大于1”的 方法提取因子时,所有变 量的共同度过均较高,各 变量的丢失信息较少,效 果理想。
此操作目的在于检验原始变量之 间是否存在一定线性关系,若线性 关系不显著,则不适合做因子分析
20
输出结果
看correlation矩阵,若对角线上元素的值较接近1,其 他大多数元素的绝对值均较小,说明变量之间相关性较 强,适合做因子分析。

Centroid clustering:重心法

Median clustering:中位数法
以两类变量中位数之间的距离作为类间距离
以两类变量均值(重心)之间的距离作为类间距离。 d 均值点之间的距离

x1 , y1

x2 , y2

Ward’s method:离差平方和法
先将 n 个个体各自成一类,然后每次减少一类,随着类 与类的不断聚合,类内的离差平方和必然不断增大,选择 使离差平方和增加最小的两类合并,直到所有的个体归为 9 一类为止。

Number of Clusters:输入聚类数目,小于样本数
Clusters Centers :自行指定初始类中心点,一般 默认 Method中Iterate and classify聚类分析每一步都重 新确定类中心点, Classify only聚类分析中类中心 点始终为初始类中心点
13
K均值聚类

基本思想:
把每个研究变量分解为几个影响因素变量; 将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组 成的,另一部分是每个变量独自具有的因素,即特殊因子;

因子分析特点:
因子个数远远小于原有变量的个数; 因子能够反映原有变量的绝大部分信息; 因子之间线性关系不显著;
可以在许多分析 中使用这些因子; 如:多指标综合 评价、做聚类分析 的变量、做回归分 析中的解释变量等;
则;
17
软件操作
例 2 :已知 2003 年沪、深两市 48 家上市公司的 13 个财务指标数据。
18
软件操作
Statistics:Univariate descriptives —基本描述 统计量,Initial solution —因子分析的初始解 Variables:参与因子分析的变量 Selection Variable :条件变量,设置 Value 值 后,只有满足相应条件的样本数据才参与因子 分析
相关文档
最新文档