张文彤SPSS统计分析基础教程数据9-11课

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


局限性

仍然只是一种统计描述方法
解决方案的所需维度需要研究者决定 对极端值敏感

对于小样本不推荐使用
@文彤老师
SPSS统计分析系列培训
25
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
对应分析

实际应用(保险业)

我们某个险种的用户是谁? 另外还有什么特征的人群也倾向于成为我们的用户? 什么特征的人群还没有找到满意的险种,或者说现有 险种还有哪种人群未能覆盖? 我们提供的险种系列是否全面,有无哪些险种过于重 叠,是否还有种类空白需要填补?
@文彤老师
SPSS统计分析系列培训
9
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
案例:各省经济发展情况综合评价

现希望根据全国30个省市自治区经济发展基本 情况的八项指标对其进行分析和排序。具体指 标有:GDP、居民消费水平、固定资产投资、 职工平均工资、货物周转量、居民消费价格指 数、商品零售价格指数、工业总产值,数据文 件见factor1.sav。
黑色 85 26 3 4 118
合 计 1315 1774 718 1580 5387
27
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
@文彤老师
SPSS 2016 统计分析系列培训 年1月17日
28
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)

均为四类以上
@文彤老师
SPSS统计分析系列培训
23
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
对应分析

实质

就是对列联表中的数据信息进行浓缩,然后以易于阅 读的图形方式呈现出来 以默认的卡方测量方式为例,首先以列联表为分析基 础,计算基于H0假设的标化单元格残差
对应分析图的阅读

每个维度可能代表了一种特征

实际上就是一个提取出的主成分,但由于分类变量的 信息较少,可能找不到合理的解释 如果同一变量不同类别在某个方向上靠得较近,则说 明这些类别在该维度上区别不大。 一般而言,落在从图形原点(0,0)处出发相同方位上大 致相同区域内的不同变量的分类点彼此有联系。散点 间距离越近,说明关联倾向越明显;散点离原点越远, 也说明关联倾向越明显。


z1=b11x1+b21x2 z2=b12x1+b22x2
@文彤老师
SPSS统计分析系列培训
7
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
主成分分析

原则上如果有n个变量,则最多可以提取出n个 主成分,但如果将它们全部提取出来就失去了 该方法简化数据的实际意义。多数情况下提取 出前2~3个主成分已包含了90%以上的信息,其 他的可以忽略不计。 在进行主成分回归时,提取出的主成分能包含 主要信息即可,不一定非要有准确的实际含义。

公因子方差比(Communalities)

@文彤老师
SPSS统计分析系列培训
18
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
有关概念

特征根(Eigenvalue)

可以被看成是主成分影响力度的指标,代表引入该因 子/主成分后可以解释平均多少原始变量的信息。 正因如此,一般对特征根大于1的因子才加以注意
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
SPSS系列培训之: 信息浓缩技术--主成分分析、因子分析
@文彤老师
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
概 述

解决变量间多重共线性(data reduction)

有太多的变量,希望能够消减变量,用一个新的、更 小的由原始变量集组合成的新变量集作进一步分析 新变量集能够更有利于简化和解释问题 观测变量之间的存在相互依赖关系 由量表所反映出的受访者对卫生服务的真实满意度
@文彤老师
SPSS统计分析系列培训
19
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
分析实例

案例:对各省经济数 据的进一步分析 奥林匹克资料: olymp88.sav
因子旋转 因子负荷的排序和禁止 输出 因子计算公式的生成


@文彤老师
SPSS统计分析系列培训

@文彤老师
SPSS统计分析系列培训
12
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
因子分析

第一公因子主要影响价格、是否快餐食品和能 量,代表“价廉” 第二公因子主要影响味道和风味,代表“味美”

ε代表特殊因子,只对当前变量有影响,表示该 变量中独特的,不能被公因子所解释的特征
表 15.1 头发颜色与眼睛颜色的交叉表 金色 98 343 326 688 1455 头发颜色 红色 棕色 深色 48 403 681 84 909 412 38 241 110 116 584 188 286 2137 1391
2016年1月17日
眼 睛 颜 色 合计
@文彤老师
深色 棕色 蓝色 浅色

@文彤老师
SPSS统计分析系列培训
8
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
主成分分析

方法用途


主成分评价:当进行多指标的综合评价时,应用主成 分方法将多指标中的信息集中为若干个主成分,然后 加权求和,得到综合评价指数。 主成分回归:通过对存在共线性的自变量进行主成分 分析,从而在提取多数信息的同时解决共线性问题。

探讨变量内在联系和结构(structure detection)

@文彤老师
SPSS统计分析系列培训
2
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
概 述

本讲课程中涉及的方法其实质均为数据化简、 信息浓缩,即将分散在多个变量中的同类信息 集中、提纯,从而便于分析、解释和利用
SPSS统计分析系列培训 16


@文彤老师
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
因子分析

公因子数量的确定

主成分的累积贡献率:80~85%以上 特征根:大于1 综合判断 因子分析时更重要的是因子的可解释性

必要时可保留小于1的因子 碎石图可以帮助确定因子数量
标准化残差= 观察频数-理论频数 理论频数
@文彤老师
SPSS统计分析系列培训
24
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
对应分析

实质

将每行看成是一条记录,基于列变量相关系数阵进行 因子分析,计算出列变量各类的负荷值 将每列看成是一条记录,基于行变量相关系数阵进行 因子分析,计算出行变量各类的负荷值 不能进行变量间相关关系的检验
20
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
SPSS系列培训之: 对应分析
统计软件系列课堂
百度文库
人大经济论坛—培训中心出品(www.pinggu.org)
对应分析

问题的提出


分析分类变量间关系时,卡方检验只能给出总体有无 关联的结论,但不能进行精细分析,在变量类别极多 时于事无补 Logistic模型在多分类时过于笨拙 精细建模:对数线性模型 直观展示:对应分析
@文彤老师
SPSS统计分析系列培训
26
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
研究者收集了苏格兰北部 Caithness 郡 5387 名小学生眼 睛与头发颜色的数据,见下表,其中眼睛有深、棕、蓝、 浅四种颜色,头发有金、红、棕、深、黑五种颜色。研究 者希望知道头发和眼睛的颜色间存在何种关联,即某种头 发颜色的人起眼睛更倾向于何种颜色?

解决方案

@文彤老师
SPSS统计分析系列培训
22
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
对应分析

特点

是多维图示分析技术之一,结果直观、简单 与因子分析有关

分类资料的典型相关分析 高收入、黑人、男性倾向于反对开战
用于展示两个/多个分类变量各类间的关系 研究较多分类变量间关系时较佳 各个变量的类别较多时较佳

探索性因子分析 证实性因子分析
@文彤老师
SPSS统计分析系列培训
11
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
因子分析

比如在市场调查中收集了食品的五项指标:味 道、价格、风味、是否快餐食品、能量。经过 因子分析后发现结果如下:
x1=0.02z1+0.99z2+ε1 x2=0.94z1-0.01z2+ε2 x3=0.13z1+0.98z2+ε3 x4=0.84z1+0.42z2+ε4 x5=0.97z1-0.02z2+ε5
人大经济论坛—培训中心出品(www.pinggu.org)
x2
x2
Y2
Y1
x1
x1
X1与x2相关
Y1与Y2不相关
@文彤老师
2016年1月17日
6
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
主成分分析

在主成分分析中,提取出的每个主成分都是原 来多个指标的线性组合 如有两个原始变量x1和x2,则一共可提取出两 个主成分如下:


尽可能保留原始变量的信息,且彼此不相关
@文彤老师
SPSS统计分析系列培训
4
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
60
50
@文彤老师
自变量1
40 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6
自变量2
SPSS统计分析系列培训 5
统计软件系列课堂
目的为浓缩信息 目的为探讨内在结构


正因如此,这些信息浓缩方法、特别是其中的 因子分析方法,往往成为更复杂的多元分析方 法的基石
@文彤老师
SPSS统计分析系列培训
3
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
主成分分析

只是一种中间手段,其背景是研究中经常会遇 到多指标的问题,这些指标间往往存在一定的 相关,直接纳入分析不仅复杂,变量间难以取 舍,而且可能因多元共线性而无法得出正确结 论 主成分分析的目的就是通过线性变换,将原来 的多个指标组合成相互独立的少数几个能充分 反映总体信息的指标,便于进一步分析
@文彤老师
SPSS统计分析系列培训
10
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
因子分析

是一种多变量化简技术。目的是分解原始变量, 从中归纳出潜在的“类别”,相关性较强的指 标归为一类,不同类间变量的相关性较低。每 一类变量代表了一个“共同因子”,即一种内 在结构,因子分析就是要寻找该结构。
@文彤老师
SPSS统计分析系列培训
17
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
有关概念

因子负荷

即表达式中各因子的系数值,用于反映因子和各个变 量间的密切程度,其实质是两者间的相关系数 指的是提取公因子后,各变量中信息分别被提取出的 比例,或者说原变量的信息量(方差)中由公因子决 定的比例
@文彤老师
SPSS统计分析系列培训
13
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
用途

研究设计阶段/问卷效果评估阶段

评价问卷的结构效度 解决变量间多重共线性 寻找变量间潜在结构 内在结构证实
统计分析阶段

@文彤老师
SPSS统计分析系列培训
14
统计软件系列课堂
@文彤老师
SPSS统计分析系列培训
15
统计软件系列课堂
人大经济论坛—培训中心出品(www.pinggu.org)
分析步骤

判断是否需要进行因子分析,数据是否符合要 求 进行分析,按一定标准确定提取的因子数目

如果进行的是主成分分析,则将主成分存为新 变量用于继续分析,步骤到此结束
如果进行的是因子分析,则考察因子的可解释 性,并在必要时进行因子旋转,以寻求最佳解 释方式 如有必要,可计算出因子得分等中间指标供进 一步分析使用
人大经济论坛—培训中心出品(www.pinggu.org)
适用条件

样本量

样本量与变量数的比例应在5:1以上 总样本量不得少于100,而且原则上越大越好 KMO统计量:0.9最佳,0.7尚可,0.6很差,0.5以下 放弃 Bartlett’s球形检验

各变量间必须有相关性


这些条件均是为了保证能够寻找出内在结构
相关文档
最新文档