7对应分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不推荐同时分析过多变量
必要时应当对频数较少的类别加以合并或者 剔除
得到结果后应当和原始表格加以仔细对照, 以确保分析结果的正确性
SPSS高级统计分析
23
同质性分析
2006年2月27日
多重对应分析实例
数据集corres.sav提供了某次调查得来的轿 车特征与一些用户特征的数据,请分析汽车 原产地(norigin)、汽车大小(nsize)、 轿车类型(ntype)、是否租房(nhome)、 有无双份收入(nincome)、性别(nsex)、 婚姻状况(nmarit)之间的联系如何
表 15.1 头发颜色与眼睛颜色的交叉表
眼 睛 颜 色 合计
深色 棕色 蓝色 浅色
金色 98
343 326 688 1455
头发颜色 红色 棕色 深色
48 403 681 84 909 412 38 241 110 116 584 188 286 2137 1391
黑色 85 26 3 4
118
合计
SPSS高级统计分析
24
4
同质性分析
2006年2月27日
结论
未婚、一份收入、租房子之间有联系。 跑车、车型为小型和日本产有联系。 已婚、双份收入有联系,买房子和性别为女 性似乎和他们也有点联系。 已婚有孩子、家用车和车型为中型有联系
进一步分析
采用图形深入探讨变量联系情况
SPSS高级统计分析
25
2006年2月27日
什么特征的人群还没有找到满意的险种,或 者说现有险种还有哪种人群未能覆盖?
我们提供的险种系列是否全面,有无哪些险 种过于重叠,是否还有种类空白需要填补?
SPSS高级统计分析
6
1
2006年2月27日
2006年2月27日
研究者收集了苏格兰北部 Caithness 郡 5387 名小学生眼 睛与头发颜色的数据,见下表,其中眼睛有深、棕、蓝、 浅四种颜色,头发有金、红、棕、深、黑五种颜色。研究 者希望知道头发和眼睛的颜色间存在何种关联,即某种头 发颜色的人起眼睛更倾向于何种颜色?
SPSS高级统计分析
3
对应分析
2006年2月27日
局限性
不能进行变量间相关关系的检验 • 仍然只是一种统计描述方法 解决方案的所需维度需要研究者决定 对极端值敏感 • 对于小样本不推荐使用
SPSS高级统计分析
4
对应分析
2006年2月27日
原理
以列联表为分析基础,计算基于H0假设的 单元格残差 标准化残差=观察频数-理论频数
现希望考察各省市城市设施水平的建设情况差 异,特别是各地区在这六个指标上分别存在着 哪些优势和不足之处。
SPSS高级统计分析
13
基于均数的对应分析
CORRESPONDENCE
TABLE = all(29 6) /DIMENSIONS = 2 /MEASURE = EUCLID /STANDARDIZE = CSUM … …
在变量种类上更加丰富,已可以处理各种类 型的变量,如对无序多分类分析、有序多分 类变量和连续性变量同时进行分析的问题
SPSS高级统计分析
19
概述
2006年2月27日
不能自动筛选变量,需要用户根据经验和分 析结果进行耐心筛选
对样本量要求较大,特别是对少数极端值和 罕见类别频数的变化非常敏感
由于结果往往以图形方式呈现,不加注意可 能会得到完全错误地分析结果
SPSS高级统计分析
2006年2月27日 14
Dimension 2
2 1 0 -1 -2
-3
山东 广东
2006年2月27日
江苏
辽宁
四川
下水道 道路长度 河南
浙江 湖南 山西
桥梁
福建 陕西 甘肃
湖北安徽
宁夏
重庆
黑龙江 广西
水处理
上海
-2
-1
0
1
2
SPSDSi高m级e统n计s分i析on 1
15
基于均数的对应分析
Optimal Scaling过程
概述
2006年2月27日
许多时候我们所分析的变量并非连续性变 量,如评分、等级等如果要按照连续变量来 分析,则存在一个适当量化的问题
有时候虽然变量均为连续性,但变量间的关 系并非简单的线性,而现有的多元分析方法 几乎无一例外的是以线性关联为基础进行分 析的
多个变量间的复杂联系如何能够简单明了的 表现出来?
量的信息较少,可能找不到合理的解释
1.考察同一变量的区分度: • 如果同一变量不同类别在某个方向上靠得较近,
则说明这些类别在该维度上区别不大。
2.考察不同变量的类别联系: • 一般而言,落在从图形原点(0,0)处出发相同方位
上大致相同区域内的不同变量的分类点彼此有联 系。散点间距离越近,说明关联倾向越明显;散 点离原点越远,也说明关联倾向越明显。
所作的最优尺度变换是基于数据本身而来, 当增减变量、或者对变量进行变幻后重新拟 合时,相应的结果可能完全不同
SPSS高级统计分析
20
最优尺度回归
2006年2月27日
Categorical Regression (CATREG)
对变量进行最优变换,然后使用变换后的评 分代替原变量进行回归分析
归类在回归菜单项中
直观展示:对应分析
SPSS高级统计分析
2
对应分析
2006年2月27日
特点
是多维图示分析技术之一,结果直观、简单 与因子分析有关 • 分类资料的典型相关分析 用于展示两个/多个分类变量各类间的关系 • 高收入、黑人、男性倾向于反对开战 研究较多分类变量间关系时较佳 各个变量的类别较多时较佳 • 均为四类以上
SPSS高级统计分析
9
结果的正确解释
2006年2月27日
错误的解释:金色头发的儿童中蓝色、浅色眼睛者 居多
正确的解释:相对于平均水平而言,金色头发的儿 童中蓝色、浅色眼睛的比例要高一些,也就是高于 其他颜色头发的儿童
棕色 0.5
棕色
Dimension 2
0.0 红色
浅色 金色 蓝色 -0.5
深色 深色
12
2
2006年2月27日
基于均数的对应分析
2006年2月27日
这里使用的数据来自《中国统计年鉴, 2000》,共纪录了全国29个省、市、自治区当 年的城市市政工程建设状况,具体有如下6个 指标:
road:年末实有道路长度 area:年末实有道路 面积 bridge:城市桥梁数 under:城市下水道长度 water:城市污水处理 能力 lamp:城市路灯数
1315 1774 718 1580 5387
SPSS高级统计分析
7
Count
2006年2月27日
1.0
眼睛颜色
深色
棕色
0.8
蓝色
浅色
0.6
0.4
0.2
0.0
金色
红色
棕色
深色
黑色
SP头SS高发级颜统计色分析
8
2006年2月27日
对应分析图的阅读
每个维度可能代表了一种特征 • 实际上就是一个提取出的主成分,但由于分类变
黑色
-1.0 -1.0
-0.5 SPS0S.高0 级统计0.分5 析 1.0
1.5
2.
10
Dimension 1
对应分析中的其他问题
2006年2月27日
更多维度的考虑
一般不超过三维,但是也要注意总模型的信 息量不能太低
散点坐标的可信区间
用于使得图示化的结果能够进一步进行统计 推断 建议最好还是结合logitic模型进行量化
5
2006年2月27日
2006年2月27日
类别间联系的呈现-- 对应分析和最优尺度分析
2006年2月27日
对应分析
2006年2月27日
问题的提出
分析分类变量间关系时,卡方检验只能给出 总体有无关联的结论,但不能进行精细分 析,在变量类别极多时于事无补 Logistic模型在多分类时过于笨拙
解决方案
精细建模:对数线性模型
当存在多个变量,并且变量类别较多时,就变成 了高维空间的观察,非常的不方便
• 通过数据变换,将各变量在高维空间中的主要联
系信息浓缩到低维度空间中,以便于观察
• 一般使用二、三维空间
SPSS高级统计分析
22
同质性分析
2006年2月27日
注意事项
由于算法不同,当分析两个变量时,结果不 会等同于简单对应分析,但是基本相同
SPSS高级统计分析
18
3
2006年2月27日
概述
2006年2月27日
所谓最优尺度分析的本质,就是根据数据本 身的关联,寻找出最佳的原始变量评分方 法,将原始变量一律转化为相应的分值,并 在转化时将变量间的关联一律变换为线性, 这样就解决了以上问题
可以同时分析多个分类变量间的关系,并同 样用图形方式表示出来
罕见频数的处理
SPSS高级统计分析
11
基于均数的对应分析
2006年2月27日
从对应分析的计算原理可知,该方法完 全可以用于连续性资料,如不同类别的 均数汇总资料
首先仍然要进行基于原假设下的数据转换, 实际上仅仅是这一步不同,随后的分析和分 类资料的就一样了
在SPSS中需要编程进行
SPSS高级统计分析
理论频数
将每行看成是一条记录,基于列变量相关系 数阵进行因子分析,计算出列变量各类别的 负荷值 将每列看成是一条记录,基于行变量相关系 数阵进行因子分析,计算出行变量各类别的 负荷值
Hale Waihona Puke SPSS高级统计分析5
对应分析
2006年2月27日
实际应用(保险业)
我们某个险种的用户是谁?
另外还有什么特征的人群也倾向于成为我们 的用户?
2006年2月27日
与因子分析的异同
更集中体现各单位在各变量均数上的差异, 因子分析则重在反映各变量的相关性上
• 集中表现各单元格偏离原假设的程度 只利用均数,因子分析则利用原始数据来计 算出协方差、方差、均数等进行分析
在计算原理上是相通的,结果一般不会有太 大差异
SPSS高级统计分析
16
2006年2月27日
分类变量越多优势越明显
可以作为普通线性回归分析前的预分析过 程,根据相应的信息拟合更加简明的模型
SPSS高级统计分析
21
同质性分析
2006年2月27日
Homogeneity (HOMALS)
同质性分析,即多重对应分析
以图形化方式展示多个分类变量间的关系 • 观察原始的频数表也可以得到相关信息,但是,
相关文档
最新文档