对应分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对应分析的优点
定性变量划分的类别越多,这种方法的有时 越明显; 揭示行变量类别间与列变量类别间的联系; 将类别联系直观地表现在图形中; 将定类或定序变量转变为定距变量。
对应分析的局限性
不能用于相关关系的假设检验。
它只是一种描述性的条件方法,只能揭示变量 间的联系;
维度要由研究者决定。
在分析过程中,研究者可以知道最大维度数是 多少; 但是,减少到几维为好必须衡量分析结果是否 可解释以及是否简约。
如果变量为定序尺度,则采用
STATA中对应分析应用
二元对应分析:命令为 ca Syntax
Simple correspondence analysis of two categorical variables
ca rowvar colvar [, options], eg: . ca rank smoking; . ca rank smoking, dim(3)
各维度对行、列变量特征值的贡献,作用是检查每一维 度对行、列变量各个类别特征的影响。
距离的测度方法及作图
距离测度方法(Distance Measure):
Chi square. 加权卡方距离 Euclidean. 欧氏距离 行、列变量各分类在不同维度上的分布图; bi-plots:行和列变量各分类在不同维度上的联合分布; transformation plots:Produces a plot of the original row category values against their corresponding row (column) scores。 重新分类的依据; 判断不同类别差异的大小。
对应分析的概念
在减少维度方面,与因子分析类似; 在做分布图方面,与多维标度方法相似。 它是一种多元相依变量统计分析技术,与其他相依 变量分析技术的不同在于:
1)可分析定性变量; 2)可分析非线性关系 ; 分解法(Decomposi-tional Method),如多维标度。 构成法(Compositional Method),如因子分析、判别 分析。
对应分析的基本思路
基本思路:通过对二维交互表的条件次数分析来 确定变量及其类别之间的关系。 例如:
在分析顾客对不同品牌商品的喜好时,可将商品品牌 与顾客的性别、收入水平、职业等进行交叉分类,表 中的每一项数字都代表着某一类顾客喜欢某一品牌的 人数,这一人数就是这类顾客与这一品牌的“对应” 点,代表不同特点的顾客与品牌之间的联系。 通过分析,可以把品牌、顾客特点以及他们之间的联 系同时反映在一个二维或三维的分布图上,顾客认为 比较相似的品牌在图上的分布便会彼此靠近在一起。 根据顾客特点与每一品牌之间距离的远近,还可以区 分顾客的哪些特点与喜好某种品牌的关系密切。
Simple correspondence analysis with crossed (stacked) variables
ca row_spec col_spec [, options] where spec = varname | (newvarname : varlist) 。eg: . ca A (demo : sex edu), dim(2) report(c) length(min)
STATA中对应分析应用
多元对应分析。命令为mca
mca varlist[, options]。eg:
. mca A B C D; . mca A B C D, method(indicator) dim(3) compact . mca A B C D, method(joint) supp((demo: sex edu))
对应分析的基本思路
在对应分析中,每个变量的类别差异是通过 直观图上的分值距离表现出来的;
这个距离是经过加权以Chi-square值(其分布 是由累计交互分类表中每一交互组的实际频数 与期望频数的差值得来的)的差异表现出来的 距离,即将Chi-square值转变成可度量的距离。
操作前提:
对于分析的基础是交互分类表,表中每个条件 次数都不能是0或负数; 如果有为0的条件次数出现应当对变量的分类进 行合并,去掉这个类别。
STATA中对应分析应用
二元对应分析之后的统计量和作图
command description cabiplot biplot of row and column points caprojection CA dimension projection plot estat coordinates display row and column coordinates estat distances display chi-squared distances between row and column profiles estat inertia display inertia contributions of the individual cells estat loadings display correlations of profiles and axes("loadings") estat profiles display row and column profiles + estat summarize estimation sample summary(not available after camat.) estat table display fitted correspondence table screeplot plot singular values + predict fitted values, row coordinates, or column
第六章
第一节 第二节
对应分析
对应分析概述 统计软件应用
第一节
对应分析概述
对应分析概念 多元对应分析 基本思路 优点 局限性 假设条件
对应分析的概念
在分析定类或定序变量时,往往采用非线性 统计方法(如Loglinear等),但在每个变量 都划分成许多类别的情况下,这些分析方法 很难直观地揭示出变量之间的联系以及变量 类别之间的关系。 对应分析(Correspondence Analysis): 通过分析由定性变量构成的交互分类表来揭 示变量间的联系,将定性变量数据转化为可 度量的分值、减少维度并作出分值分布图。
Contribution of row / column points to the inertia of each dimension:
行、列变量对各维度特征值的贡献,作用是检查行、列 变量各个类别对每一维度特征值的影响。
Contribution of dimensions to the inertia of each row / column points:
惯量,即特征值(Eigenvalue),表示每个维度对 变量各个类别之间差异的解释量; 解释比例,即每一维度的特征值与特征值总和相除得 到的比例,以便确定用几维来表现变量类别的差异。 累计解释比例。
Inertia:
Proportion Explained:
Cumulative Proportion:
Row means are removed. Column means are removed. Row/ Column totals are equalized and means are removed.
Before centering the rows/ column, the row / column margins are equalized.
row / column point plots:
图形的作用:
距离测度的标准化方法
Row and column means are removed.
Both the rows and columns are centered. This method is required for standard correspondence analysis.
运用分布图分析变量类别间的关系的方法:
多元对应分析
具体可以采取两种方法:
合并法。对超过二元的变量进行转换,将两个 或多个变量合并为一个变量(如“性别”和 “城乡”合并为“性别城乡”,城市男性、城 市女性、农村男性、农村女性四个变量值), 从而使各个变量的所有类别都表现在同一个多 维空间里。适用于变量个数较少的情况。 同质分析(Homogeneity Analysis)。对多个 定性变量进行主成分分析,其优势是可对多个 定性变量进行对应分析。
根据分析重点绘图选项
Normalization Method.
决定绘图时是以行变量为主还是以列变量为主,或者是同时 考虑行列变量。具体方法: Symmetrical. 关注行和列变量中不同类别的差异或联系。 Principal. 同时关注行和列变量各类别间的差异。 Row principal. 分析的重点是行变量各类别间的差异。 Column principal. 分析的重点是列变量各类别间的差异。 Custom. 常规设定的方法,利于作图。 Canonical。典型标准化方法。该方法关注的是行、列两个 变量之间关系,而不是每个变量不同类别之间的差异。
SPSS中对应分析应用
菜单:
SPSS—Analyze—Data Reduction— Correspondence Analyze 如果多于2个变量,则采用
相关程序:
multiple correspondence analysis;
categorical principal components analysis。
STATA中对应分析应用
Syntax for predict:
predict [type] newvar [if] [in] [, statistic ] statistic description fit fitted values; the default rowscore(#) row score for dimension # colscore(#) column score for dimension #
所有被调查者对于某一维度重要性的评价不必一样。 被调查者的评判角度和看法可以改变。
第二节
统计软件应用
分析结果指标的含义 ; 提供的统计量和图形及其含义; SPSS操作步骤; STATA命令及结果
分析wenku.baidu.com果指标的含义
Scores:
分值,表示在相应维度上的坐标;
Single Value:
奇异值,即特征值的平方根。代表行与列分值的相关 关系,相当于相关分析里的相关系数r;
分析结果的含义
row and column profiles:
交互分类表,为对应分析的基础数据; 行、列变量在不同维度上的分值,即作图的坐标。
row / column scores:
row / column score confidence statistics:
行、列变量在不同维度上分值的置信区间。
对极端值敏感。
对应分析的假设条件
对数据类型、变量间的关系无严格限定。要求:
调查对象必须有代表性, 研究对象要有可比性; 变量的类别应当涵盖所有可能出现的情况。
被调查者回答问题时并不都从同一角度(或称维度)作 出判断。
对于所分析的调查数据,还有以下假设条件:
在意愿、态度等调查中,被调查者通常会从两个维度进行评判, 即主观维度和客观维度。 换言之,被调查者并不都是用同样的主观或客观维度及指标来作 为判断的依据。