应用多元统计分析-第八章 列联与对应分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a. 0 cells (.0%) have e xpe cte d co unt less than 5. The minim um expected count is 10.33 .
H0:观点和收入这两个变量不相关;H1:这两个变量相关。
列联表中的相关测量
利用检验对列联表中变量之间的相互关 系进行检验之后,如果认为拒绝原假设, 变量之间存在联系, 那么,接下来的问题就是它们之间的相 关程度有多大?
35 39
女:观察值 期望值
18 22
47 43
期望值的分布
如果男女性别对该性政策的观点相同, 就应有:
H 0 :P男 P女
那么表8.4中,观察值和期望值就应当非 常接近。 2 对于这个假设的检验,可以采用 分布 进行 2 检验。
2
分布与 检验
2
2
统计量
用f0表示观察值频数,fe表示期望值 的频数,则 2 统计量为:
X2分布的期望值准则
例如表8.5中的数据可以计算,因为6个单 元中只有1个单元的期望频数小于5。
类别
A B C D E F
f0
28 49 18 6 92 20 213
fe
26 47 23 4 88 25 213
合计
X2分布的期望值准则
但是表8.6中的数据不能应用检验。
类别
A B C D E F G
列联表中的相关测量
SPSS中提供了多种相关检验的方法: 定距变量与定距变量相关的检验 名义变量与名义变量相关的检验 序次变量与序次变量相关的检验
Symmetric M easures Va lue No minal by Ph i .408 No minal Cramer's V .408 Co ntingency Co efficient .378 Ordinal b y Gamma -.641 Ordinal Sp earman Correlati on -.407 Interval b y In terval Pe arson's R -.408 N of Valid Cases 123 a. No t assuming th e null hypothe sis. b. Using the asymptoti c standard error assuming the null h ypo thesis. c. Ba sed on normal ap proximation. Asymp. a b Std. Error Ap prox. T Ap prox. Sig. .000 .000 .000 .101 -4.935 .000 .079 -4.898 .000 c .080 -4.913 .000 c
列联表
一般将横向变量的划分类别视为R,纵
向变量的划分类别视为C,则可以将列 联表称为R×C列联表。上表即为2×2 列联表。 在SPSS数据中,收入的“低”、 “中”、“高”用代码1、2、3代表; 性别的“女”、“男”用代码0、1代 表;观点“赞成”和“不赞成”用1、 0代表。
列联表的分布
列联表有两个分布: 一个是观察值的分布; 一个是期望值的分布;
我们以上介绍的是列联表中一致性的检验, 但是列联表分析中用的更多的是检验变量 之间是否存在相关关系,即独立性检验。 我们仍用table7.sav的例子:
观 点 * 收 入 Crosstabulation Co unt 1 观点 To tal 不赞成 赞成 7 45 52 收入 2 15 25 40 3 19 12 31 To tal 41 82 123
f0
30 110 86 23 5 5 4 263
fe
32 113 87 24 2 4 1 263
合计
X2分布的期望值准则
如果我们仔细观察会发现,表8.6中的f0与fe 非常接近,最大的差别只是3,应当说期望 值与观察值拟合得很好,它们之间并无显 著差别。 然而,用X2检验得到的结果却是拒绝原假设, 差异显著。 解决的方法是:将小单元合并,使得fe大于 5。
1 2
m
如何得到过渡矩阵Z?
设有n个样品,每个样品有p个指标,原始资料阵为:
x11 x 21 X xn1
x12 x22 xn 2
x1 p x2 p xnp
假定矩阵X的元素都>0
如何得到过渡矩阵Z?
x11 x21 xn1 x.1 x12 x1 p x22 x2 p x.2 x. p xn 2 xnp x1. x2. xn . x..
SPSS选项: Analyze——Descriptive Statistics— Crosstabs 然后选择statistics,再选 2 检验即可。
检验结果
2
Chi-Squa re Tests Va lue Pe arson Chi-Square 1.974 b a Co ntinuity Co rrection 1.472 Likelihood Ratio 1.975 Fisher's Exact T est Linea r-by-Linear 1.958 Associatio n N of Valid Cases 123 a. Co mputed on ly for a 2x2 table b. 0 cells (.0%) have expected cou nt less than 5. The mi nimum expected coun t is 19. 33. df 1 1 1 Asymp. Sig. (2-sided) .160 .225 .160 Exact Sig. Exact Sig. (2-sided) (1-sided)
观点与收入是否相关的检验
Chi-Squa re Tests Va lue 20.45 6 a 21.19 0 20.29 0 123 df 2 2 1 Asymp. Sig. (2-sided) .000 .000 .000
Pe arson Chi-Square Likelihood Ratio Linea r-by-Linear Associati on N of Vali d Cases
对应分析
行和列变量的相关问题
在因子分析中,或者对指标(列中的变 量)进行分析,或者对样品(观测值或 行中的变量)进行分析。 另外,在处理实际问题中,样品的个数 远远大于指标个数。如有100个样品,每 个样品测10个指标,要做样品的因子分 析,就要计算(100×100)阶相似系数阵 的特征根和特征向量,这对于计算机来 说也是一想耗时费力的事情。
X2分布的期望值准则
利用X2分布进行检验时,要求样本容量必须 足够大,特别是每个单元中的期望频数不 能过小,否则应用X2检验可能会得出错误的 结论。 一项准则是:如果只有两个单元,每个单 元的期望频数必须是5或以上。 另一准则是:如果有两个以上的单元,如 果20%的单元期望频数小于5,则不能应用 X2检验。
例7.1—数据文件:ChMath.sav
这项研究是为了考察汉字具有的抽 象图形符号的特性能否会促进儿童 空间和抽象思维能力。 该数据以列联表形式展示在表中:
人们可以对这个列联表进行前面所说的X2检验来考 察行变量和列变量是否独立。结果在下面表 (通过Analyze-Descriptive Statistics-Crosstabs)
sex * opinion Crosstabulation
opinion
不赞成
sex 女 % within sex 男 Count % within sex Total Count
赞成
18
27.69 23 39.66
47
35
65
58
72.31 100.00% 60.34 100.00%
41
33.33
2
2 ( 0 fe) f fe
2 值的大小与观察值与期望值的配 由于 2 对数,即R×C有关,所以, 统计量的 分布与自由度有关。自由度=(R-1)(C-1)
0.4 0.5
(2)
2
2
分布
0.2
0.3
(3)
2百度文库
0.1
(5)
2
0.0
0
2
4
6
8
10
2
检验
2 检验可在交叉汇总分析中进行:
对列 应联 分分 析析 与
第八章 ——列联分析与 对应分析
列 联 分析
二维列联表
例8.1关于某项政策调查所得结果:table7.sav
表8.1
男 女 合计
观点: 不赞成 23 18 41
观点: 赞成 35 47 82
合计 58 65 123
列联表
前面就是一个所谓的二维列联表 (contingency table). 列联表是由两个或两个以上的变量 进行交叉分类的频数分布表。 这些变量中每个都有两个或更多的 可能取值。这些取值也称为水平; 比如观点有两个水平,性别有两个 水平等。
对应分析
它是从指标型因子分析出发,而直接获 得样品因子分析的结果。 概括起来,因子分析可以提供三方面的 信息: 指标之间的关系; 样品之间的关系; 指标与样品之间的关系。
对应分析的基本思想
由于指标型的因子分析和样品型的因子 分析都是反映一个整体的不同侧面,以 它们之间一定存在内在的联系。 对应分析就是通过一个过渡矩阵Z将两者 有机的结合起来: 即:首先给出指标变量点的协差阵A=Z’Z 和样品点的协差阵B=ZZ’,由于两者有相 同的非零特征根,记为:
.183 1 .162
.113
2
检验
实际上有不止一个X2检验统计量。包括 Pearson X2统计量和似然比 (likelihood ratio)X2统计量;它们 都有渐近的X2分布。
根据计算可以得到(对于这两个统计量 均有)p-值大于0.05。
此外还有精确的统计量——Fisher精确检 验;它不是X2分布,而是超几何分布。 对本问题,计算Fisher统计量得到的p-值也 大于0.05。 聪明的同学必然会问,既然有精确检验为 什么还要用近似的X2检验呢? 这是因为当数目很大时,超几何分布计算 相当缓慢(比近似计算会差很多倍的时 间);而且在计算机速度不快时,根本无 法计算。因此人们多用大样本近似的X2统计 量。
行和列变量的相关问题
然而,在很多情况下,所关心的不 仅仅是行或列本身变量之间的关系, 而是行变量和列变量的相互关系; 这就是因子分析等方法所没有说明 的了。先看一个例子。
例7.1—数据文件:ChMath.sav
在研究读写汉字能力与数学的关系的研 究时,人们取得了232个美国亚裔学生的 数学成绩和汉字读写能力的数据。 关于汉字读写能力的变量有三个水平: “纯汉字”——可以完全自由使用纯汉 字读写, “半汉字”——读写中只有部分汉字 (比如日文), “纯英文”——只能够读写英文而不会 汉字。 而数学成绩有4个水平(A、B、C、D)。
82
123
% within sex
66.67 100.00%
观察值的分布
事实上,表8.2就是一个最简单的观察值 的分布。 观察值分布虽然反映了数据的分布,但 因为基数不同,不适合于进行对比。 为了能在此相统的基数上比较,使列联 表中的数据提供更多的信息,可以计算 相应的百分比。
期望值的分布
如果我们想进一步了解不同性别的人对 这项政策的观点是否存在着显著的差异, 就要进行检验。 从逻辑上讲,如果男女性别的人对这项 政策的看法相同,那么男性不赞同方案 的人应为:58×33.3%=19人,女性不赞同 方案的人应为:65×33.3%=22人。 这19人和22人就是本例中的期望值,由 此可以计算出期望值的分布。
对应分析
由于所有的检验都很显著,看来两个变 量的确不独立。 但是如何用象因子分析的载荷图那样的 直观方法来展示这两个变量各个水平之 间的关系呢?这就是本章要介绍的对应 分析(correspondence analysis)方法。 对应分析是将指标型的因子分析与样品 型的因子分析结合起来进行的统计分析。
期望值的分布
表8.3 期望值分布表
观点: 不赞成 男 女 合计
58¬33.3%=19 65¬33.3%=22 41
观点: 赞成
58 ¬66.7%=39 65 ¬66.7%=43 82
合计
58 65
对比分布表
表8.4 观察值与期望值频数对比分布表
观点: 不赞成
男:观察值 期望值 23 19
观点: 赞成