统计学课件:列联表和对应分析

合集下载

对应分析ppt课件

对应分析ppt课件

精选课件ppt
35
§7.2 对应分析的基本理论
7.2.4 需要注意的问题
需要注意的是,同对应分析生成的二维 图上的各状态点,实际上是两个多维空间上 的点的二维投影,在某些特殊的情况下,在 多维空间中相隔较远的点,在二维平面上的 投影却很接近。此时,我们需要对二维图上 的各点做更深的了解,即哪些状态对公因子 的贡献较大,这与在因子分析中判断原始变 量对公因子贡献的方法类似 。
精选课件ppt
26
§7.2 对应分析的基本理论
精选课件ppt
27
§7.2 对应分析的基本理论
精选课件ppt
28
§7.2 对应分析的基本理论
精选课件ppt
29
§7.2 对应分析的基本理论
精选课件ppt
30
§7.2 对应分析的基本理论
精选课件ppt
31
§7.2 对应分析的基本理论
精选课件ppt
§7.2 对应分析的基本理论
7.2.1 有关概念 1. 行剖面与列剖面
精选课件ppt
16
§7.2 对应分析的基本理基本理论
精选课件ppt
18
§7.2 对应分析的基本理论
精选课件ppt
19
§7.2 对应分析的基本理论
2. 距离与总惯量
精选课件ppt
20
精选课件ppt
4
§7.1列联表及列联表分析
在研究经济问题的时候,研究者也往往用列联表的形式把 数据呈现出来。比如说横栏是不同规模的企业,纵栏是不同 水平的获利能力,通过这样的形式,可以研究企业规模与获 利能力之间的关系。更为一般的,可以对企业进行更广泛的 分类,如按上市与非上市分类,按企业所属的行业分类,按 不同所有制关系分类等。同时用列联表的格式来研究企业的 各种指标,如企业的盈利能力、企业的偿债能力、企业的发 展能力等。这些指标即可以是简单的,也可以是综合的,甚 至可以是用因子分析或主成分分析提取的公因子;把这些指 标按一定的取值范围进行分类,就可以很方便地用列联表来

统计学 列联分析优秀PPT

统计学 列联分析优秀PPT

19
(fij - eij)2
4 25 9 36 4 25 9 36
(fij- eij)2 eij
0.0606 0.3125 0.1500 0.4932 0.1176 0.6250 0.3000 0.9730
13
2
期望频数的分布
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频
数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即
eij
n
ri n
cj n
ric j n
14
2
期望频数的分布(例题分析)
例如,第1行和第1列的实际频数为 f11 ,它落在第1行的 概率估计值为该行的频数之和r1除以总频数的个数 n , 即:r1/n;它落在第1列的概率的估计值为该列的频数 之和c1除以总频数的个数 n ,即:c1/n 。根据概率的 乘法公式,该频数落在第1行和第1列的概率应为
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120
90
110 420
9
2
二、列联表的分布----观察值的分布
1. 边缘分布
行边缘分布
行观察值的合计数的分布 例如,赞成改革方案的共有279人,反对改革方案的141人
列边缘分布
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为100人,120人,
90人,110人
2. 条件分布与条件频数
变量 X 条件下变量Y 的分布,或在变量Y 条件下变 量 X 的分布

对应分析

对应分析

p12 / p1. p22 / p2. p n 2 / pn .
p1 p / p1. p 2 p / p 2. pnp / pn.
pij n pij E ( ) = ∑ . pi. = p. j , j = 1,2,, p pi. i =1 pi.
因为原始变量的数量等级可能不同,所以为了尽 量减少各变量尺度差异,将行轮廓中的(各列元素) 均除以其期望的平方根.得矩阵D(R)
32 6
15 1
62 8
11 1
40 8
58 6
35 10
58 67
21 23
70 95
17 25
70 71
62 89
83 91
American European Japanese Large Medium Small Family Sporty Work 1 Income 2 Incomes Own Rent Married Married with Kids Single
变量的叉积矩阵
∑ R = (X* )′X* ( p × p)
样品的叉积矩阵
∑ Q = X* ( X* )′ ( n × n)
显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 他们的非零特征根也不一样,那么能否将观测值做变换. 他们的非零特征根也不一样,那么能否将观测值做变换.
含义 雪糕 纯水 碳酸饮料 果汁饮料 保健食品 空调 洗衣机 毛毯
代码 Feel1 Feel2 Feel3 Feel4 Feel5 Feel6 Feel7 Feel8
含义 清爽 甘甜 欢快 纯净 安闲 个性 兴奋 高档
name1
product1 product2 product3 product4 product5 product6 product7 product8 feel1 feel2 feel3 feel4 feel5 feel6 feel7 feel8 50 508 55 109 34 11 30 2 368 217 19 142 16 2 4 3

多元统计分析-对应分析

多元统计分析-对应分析

03
列联表检验的零假设是两变量 X和Y 相互独立,计算一个卡方统计量,与列联表中频数取值 和零假设下期望取值之差有关,当卡方 很大时否定零假设。
BA
患慢性支 未患慢性 气管炎 支气管炎
吸烟
43
162
不吸烟
13
121
为了探讨吸烟与慢性支气管炎有无关系, 调查了339人,情况如表所示:
设想有两个随机变量A,B:A:1表示吸 烟,
对应分析
对应分析基本步骤: 建立列联表
利用对应图解释结 果。
1
2
3
一.获取对应分析 数据 确定研究目的, 选择对应分析 所需数据,应 该包括的背景 资料。
对应分析
4
5
二、对应分析 的原理
01
由于R型因子分析和 02
设原始数据矩阵为:
Q型因子分析是反映
一个整体的不同侧面,
R型因子分析是从列
来讨论(对变量),
k
特征根。
Zu k
设 1 2…
三、对应图u 1u 11u 21 A和l(0Bu <的p 1 i<非m零in特(n征,p根)),为其矩相阵应 u 2u 12u 22 的特征u p 向2量为
v 1 v 1 1v 2 1 v n 1 v 2 v 1 2 v 2 2 v n 2
我们知道因子载荷矩阵的含义是原始变量与公共因子之间的 相关系数,所以如果我们构造一个平面直角坐标系,将第一 公共因子的载荷与第二个公共因子的载荷看成平面上的点, 在坐标系中绘制散点图,则构成对应图。
Q型因子分析是从行
来讨论(对样品),
因此 在的
他们之
联 x系1。1

存在
x12

对应分析

对应分析

1.对应分析对应分析表(A correspondence table)是一个两维表(two-way table),表中的单元包含行变量和列表量之间对应测度的一些信息。

所谓的对应测度(The measure of correspondence),可以表明行变量或列变量之间的近似程度(similarity)、密切关系(affinity)、复杂关系(confusion)、关联程度(association)或交互作用(interaction)。

交叉列联表(a crosstabulation)是对应分析表中最普通的一种类型,该表中的单元格包含频数(计数)。

利用SPSS中的列联表分析也可以得到交叉列联表,但是交叉列联表并不总是能够清晰地刻画出行变量和列变量之间的本质关系。

当我们所感兴趣的变量是名义变量(没有内在的次序或秩序)同时还包含很多类型时,这种问题尤其突出。

一个有关职业和早餐谷类食品的交叉列联表,也许能够告诉我们观测单元频数和期望频数是否存在显著差异,但是它很难识别出从事何种职业的人们喜欢哪种类似的早餐食品,同时也很难对早餐口味进行归类。

利用多维空间图形,对应分析可以分析两个名义变量之间的关系。

这种图形称为对应分析图,是利用计算出来的行变量和列变量得分而绘制的。

变量中相似的类型在图形中比较接近,因此通过这种方法可以很容易看出某个变量的哪些类型和其它类型相似,也可以分析出行变量和列变量的哪些类型存在相关性。

SPSS的对应分析方法还容许用辅助点(supplementary points)对根据活动点定义出的空间进行拟合。

如果没有办法根据类型的得分排序,或者这种排序与我们的直觉不相符,那么可以设定某些类型的得分相同,实际上就是对类型的次序设定限定条件。

比如说,我们预期变量“吸烟行为”有四个类型:不吸烟、少量吸烟、适度吸烟和大量吸烟,每一类型都有对应于次序的得分,但是对应分析对这四个类型进行排序时,可以限定适度吸烟和大量吸烟的得分相同。

本科统计学课件-第十讲 列联表

本科统计学课件-第十讲     列联表


一、变量间的相关 1、列联表中的频次分布情况,不仅是检验是否存 在关系的依据,同时也是度量变量间关系强弱的依 据。相关性程度越高,说明社会现象与社会现象间 的关系愈密切。 2、列联表中变量间的关系的强度分析,可以将频 次转化为条件分布,然后比较自变量取不同值时, 因变量条件分布的不同。



右表中,男生上网玩游 戏的比例高于女生;而 上网聊天的比例低于女 生; 想一想,当x取值大于2 时,怎样比较?
. . .
yr
. . .
N1r
. . .
N2r . . .
. . .
Ncr
Nij:x=xi y=yj时所具有的频次
学生上网调查
(统计各项比例,能发现什么问题?) 聊天 玩游戏 网恋 学习 男生 20 50 15 15 女生 20 50 15 15
2、列联表中变量的分布



N11 N 21 N *1 N1* N 2* N N ij N i* N ij N* j N
N* j N N N I* N Pij Pi* P* j
第二节

列联表的检验
一、原假设: 将总体中变量间无关系或相互独立作为检验 的原假设。
H :p
0
ij

p p
i*
*j

总体 pi*和 p* j未知时,用样本 p i*和 p* 代替。 j


n p n
i*

i*
n p n
*j

*j
二、统计量

x
E
ij
2
x
2

i 1 j 1
c

统计学第12章 列联表和对应分析

统计学第12章 列联表和对应分析

2
.066 .004
.056 1.000 .021

.078 225.274 .000 1.000 1.000

a
a. 8 自由度
中央财经大学统计学院 19
对应分析结果的解释
“惯量”类似于因子分析中特征值对应的方 差;“惯量比例”一栏中,“解释”的惯 量比例类似于因子分析中的方差贡献率, “累积”的惯量比例类似于因子分析中的 累积方差贡献率,这几个指标反映了每个 维度的因子重要性和解释能力。
中央财经大学统计学院 6
SPSS操作
“分析”“描述统计”“交叉表”,把 “婚姻状况”设为行变量,把“幸福状况” 设为列变量。接下来单击“统计量”,在 弹出的对话框中选中“卡方”,单击“继 续”;选择“单元格”,选中弹出对话框 中的“期望值”,单击“继续”返回前一 个是对话框,单击“确定”
中央财经大学统计学院 7
117.0 654
654.0 2885 2885.0
结果分析

df 渐进 Sig. (双侧)
Pearson 卡方
225.274a
8
.000
似然比
230.166
8
.000
线性和线性组合 137.494
1
.000
有效案例中的 N
2885
a. 0单元格(.0%)的期望计数少于5。最小期望计数为 14.15。
对应分析可以按照相同的刻度同时对列联表中的 行变量和列变量进行降维,用较少的维度(一般 选用二维或三维)来代表数据表中的行变量和列 变量,从而在同一个空间中用图形方法显示行变 量和列变量类别之间的关系。
中央财经大学统计学院 12
对应分析图的绘制
在表12-1的列联表中,把3个幸福状况的取 值看作3维空间中的坐标,我们可以把5个 婚姻状况在3维空间中表示出来。

对应分析

对应分析

对应分析对应分析的基本思想对应分析( Correspondence Analysis )又称为相应分析,是由法国统计学家于1970提出的,是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。

它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。

当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。

对应分析方法是通过对交互表的频数分析来确定变量及其类别之间的关系。

例如,在分析顾客对不同品牌商品的偏好时,可以将商品与顾客的性别、收入水平、职业等进行交叉汇总,汇总表中的每一项数字都代表着某一类顾客喜欢某一品牌的人数,这一人数也就是这类顾客与这一品牌的“对应”点,代表着不同特点的顾客与品牌之间的联系。

通过对应分析,可以把品牌、顾客特点以及它们之间的联系同时反映在一个二维或三维的分布图上,顾客认为比较相似的品牌在图上的分布就会彼此靠近在一起。

根据顾客特点与每一品牌之间的距离,就可以判断它们之间关系的密切程度。

在对应分析中,每个变量的类别差异是通过直观图上的分值距离来表示。

这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权的过程中,以卡方值的差异表现出来。

因此,对应分析的基础是将卡方值转变为可度量的距离。

卡方值是由累计交叉汇总表中每一交互组的实际频数与期望频数的差值计算得出。

如果卡方值是负值,就说明这一单元中实际发生频数低于期望频数。

每一单元格(每个行变量类别与列变量类别在表中的交叉点)频数的期望值取决于它在行分布中所占比例和列分布中所占比例。

如果某一单元格的卡方值是正值,而且数值很大,就说明这一单元格对应的行变量与列变量有很强的对应关系,这两个类别在图上的距离就会很近。

反之,若为负值,则在图上的距离就会远。

总之,对应分析是通过对定性变量构成的交互表进行分析,将定性变量的数据转变成可度量的分值,减少维度并做出分值分布图。

应用统计学之列联分析介绍课件

应用统计学之列联分析介绍课件
4
SPSS软件
SPSS是一款广泛应用于社会科学、市场调查、健康研究等领域的统计分析软件。
SPSS提供了丰富的统计分析方法,包括描述性统计、频率分析、交叉分析、相关分析、回归分析等。
SPSS的图形功能强大,可以生成各种统计图表,如柱状图、饼图、散点图、箱线图等。
SPSS的语法简单易学,用户可以通过编写简单的语法命令来实现复杂的统计分析。
步骤:设定假设、计算卡方值、比较卡方值与临界值、得出结论
列联表分析
列联表:用于展示两个或多个变量之间的关系
1
列联分析:通过列联表分析,可以了解变量之间的关系
2
列联分析方法:包括卡方检验、相关系数、回归分析等
3
列联分析应用:广泛应用于市场研究、医学研究、教育研究等领域
4
相关系数分析
相关系数:衡量两个变量之间线性关系的度量
Excel插件是一种在Excel中扩展功能的工具
01
列联分析软件与工具可以通过Excel插件进行安装和使用
02
Excel插件可以提供更丰富的数据分析功能,提高工作效率
03
常见的Excel插件有:Power Query、Power Pivot、Power BI等
04
谢谢
R语言
R语言是一种开源的统计计算和图形语言
R语言提供了丰富的统计分析工具和函数
R语言支持列联分析,包括卡方检验、相关分析等
R语言可以方便地绘制各种统计图表,如柱状图、饼图等
R语言可以与其他统计软件和数据库进行交互,如SPSS、SAS等
R语言具有强大的社区支持,用户可以方便地获取帮助和资源
Excel插件
01
01
02
03
04
数据来源:消费者调查问卷

对应分析-PPT课件

对应分析-PPT课件


d i a g, p ,, p 其中 D 。 r 1 p 2 p
列轮廓矩阵
, cq p11 p1 p21 p1 p p1 p1 p12 p2 p22 p2 pp2 p2 p1q pq p2 q pq p pq pq
列轮廓矩阵为
0 . 2 3 9 0 3 7 1 1 . C P D c 0 . 2 2 1 0 . 1 7 0 0 . 1 9 9 0 . 3 6 6 0 . 2 2 6 0 . 2 0 9 0 . 1 8 8 0 . 3 6 7 0 . 2 0 1 0 . 2 4 5 0 . 1 3 6 0 . 3 6 6 0 . 2 0 4 0 . 2 9 4 0 . 0 9 7 0 . 3 2 7 0 . 2 4 9 0 . 3 2 7
二、对应矩阵
q q p p n n n i j i j i j p , p p , p p 这里, i 。 j i i j j i j n n n j 1 j 1 i 1 i 1

显然有
p p
i1 i j 1
p
q
j
1 。

q
j 1
n ij 为第 i 行的频数之
1 , 2 , ,p 和, i ; n j
p
n
i 1
q
p
ij
为第 j 列的频数之和,
p q
n n n j 1 , 2 , ,q ;n i j i j为所有类别组
i 1 j 1 i 1j 1
合的频数总和。
对应分析
对应分析(correspondence analysis)是用于寻求列 联表的行和列之间联系的一种低维图形表示法,它 可以从直觉上揭示出同一分类变量的各个类别之间 的差异,以及不同分类变量各个类别之间的对应关 系。 对应分析是由法国人Benzecri于1970年提出的,起 初在法国和日本最为流行,然后引入美国。 在对应分析中,列联表的每一行对应(通常是二维) 图中的一点,每一列也对应同一图中的一点。本质 上,这些点都是列联表的各行各列向一个二维欧式 空间的投影,这种投影最大限度地保持了各行(或 各列)之间的关系。

《统计学》第7章 列联表分析

《统计学》第7章 列联表分析
的。所以在很多情况下并没有严格区分齐性检验和独立性检验。
第一章 导论
《统计学》
20
7.2 列联表的齐性检验
例 .网络用户个人信息被盗状况是否在不同年龄人群中有差异?一项关于网络用
户的调查将18岁以上成人按年龄分为四组:18−29岁、30−49岁、50−64岁、65
岁以上。在四个年龄组中分别抽取了200名用户,调查发现18 − 29岁的用户中
正相关,此时 > 0。
第一章 导论
《统计学》
15
7.2 列联表的齐性检验
注:虽然都是列联表,但是方法2所得到的列联表中列709和709并非随机的,
而是试验之前预先设计好的。这样的列联表称之为(列)边缘固定的列联表。
➢ 对方法1,可以使用独立性卡方检验或比例差异的大样本Z检验,通过比
较吸烟者中肺癌的比例和不吸烟者中肺癌的比例、或者肺癌患者中的吸
通常采用卡方检验作为列联表的独立性检验方法。
第一章 导论
《统计学》
7
7.1 列联表的独立性检验
卡方检验:通过样本的实际观测值(观测频数) 与原假设成立时
的理论推断值 (理论频数) 之间的偏离程度决定卡方统计量值
的大小。
➢ 设 为类 的 (估计) 理论频数。如果原假设成立,即两
• 对于 × 列联表, = 。对于其它 × 列联表, < ,且差距随着行
数和列数差的增大而增大。
第一章 导论
《统计学》
26
7.3 相关性度量
➢ Phi系数(Phi coefficient) : 衡量两个二分类变量相关性的指标,也被
称为尤尔phi系数(Yule,1912),记作。对于2 × 2列联表

对应分析

对应分析

对应分析问题1:分析列联表中属性之间的相关关系。

对应分析是列联表的一类加权主分量分析,用于寻求列联表的行于列之间的低维图形表示法。

看一个例子:我们从生物学中的一个“梯度分析”问题谈起。

设我们需要了解若干地区的干湿度和若干草类的喜湿性。

现对某n个地区是否生长p种不同草类的情况作了调查,得到一个列联表K,希望通过这一调查表对着各个地区的干湿度和各草类的喜湿性作一估计。

设列联表为其中j i j i k ij 不生长草类在地区生长草类在地区⎩⎨⎧=01经典的梯度分析方法是:先对p 种草类喜湿性作出估计p r r r ,,,21 ,然后用加权平均的方法得到关于各个地区干湿度的估计n i k r k s pj i j ij i ,,2,1,1 =∝∑=⋅反之,如果先对各个地区的干湿度作出估计n s s s ,,,21 ,然后用同样的方法得到关于各种草类喜湿性的估计p j k s k r ni j i ij j ,,2,1,1 =∝∑=⋅但是,如何先对草类的喜湿性或先对地区的干湿性进行估计就是一个难题,除非根据其他资料,否则无法仅从这个列联表出发,无论先估计那一个都会带有主观性,这就是经典梯度分析存在的一个问题。

是否有一个办法,从这张列联表出发能客观地同时把两者估计出来?应该是可能的,因为各个地区的干湿度是由各种喜湿性草类是否在该地区生长反映出来,而且草的喜湿性又是通过它在什么样的干湿度的地区生长反应出来,两者相互依赖,应从两者相互依赖中求解出各种量的估计。

为此我们来注意上述两式及它们之间的联系。

先引进一些矩阵的记号:)()(ij p n k K =⨯,{}⋅⋅=n n k k diag D ,,1 ,{}p p k k diag D ⋅⋅=,,1又记向量)',,(1n s s s =,)',,(1p r r r =,则前面的两式可表示为Kr D s n1-∝, s K D r p'1-∝其中∝表示“成比例于”。

统计分析与方法-第九章 列联分析与对应分析

统计分析与方法-第九章 列联分析与对应分析

8
表8.2
包含百分比的列联表
性 别 * 观 点 Cross tabulation 观点
性别

行百分比 列百分比 总百分比

Total
Count %w ithin 性 别 %w ithin 观 点 % of Total Count %w ithin 性 别 %w ithin 观 点 % of Total Count %w ithin 性 别 %w ithin 观 点 % of Total
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation.
23
X2分布的期望值准则
检验
2
2 检验可在交叉汇总分析中进行:
SPSS选项: Analyze——Descriptive Statistics— Crosstabs 2 然后选择statistics,再选 检验即可。

17
检验结果
2
Chi-Square Tests Value 1.974b 1.472 1.975 df 1 1 1 Asymp. Sig. (2-sided) .160 .225 .160 Exact Sig. (2-sided) Exact Sig. (1-sided)
31
对应分析
由于所有的检验都很显著,看来两个变量 的确不独立。 但是如何用象因子分析的载荷图那样的直 观方法来展示这两个变量各个水平之间的 关系呢?这就是要介绍的对应分析 (correspondence analysis)方法。 对应分析是将指标型的因子分析与样品型 的因子分析结合起来进行的统计分析。

对应分析

对应分析

对应分析对应分析的基本思想对应分析(Correspondence Analysis)又称为相应分析,是由法国统计学家于1970提出的,是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。

它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。

当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。

汇总表中分值,1(点))2.主成分(principal components):通过主成分分析,可以在以两个主成分为坐标的空间中,标出行轮廓或列轮廓,或同时标出行、列轮廓,从而探索它们之间的关系。

这种近似的表示行轮廓和列轮廓的图形叫对应图。

3.惯量(inertials)和特征值(eigenvalues):惯量是度量行轮廓和列轮廓的变差的统计量。

总惯量表示轮廓点的全部变差,作图用的前两个维度分别对应于两个主惯量(principal inertias),表示在坐标方向上的变差;主惯量就是对行轮廓和列轮廓作主成分分析时得到的特征值,特征值的平方根叫奇异值(singular values)。

4.卡方(Chi-square)、似然比卡方(likelihood ratio Chi-square)、曼图—汉斯泽鲁卡方(Mantel-Haenszel Chi-square)、法系数(phi-coefficient)、列联系数(contingency coefficient),这些均是检验对应分析显着性或近似效果的统计量。

实例分析[例11-1]某公司进行一次市场调查,得到轿车特征与一些用户特征的数据。

如有:轿车大小(大、中、小)、轿车类型(家用型、跑车、商用车)、收入(一份收入、双份收入)、状态(已婚、已婚有孩子、未婚、未婚有孩子)、房子(租房、买房)等数据。

现请分析它们之间的联系。

以下是spss11.0作出的对应图:从对应图可以推断出下面一些结论:1.已婚有孩子、家用车和中型车相关性较大。

统计学课件 列联分析

统计学课件 列联分析

1.00
女 淡啤 30 23.33 6.67 44.49
1.91
女 普啤 30 32.67 -2.67 7.13
0.22
女 黑啤 10 14.00 -4.00 16.00
1.14
6.13
列联表中的卡方检验
已知: 0.05 自由度= 2 13 1 2
查表得临界值: 2 5.99 0.05
经计算:
C1
C2
合计
R1
a
适用于2 ×2列联表 0 1
b
a+b
R2
c
d
c+d
合计
a+c
b+d
n
0 1
0 0.3
0.3 0.7
0.7 1
无相关 完全相关 弱相关 中度相关 高度相关
Φ相关系数
2×2列联表
变量 C 与变量 R 不相关时,有
C1
C2
合计
ab
化简得: ad bc
R1
a
男性与女性饮者啤酒偏好的样本数据
男性
淡啤 20
普啤 40
黑啤 20
合计 80
女性
30
30
10
70
合计
50
70
30
150
不同性别饮酒偏好比率的样本数据
列联表中的卡方检验
淡啤
普啤
黑啤
合计
频数
比率 %
频数
比率 %
频数
比率 %
频数
比率%
男 性
20
25.0
40
50.0
20
25.0
80
100
女 性
30
42.9

对应分析原理PPT课件

对应分析原理PPT课件

2020/5/9
中国人民大学六西格玛.质量管理研究中心
66
目录 上页 下页 返回 结束
§7.1列联表及列联表分析
2020/5/9
中国人民大学六西格玛.质量管理研究中心
77
目录 上页 下页 返回 结束
§7.1列联表及列联表分析
2020/5/9
中国人民大学六西格玛.质量管理研究中心
88
目录 上页 下页 返回 结束
• 对应分析方法广泛用于对由属性变量构成的列联 表数据的研究,利用对应分析可以在一张二维图 上同时画出属性变量不同取值的情况,列联表的 每一行及每一列均以二维图上的一个点来表示, 以直观、简洁的形式描述属性变量各种状态之间 的相互关系及不同属性变量之间的相互关系。
2020/5/9
中国人民大学六西格玛.质量管理研究中心
非上市分类,按企业所属的行业分类,按不同所有
制关系分类等。同时用列联表的格式来研究企业的
各种指标,如企业的盈利能力、企业的偿债能力、
企业的发展能力等。这些指标即可以是简单的,也
可以是综合的,甚至可以是用因子分析或主成分分
析提取的公因子;把这些指标按一定的取值范围进
行分类,就可以很方便地用列联表来研究。
11 11
目录 上页 下页 返回 结束
§7.1列联表及列联表分析
2020/5/9
中国人民大学六西格玛.质量管理研究中心
12 12
目录 上页 下页 返回 结束
§7.1列联表及列联表分析
2020/5/9
中国人民大学六西格玛.质量管理研究中心
13 13
目录 上页 下页 返回 结束
§7.1列联表及列联表分析
§7.1列联表及列联表分析

对应分析课件.ppt

对应分析课件.ppt

优秀课件,精彩无限!
13
表中的术语
Inertia-惯量, 为每一维到其重心的加权距离的平方。它 度量行列关系的强度。
Singular Value-奇异值(是惯量的平方根),反映了 是行与列各水平在二维图中分量的相关程度,是对行与列 进行因子分析产生的新的综合变量的典型相关系数。
Chi Square-就是关于列联表行列独立性c2检验的c2统 计量的值,和前面表中的相同。其后面的Sig为在行列独立 的零假设下的p-值,注释表明自由度为(4-1)×(3-1)=6, Sig.值很小说明列联表的行与列之间有较强的相关性。
优秀课件,精彩无限!
4
例子(数据ChMath.txt )
该数据关于汉字读写能力的变量有三个水 平:
“纯汉字”意味着可以完全自由使用纯汉 字读写,
“半汉字”意味着读写中只有部分汉字 (比如日文),
而“纯英文”意味着只能够读写英文而不 会汉字。而数学成绩有4个水平(A、B、C、 D)。
虽然对不同数据类型所产生结果的解释有 所不同,数学的原理是一样的。下面通过 对ChMath.txt数据的计算和结果分析来 介绍对应分析。
优秀课件,精彩无限!
10
首先看对应分析结果的一个主要SPSS展示,然后 再解释该图的来源和解释。
运用纯汉字的点和最好的数学成绩A最接近,而不会汉字 只会英文的点与最差的数学成绩F(或者D,虽然在纵坐 标稍有差距)最接近,而优用秀课件部,精彩分无限!汉字的和数学成绩B接11近。
优秀课件,精彩无限!
17
SPSS的实现
打开ChMath.sav数据,其形式和本章开始的 列联表有些不同。其中ch列代表汉字使用的三 个水平;而math列代表数学成绩的四个水平; 第一列count实际上是ch和math两个变量各 个水平组合的出现数目,也就是列联表中间的数 目。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
按上述方法得到的图形称为对应分析图。
对应分析图的绘制
为了保证对行和列进行因子分析的结果之间的 对应关系,在进行对应分析时并不是根据列联 表中的频数直接进行因子分析的
而是先计算相应的频率,再进行必要的变量变 换,之后再用与因子分析类似的方法进行降维。
对应分析图的分析
在对应分析图中,如果同一变量的不同类别在 某个方向上靠得较近,则说明这些类别在该维 度上区别不大;
如果使用因子分析的方法对3个幸福状况进行降维 (同时最大限度地保留原始信息),则我们能够在2 维甚至1维空间上把5个点表示出来。
把表中婚姻状况的取值看作5维空间的坐标值,使用 因子分析的方法进行降维,也可以把3个幸福状况在 低维空间中表示出来。
对应分析图的绘制
如果能够保证两个因子分析中采用相同的刻度, 则可以在同一个坐标系中把幸福状况的3个点 和婚姻状况的5个点绘制出来,通过图形观察 两个变量取值之间的关系。
二维列联表中的两个变量是否 相互独立 : c2检验
H0:婚姻状况和幸福状况这两个变量相互独 立;
H1:婚姻状况和幸福状况不相互独立。 与单个变量的c2检验类似
基本原理
行变量和列变量相互独立时,每个单元格频数 的期望值为
Eij
Ri n
Cj n
n
Ri
Cj n
如果期望频数和观测频数相差不大,则零假设
SPSS操作
结果分析
幸福状况
非常幸 比较幸 不太幸



合计
婚 已婚 计数

期望的计数
状 况
丧偶 计数
期望的计数
574 420.1
70 84.5
726 794.7
149 159.9
82 167.2
59 33.6
1382 1382.0
278 278.0
离异 计数
83 292
79 454
期望的计数 138.0 261.1 54.9 454.0
对应分析结果的解释
“惯量”类似于因子分析中特征值对应的方差; “惯量比例”一栏中,“解释”的惯量比例类似 于因子分析中的方差贡献率,“累积”的惯量比 例类似于因子分析中的累积方差贡献率,这几个 指标反映了每个维度的因子重要性和解释能力。
表中的“卡方”是关于列联表行列独立性检验结 果,自由度为(5-1)×(3-1)=8。p值很小说明列联表 的行与列之间有较强的相关性。
对应分析可以按照相同的刻度同时对列联表中的行变 量和列变量进行降维,用较少的维度(一般选用二维 或三维)来代表数据表中的行变量和列变量,从而在 同一个空间中用图形方法显示行变量和列变量类别之 间的关系。
对应分析图的绘制
在表12-1的列联表中,把3个幸福状况的取值看作3维 空间中的坐标,我们可以把5个婚姻状况在3维空间中 表示出来。
在图12-1的对话框中选择“精确…”,进行相应的设 置后可以得出精确的检验结果。这时所涉及的不是c2 分布,而是超几何分布。
由于样本很大时超几何分布计算比较慢甚至无法计算, 因此在大样本时通常使用c2统计量。
对应分析
对应分析
对应分析是一种描述性、探索性的数据分析方法,通 常用于列联表的分析,以便用图形的方法观察行变量 和列变量取值之间的对应关系。
可能是正确的;如果二者差别很大,则零假设
可能不成立。
检验统计量
r
c2
s (Oij Eij )2
i1 j1
Eij
在零假设成立时,该统计量近似服从自由度为 的c2分布。当该统计量的值很大(或p值很小) 时,就可以拒绝零假设,认为这两个变量不相 互独立。
SPSS操作
“分析”“描述统计”“交叉表”,把 “婚姻状况”设为行变量,把“幸福状况”设 为列变量。接下来单击“统计量”,在弹出的 对话框中选中“卡方”,单击“继续”;选择 “单元格”,选中弹出对话框中的“期望值”, 单击“继续”返回前一个是对话框,单击“确 定”
列联表和 对应分析
列联表中两个变量独立性检验 对应分析
【例12.1】美国的General Social Survey
幸福状况
婚姻状况 已婚 丧偶 离异 分居 未婚
合计
非常幸福 比较幸福 不太幸福
574
726
82
70
149
59
83
292
79
14
73
30
136
419
99
877
1659
349
合计 1382 278 454 117 654 2885
分居 计数
14
73
30 117
期望的计数
35.6 67.3 14.2 117.0
未婚 计数
136 419
99 654
期望的计数 198.8 376.1 79.1 654.0
结果分析

df 渐进 Sig. (双侧)
Pearson 卡方
225.274a
8
.000
似然比
230.166
8
.000
线性和线性组合
对应分析的软件操作
对应分析结果的解释
维 数 奇异值 惯量ຫໍສະໝຸດ 1.272 .074
2
.066 .004

.078

a. 8 自由度
惯量比例 置信奇异值 相关
卡方 Sig. 解释 累积 标准差 2 .944 .944 .017 .064 .056 1.000 .021
225.274 .000a 1.000 1.000
137.494
1
.000
有效案例中的 N
2885
a. 0单元格(.0%)的期望计数少于5。最小期望计数为14.15。
c 2统计量的值为225.274,相应的p值为0.000。由于p值 远远小于通常使用的显著性水平,因此检验的结论是 拒绝原假设,不能认为婚姻状况和幸福状况相互独立。
精确结果
当每个单元格的期望频数都大于5时检验统计量近似 服从c2分布。在不满足这一条件时,需要把部分单元 格合并,或者使用精确检验。
行变量(婚姻状况)各水平的坐标
婚姻状况 已婚 丧偶 离异 分居 未婚 有效总计
质量 .479 .096 .157 .041 .227
1.000
维中的得分
1
2
-.531
-.016
.437
-.660
.535
.168
.979
-.331
.389
落在图形中大致相同区域的不同变量的分类点 彼此之间有联系。
对应分析的软件操作
选择“分析”“降维”“对应分析”,把 “婚姻状况”设为行变量;
在弹出的对话框中单击“定义范围”,最小值 设为1,最大值设为5,单击“更新”、“继 续”;
然后把“幸福状况”设为列变量,再通过“定 义范围”对话框定义其取值范围为1-3;最后 单击“确定”
相关文档
最新文档