第五讲 列联表分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关系数即用来表示两个变量间相关强度和方向的 统计值。
相关系数非常多,当我们选择相关系数时, 首先,根据变量的测量层次,不同层次的变量需要 选择不同的相关系数。 其次,两个变量之间关系是对称的还是不对称的, 对称关系即不区分自变量和因变量,而不对称关系则 要区分自变量和因变量。 再次,尽量选择具有消减误差比例意义的相关系数。
当r ×c很大时,百分比会很多,不容易看出两个变量 之间的关系。比如一个5×6表就会30个百分比,就很 难看出两个变量之间是否存在相关关系。
此时,我们就希望有一个数值来表示两个变量之间 的相关关系的强度和方向,以使资料更加简化和明白 易懂,这就是相关系数。
二、相关系数( ) correlation coefficient
91.7 (544)
和好家庭的中有40% 的青少年有犯 罪行为?
犯罪青少年中破裂家庭占了 30.4% 的比重,为未犯罪青少
年中破裂家庭只占8.3% 。
一、列联表(contingency table)
列联表的SPSS实现。(略) 条件百分比表的优点:
资料丰富,一个3×3列联表就有9个百分比可供比较。 条件百分比表的缺点:
这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁 超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈 夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱 喝的啤酒。
啤酒销量
尿布销量
消费者的喜好
导言
为了了解一个变量与另一个变量之间是否存在相 关关系以及相关的强度大小,在统计上常用的方法是 做列联表或者是计算两个变量之间的相关系数。
一、列联表(contingency table )
最大志愿 快乐家庭 理想工作 增广见闻
合计
条件频数 (conditional frequencies)
频数 40 60 10 100
最大志愿
快乐家庭 理想工作 增广见闻
合计
教育水平



5305源自03020
5
0
5
10
60
30
合计
40 50 10 100
M x:X 变量的众数 M y:Y 变量的众数 mx:X 变量各类别下Y 变 量的众数
my:Y 变量各类别下X变 量的众数
N: 全部个案数
二、相关系数( ) correlation coefficient
1.两个定类变量之间的相关系数: λ 和tau-y
最大志愿
快乐家庭 理想工作 增广见闻
合计
性别
个是自变量,另一个是因变量,自变量影响因变量。
二、相关系数( correlation coefficient )
1.两个定类变量之间的相关系数: λ 和tau-y
? ? ? ? mx ? my ? (M X ? M y )
2n ? (M x ? M y )
? ? y ?
mx ? M y n? M y
但是,当我们知道性别与身高有较强的相关关系之后,在说出这个同 学名字的同时又告诉你了该同学的性别,那么,这个时候你再去猜他的身 高,应该就可以减少若干误差。而且,性别与身高的相关度越高,所能减 少的误差也越大。
二、相关系数( ) correlation coefficient
假设在不知道X(如性别)的条件下去预测Y(如身 高)所产生的误差是E1,在知道X的条件下去利用X的取 值去预测Y所产生的误差为E2,则消减误差比例


10
30
40
10
10
0
60
40
合计
40 50 10 100
40(100? 40) ? 50(100? 50) ? 10(100? 10)
E1 ?
100
? 58
10(60? 10)? 40(60? 40)? 10(60? 10) 30(40? 30)? 10(40? 10)? 0(40? 0)
二、相关系数( ) correlation coefficient
相关系数即用来表示两个变量间相关强度和方向的统 计值。
相关系数非常多,当我们选择相关系数时, 首先,根据变量的测量层次,不同层次的变量需要选 择不同的相关系数。 其次,两个变量之间关系是对称的还是不对称的,对 称关系即不区分自变量和因变量,而不对称关系则要区 分自变量和因变量。 再次,尽量选择具有消减误差比例意义的相关系数。
1.由两个以上的变量交叉分类的频数分布表 2.行变量的类别用 r 表示, r i 表示第 i 个类别 3.列变量的类别用 c 表示, cj 表示第 j 个类别 4.每种组合的观察频数用 fij 表示 5.表中列出了行变量和列变量的所有可能的组合 6.一个 r 行 c 列的列联表称为 r ×c 列联表


10
30
40
10
10
0
60
40
合计
40 50 10 100
? ? y ?
mx ? M y ? (40 ? 30) ? 50 ? 20 ? 0.40
n? My
100 ? 50 50
二、相关系数( ) correlation coefficient
1.两个定类变量之间的相关系数: λ 和tau-y
边缘频数(marginal frequencies)
总数
一、列联表(contingency table )
表2.2 青年人教育水平对其志愿的影响
最大志愿
高(% )
教育水平 中(% )
低(% )
快乐家庭
50.0
50.0
16.7
理想工作
0.0
50.0
66.7
增广见闻
50.0
0.0
16.7
总数
(10)
(60)
2?100? (54? 50)
200?104 96
二、相关系数( ) correlation coefficient
1.两个定类变量之间的相关系数: tau-y相关测量属于不对称测量,要求两个定类变量中,一个是
自变量(X),一个是因变量(Y),其值也是介于0-1之间,具有消 减误差比例的意义。计算公式如下:
最大志愿
快乐家庭 理想工作 增广见闻 合计
知心朋友的志愿
快乐家庭
理想工作
28
9
2
41
2
4
32
54
增广见闻 3 7 4 14
合计
40 50 10 100
? ? ? ?
mx ?
my
?
(M x
?
My
)
?
(28?
41?
4)?
(28?
41?
7)?
(54?
50)?
73?
76?104?
45?
0.47
2n?(Mx ? My)
一、列联表(contingency table)
是否赞成 期中考核
赞成
不赞成 总数
班级 1班(% ) 2班(% ) 3班(% )
64.1
53.8
39.5
35.9 (78)
46.2 (80)
60.5 (76)
1班同学赞成期中考核
的学生比重最大,3班 最小。班级影响考试态 度。
是否赞成 期中考核
赞成
不赞成
目。 5.表内各百分比数值的小数位数应该保持一致。 6.根据自变量的方向计算百分比,但当因变量在样本中的分
布不能代表其在总体中的分布时则要根据因变量的方向计 算百分比。
一、列联表(contingency table)
一般而言,将因变量放在表的左边,自变量放在 表的上边,r ×c表,r 表示的因变量的取值个数,c表 示的是自变量的取值个数。按照根据自变量方向计算 百分比,即根据列来计算百分比。
二、相关系数( ) correlation coefficient
1.两个定类变量之间的相关系数: λ 和tau-y
Lambda相关测量法有2种形式: 一是对称形式,简写为λ 系数,即两个变量之间是相关影响的,
区分不出明显的自变量和因变量。 二是不对称形式,简写为λ y系数,要求两个定类变量中,一
1班(% )
班级 2班(% ) 3班(% )
总数
40.7
35.0
24.3 (123)
25.2
33.3
41.4 (111)
怎么解释?
一、列联表(contingency table)
根据因变量方向计算百分比举例
研究某城市破裂家庭(自变量)对青少年犯罪行为 (因变量)的影响。如何抽样?假定该城市的全部青 少年中,未犯罪的青少年有54400名,有越轨行为的青 少年960名。
PRE=(E 1 -E2)/ E1
由以上公式可知,当通过X预测Y产生的误差E2越小, PRE 数值越大,标明X与Y的关系越。当E2=0时,X与Y的关系最强, PRE=1, 当E2=E1 时,关系最弱,PRE=0. 当PRE=06 时,就表明 用X预测Y可以减少60% 的误差。
二、相关系数( ) correlation coefficient
所谓相关,是指一个变量的值与两一个变量的值有连带性,即一个 变量的取值发生变化,另一个变量的取值也跟着发生变化。
相关关系不一定是因果关系,但是因果关系必定存在相关关系。
啤酒与尿布
在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛 不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增 加了。
? E1 ?
(n ? Fy )Fy n
tau-y? E1 ? E2 E1
? E 2 ?
(Fx ? f ) f FX
n: 个案数目 f:条件次数 Fy:Y变量的边缘次数 Fx:X变量的边缘次数
二、相关系数( correlation coefficient )
最大志愿
快乐家庭 理想工作 增广见闻
合计
性别
PRE 数值的意义就在于它能够直观地表示用一个变 量(X)去解释或预测另一个变量(Y)时能够减少百分 之几的误差。
二、相关系数( ) correlation coefficient
1.两个定类变量之间的相关系数: λ 和tau-y
Lambda 相关测量法的基本逻辑:以一个定类变 量的值来预测另一个定类变量的值时,以众数作 为预测的准则,可以消减多少误差,消减的误差 越多,变量之间的相关愈强,反之,越少则相关 愈弱。
读者通过列联表可以直观地感受到两个变量之间是 否存在相关关系及其关系的强弱和方向,而相关系数 则更精确地反映了两个变量之间的相关关系强度的 大 小和方向。
导言
赞成
不赞成

0
20

30
0
全相关
赞成
不赞成

20
0

0
30
赞成
不赞成

10
10

15
15
零相关 强相关
赞成
不赞成

2
18

25
5
一、列联表(contingency table)
犯罪青少年 未犯罪青少年 合计
146
45
191
334
499
833
480
544
1024
犯罪青少年 未犯罪青少年 合计
破裂家庭(% ) 76.4 和好家庭(% ) 40.0
23.6
(191) 破裂家庭
60.0
(833) 和好家庭
总数
犯罪青少年 (% ) 30.4
69.6 (480)
未犯罪青少年 (% ) 8.3
现在我们决定从未犯罪青少年中抽取1% ,即544名, 但如果按照相同的比例从犯罪的青少年中抽取样本的 话,则只能抽取10个人,这样的样本太小,难以进行 准确的比较。因此,按照50% 的比例从犯罪青少年中 抽取480名作为样本。
一、列联表(contingency table )
破裂家庭 和好家庭
合计
? ? ?y
?
E1 ? E2 E1
?
(n ?
My ) ? n?
(n ? My
mx) ? mx ? My n? My
λ y具有消减误差比例的意义,性别与志
愿之间的相关系数为 0.4,表明用性别与预
测志愿可以减少 40%的误差。
二、相关系数( ) correlation coefficient
1.两个定类变量之间的相关系数: λ 和tau-y
二、相关系数( ) correlation coefficient
消减误差比例(proportionate reduction in error) , 简称为PRE 测量法。 相关分析的目的之一在于用一个变量去预测或解释另一个变量。
为什么我们班同学的身高会有那么大的差异?当我们对这一现象毫无 所知的时候,随便说出一个同学的名字,让你猜他的身高,这个时候难免 会有误差。
(30)
低教育水平的青年多以“理想工作”为志愿,中、高教育水平的青年 则多选择“快乐家庭”,但前者同时较注重“理想工作”,后者较注重“增 广见闻”。
一、列联表(contingency table)
编制条件百分比表时应该注意: 1.顶端有表号和标题。 2.舍去不必要线条,尽可能简洁,上下粗线条,左右不封口。 3.自变量取值下标明% ,条件百分比不必再一一标% 。 4.表地段()的数值,表示在计算百分比时所依据的个案数
第五讲 列联表分析
导言
在数据分析中,我们不仅需要了解单一变量的数值分布特征,还需要 了解一个变量与另一个变量之间的关系。
例如,我们不仅想了解一个班级中同学们的性别结构,同时还想知道 不同性别的同学在某一问题上的态度是否不同。当不同性别的同学在该 问题上的态度有明显差异时,我们可以说,性别与态度这两个变量之间 存在相关关系。
相关文档
最新文档