第3章:双变量描述分析(上)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、因果关系
1、概念: • 因果关系是指当其中一个变量变化时会引起或导 致另一个变量也随之变化;但是反过来当后一个 变量变化时,却不会引起前一个变量的变化。我 们把变化发生在前边,能引起另一变量发生变化 的变量称为自变量(independent variable常用 X来表示),而变化发生在后边并且变化由前边 变量引起的那个变量称为因变量(dependent variable常用Y来表示)。
二、 2×2列联表的列联强度
• 1、Q系数 • 2×2列联表是只包含两 行两列(不包括边缘分布) 的列联表,是最简单的交 ad 互分类表。如下表:
•
bc Q ad bc
a
c a+c
b
d b+d
a+b
• Q系数在【-1,+1】之间,
c+d • • a+b+c+d •
请同学写出Y的频率条件分布
第二节:定类变量与定类变量 (定类-定序)
• 一、列联表(contingency table)
• 又称交互分类表,就是将调查所得的一组数据按 照两个不同的变量进行综合的分类。
• 在列联表中,我们一般将 X (自变量)画在横行, 将因变量画在竖行。
• 交互分类表所适用的变量层次是定类变量与定序 变量。
年龄与喜爱电视节目的列联表
喜爱电视 节目 戏曲 歌舞 球赛 合计 老年 20 5 2 27
年龄 中年 10 20 10 40
青年 2 35 20 57
合计 32 60 32 124
最后一行,实际上是变量X(老中青)的频数分布;而最后一列 是变量Y(喜爱电视节目)的频数分布,我们分别称之为X和Y的 频数边际分布(marginal distribution,也叫边缘分布)。 如果是百分比的边际分布,则要分别处以124,再乘以100%。 而表中的每一小格则表示的是X和Y同时取某个值时的频数分布, 我们将其称之为联合分布(Joint Distribution)。
表5
男 开卷考试
FX
女 1
FY
赞成
25
26
反对
1090 Q 0.94 1160
35
60
45
46
80
106
可以看出,Q系数对于Y的条件分布中差异最大的那一组十分 敏感,因此,在Y的两组条件分布中,一组差异大一组差异 不大的时候,用Q在很大程度上反映了那组差异大的情况。 Q系数的这个特点使得在对比实验组和对照组的情况的时候 常常用Q系数。
40
ad bc 1515 5 5 0.5 (a b)(c d )(a c)(b d ) 20 20 20 20
表2
开卷考试
FX
赞成 反对
男 50 0 50
女 0 50 50
FY
50 50 100
ad bc 50 50 - 0 Q 1 ad bc 50 50 0 ad bc 50 50 0 1 (a b)(c d )(a c)(b d ) 50 50 50 50
原题
投票行为 投票 弃权 合计
受教育程度
:
合计 289 68 357
大学以上 160 7 167
大学以下 129 61 190
频率的边际分布和联合分布表
投票行为 Y 投票 弃权 合计 FX
受教育程度X 大学以上
45 2 47
大学以下
36 17 53
合计 FY 81 19 100
频率条件分布表
投票行为 Y 投票 弃权 合计
i=1,2, ……,c j=1,2,……,j 联合分布:N11,……Nij……Ncr X的边缘分布:N1*,……Ni*……Nc* Y的边缘分布:N*1,……N*j……N*r
Pij=Nij/N Pi*=Ni*/N P*j=N*j/N
• 条件分布(Conditional Distribution) • 当X等于一个固定的变量值时,Y会形成一 个分布,这个分布叫做Y的条件分布。反之, 叫做X的条件分布。 • 如果X有c个取值,Y就有c个条件分布;如 果Y有r个取值,X就有r个条件分布。从理 论上说,一个列联表共有从c+r个条件分布。
• 3、相关关系的强度 • 指变量之间相关关系的强弱或大小;在统计学上我们用相 关系数来表示。 • 根据变量层次的不同,有各种不同的相关系数,取值范围 一般在-1到1之间,或者在0-1之间。正负号表示关系 的方向,实际数值则表示相关关系的强弱。越接近0,意 味着两变量相关的程度越弱;越接近于1或-1意味着相关 的程度越强。 • Notice: • (1)在社会研究中不存在完全的正相关或负相关,所以 相关系数不可能达到1或者-1; • (2)相关系数只能比较大小,不是等单位的度量。
表5
男 开卷考试
FX
女 1
FY
赞成
25
26
反对
35
60
45
46
80
106
ad bc 25 45 - 351 Q 0.94 ad bc 25 45 351 ad bc 25 45 351 0.45 (a b)(c d )(a c)(b d ) 26 80 60 46
人们对抽烟的态度统计表
男 赞成 反对 不表态 FX 85 10 5 100 女 5 80 15 100 FY 90 90 20 200
列联表的一般形式
X1 Y1 Y2 … Yj … Yr Ni* X的边缘分布 N1r N1* N2r N2* Nir Ni* Ncr Nc* N*r N N1j N2j Nij Ncj N*j N11 N12 X2 N21 N22 … Xi Ni1 Ni2 … Xc Nc1 Nc2 N*j Y的边缘分布 N*1 N*2
比如我们现在要研究某种新药是否能预防感冒,这时我们关 心的是凡是吃了新药的人是否全部不患感冒,而对不吃新药 只吃安慰药的人是否全部感冒并不关心,假设有如下结果:
新药
未感冒 50
安慰药
28
患感冒
0
22
22 50 - 0 Q 1 22 50 0
表6
男 开卷考试
FX
女 25 25 50
• 我们接下来要介绍的双变量分析(以及研 究生阶段大家要继续学习的多变量分析) 方法,正是人们用来探索变量间的各种关 系,探索社会现象发生、发展和变化规律 的有用工具。
• 在现实生活中,存在着许许多多相互之间有关系 的现象,或者说许多社会现象之间往往都是相互 联系、相互影响、相互依存的。 • 两个变量之间的关系可以分为两种,一是确定性 的关系,二是非确定性的关系。 • 社会现象两个变量之间的关系总是在总体呈现一 定规律的情况下又充满了各种个别和例外,所以 它是一种非确定性的关系,这种非确定性的关系 称为相关关系,它必须借助于统计手段才能进行 研究,所以又称为统计相关。
年龄 老年% 74.07 18.52 7.41 100 中年% 25 50 25 100 青年% 3.51 61.40 35.09 100 合计% 25.81 48.38 25.81 100
• 【例】某区调查了357名选民,考察受教育 程度与投票行为之间的关系,得到结果如 下:受过大学以上教育的人有167人,其中 有160人参加了投票;大学以下的190人, 其中有129人参加了投票,其他人弃权。请 用列联表表示: • (1)频率的联合分布和边缘分布; • (2)投票与否的频率条件分布。
第三章:双变量描述统计
第一节:两变量间的关系 第二节:定类变量与定类变量(定类-定序) 第三节:定序变量与定序变量 第四节:定类变量与定距变量(定序-定距) 第五节:定距变量与定距变量 第六节:回归分析
第一节:两变量间的关系
• 通过单变量分析,我们可以对被调查者的性别、 态度、受教育程度、年龄、收入等情况有一个大 致的了解和描述,但是如果想进一步了解社会现 象发生、变化的原因,揭示社会现象的发展规律 时,仅有单变量分析就不够了。
Q等于0时表示ad=bc, Q等于1时表示相关最强。 由于定类变量的取值没有顺序, 所以正负系数的意义是相同的。
表1
行人 司机 FY
新交法
FX
赞成
反对
15
5 20
5
15 20
20
20 40
ad bc 15 15 5 5 200 Q 0.8 ad bc 15 15 5 5 250
FY
赞成 反对
25 25 50
50 50 100
Q=0
(2)φ系数
ad bc (a b)(c d )(a c)(b d )
• φ系数的取值范围在-1与1之间, • 越接近1,说明关系强度越大。
表1
行人 新交法 FX 赞成 15 司机 5 FY 20
反对
5
20
15
20
20
• 2、因果关系的成立必须满足4个条件:
• (1)变量X与变量Y之间存在不对称的相关关系。即当X 发生变化时变量Y必定发生变化;但是当Y发生变化时,X 并不随之发生变化。即二者一个是因,一个是果,这是因 果关系成立的基础。 • (2)变量X和Y在发生的顺序上有先后之别。先有因,后 有果;如果两个变量同时发生分不出先后,则不能构成因 果关系。 • (3)变量X与Y不是同源于第三个变量的影响,即因变量 Y的变化是由自变量X的变化引起的,这个关系不能被其他 的因素所解释。 • (4)这种因果关系在经验上可以解释(机制明确)。
喜爱电视 节目 戏曲 歌舞 球赛 合计
年龄 老年 中年 青年
合计
20 5 2 27
10 20 10 40
2 35 20 57
32 60 32 124
条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数转 变成频率,使基数标准化,这样我们就得到了频率条件分布的列联表。
喜爱电视 节目
戏曲 歌舞 球赛 合计
赞成
25
25
反对
35 60
45 45
80 105
25* 45 0*35 1125 Q 1 25* 45 0*35 1125 表4反映的关系并不是完全相关的关系。可以粗略 地看出来,表4计算出来的系数实际只是反映的第 二列(女性)的态度差异(女性在开卷考试上的 态度极端鲜明),导致了Q=1。
表3、表6中Q系数和φ系数也相等,都等于-1和0.
表4
男 开卷考试
FX
女 0 45 45
FY
赞成 反对
25 35 60
25 80 105
ad bc 25 45 - 0 Q 1 ad bc 25 45 0 ad bc 25 45 0 0.48 (a b)(c d )(a c)(b d ) 25 80 60 45
受教育程度X
合计 大学以上 95.8 4.2 100 (167) 大学以下 67.9 32.1 100 (190) 81 19 100 (357)
• 注意:变量Y的频率条件分布要用每个变量值除以对应的 X的边际分布频数,而不是样本总量n。 • 频率的条件分布的好处: • (1)去掉了绝对数的影响,绝对数有欺骗性; • (2)横向比较的话,看出了教育程度不同的人在投票行 为上的差异。 • 无论X取何值,Y的频率条件分布彼此相等=边缘分布, 不相关,我们叫做这两个变量互相独立。所以,我们就不 用去算条件分布了,只要看看联合分布和边缘分布,就知 道两者的关系。 • 两列频率相差越大,就应该相关程度越大。 • 相关程度有多大呢?我们可以把根据列联表算出来的相关 系数叫做列联强度。对于定类变量,列联强度有许多种算 法和表示方法,我们下面一一介绍。
一、相关关系(correlation)
• 1、相关(correlation)关系是指当其中 一个变量发生变化(或取值不同)时,另 一个变量也随之发生变化;反过来也是一 样。A影响B,或者B影响A,或者相互影响。
• 2、相关关系的方向 • 对于定序以上层次的变量来讲,双变量之间的关 系可以分为正关系和负关系两种,称为正相关与 负相关。 • 正相关指当一个变量取值增加时另一变量的取值 也增加,两个变量的取值具有同方向性。 • 反之,当一个变量的取值增加时,另一个变量的 取值反而减少,两个变量的取值变化具有反方向 性,这种相关称为负相关。 • 关于相关关系的方向性还需再次强度:它只限于 定序及以上层次的变量。定类变量不存在相关的 方向问题。
Q系数的特点
• 当a、b、c、d中有任何一个是0, • Q便会等于1或者-1 • 如表2、3、4。
表2
开考试
FX
赞成 反对
男 50 0 50
女 0 50 50
FY
50 50 100
表3
男 开卷考试
FX
女 50 0 50
FY
赞成 反对
0 50 50
50 50 100
表4
男 开卷考试
FX
女 0
FY