第3章：双变量描述分析(上)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、因果关系
1、概念： • 因果关系是指当其中一个变量变化时会引起或导致另一个变量也随之变化；但是反过来当后一个变量变化时，却不会引起前一个变量的变化。我们把变化发生在前边，能引起另一变量发生变化的变量称为自变量（independent variable常用 X来表示），而变化发生在后边并且变化由前边变量引起的那个变量称为因变量（dependent variable常用Y来表示）。
二、 2×2列联表的列联强度
• 1、Q系数 • 2×2列联表是只包含两行两列（不包括边缘分布）的列联表，是最简单的交 ad 互分类表。如下表：
•
bc Q ad bc
a
c a+c
b
d b+d
a+b
• Q系数在【－1,＋1】之间，
c+d • • a+b+c+d •
请同学写出Y的频率条件分布
第二节：定类变量与定类变量（定类－定序）
• 一、列联表（contingency table）
• 又称交互分类表，就是将调查所得的一组数据按照两个不同的变量进行综合的分类。
• 在列联表中，我们一般将 X （自变量）画在横行，将因变量画在竖行。
• 交互分类表所适用的变量层次是定类变量与定序变量。
年龄与喜爱电视节目的列联表
喜爱电视节目戏曲歌舞球赛合计老年 20 5 2 27
年龄中年 10 20 10 40
青年 2 35 20 57
合计 32 60 32 124
最后一行，实际上是变量X（老中青）的频数分布；而最后一列是变量Y（喜爱电视节目）的频数分布，我们分别称之为X和Y的频数边际分布（marginal distribution，也叫边缘分布）。如果是百分比的边际分布，则要分别处以124，再乘以100％。而表中的每一小格则表示的是X和Y同时取某个值时的频数分布，我们将其称之为联合分布（Joint Distribution）。
表5
男开卷考试
FX
女 1
FY
赞成
25
26
反对
1090 Q 0.94 1160
35
60
45
46
80
106
可以看出，Q系数对于Y的条件分布中差异最大的那一组十分敏感，因此，在Y的两组条件分布中，一组差异大一组差异不大的时候，用Q在很大程度上反映了那组差异大的情况。 Q系数的这个特点使得在对比实验组和对照组的情况的时候常常用Q系数。
40
ad bc 1515 5 5 0.5 (a b)(c d )(a c)(b d ) 20 20 20 20
表2
开卷考试
FX
赞成反对
男 50 0 50
女 0 50 50
FY
50 50 100
ad bc 50 50 - 0 Q 1 ad bc 50 50 0 ad bc 50 50 0 1 (a b)(c d )(a c)(b d ) 50 50 50 50
原题
投票行为投票弃权合计
受教育程度
：
合计 289 68 357
大学以上 160 7 167
大学以下 129 61 190
频率的边际分布和联合分布表
投票行为 Y 投票弃权合计 FX
受教育程度X 大学以上
45 2 47
大学以下
36 17 53
合计 FY 81 19 100
频率条件分布表
投票行为 Y 投票弃权合计
i=1,2, ……，c j=1,2,……,j 联合分布：N11，……Nij……Ncr X的边缘分布：N1*，……Ni*……Nc* Y的边缘分布：N*1，……N*j……N*r
Pij=Nij/N Pi*=Ni*/N P*j=N*j/N
• 条件分布(Conditional Distribution) • 当X等于一个固定的变量值时，Y会形成一个分布，这个分布叫做Y的条件分布。反之，叫做X的条件分布。 • 如果X有c个取值，Y就有c个条件分布；如果Y有r个取值，X就有r个条件分布。从理论上说，一个列联表共有从c+r个条件分布。
• 3、相关关系的强度 • 指变量之间相关关系的强弱或大小；在统计学上我们用相关系数来表示。 • 根据变量层次的不同，有各种不同的相关系数，取值范围一般在－1到1之间，或者在0－1之间。正负号表示关系的方向，实际数值则表示相关关系的强弱。越接近0，意味着两变量相关的程度越弱；越接近于1或－1意味着相关的程度越强。 • Notice： • （1）在社会研究中不存在完全的正相关或负相关，所以相关系数不可能达到1或者－1； • （2）相关系数只能比较大小，不是等单位的度量。
表5
男开卷考试
FX
女 1
FY
赞成
25
26
反对
35
60
45
46
80
106
ad bc 25 45 - 351 Q 0.94 ad bc 25 45 351 ad bc 25 45 351 0.45 (a b)(c d )(a c)(b d ) 26 80 60 46
人们对抽烟的态度统计表
男赞成反对不表态 FX 85 10 5 100 女 5 80 15 100 FY 90 90 20 200
列联表的一般形式
X1 Y1 Y2 … Yj … Yr Ni* X的边缘分布 N1r N1* N2r N2* Nir Ni* Ncr Nc* N*r N N1j N2j Nij Ncj N*j N11 N12 X2 N21 N22 … Xi Ni1 Ni2 … Xc Nc1 Nc2 N*j Y的边缘分布 N*1 N*2
比如我们现在要研究某种新药是否能预防感冒，这时我们关心的是凡是吃了新药的人是否全部不患感冒，而对不吃新药只吃安慰药的人是否全部感冒并不关心，假设有如下结果：
新药
未感冒 50
安慰药
28
患感冒
0
22
22 50 - 0 Q 1 22 50 0
表6
男开卷考试
FX
女 25 25 50
• 我们接下来要介绍的双变量分析（以及研究生阶段大家要继续学习的多变量分析）方法，正是人们用来探索变量间的各种关系，探索社会现象发生、发展和变化规律的有用工具。
• 在现实生活中，存在着许许多多相互之间有关系的现象，或者说许多社会现象之间往往都是相互联系、相互影响、相互依存的。 • 两个变量之间的关系可以分为两种，一是确定性的关系，二是非确定性的关系。 • 社会现象两个变量之间的关系总是在总体呈现一定规律的情况下又充满了各种个别和例外，所以它是一种非确定性的关系，这种非确定性的关系称为相关关系，它必须借助于统计手段才能进行研究，所以又称为统计相关。
年龄老年％ 74.07 18.52 7.41 100 中年％ 25 50 25 100 青年％ 3.51 61.40 35.09 100 合计％ 25.81 48.38 25.81 100
• 【例】某区调查了357名选民，考察受教育程度与投票行为之间的关系，得到结果如下：受过大学以上教育的人有167人，其中有160人参加了投票；大学以下的190人，其中有129人参加了投票，其他人弃权。请用列联表表示： • （1）频率的联合分布和边缘分布； • （2）投票与否的频率条件分布。
第三章：双变量描述统计
第一节：两变量间的关系第二节：定类变量与定类变量（定类－定序）第三节：定序变量与定序变量第四节：定类变量与定距变量（定序－定距）第五节：定距变量与定距变量第六节：回归分析
第一节：两变量间的关系
• 通过单变量分析，我们可以对被调查者的性别、态度、受教育程度、年龄、收入等情况有一个大致的了解和描述，但是如果想进一步了解社会现象发生、变化的原因，揭示社会现象的发展规律时，仅有单变量分析就不够了。
Q等于0时表示ad=bc， Q等于1时表示相关最强。由于定类变量的取值没有顺序，所以正负系数的意义是相同的。
表1
行人司机 FY
新交法
FX
赞成
反对
15
5 20
5
15 20
20
20 40
ad bc 15 15 5 5 200 Q 0.8 ad bc 15 15 5 5 250
FY
赞成反对
25 25 50
50 50 100
Q＝0
（2）φ系数
ad bc (a b)(c d )(a c)(b d )
• φ系数的取值范围在-1与1之间， • 越接近1，说明关系强度越大。
表1
行人新交法 FX 赞成 15 司机 5 FY 20
反对
5
20
15
20
20
• 2、因果关系的成立必须满足4个条件：
• （1）变量X与变量Y之间存在不对称的相关关系。即当X 发生变化时变量Y必定发生变化；但是当Y发生变化时，X 并不随之发生变化。即二者一个是因，一个是果，这是因果关系成立的基础。 • （2）变量X和Y在发生的顺序上有先后之别。先有因，后有果；如果两个变量同时发生分不出先后，则不能构成因果关系。 • （3）变量X与Y不是同源于第三个变量的影响，即因变量 Y的变化是由自变量X的变化引起的，这个关系不能被其他的因素所解释。 • （4）这种因果关系在经验上可以解释（机制明确）。
喜爱电视节目戏曲歌舞球赛合计
年龄老年中年青年
合计
20 5 2 27
10 20 10 40
2 35 20 57
32 60 32 124
条件频数表中各频数因基数不同不便作直接比较，因此有必要将频数转变成频率，使基数标准化，这样我们就得到了频率条件分布的列联表。
喜爱电视节目
戏曲歌舞球赛合计
赞成
25
25
反对
35 60
45 45
80 105
25* 45 0*35 1125 Q 1 25* 45 0*35 1125 表4反映的关系并不是完全相关的关系。可以粗略地看出来，表4计算出来的系数实际只是反映的第二列（女性）的态度差异（女性在开卷考试上的态度极端鲜明），导致了Q＝1。
表3、表6中Q系数和φ系数也相等，都等于－1和0.
表4
男开卷考试
FX
女 0 45 45
FY
赞成反对
25 35 60
25 80 105
ad bc 25 45 - 0 Q 1 ad bc 25 45 0 ad bc 25 45 0 0.48 (a b)(c d )(a c)(b d ) 25 80 60 45
受教育程度X
合计大学以上 95.8 4.2 100 （167）大学以下 67.9 32.1 100 （190） 81 19 100 （357）
• 注意：变量Y的频率条件分布要用每个变量值除以对应的 X的边际分布频数，而不是样本总量n。 • 频率的条件分布的好处： • （1）去掉了绝对数的影响，绝对数有欺骗性； • （2）横向比较的话，看出了教育程度不同的人在投票行为上的差异。 • 无论X取何值，Y的频率条件分布彼此相等＝边缘分布，不相关，我们叫做这两个变量互相独立。所以，我们就不用去算条件分布了，只要看看联合分布和边缘分布，就知道两者的关系。 • 两列频率相差越大，就应该相关程度越大。 • 相关程度有多大呢？我们可以把根据列联表算出来的相关系数叫做列联强度。对于定类变量，列联强度有许多种算法和表示方法，我们下面一一介绍。
一、相关关系（correlation）
• 1、相关（correlation）关系是指当其中一个变量发生变化（或取值不同）时，另一个变量也随之发生变化；反过来也是一样。A影响B，或者B影响A，或者相互影响。
• 2、相关关系的方向 • 对于定序以上层次的变量来讲，双变量之间的关系可以分为正关系和负关系两种，称为正相关与负相关。 • 正相关指当一个变量取值增加时另一变量的取值也增加，两个变量的取值具有同方向性。 • 反之，当一个变量的取值增加时，另一个变量的取值反而减少，两个变量的取值变化具有反方向性，这种相关称为负相关。 • 关于相关关系的方向性还需再次强度：它只限于定序及以上层次的变量。定类变量不存在相关的方向问题。
Q系数的特点
• 当a、b、c、d中有任何一个是0， • Q便会等于1或者－1 • 如表2、3、4。
表2
开考试
FX
赞成反对
男 50 0 50
女 0 50 50
FY
50 50 100
表3
男开卷考试
FX
女 50 0 50
FY
赞成反对
0 50 50
50 50 100
表4
男开卷考试
FX
女 0
FY