第十二章 相关与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
父母智力 组合
优+优
优+劣 一般+一般
劣+劣
子女智力 子女智力
优秀
一般
71.6 25.4
33.6 42.7
18.6 66.9
5.4 34.4
子女智力 低下
3.0 23.7 14.5 60.2
通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是
变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。
4. 单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元
相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 5、直线相关和曲线相关
从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近似地表现为一条 曲线,则称为曲线相关或称为非线性相关。
3. 因果关系与对称关系 因果关系中两个变量有自变量(independent
Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者
称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自
PRE:用不知道Y与X有关系时预测Y的全部误差E1, 减去知道Y与X有关系时预测Y的联系误差E2,再将其化 为比例来度量
PRE的取值范围是 0≤PRE≤l
消减误差比例PRE适用于各测量层次的变量,λ系数 和τ系数便是在定类测量的层次上以消减误差比例PRE为 基础所设计的两种相关系数。
态度Y
容忍 反对 合计
性别X
男
女
48
8
20
44
68
52
合计
56 64 120
PRE=(56-28)/56=0.5
3. λ系数 在定类尺度上测量集中趋势只能用众数。
λ系数就是利用此性质来构造相关系数的。 (1)不对称的λ系数
[例] 对下表所示资料,用λ系数反映性别与收 入高低的相关关系。
收入Y
低 高 合计
性别X
男
女
60
自己志愿
快乐家庭 理想工作 增广见闻
总数
知心朋友志愿
快乐家 理想工 增广见
庭
作
闻
28
9
3
2
41
7
2
4
4
32
54
14
总数
40 50 10 100
两个边际分布:
条件频数表中各频数因基数不同不 便作直接比较,因此有必要将频数化成 相对频数,使基数标准化。这样,我们 就从频数分布的列联表得到了相对频数 分布的列联表(或称频率分布的列联表)。 下表是r×c相对频数分布列联表的一般 形式。
各有60%的人参与投票,40%的人弃权,并没有因为受教育 程度不同,而使参与投票的行为有所不同。因此,此时的两
个变量是不相关的,或者说是独立的。我们不难发现,此时
反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票,40%的人弃权。
投票行为Y
投票 弃权
受教育程度X
大学以上
大学以下
28.0%(100/357) 31.9%(114/357) 18.8%(67/357) 21.3%(76/357)
为不同,因此两个变量是相关的。
[例A2]试把下表所示的频数分布列联表,转 化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。
投票行为 Y
受教育程度X
大学以 上
大学以 下
投票
100
114
214
弃权
67
76
143
合计:
167
190
357
投票行为Y
受教育程度X
大学以上
56.7 %
43.3% 100 % (120)
态度Y 容忍 反对
相对频数条件分布列联表
性别X
男( )
女( )
70.6% 29.4 %
15.4 % 84.6 %
46.7 %(56) 53.3 %(64)
100 % (68)
100 % (52)
100 % (120)
2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表)
自己志愿
快乐家庭 理想工作 增广见闻
总数
知心朋友志愿
快乐 理想工 增广 家庭 作 见闻
28
9
3
2
41
7
2
4
4
32
54
14
总数
40 50 10 100
第三节 定序变量的相关分析
定序变量只能排列高低次序,因而在分析时只能考虑 两变量变化的顺序是否一致及其等级之间的差距。以此来 计算两变量的相关系数。
1. 同序对、异序对和同分对 2. Gamma等级相关系数 3. 肯德尔等级相关系数 4. 萨默斯系数(d系数) 5. Spearman等级相关系数 6. 肯德尔和谐系数
本书第十章提出了两总体的检验及估计的问题,这 意味着我们开始与双变量统计方法打交道了。双变量 统计与单变量统计最大的不同之处是,客观事物间的 关联性开始披露出来。这一章我们将把相关关系的讨 论深入下去,不仅要对相关关系的存在给出判断,更 要对相关关系的强度给出测量,同时要披露两变量间 的因果联系,其内容分为相关分析和回归分析这两个 大的方面。
[例] 对下表所示资料,用τ系数反映性别与 收入高低的相关关系,并对系数的PRE意义加以 解释。
收入Y
低 高 合计
性别X
男
女
60
150
120
70
180
220
合计
210 190 400
练习:
调查100名青年人与其知心朋友的志愿,条 件次数分布如下:计算知心朋友的志愿与自己志 愿之间的相关关系,并提出研究结论。
81.0%(289/357) 19.0%(68/357)
100.0% (357)
从上表可知,受过大学以上教育的被调查wk.baidu.com绝大多
数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行
或者
2. 消减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量
X和因变量Y的关联性给出一个初步的判断。但是对关联
性给出判断,肯定没有用量化指标表达来得好。所以,下 面我们将关注于如何用统计方法,使相关关系的强弱可以 通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,消减误差比 例的概念是非常有价值的。消减误差比例的原理是,如果 两变量间存在着一定的关联性,那么知道这种关联性,必 然有助于我们通过一个变量去预测另一变量。其中关系密 切者,在由一变量预测另一变量时,盲目性必然较关系不 密切者为小。
投票行为 Y
受教育程度X
大学以 上
大学以 下
投票
160
129
289
弃权
7
61
68
合计:
167
190
357
投票行为Y
投票 弃权
受教育程度X
大学以上
大学以下
95.8%(160/167) 67.9%(129/190) 4.2%(7/167) 32.1%(61/190)
100.0% (167))
100.0% (190)
大学以下
投票 弃权
60.0%(100/167) 60.0%(114/190) 60.0%(214/357) 40.0%(67/167) 40.0%(76/190) 40.0%(143/357)
100.0%
100.0%
100.0%
(167))
(190)
(357)
上表显示,大学以上文化程度和大学以下文化程度同样
第一节 变量之间的相互关系
1. 相关程度 完全相关,指变量之间为函数关系;完全不相关指变
量之间不存在任何依存关系,彼此独立。不完全相关介于 两者之间。不完全相关是本章讨论的重点。
由于数学手段上的局限性,统计学探讨的最多的是定 距—定距变量间能近似地表现为一条直线的线性相关。在
统计中,对于线性相关,采用相关系数(记作r)这一指标 来量度相关关系程度或强度。就线性相关来说,当r =l 时,表示为完全相关;当r =0时,表现为无相关或零相 关;当0< r <1时,表现为不完全相关。
职工的工作种类与工作价值
工作价值 Y
工作种类 X
工人
技术人员
管理/行 政人员
合计
经济取向型
100
70
成就取向型
30
60
人际关系取向 20
10
型
合计:FX
150
140
50
220
20
110
40
70
110
400
性质:
(1)0≤λ≤1 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。
第十二章 相关与回归分析
第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析 第五节 回归分析
社会上,许多现象之间也都有相互联系,例如: 身高与体重、教育程度和收入、学业成就和家庭环境、 智商与父母智力等。在这些有关系的现象中,它们之 间联系的程度和性质也各不相同。
150
120
70
180
220
合计
210 190 400
(2)对称的λ系数
[例] 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用λ系数反映工作类别与工作价值 的相关关系 。
2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变
量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。
r×c相对频数分布列联表的一般形式
在相对频数分布列联表中,各数据为各分类 出现的相对频数(或者频率)。将频数 化成相对 频数 有两种做法:
①相对频数联合分布
两个边际分布
或
②相对频数条件分布
或
r×c相对频数联合分布列联表
控制X,Y相对频数条件分布列联表
控制Y,X相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。
46.8% (167/357)
53.2% (190/357)
60.0%(214/357) 40.0%(143/357)
100.0% (357)
上表显示,当两个变量不相关时有
。
如0.532× 0.40=0.213。
[例B]某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对
由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用于处理曲线相 关。
第二节 定类变量的相关分析
本节内容: 1. 列联表 2. 消减误差比例 3. λ系数 4. τ系数
1. 列联表
列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。
例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。
2×2频数分布列联表的一般形式
习惯上把因变量Y放在表侧,把自变量X放在表头。 2×2列联表是最简单的交互分类表。 r×c列联表 r(row)、c(column)
r×c频数分布列联表的一般形式
(5)如果众数频数集中在条件频数分布列联 表的同一行时,λ=0,从而无法显示两变量之间 的相关性。
4.τ系数 τ系数的统计值域是[0,1],其特点是在计 算时考虑所有的边际频数和条件频数 。
注意:当众数很突出且众数分布不在同一行,同一 列时,用λ系数较好;但当众数不突出时,用τ系数更 好;若众数集中在某一行或某一列,一定用τ系数。
频数的联合分布、边际分布和条件分布列联表,
并进行相关分析。
性别与对吸烟的态度
态度Y
容忍 反对 合计
性别X
男
女
48
8
20
44
68
52
合计
56 64 120
态度Y
容忍Y1 反对Y2
相对频数联合分布列联表
性别X
男( X1 )
女( X2 )
40.0%
6.7 %
46.7 %
16.7 %
36.6 %
53.3 %