相关系数和回归直线
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十二章
相关与回归分析
相关关系及种类 定类变量的相关分析 定序变量的相关分析 定距变量的相关分析 回归分析
第一节 第二节 第三节 第四节 第五节
社会上,许多现象之间也都有相互联系,例如: 身高与体重、教育程度和收入、学业成就和家庭环境、 智商与父母智力等。在这些有关系的现象中,它们之 间联系的程度和性质也各不相同。
44 52
56
64 120
相对频数联合分布列联表 态度Y 容忍Y1 反对Y2 性别X 男( X1 ) 女( X2 ) 40.0% 16.7 % 56.7 % 6.7 % 36.6 % 43.3% 46.7 % 53.3 % 100 % (120)
相对频数条件分布列联表 性别X 态度Y 男( ) 女( )
4. 单相关和复相关
从变量的多少上看,单相关只涉及两个变量,亦称二元 相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 5.直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近似地表现为一条 曲线,则称为曲线相关或称为非线性相关。 由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用于处理曲线相 关。
职工的工作种类与工作价值 工作种类 X 工作价值 Y
工人 100 30 20 150 管理/行 技术人员 政人员 70 60 10 140 50 20 40 110
合计
经济取向型 成就取向型 人际关系取向 型 合计:FX
220 110 70 400
性质: (1)0≤λ≤1 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。 (5)如果众数频数集中在条件频数分布列联 表的同一行时,λ=0,从而无法显示两变量之间 的相关性。
4.τ 系数 τ 系数的统计值域是[0,1],其特点是在计
算时考虑所有的边际频数和条件频数 。
注意:当众数很突出且众数分布不在同一行,同一 列时,用λ 系数较好;但当众数不突出时,用τ 系数更 好;若众数集中在某一行或某一列,一定用τ 系数。
[例] 对下表所示资料,用τ系数反映性别与 收入高低的相关关系,并对系数的PRE意义加以 解释。 收入Y 性别X 男 女 合计
上表显示,大学以上文化程度和大学以下文化程度同样 各有60%的人参与投票,40%的人弃权,并没有因为受教育 程度不同,而使参与投票的行为有所不同。因此,此时的两 个变量是不相关的,或者说是独立的。我们不难发现,此时 反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票,40%的人弃权。
本书第十章提出了两总体的检验及估计的问题,这 意味着我们开始与双变量统计方法打交道了。双变量 统计与单变量统计最大的不同之处是,客观事物间的 关联性开始披露出来。这一章我们将把相关关系的讨 论深入下去,不仅要对相关关系的存在给出判断,更 要对相关关系的强度给出测量,同时要披露两变量间 的因果联系,其内容分为相关分析和回归分析这两个 大的方面。
增广见 闻 3 7 4 14
总数
40 50 10 100
两个边际分布:
条件频数表中各频数因基数不同不 便作直接比较,因此有必要将频数化成 相对频数,使基数标准化。这样,我们
就从频数分布的列联表得到了相对频数
分布的列联表(或称频率分布的列联表)。
下表是r×c相对频数分布列联表的一般
形式。
r×c相对频数分布列联表的一般形式
投票行为Y 投票 弃权
受教育程度X
大学以上 28.0%(100/357) 18.8%(67/357) 46.8% (167/357) 大学以下 31.9%(114/357) 21.3%(76/357) 53.2% (190/357) 60.0%(214/357) 40.0%(143/357) 100.0% (357)
在相对频数分布列联表中,各数据为各分类 出现的相对频数(或者频率)。将频数 化成相对 频数 有两种做法:
①相对频数联合分布 两个边际分布 或
②相对频数条件分布
或
r×c相对频数联合分布列联表
控制X,Y相对频数条件分布列联表
控制Y,X相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转
上表显示,当两个变量不相关时有 如0.532× 0.40=0.213。
。
[例B]某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对 频数的联合分布、边际分布和条件分布列联表, 并进行相关分析。
性别与对吸烟的态度
态度Y 性别X 男 女 合计
容忍
反对 合计
48
20 68
8
2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变 量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。
第一节
1. 相关程度
变量之间的相互关系
完全相关,指变量之间为函数关系;完全不相关指变 量之间不存在任何依存关系,彼此独立。不完全相关介于 两者之间。不完全相关是本章讨论的重点。
由于数学手段上的局限性,统计学探讨的最多的是定 距—定距变量间能近似地表现为一条直线的线性相关。在 统计中,对于线性相关,采用相关系数(记作r)这一指标 来量度相关关系程度或强度。就线性相关来说,当r =l 时,表示为完全相关;当r =0时,表现为无相关或零相 关;当0< r <1时,表现为不完全相关。
[例A2]试把下表所示的频数分布列联表,转
化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。 投票行为 Y
受教育程度X 大学以 上 100 67 167 大学以 下 114 76 190 214 143 357
投票 弃权 合计:
投票行为Y 投票 弃权
受教育程度X 大学以上 60.0%(100/167) 40.0%(67/167) 100.0% (167)) 大学以下 60.0%(114/190) 40.0%(76/190) 100.0% (190) 60.0%(214/357) 40.0%(143/357) 100.0% (357)
收入Y
低 高 合计
合计
来自百度文库
(2)对称的λ系数
[例] 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用λ系数反映工作类别与工作价值 的相关关系 。
子女智力
一般
子女智力
低下
71.6
33.6 18.6
25.4
42.7 66.9
3.0
23.7 14.5
劣+劣
5.4
34.4
60.2
通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是 或者
低
高 合计
60
120 180
150
70 220
210
190 400
练习:
调查100名青年人与其知心朋友的志愿,条 件次数分布如下:计算知心朋友的志愿与自己志 愿之间的相关关系,并提出研究结论。 知心朋友志愿
自己志愿
快乐家庭 理想工作 增广见闻 总数
快乐 家庭 28 2 2 32
理想工 增广 作 见闻 9 3 41 7 4 4 54 14
2×2频数分布列联表的一般形式
习惯上把因变量Y放在表侧,把自变量X放在表头。 2×2列联表是最简单的交互分类表。 r×c列联表 r(row)、c(column)
r×c频数分布列联表的一般形式
知心朋友志愿
自己志愿
快乐家庭 理想工作 增广见闻 总数
快乐家庭 理想工作 28 2 2 32 9 41 4 54
从上表可知,受过大学以上教育的被调查者绝大多 数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行 为不同,因此两个变量是相关的。
化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。 投票行为 Y 投票 弃权 合计: 受教育程度X 大学以上 160 7 167 大学以下 129 61 190 289 68 357
投票行为Y 投票 弃权
受教育程度X 大学以上 95.8%(160/167) 4.2%(7/167) 100.0% (167)) 大学以下 67.9%(129/190) 32.1%(61/190) 100.0% (190) 81.0%(289/357) 19.0%(68/357) 100.0% (357)
PRE=(56-28)/56=0.5
3. λ 系数 在定类尺度上测量集中趋势只能用众数。
λ 系数就是利用此性质来构造相关系数的。 (1)不对称的λ 系数
[例] 对下表所示资料,用λ系数反映性别与收 入高低的相关关系。 性别X 男 60 120 180 女 150 70 220 210 190 400
容忍
反对
70.6%
29.4 % 100 % (68)
15.4 %
84.6 % 100 % (52)
46.7 %(56)
53.3 %(64) 100 % (120)
2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表) 父母智力
组合 优+优 优+劣 一般+一般
子女智力
优秀
2. 消减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联 性给出判断,肯定没有用量化指标表达来得好。所以,下 面我们将关注于如何用统计方法,使相关关系的强弱可以 通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,消减误差比 例的概念是非常有价值的。消减误差比例的原理是,如果 两变量间存在着一定的关联性,那么知道这种关联性,必 然有助于我们通过一个变量去预测另一变量。其中关系密 切者,在由一变量预测另一变量时,盲目性必然较关系不 密切者为小。
PRE:用不知道Y与X有关系时预测Y的全部误差E1, 减去知道Y与X有关系时预测Y的联系误差E2,再将其化 为比例来度量
PRE的取值范围是 0≤PRE≤l 消减误差比例PRE适用于各测量层次的变量,λ系数 和τ系数便是在定类测量的层次上以消减误差比例PRE为 基础所设计的两种相关系数。
性别X 态度Y 男 容忍 反对 合计 48 20 68 女 8 44 52 56 64 120 合计
3. 因果关系与对称关系 因果关系中两个变量有自变量(independent Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者 称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自 变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。
第二节
定类变量的相关分析
本节内容: 1. 列联表 2. 消减误差比例 3. λ系数 4. τ系数
1. 列联表
列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。 例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。
相关与回归分析
相关关系及种类 定类变量的相关分析 定序变量的相关分析 定距变量的相关分析 回归分析
第一节 第二节 第三节 第四节 第五节
社会上,许多现象之间也都有相互联系,例如: 身高与体重、教育程度和收入、学业成就和家庭环境、 智商与父母智力等。在这些有关系的现象中,它们之 间联系的程度和性质也各不相同。
44 52
56
64 120
相对频数联合分布列联表 态度Y 容忍Y1 反对Y2 性别X 男( X1 ) 女( X2 ) 40.0% 16.7 % 56.7 % 6.7 % 36.6 % 43.3% 46.7 % 53.3 % 100 % (120)
相对频数条件分布列联表 性别X 态度Y 男( ) 女( )
4. 单相关和复相关
从变量的多少上看,单相关只涉及两个变量,亦称二元 相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 5.直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近似地表现为一条 曲线,则称为曲线相关或称为非线性相关。 由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用于处理曲线相 关。
职工的工作种类与工作价值 工作种类 X 工作价值 Y
工人 100 30 20 150 管理/行 技术人员 政人员 70 60 10 140 50 20 40 110
合计
经济取向型 成就取向型 人际关系取向 型 合计:FX
220 110 70 400
性质: (1)0≤λ≤1 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。 (5)如果众数频数集中在条件频数分布列联 表的同一行时,λ=0,从而无法显示两变量之间 的相关性。
4.τ 系数 τ 系数的统计值域是[0,1],其特点是在计
算时考虑所有的边际频数和条件频数 。
注意:当众数很突出且众数分布不在同一行,同一 列时,用λ 系数较好;但当众数不突出时,用τ 系数更 好;若众数集中在某一行或某一列,一定用τ 系数。
[例] 对下表所示资料,用τ系数反映性别与 收入高低的相关关系,并对系数的PRE意义加以 解释。 收入Y 性别X 男 女 合计
上表显示,大学以上文化程度和大学以下文化程度同样 各有60%的人参与投票,40%的人弃权,并没有因为受教育 程度不同,而使参与投票的行为有所不同。因此,此时的两 个变量是不相关的,或者说是独立的。我们不难发现,此时 反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票,40%的人弃权。
本书第十章提出了两总体的检验及估计的问题,这 意味着我们开始与双变量统计方法打交道了。双变量 统计与单变量统计最大的不同之处是,客观事物间的 关联性开始披露出来。这一章我们将把相关关系的讨 论深入下去,不仅要对相关关系的存在给出判断,更 要对相关关系的强度给出测量,同时要披露两变量间 的因果联系,其内容分为相关分析和回归分析这两个 大的方面。
增广见 闻 3 7 4 14
总数
40 50 10 100
两个边际分布:
条件频数表中各频数因基数不同不 便作直接比较,因此有必要将频数化成 相对频数,使基数标准化。这样,我们
就从频数分布的列联表得到了相对频数
分布的列联表(或称频率分布的列联表)。
下表是r×c相对频数分布列联表的一般
形式。
r×c相对频数分布列联表的一般形式
投票行为Y 投票 弃权
受教育程度X
大学以上 28.0%(100/357) 18.8%(67/357) 46.8% (167/357) 大学以下 31.9%(114/357) 21.3%(76/357) 53.2% (190/357) 60.0%(214/357) 40.0%(143/357) 100.0% (357)
在相对频数分布列联表中,各数据为各分类 出现的相对频数(或者频率)。将频数 化成相对 频数 有两种做法:
①相对频数联合分布 两个边际分布 或
②相对频数条件分布
或
r×c相对频数联合分布列联表
控制X,Y相对频数条件分布列联表
控制Y,X相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转
上表显示,当两个变量不相关时有 如0.532× 0.40=0.213。
。
[例B]某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对 频数的联合分布、边际分布和条件分布列联表, 并进行相关分析。
性别与对吸烟的态度
态度Y 性别X 男 女 合计
容忍
反对 合计
48
20 68
8
2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变 量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。
第一节
1. 相关程度
变量之间的相互关系
完全相关,指变量之间为函数关系;完全不相关指变 量之间不存在任何依存关系,彼此独立。不完全相关介于 两者之间。不完全相关是本章讨论的重点。
由于数学手段上的局限性,统计学探讨的最多的是定 距—定距变量间能近似地表现为一条直线的线性相关。在 统计中,对于线性相关,采用相关系数(记作r)这一指标 来量度相关关系程度或强度。就线性相关来说,当r =l 时,表示为完全相关;当r =0时,表现为无相关或零相 关;当0< r <1时,表现为不完全相关。
[例A2]试把下表所示的频数分布列联表,转
化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。 投票行为 Y
受教育程度X 大学以 上 100 67 167 大学以 下 114 76 190 214 143 357
投票 弃权 合计:
投票行为Y 投票 弃权
受教育程度X 大学以上 60.0%(100/167) 40.0%(67/167) 100.0% (167)) 大学以下 60.0%(114/190) 40.0%(76/190) 100.0% (190) 60.0%(214/357) 40.0%(143/357) 100.0% (357)
收入Y
低 高 合计
合计
来自百度文库
(2)对称的λ系数
[例] 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用λ系数反映工作类别与工作价值 的相关关系 。
子女智力
一般
子女智力
低下
71.6
33.6 18.6
25.4
42.7 66.9
3.0
23.7 14.5
劣+劣
5.4
34.4
60.2
通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是 或者
低
高 合计
60
120 180
150
70 220
210
190 400
练习:
调查100名青年人与其知心朋友的志愿,条 件次数分布如下:计算知心朋友的志愿与自己志 愿之间的相关关系,并提出研究结论。 知心朋友志愿
自己志愿
快乐家庭 理想工作 增广见闻 总数
快乐 家庭 28 2 2 32
理想工 增广 作 见闻 9 3 41 7 4 4 54 14
2×2频数分布列联表的一般形式
习惯上把因变量Y放在表侧,把自变量X放在表头。 2×2列联表是最简单的交互分类表。 r×c列联表 r(row)、c(column)
r×c频数分布列联表的一般形式
知心朋友志愿
自己志愿
快乐家庭 理想工作 增广见闻 总数
快乐家庭 理想工作 28 2 2 32 9 41 4 54
从上表可知,受过大学以上教育的被调查者绝大多 数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行 为不同,因此两个变量是相关的。
化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。 投票行为 Y 投票 弃权 合计: 受教育程度X 大学以上 160 7 167 大学以下 129 61 190 289 68 357
投票行为Y 投票 弃权
受教育程度X 大学以上 95.8%(160/167) 4.2%(7/167) 100.0% (167)) 大学以下 67.9%(129/190) 32.1%(61/190) 100.0% (190) 81.0%(289/357) 19.0%(68/357) 100.0% (357)
PRE=(56-28)/56=0.5
3. λ 系数 在定类尺度上测量集中趋势只能用众数。
λ 系数就是利用此性质来构造相关系数的。 (1)不对称的λ 系数
[例] 对下表所示资料,用λ系数反映性别与收 入高低的相关关系。 性别X 男 60 120 180 女 150 70 220 210 190 400
容忍
反对
70.6%
29.4 % 100 % (68)
15.4 %
84.6 % 100 % (52)
46.7 %(56)
53.3 %(64) 100 % (120)
2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表) 父母智力
组合 优+优 优+劣 一般+一般
子女智力
优秀
2. 消减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联 性给出判断,肯定没有用量化指标表达来得好。所以,下 面我们将关注于如何用统计方法,使相关关系的强弱可以 通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,消减误差比 例的概念是非常有价值的。消减误差比例的原理是,如果 两变量间存在着一定的关联性,那么知道这种关联性,必 然有助于我们通过一个变量去预测另一变量。其中关系密 切者,在由一变量预测另一变量时,盲目性必然较关系不 密切者为小。
PRE:用不知道Y与X有关系时预测Y的全部误差E1, 减去知道Y与X有关系时预测Y的联系误差E2,再将其化 为比例来度量
PRE的取值范围是 0≤PRE≤l 消减误差比例PRE适用于各测量层次的变量,λ系数 和τ系数便是在定类测量的层次上以消减误差比例PRE为 基础所设计的两种相关系数。
性别X 态度Y 男 容忍 反对 合计 48 20 68 女 8 44 52 56 64 120 合计
3. 因果关系与对称关系 因果关系中两个变量有自变量(independent Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者 称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自 变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。
第二节
定类变量的相关分析
本节内容: 1. 列联表 2. 消减误差比例 3. λ系数 4. τ系数
1. 列联表
列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。 例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。