第十二章有关与回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十二章相关与回归分析
社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。
本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。
第一节变量之间的相互关系
1. 相关程度
完全相关,指变量之间为函数关系;完全不相关指变量之间不存在任何依存关系,彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。
由于数学手段上的局限性,统计学探讨的最多的是定距—定距变量间能近似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当r =l时,表示为完全相关;当r =0时,表现为无相关或零相关;当0< r <1时,表现为不完全相关。
2. 相关方向:正相关和负相关
所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时,另一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强调的是,只有定序以上测量层次的变量才分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。
第二节定类变量的相关分析
本节内容:
1. 列联表
2. 消减误差比例
3. λ系数
4. τ系数
1. 列联表
列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。
例如,某区调查了357名选民,考察受教育程度与投票行为之间的关系,将所得资料作成下表,便是一种关于频数的列联表。
2×2频数分布列联表的一般形式
习惯上把因变量Y 放在表侧,把自变量X 放在表头。 2×2列联表是最简单的交互分类表。 r ×c 列联表 r(row)、c(column)
两个边际分布:
∑
==
+++++=r
j ij
ir ij i i X f f f f f F i 1
21 ∑
==+++++=c
i ij
cj ij j j Y f f f f f F j 1
21 n
f F F F F c i r
j ij X X X X c i ==
+++++∑∑
==1
1
21
条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r ×c 相对频数分布列联表的一般形式。 r ×c 相对频数分布列联表的一般形式
r ×c 相对频数联合分布列联表
∑∑
====
+++++r j c
i ij Y Yj Y Y n
f F F F F r 11
21
控制X,Y相对频数条件分布列联表控制Y,X相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转化为自变量受到控制的相对频数条件分布列联表,并加以相关分析。
票
行
为
Y
投
票
弃
权
从上表可知,受过大学以上教育的被调查者绝大多数(占95.8%)是投票的,受教育程度在大学以下的被调查者虽多数也参与投票(占67.9%),但后者参与投票的百分比远小于前者;前者只有4.2%弃权,而后者则有32.1%弃权。
两相比较可知,受教育程度不同,参与投票的行为不同,因此两个变量是相关的。
[例A2]试把下表所示的频数分布列联表,转化为相对频数条件分布列联表和自变量受到控制的相对频数条件分布列联表,并加以相关分析。
上表显示,大学以上文化程度和大学以下文化程度同样各有60%的人参与投票,40%的人弃权,并没有因为受教育程度不同,而使参与投票的行为有所不同。因此,此时的两个变量是不相关的,或者说是独立的。我们不难发现,此时反映全体投票情况的相对频数的边际分布( F Y /n)也各有60%的人参与投票,40%的人弃权。
上表显示,当两个变量不相关时有 。 如0.532× 0.40=0.213。
[例B]某社区调查了120得资料作成相对频数的联合分布、并进行相关分析。
性别与对吸烟的态度
相对频数联合分布列联表
相对频数条件分布列联表
2675名双亲和他们10071个子女
的智力的关系(%)(相对频数条件分布列联表)
通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。如果对不同的X,Y的相对频数条件分布不同,且和Y的相对频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。后者用数学式表示就是
2. 消减误差比例PRE
(Proportionate Reduction in Error)
通过相对频数条件分布列联表的讨论,可以就自变量X和因变量Y的关联性给出一个初步的判断。但是对关联性给出判断,肯定没有用量化指标表达来得好。所以,下面我们将关注于如何用统计方法,使相关关系的强弱可以通过某些简单的系数明确地表达出来。
在社会统计中,表达相关关系的强弱,消减误差比例的概念是非常有价值的。消减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时,盲目性必然较关系不密切者为小。
PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X 有关系时预测Y的联系误差E2,再将其化为比例来度量
PRE的取值范围是
0≤PRE≤l
消减误差比例PRE适用于各测量层次的变量,λ系数和τ系数便是在定类测量的层次上以消减误差比例PRE为基础所设计的两种相关系数。