社会统计学第十二章 相关与回归分析
回归分析与相关分析
回归分析与相关分析
导言
回归分析与相关分析是统计学中常用的两种分析方法,用于研究变量之间的关系。在本文中,我们将对回归分析和相关分析进行详细探讨,并介绍它们的原理、应用和实例。
一、回归分析
回归分析是通过建立一个数学模型来描述一个或多个自变量与因变量之间的关系。它可以帮助我们预测因变量的取值,并理解自变量对因变量的影响程度。
1.1 简单线性回归
简单线性回归是回归分析中最常见的一种方法,它假设自变量和因变量之间存在线性关系。通过最小二乘法,我们可以得到最佳拟合直线,从而预测因变量的取值。
1.2 多元线性回归
多元线性回归是对简单线性回归的拓展,它可以同时考虑多个自变量对因变量的影响。通过最小二乘法,我们可以得到最佳的多元回归方程,从而预测因变量的取值。
1.3 逻辑回归
逻辑回归是回归分析在分类问题上的一种应用。它能够根据自变量的取值,预测因变量的类别。逻辑回归常用于预测二分类问题,如预测一个学生是否会被大学录取。
二、相关分析
相关分析是研究两个或多个变量之间相关关系的一种方法。它可以帮助我们了解变量之间的关联程度,以及一个变量是否能够作为另一个变量的预测因子。
2.1 皮尔逊相关系数
皮尔逊相关系数是一种衡量两个连续变量之间线性相关程度的统计量。它的取值范围在-1到1之间,当相关系数接近1时,表示两个变量正相关;当相关系数接近-1时,表示两个变量负相关;当相关系数接近0时,表示两个变量无相关关系。
2.2 斯皮尔曼相关系数
斯皮尔曼相关系数是一种衡量两个变量之间的非线性相关程度的统计量。它的取值范围也在-1到1之间,但它适用于衡量非线性关系和顺序关系。斯皮尔曼相关系数广泛应用于心理学和社会科学领域。
统计学中的回归分析与相关系数
回归分析是统计学中一种重要的分析方法,用于探索变量之间的关系和预测变
量的变化。相关系数是回归分析的一个重要指标,用于衡量变量之间的线性相
关程度。在统计学中,回归分析和相关系数常常一起使用,通过量化两个变量
之间的关系,帮助我们更好地理解和解释数据。
回归分析通过建立一个数学模型来描述两个或多个变量之间的关系。其中一个
变量被称为因变量,它的值由其他变量的值决定。其他变量被称为自变量,它
们对因变量的值产生影响。回归分析的目标是建立一个最佳拟合线,使得预测
因变量的值最准确。回归分析可以帮助我们了解哪些自变量对因变量的影响最大,预测因变量的值,以及控制其他自变量的情况下某个自变量对因变量的影响。
在回归分析中,相关系数是衡量变量之间线性相关程度的一个指标。常见的相
关系数有Pearson相关系数和Spearman等级相关系数。Pearson相关系数适用
于线性关系,其取值范围为-1到1,且0表示无线性关系。当相关系数接近1时,表示变量之间的正向线性关系越强;当相关系数接近-1时,表示变量之间
的反向线性关系越强。Spearman等级相关系数适用于排名数据,无需考虑数据
的分布。相关系数可以帮助我们判断两个变量之间的关系是正向还是反向,以
及关系的强度。
回归分析和相关系数在许多领域中都有广泛的应用。在经济学领域,回归分析
可以用来探索不同因素对经济指标的影响,如GDP和就业率。在医学领域,相
关系数可以帮助医生评估不同因素对疾病的风险或预后的影响。在社会科学中,回归分析可以用来研究不同因素对人类行为的影响,如教育水平对就业机会的
统计学 第十二章 回归分析(课件)
x=x
•
(一)
( x1 , y1 ) (三)
y=y
• • •
(四)
( xn , y n )
X
( x − x ) → ( y − y ) →
(二) (四) Σ( x − x )( y − y ) – + − ⇒sxy< 0→负相关:r < 0 负相关: + –
第六章 相关与回归分析
2、显示x与y之间的相关程度。 A图 → 密集分布 • Q Y •
X
(一) (三) Σ( x − x )( y − y ) + – ( x − x ) → + ⇒sxy> 0→正相关:r > 0 正相关: + – ( y − y ) →
第六章 相关与回归分析
[负相关]
Y
r= s xy sx s y
s xy =
(二)
•
STAT
Σ ( x − x )( y − y ) n −1
STAT
我们必须关注的问题是: 1、账单与小费之间是否确实有关? 2、若有关,则属于何种关系? 3、如何根据账单来推算小费的数额? 本章的重点就是根据成对出现的样本数据做出一些推论。 并力求描述账单与小费之间的数量关系,这样就能找出人 们留小费时所应遵循的规则。
账单与小费的成对数据(美元) 账单与小费的成对数据(美元) 账单 33.5 50.7 87.9 98.8 63.6 107.3 120.7 5.5 5.0 8.1 17.0 12.0 16.0 18.6 小费 比例% 16.4 9.86 9.22 17.2 18.9 14.9 15.4
相关与回归分析
异序对
见上表,在观察X序列时如果我们看到Xi< Xj ,在Y序列 中看到的是Yi > Yj,则称这一配对是异序对。同样,异序 对只要求X变化方向和Y变化方向相同,并不要求X变化大 小和Y变化大小相等。同序对的总数用符号nd表示。
同分对
如果在X序列中,我们观察到Xi= Xj (此时在Y序列中无 Yi = Yj),则这个配对仅是X方向上而非Y 方向上的同分对; X 的这种同分对用符号nx表示。如果在Y 序列中,我们观察 到Yi = Yj(此时在X序列中无Xi= Xj ),则这个配对仅是Y 方 向上而非X方向上的同分对;Y 的这种同分对用符号ny表示。 如果我们观察到 Xi= Xj时,也观察到Yi = Yj ,则称这两个 配对为X与Y 同分对,以符号nxy表示。X 同分对的总数用符 号Tx表示, Tx = nx + nxy ;Y 同分对的总数用符号Ty表示, Ty = ny + nxy 。 n个单位两两配对,总对数= ns + nd + nx + ny + nxy
用相关系数进行分析的步骤
利用相关系数进行变量间线性关系的分析通常需要完成 以下步骤:
第一,计算样本相关系数r; 第二,对样本来自的两总体是否存在显著的线性关系进 行推断。 第三,借助与这两个变量有关的专业知识进行经验和理 论分析。
双变Biblioteka Baidu关系强度测量的主要指标
统计学相关与回归分析
27
3、回归分析的种类
一个自变量
一元回归
回归模型
两个及两个以上自变量
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
28
一元线性回归模型
如果变量x和y相关,并且从相关图表中可以看 出它们之间大致形成一种直线关系,我们就可在 相关图上求出一条与各点最相配合的直线。
y = a + b x +
式中x为自变量,通常由研究者事先选定数值。 a为 样本回归直线在y轴上的截距; b为样本回归直线的斜率
(又称回归系数);为误差项。
29
如何确定回归直线方程呢?(怎样确定参数a、b)
在回归分析中,欲使所求回归直线 y=a+bx 最适合于实际资料,必须使每个x对应的指标实测 值y与回归直线确定的估计值y的离差平方之和为 最小。这样便把寻找适当直线问题转化为使 Q(a, b)达到最小条件下求出a、b的问题。
x2 2x
n n
x nx 2
x 2 n x 2
x2 ( x)2
(yy)2
n
y2
(y)2
n
(xx)y (y) x y xn y
19
r
xy1xy n
社会统计学 12 相关与回归分析
2014-8-6
第十二章 相关与回归
22
2014-8-6
第十二章 相关与回归
23
态度Y
性别X
男 女
合计
容忍
反对
48
20
8
44
56
64
合计
68
52
120
PRE=(56-28)/56=0.5
2014-8-6
第十二章 相关与回归
24
3. λ 系数 在定类尺度上测量集中趋势只能用众数。 λ 系数就是利用此性质来构造相关系数的。 (1)不对称的λ 系数
子女智力 优秀
子女智力 一般
子女智力 低下
71.5
33.4 18.6
25.4
42.8 66.9
3.0
23.7 14.5
劣+劣
2014-8-6
5.4
34.4
60.1
21
第十二章 相关与回归
2. 削减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联 性给出判断,能否使相关关系的强弱可以通过某些简单的 系数明确地表达出来 在社会统计中,表达相关关系的强弱,削减误差比 例的概念是非常有价值的。 削减误差比例的原理是,如果两变量间存在着一定的关联 性,那么知道这种关联性,必然有助于我们通过一个 变量去预测另一变量。其中关系密切者,在由一变量 预测另一变量时,盲目性必然较关系不密切者为小。
第十二章有关与回归分析
第十二章相关与回归分析
社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。
本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。
第一节变量之间的相互关系
1. 相关程度
完全相关,指变量之间为函数关系;完全不相关指变量之间不存在任何依存关系,彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。
由于数学手段上的局限性,统计学探讨的最多的是定距—定距变量间能近似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当r =l时,表示为完全相关;当r =0时,表现为无相关或零相关;当0< r <1时,表现为不完全相关。
2. 相关方向:正相关和负相关
所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增加时,另一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强调的是,只有定序以上测量层次的变量才分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。
[课件]第12章 回归分析PPT
E y x 0 1
(12.3)
在简单线性回归中 1.回归方程的图形是一条直线(如图12.1 所示);
13
14
2. 0 :y 的截距;
3. 1 :斜率(回归系数);
1 的含义:当自变量 x给定一个具体变动值
时,因变量
y平均变化的Βιβλιοθήκη Baidu。
15
16
17
三、估计回归方程
5
一、从一个实际问题入手
用回归分析可以预测运行一条商业航空 线的成本吗? 如果可以,那么哪些变量与这一成本有 关呢?
6
飞行距离
飞机型号
乘客数量
飞机运行成本
行李或货物重量
天气状况
……
7
为了减少自变量个数,我们做如下假定: 飞机类别——波音737飞机 飞行距离——500公里 航线——可比,而且在每年的相同季节 在这种条件下,可以用乘客数来预测飞行 的成本吗?
8
表12-1是每年相同季节波音737飞机在 12条500公里的不同航线不同乘客数时的飞 行成本。我们用这些数据以乘客数作为自 变量构造模型来预测成本。
9
10
二、回归模型和回归方程
y x 0 1
y:因变量(随机变量)
(12.1)
相关分析和回归分析的意义及种类
第一节相关分析和回归分析的意义及种类
一、相关分析和回归的概念
1、变量间的依存关系
(1)函数关系:变量保持着严格的依存关系,呈现出一一对应的特征。
(2)相关关系:变量保持着不确定的依存关系,即“若即若离”也。
2、相关分析主要研究:借助于若干分析指标(如相关系数、相关指数等)对变量间的依存关系的紧密程度作测定的过程。
3、回归分析主要研究:对具有相关关系的一些变量,用函数表达式来表达各变量之间的相互关系形式的研究过程。
二、相关关系的种类
1、按相关的性质可分为正相关和负相关。
正相关:自变量与因变量之间的变动方向同步。
负相关:自变量与因变量之间的变动方向呈现逆向运动。
2、按相关形式可分为线性相关和非线性相关。
线性相关:如果变量之间存在着相关关系,因变量又近似表现为自变量的一次函数。(以两个变量为例的散点图)
非线性相关:如果变量之间存在着相关关系,因变量不能近似地表现为自变量的一次函数。(以两个变量为例的散点图)
3、按相关程度可分为完全相关、不完全相关和完全不相关。
完全相关:变量的所有值都完全满足一个方程。
如:圆面积S与半径r有关系式
不完全相关:变量之间存在不严格的依存关系
如:若把两个骰子同时投掷100次,其每次投出的相应点之间没有任何关系(除非这些投掷是负重的)。
完全不相关:自变量与因变量之间彼此互不影响。如:身高的体重间则存在的关系。
●●下面是不完全相关的散点图
4、按自变量的多少可以分为单相关和复相关。
三、相关关系的测定
1、定性判断
2、相关表:用表格反应现象之间的相关关系。
3、相关图:将观数据放在坐标系中,以观察有无相关关系及相关关系的紧密程度。
第十二章 回归分析
SSE = SST - SSR
38
例:经计算10名学生初一和初二数学成
绩的回归方程为 Y
1 . 22 X 14 . 32
,现对回归
方程进行方差分析。
已经计算得到 Σ X=710, Σ Y=723
Σ X2= 50520, Σ Y2=52541
39
由原始数据直接计算平方和:
SS T Y
40
计算自由度
dfT=n-1=10-1=9 dfE=n-2=10-2=8
dfR=dfT-dfE=1
41
计算方差
回归方差 残差方差
MS
R
SS
R
163 . 724 1
163 . 724
df R
SS
E
MS
E
104 . 376 8
13 . 047
df E
R E
计算F值
F
回归。 又称为简单线性回归(simple linear
regression)。
7
3.一元线性回归方程的通式
Y a bX
X a XY b XY Y
(公式12-1)
式中: a 为直线在Y轴上的截距;
b 为回归系数(也是回归直线的斜率)
数据的相关性与回归线分析
数据的相关性与回归线分析
数据在现代社会中扮演着至关重要的角色。它们可以帮助我们理解事物之间的关系,揭示隐藏的模式和趋势。而数据的相关性和回归线分析是统计学中两个重要的概念,它们可以帮助我们更好地理解数据之间的关系。
一、相关性分析
相关性是指两个或多个变量之间的关联程度。在统计学中,我们使用相关系数来衡量变量之间的相关性。常见的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数是用来衡量两个连续变量之间线性相关程度的统计量。它的取值范围在-1到1之间,其中-1表示完全的负相关,1表示完全的正相关,0表示没有线性相关性。通过计算皮尔逊相关系数,我们可以判断两个变量之间的关系是正相关还是负相关,并且可以根据相关系数的大小来衡量相关性的强弱。
斯皮尔曼相关系数则是用来衡量两个变量之间的单调关系的统计量。它不仅可以捕捉到线性关系,还可以捕捉到非线性关系。与皮尔逊相关系数不同,斯皮尔曼相关系数的取值范围在-1到1之间,其中-1表示完全的负相关,1表示完全的正相关,0表示没有单调关系。
二、回归线分析
回归线分析是一种用来建立变量之间关系的模型。它可以帮助我们预测一个变量如何随着另一个变量的变化而变化。回归线可以是线性的,也可以是非线性的。
线性回归是最常见的回归分析方法之一。它假设变量之间存在线性关系,通过拟合一条直线来描述这种关系。线性回归可以帮助我们预测一个变量的值,给定其他变量的值。通过回归线的斜率和截距,我们可以了解到变量之间的变化趋势和关系的强弱。
非线性回归则假设变量之间存在非线性关系。它可以通过拟合曲线来描述变量
第十二章相关与回归分析
第十二章相关与回归分析
社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系。第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。
第一节变量之间的相互关系
1.相关程度与方向
从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfect association)。而变量相关程度的另一个极端值是无相关(no association)或零相关(zero association),即变量之间不存在任何数量上的依存关系。相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系。
在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当r=l时,表示为完全相关;当r=0时,表现为无相关或零相关;当0<r<1时,表现为不完全相关。但在采用相关系数r这一指标时必须注意到,存在着完
善曲线而r=0的情况。当然,变量在其他测量层次的关系强度,也可以用同样的思路加以考虑。
当变量间相关时,还可以探讨其相关方向,可以分正和负两个方向。所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。而负相关关系是指一个变量的值增加时,另一变量的值却减少要强调的是,只有定序以上测量层次的变量才能分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。
第十二章_回归分析预测法
(3)根据回归模型所含的变量是否有虚拟变量: 普通回归模型和带虚拟变量的回归模型。
(4)根据回归模型是否用滞后的因变量作自变量: 无自回归现象的回归模型和自回归模型。
第二节 一元线性回归分析预测法
一、定义:指成对的两个变量数据分布大体
1、定义理解:
❖ 相关分析是以相关关系为对象,研究两个或两个 以上随机变量之间线性依存关系的紧密程度。通 常用相关系数表示,多元相关时用复相关系数表 示。
❖ 回归分析是对具有相关关系的变量之间的数量变 化规律进行测定,研究某一随机变量(因变量) 与其他一个或几个普通变量(自变量)之间的数 量变动关系,并据此对因变量进行估计和预测的 分析方法。
可决系数的取值范围:[0,1]
R2越接近1,说明实际观测点离样本线越近,拟 合优度越高。
调整的可决系数 R2
❖R2有一个缺点,即R2随着解释变量个数的增 加而增加,无论增加的解释变量在经济上是 否有意义,情况总是如此。
❖给人一种感觉,似乎在模型中增加一个解释 变量,模型的解释功能就会增强, R2就增 大了,就会增加拟合优度。
第三节 多元线性回归分析预测法
一、多元线性回归模型
1
❖ 一元线性回归模型研究的是某一因变量与一个自 变量之间的关系问题。但是,客观现象之间的联系 是复杂的,许多现象的变动都涉及到多个变量之间 的数量关系。
社会统计学习题和答案--相关与回归分析
第十二章 相关与回归分析
第一节 变量之间的相关关系
相关程度与方向·因果关系与对称关系 第二节 定类变量的相关
双变量交互分类(列联表)·削减误差比例(PRE )·λ系数与τ系数 第三节 定序变量的相关分析
同序对、异序对和同分对·Gamma 系数·肯德尔等级相关系数(τa 系数、τb 与τc 系数)·萨默斯系数(d 系数)·斯皮尔曼等级相关(ρ相关)·肯德尔和谐系数
第四节 定距变量的相关分析
相关表和相关图·积差系数的导出和计算·积差系数的性质 第五节 回归分析
线性回归·积差系数的PRE 性质·相关指数R 第六节 曲线相关与回归
可线性化的非线性函数·实例分析(二次曲线指数曲线)
一、填空
1.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,依变量则一般是( 随机性 )变量。
2.变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的全部误差E 1,减去知道Y 与X 有关系时预测Y 的联系误差E 2,再将其化为比例来度量,这就是( 削减误差比例 )。
3.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y 围绕每个估计值c Y 是服从( );(2)分布中围绕每个可能的c Y 值的( )是相同的。
4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为( 变化根据 )的变量,因变量是随( 自变量 )的变化而发生相应变化的变量。
5.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ),并据以进行估计和预测。这种分析方法,通常又称为( 回归分析 )。
统计学软件及应用_实验12相关与回归
《统计学软件及应用》上机试验报告试验名称:实验12 相关与回归
成绩:
➢选择图表——图表构建器
➢将散点图拖动到图表构建区,将年龄拖动到X轴,总指数拖动到Y轴;确定。
➢得到下图,看出二者有负相关的趋势。
➢如果想要知道负相关的系数,选择分析——相关——双变量;
➢将年龄、总指数选入变量列表,确定;
➢得到下表。
12.3 Partial过程
(1)简介
对其他变量进行控制;输出控制其他变量影响后的相关系数。
(2)案例分析
案例:在控制家庭收入QS9对总信心指数影响的前提下,考察总信心指数值和年龄的相关性。
➢重新打开双变量对话框,将题中涉及到的三个变量都选入变量列表;确定;
➢得到三者的相关性,为了得到在控制家庭收入QS9对总信心指数影响的前提下,总信心指数值和年龄的相关性,还需进行偏相关分析。选择分析——相关——
偏相关,将家庭月收入选入控制变量,将年龄和总指数选入变量列表;确定;
➢得到在在控制家庭收入QS9对总信心指数影响的前提下,总信心指
数值和年龄的相关性为负的0.203,呈负相关。
课堂试验内容五、实验步骤(请截图展示详细的操作过程)
进行相关分析。案例:考察信心指数值和年龄的相关性
描述:总信心指数值和年龄的皮尔逊相关性为负的-0.219,呈负相关,肯德尔相关性为-0.152,为负相关,斯皮尔曼相关性为-0.213,为负相关。
进行偏相关分析:在控制家庭收入QS9对总信心指数影响的前提下,考察总信心指数值和年龄的相关性。
描述:在在控制家庭收入QS9对总信心指数影响的前提下,总信心指数值和年龄的相关性为-0.216,呈负相关。
社会统计学(卢淑华),第十二章
第五节 用回归方程迚行预测
求y的区间估计值
y1 a x1 e1
y2 a x2 …… e2 yn a xn en
e , e e 相互独立。都服从相同的正态分
1 2
布
N 0, 2
n
,则随机变量y的标准化:
y y
S y
tn 2 服从自由度为n-2的t分布
当x x 0时,置信度为1 a的y区间估计为: [ yˆ0 t 2 S yˆ 0 , yˆ0 t 2 S yˆ 0 ]. 其中:
1 x 0 x S 1
2
S yˆ 0
n
L
S
y yˆ
2
xx
n2
L
xx
x i
x
2
2
y
2
4 4 9 9 16 16 16 36 64 174
25 16 16 9 1 1 0 0 0 68
第三节 回归方程的假定不检验
一、线性回归模型基本假定的界定 1、自变量x可以是随机变量,也可以是 非随机变量,x值可以认为是无误差的。 2、由于x和y之间存在非确定性的相关关 系,因此要求y的所有子总体的方差都相 等:Dy Dy Dy Dy Dy 3、y的所有子总体,其均值都在一条直 线上,称做线性假定。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
性质:
(1)0≤λ≤1 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。
由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用于处理曲线相 关。
第二节 定类变量的相关分析
本节内容: 1. 列联表 2. 消减误差比例 3. λ系数 4. τ系数
1. 列联表
列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。
3. 因果关系与对称关系 因果关系中两个变量有自变量(independent
Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者
称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自
例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。
2×2频数分布列联表的一般形式
习惯上把因变量Y放在表侧,把自变量X放在表头。 2×2列联表是最简单的交互分类表。 r×c列联表 r(row)、c(column)
r×c频数分布列联表的一般形式
PRE:用不知道Y与X有关系时预测Y的全部误差E1, 减去知道Y与X有关系时预测Y的联系误差E2,再将其化 为比例来度量
PRE 原的 来 后 误 — 来 后 差 的 来误 的 E 差 0E 误 0E1 差
PRE的取值范围是 0≤PRE≤l
消减误差比例PRE适用于各测量层次的变量,λ系数 和τ系数便是在定类测量的层次上以消减误差比例PRE为 基础所设计的两种相关系数。
Baidu Nhomakorabea190
357
投票行为Y
投票 弃权
r
j 1
受教育程度X
大学以上
大学以下
95.8%(160/167) 4.2%(7/167)
100.0% (167))
67.9%(129/190)
32.1%(61/190)
100.0%
Fy n
(190)
FY n
81.0%(289/357) 19.0%(68/357)
100.0% (357)
并进行相关分析。
性别与对吸烟的态度
态度Y
容忍 反对 合计
性别X
男
女
48
8
20
44
68
52
合计
56 64 120
态度Y
容忍Y1 反对Y2
2
j 1
相对频数联合分布列联表
性别X
2
男( X1 )
女( X2 )
i 1
40.0%
6.7 %
46.7 %
16.7 %
36.6 %
53.3 %
56.7 %
43.3% 100 % (120)
FY n
60.0%(214/357) 40.0%(143/357)
100.0% (357)
上表显示,当两个变量不相关时有 fij FXi FYj 。
n nn
如0.532× 0.40=0.213。
[例B]某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对
频数的联合分布、边际分布和条件分布列联表,
反映全体投票情况的相对频数的边际分布( F Y )也各有60%
的人参与投票,40%的人弃权。
n
投票行为Y
投票 弃权
FX n
受教育程度X
大学以上
大学以下
28.0%(100/357) 31.9%(114/357) 18.8%(67/357) 21.3%(76/357)
46.8% (167/357)
53.2% (190/357)
职工的工作种类与工作价值
工作价值 Y
工作种类 X
工人
技术人员
管理/行 政人员
合计
经济取向型
100
70
成就取向型
30
60
人际关系取向 20
10
型
合计:FX
150
140
50
220
20
110
40
70
110
400
fX0 fY0 (FX0 FY0)
2n(FX0 FY0) (1006040)(1007050)(15022)0
rc
F Y 1F Y 2 F Y j F Y r
fi jn
j 1i 1
条件频数表中各频数因基数不同不 便作直接比较,因此有必要将频数化成 相对频数,使基数标准化。这样,我们 就从频数分布的列联表得到了相对频数 分布的列联表(或称频率分布的列联表)。 下表是r×c相对频数分布列联表的一般 形式。
第一节 变量之间的相互关系
1. 相关程度 完全相关,指变量之间为函数关系;完全不相关指变
量之间不存在任何依存关系,彼此独立。不完全相关介于 两者之间。不完全相关是本章讨论的重点。
由于数学手段上的局限性,统计学探讨的最多的是定 距—定距变量间能近似地表现为一条直线的线性相关。在
统计中,对于线性相关,采用相关系数(记作r)这一指标 来量度相关关系程度或强度。就线性相关来说,当r =l 时,表示为完全相关;当r =0时,表现为无相关或零相 关;当0< r <1时,表现为不完全相关。
r×c相对频数分布列联表的一般形式
在相对频数分布列联表中,各数据为各分类
出现的相对频数(或者频率)。将频数 fij化成相对
频数 p ij 有两种做法: ①相对频数联合分布 pij
f ij n
两个边际分布 F X i 或 F Y j
n
n
②相对频数条件分布
p ij
f ij FX i
或
p ij
f ij FYj
投票行为
受教育程度X
Y
大学以 大学以
FY
上
下
投票
100
114
214
弃权
67
76
143
合计:FX
167
190
357
投票行为Y
受教育程度X
大学以上
大学以下
FY n
投票
弃2 权
j 1
60.0%(100/167) 40.0%(67/167)
100.0%
60.0%(114/190) 40.0%(76/190)
社会统计学第十二章 相关与回归分 析
社会上,许多现象之间也都有相互联系,例如: 身高与体重、教育程度和收入、学业成就和家庭环境、 智商与父母智力等。在这些有关系的现象中,它们之 间联系的程度和性质也各不相同。
本书第十章提出了两总体的检验及估计的问题,这 意味着我们开始与双变量统计方法打交道了。双变量 统计与单变量统计最大的不同之处是,客观事物间的 关联性开始披露出来。这一章我们将把相关关系的讨 论深入下去,不仅要对相关关系的存在给出判断,更 要对相关关系的强度给出测量,同时要披露两变量间 的因果联系,其内容分为相关分析和回归分析这两个 大的方面。
0 .5
[例] 对下表所示资料,用λ系数反映性别与收 入高低的相关关系。
收入Y
低 高 合计
性别X
男
女
60
150
120
70
180
220
合计
210 190 400
fY0 FY0
n FY0
(150 120 ) 210 400 210
0 .32
(2)对称的λ系数
fX0 fY0 (FX0 FY0)
100.0%
60.0%(214/357) 40.0%(143/357)
100.0%
(167))
(190)
(357)
上表显示,大学以上文化程度和大学以下文化程度同样
各有60%的人参与投票,40%的人弃权,并没有因为受教育
程度不同,而使参与投票的行为有所不同。因此,此时的两
个变量是不相关的,或者说是独立的。我们不难发现,此时
2n(FX0 FY0) (1006040)(1007050)(15022)0
2400(15022)0 0.12
[例] 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用λ系数反映工作类别与工作价值 的相关关系 。
变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。
4. 单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元
相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 5、直线相关和曲线相关
从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近似地表现为一条 曲线,则称为曲线相关或称为非线性相关。
父母智力 组合
优+优
优+劣 一般+一般
劣+劣
子女智力 子女智力
优秀
一般
71.6 25.4
33.6 42.7
18.6 66.9
5.4 34.4
子女智力 低下
3.0 23.7 14.5 60.2
通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是
f ij FY j
FX i
n
或者
fij FXi FYj n nn
2. 消减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量
X和因变量Y的关联性给出一个初步的判断。但是对关联
性给出判断,肯定没有用量化指标表达来得好。所以,下 面我们将关注于如何用统计方法,使相关关系的强弱可以 通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,消减误差比 例的概念是非常有价值的。消减误差比例的原理是,如果 两变量间存在着一定的关联性,那么知道这种关联性,必 然有助于我们通过一个变量去预测另一变量。其中关系密 切者,在由一变量预测另一变量时,盲目性必然较关系不 密切者为小。
自己志愿
快乐家庭 理想工作 增广见闻
总数
知心朋友志愿
快乐家 理想工 增广见
庭
作
闻
28
9
3
2
41
7
2
4
4
32
54
14
总数
40 50 10 100
两个边际分布:
r
F Xi fi1fi2 fij fir fij j1 c
F Yj f1jf2j fi j fcj fi j i 1
cr
F X 1F X 2 F X i F X c fijn i 1j 1
态度Y
容忍 反对 合计
性别X
男
女
48
8
20
44
68
52
合计
56 64 120
PRE=(56-28)/56=0.5
3. λ系数 在定类尺度上测量集中趋势只能用众数。
λ系数就是利用此性质来构造相关系数的。 (1)不对称的λ系数
fY0 FY0
n FY0
( 48 44 ) 64 120 64
从上表可知,受过大学以上教育的被调查者绝大多
数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行
为不同,因此两个变量是相关的。
[例A2]试把下表所示的频数分布列联表,转 化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。
态度Y 容忍 反对
2
j 1
相对频数条件分布列联表
性别X
男( f 1 j )
F X1
女( f 2 j ) F X2
70.6%
15.4 %
29.4 %
84.6 %
FY n
46.7 %(56)
53.3 %(64)
100 % (68)
100 % (52)
100 % (120)
2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表)
2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变
量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。
r×c相对频数联合分布列联表
控制X,Y相对频数条件分布列联表
控制Y,X相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。
投票行为
受教育程度X
Y
大学以 大学以
FY
上
下
投票
160
129
289
弃权
7
61
68
合计:FX 167