第6讲 SPSS的相关分析和线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
23
⑥多重共线性的测量
• 容忍度:解释变量xi的容忍度Tol i = 1 − Ri2 接近于0,则多从 共线性越强。 1 大于等于10,说明x i 与其余解 • 方差膨胀因子:VIFi = 2 1 − Ri 释变量之间有严重多重共线性;或者方差膨胀因子 1 p 的均值V I F = ∑ VIFi 远远大于1,则表示存在严重 p i =1 多重共线性。 • 条件指数:k i = λm / λi ,当0 ≤ k i < 10时,认为多从共线性较弱; 当10 ≤ k i < 100时,认为多从共线性很严重。其中,λm 与
2 Rch (n − k − 1) F统计量与t统计量间的关系:Fch = 。其中, 2 1− R 2 Rch = R 2 − R 2;R 2 是x j 进入方程前的判定系数。 j j
17
(4)残差分析 概念:如果回归方程能够较好地解释被解释 变量的变化,那么残差序列中不应包含明 显的规律性和趋势性,残差分析就是检验 残差序列中是否包含明显的规律性和趋势 性。因此残差分析包含以下内容。 ①残差均值为0的正态性分析 画散点图。
22
⑤变量的筛选 • 向前筛选(Forward):首先选择与被解释变量具有 最高线性相关系数的变量进入方程,并进行回归 方程的各种检验;然后在剩余的变量中寻找被解 释变量偏相关系数最高且通过检验的变量进入方 程;直到没有可进入方程的变量为止。 • 向后筛选(Backward):首先所有变量全部引入方 程;然后在回归系数显著性检验不显著的一个或 多个变量中,剔出t检验值最小的变量;直到所有 变量的回归系数检验都显著为止。 • 逐步筛选(Stepwise):是向前筛选与向后筛选方 法的综合。
11
§6.3 线性回归分析
1 回归分析的概念 是通过回归方程描述变量间的因果关系的 一种数量分析方 法,研究一个或多个解释变量对一个被解释变量的影响程 度。 2 多元线性回归模型
y = β 0 + β1 x1 + β 2 x 2 + L + β k x k + ε
ε是随机误差项,满足E (ε x ) = 0, var(ε x ) = σ 2 , cov(ε i , ε j ) = 0。
1
1 Pearson简单相关系数 • 适用:度量定距变量间的线性相关关系。 • 数学定义:
r=
∑ (x
i =1 n i =1
n
i
− x )( y i − y )
2 n
( x i − x ) ∑ ( y i − y )2 ∑
i =1
1 n xi − x y i − y = ∑ S S n i −1 x y
• 检验统计量:服从n-2个自由度的t分布。
t=
r n−2 1− r
2
2
• 例6.1 t6-1中,收集1999年31个省市自治 区部分高校有关社科方面的研究数据,利 用此表检验研究立项课题数(当年)与投 入的具有高等职称的人数(上年)、发表 的论文数(上年)之间是否有较强的线性 关系。 结果见图6-1及表6-1。由图6-1及表6-1可知, 课题数与高等职称的人数、论文数之间都 有较强的线性关系;表6-1中,“﹡”表示显 著性水平为0.05,“﹡ ﹡”表示显著性水平 为0.01。
在“各个偏回归系数与零同时无 显著差异”的零假设下, SSR / k R2 / k F= = SSE / (n − k − 1) 1 − R 2 / (n − k − 1)
服从自由度为(k , n − k − 1)的F分布。
(
)
16
(3)回归系数的显著性检验
目的:检验每个解释变量与被解释变量间是否存在线性关系, 进而判断该解释变量是否应留在线性模型中。 统计量:
ˆ ˆ ˆ ˆ ˆ S β1 , β 2 , L, β k = ∑ y i − β 0 − β1 x1i − L β k x ki
i =1
(
)
n
(
)
2
13
4 回归方程的统计检验 通过样本数据建立回归方程后一般不能用于 对实际问题的分析和预测,通常要进行各种 统计检验,包括回归方程的拟合优度检 验、回归方程的显著性检验、回归系数的显 著性检验、残差分析等。
2
1 p( x i − x ) 常值。其中,hii = + n 为杠杆值。 n 2 ∑ ( xi − x )
i =1
• 剔出残差的学生化残差SREi = 观测值为异常值。
ei ˆ σ 1 − hii
的绝对值大于3的
21
1 1 n p • 中心化杠杆值chii = 1 − 大于其均值 ∑ chii = n n i =1 n 2或3倍的观测值为异常值。 ei2 hii • 库克距离Di = × 2 (1 + p )σ (1 − hii )2 是hii 与ei的综合效应,其值大于1的观测值为异常值。 • 在剔出第i个样本前后,标准化回归系数变化的绝对 值大于2/ n,或者标准化预测值变化的绝对值大于 2/ p/n 的观测值为异常值。
在β j = 0的零假设下,t = ˆ 其中,SD β j = ˆ βj
ˆ SD β j
( )
)
服从自由度为(n − k − 1)的t分布。
( )
ˆ σ2 SST j 1 − R 2 j
(
;SST j 是x j的离差平方和;R 2 是x j j
对其它所有解释变量回归的决定系数。回归方程显著性检验中的
τ
第6讲 SPSS的相关分析和线性回归分析 §6.1 相关分析
目的:分析两变量间统计关系的强弱程度。当 分析两变量间线性统计关系的强弱程度 时,采用相关系数。对不同类型的变量 应采用不同的相关系数来度量,常用的 相关系数主要有Pearson简单相关系数、 Spearman等级相关系数、Kendall τ 相关系数。 操作:Analyze→Correlate →Bivariate。
投投投投投 投投投投课
论论课
投投投投投投投投投课
论论课
.944** .000 31 .887** .000 31
.953** .000 31
**. Correlation is significant at the 0.01 level (2-tailed).
5
2 Spearman等级相关系数 • 适用:度量定序变量间的线性相关关系。 • 数学定义及检验统计量:
10
表6-2 课题相关因素的偏相关分析结果
Correlations Control Variables 投入高级职称的人 课题总数 Correlation 年数 Significance (2-tailed) df 论文数 Correlation Significance (2-tailed) df 课题总数 1.000 . 0 -0.140 0.461 . 28 论文数 -0.140 0.461 28 1.000 0
ˆ ˆ ˆ ˆ ˆ S w β1 , β 2 , L , β k = ∑ wi y i − β 0 − β 1 x1i − L β k x ki
i =1
(
)
n
(
)
2
其中,wi 是权重,方差较小的项給予较大的权重。
20
④异常值检验
ˆ • 标准化残差ZRE = ei / σ的绝对值大于3的观测值为异常值。 • 学生化残差SREi = ei ˆ σ 1 − hii 的绝对值大于3的观测值为异
Leabharlann Baidu
14
(1)回归方程的拟合优度检验 目的:检验样本数据点聚集在回归线周围的密集程 度,从而评价回归方程对样本数据的代表程度。 统计量:
ˆ ∑ ( yi − y )
i =1 n i −1 n 2
决定系数:R 2 =
SSR = SST
( y i − y )2 ∑
= 1−
ˆ ( y i − y i )2 ∑
2 小样本下,τ = (U − V ) 服从Kendall τ 分布; n(n − 1)
9n(n − 1) 大样本下,Z = τ 近似服从标准正态分布; 2(2n + 5)
U是一致对数目;V是非一致对数目。
7
§6.2 偏相关分析
概念:在控制其它变量线性影响的情况下,分析两 变量间的线性关系。 样本偏相关系数:控制了x2的线性作用后,x1和y之 间的一阶偏相关系数为
n
et2 ∑
t =2
n
ˆ ≈ 2(1 − ρ ),范围在0和 + 4之间。
19
③异方差分析
目的:当随机误差项存在条件异方差时,OLS估计不再是最 小方差的无偏估计,不再是有效估计;容易导致回归系数 限制性检验的t值偏高,进而容易拒绝其零假设,设那些本 不应留在方程中的变量被保留下来,并最终使模型的预测 偏差较大。 检验:方法之一是Spearman等级相关系数法,其中变量为残 差绝对值序列的秩和解释变量的秩。 矫正:存在条件异方差时应用加权OLS估计参数。
回归分析的目的是通过样本数据,得到β的估计量,进而 ˆ ˆ ˆ ˆ 得到回归方程E ( y x ) = β + β x + β x + L + β x 。回归方
0 1 1 2 2 k k
其中,y是被解释变量;x是解释变量;β是总体参数;
程反映了解释变量一个单位的变化引起被解释变量的平均变化。
12
3 回归参数的普通最小二乘(OLS)估计 OLS法是最常见的参数估计方法,其原理是使每 个样本点与回归线上的对应点在垂直方向上的离 差平方和最小得条件下,得到参数的估计值。即 对下面的回归模型求极值及解方程组,得到回归 参数的估计值。
λi 分别是最大特征根与第i个特征根。
24
5 线性回归分析的操作 Analyze→Regression →Linear 例6.3 利用表6-1,对科研立项课题数进行回 归分析。 计算结果见表6-3至表6-12。
25
表6-3 课题数回归分析结果(强制进入)(1)
Model Summary Adjusted R Std. Error of the Model R R Square Square Estimate 1 0.969 0.939 0.924 231.5255 a. Predictors: (Constant), 获奖数, 投入科研事业费(百元), 论文数, 专著数, 投入人年数, 投入高级职称的人年数
n
( y i − y )2 ∑
i =1
i =1 n
= 1−
SSE SST
调整的决定系数:R 2 = 1 −
SSE / (n − k − 1) SST / (n − 1)
15
(2)回归方程的显著性检验 目的:检验被解释变量与解释变量间的线性关系是 否显著,用线性模型来描述他们之间的关系是否 恰当。 统计量:
9
• 例6.2 在例6.1中发现,课题数与论文数之 间都有较强的正线性相关关系。但这种关 系中可能掺入了高级职称人数的影响(见 表6-1),因此需要进行课题数与论文数之 间的偏相关分析。 结果见表6-2。可以看出,课题数与论文数 之间的偏相关系数比简单相关系数减少了, 并且偏相关系数变得统计上不显著。
ry1, 2 =
(1 − r )(1 − r )
2 y2 2 12
ry1 − ry 2 r12
8
• 检验统计量:“两总体的偏相关系数与零无显著 差 异”的零假设下,t统计量服从自由 度为n-q-2的t分布。
n−q−2 t=r 1− r2
其中,r为偏相关系数;q为偏相关阶数。 • 操作:Analyze→Correlate →Partial。
18
②残差序列的独立性分析 分析方法有绘制图形、计算自相关系数、 DW(Durbin-Watson)检验三种。
ˆ 其中,自相关系数ρ =
∑e e
t =2 n t =2
n
t t −1 n
,范围在 − 1和 + 1之间;
et2 ∑ et2−1 ∑
t =2
DW =
(et − et −1 )2 ∑
t =2
3
图6-1 课题相关因素的矩阵散点图
4
表6-1 课题相关因素的简单相关系数矩阵
Correlations
课课课课 课课课课
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
小样本下,r = 1 − 6∑ Di2 n n −1
n
(
i =1 2
)
服从Spearman分布;
大样本下,Z = r n − 1 近似服从标准正态分布。 Di = U i − Vi ;U i、Vi 为两变量的秩。
6
3 Kendall τ 相关系数 • 适用:度量定序变量间的线性相关关系。是非参 数检验方法。 • 数学定义及检验统计量:
⑥多重共线性的测量
• 容忍度:解释变量xi的容忍度Tol i = 1 − Ri2 接近于0,则多从 共线性越强。 1 大于等于10,说明x i 与其余解 • 方差膨胀因子:VIFi = 2 1 − Ri 释变量之间有严重多重共线性;或者方差膨胀因子 1 p 的均值V I F = ∑ VIFi 远远大于1,则表示存在严重 p i =1 多重共线性。 • 条件指数:k i = λm / λi ,当0 ≤ k i < 10时,认为多从共线性较弱; 当10 ≤ k i < 100时,认为多从共线性很严重。其中,λm 与
2 Rch (n − k − 1) F统计量与t统计量间的关系:Fch = 。其中, 2 1− R 2 Rch = R 2 − R 2;R 2 是x j 进入方程前的判定系数。 j j
17
(4)残差分析 概念:如果回归方程能够较好地解释被解释 变量的变化,那么残差序列中不应包含明 显的规律性和趋势性,残差分析就是检验 残差序列中是否包含明显的规律性和趋势 性。因此残差分析包含以下内容。 ①残差均值为0的正态性分析 画散点图。
22
⑤变量的筛选 • 向前筛选(Forward):首先选择与被解释变量具有 最高线性相关系数的变量进入方程,并进行回归 方程的各种检验;然后在剩余的变量中寻找被解 释变量偏相关系数最高且通过检验的变量进入方 程;直到没有可进入方程的变量为止。 • 向后筛选(Backward):首先所有变量全部引入方 程;然后在回归系数显著性检验不显著的一个或 多个变量中,剔出t检验值最小的变量;直到所有 变量的回归系数检验都显著为止。 • 逐步筛选(Stepwise):是向前筛选与向后筛选方 法的综合。
11
§6.3 线性回归分析
1 回归分析的概念 是通过回归方程描述变量间的因果关系的 一种数量分析方 法,研究一个或多个解释变量对一个被解释变量的影响程 度。 2 多元线性回归模型
y = β 0 + β1 x1 + β 2 x 2 + L + β k x k + ε
ε是随机误差项,满足E (ε x ) = 0, var(ε x ) = σ 2 , cov(ε i , ε j ) = 0。
1
1 Pearson简单相关系数 • 适用:度量定距变量间的线性相关关系。 • 数学定义:
r=
∑ (x
i =1 n i =1
n
i
− x )( y i − y )
2 n
( x i − x ) ∑ ( y i − y )2 ∑
i =1
1 n xi − x y i − y = ∑ S S n i −1 x y
• 检验统计量:服从n-2个自由度的t分布。
t=
r n−2 1− r
2
2
• 例6.1 t6-1中,收集1999年31个省市自治 区部分高校有关社科方面的研究数据,利 用此表检验研究立项课题数(当年)与投 入的具有高等职称的人数(上年)、发表 的论文数(上年)之间是否有较强的线性 关系。 结果见图6-1及表6-1。由图6-1及表6-1可知, 课题数与高等职称的人数、论文数之间都 有较强的线性关系;表6-1中,“﹡”表示显 著性水平为0.05,“﹡ ﹡”表示显著性水平 为0.01。
在“各个偏回归系数与零同时无 显著差异”的零假设下, SSR / k R2 / k F= = SSE / (n − k − 1) 1 − R 2 / (n − k − 1)
服从自由度为(k , n − k − 1)的F分布。
(
)
16
(3)回归系数的显著性检验
目的:检验每个解释变量与被解释变量间是否存在线性关系, 进而判断该解释变量是否应留在线性模型中。 统计量:
ˆ ˆ ˆ ˆ ˆ S β1 , β 2 , L, β k = ∑ y i − β 0 − β1 x1i − L β k x ki
i =1
(
)
n
(
)
2
13
4 回归方程的统计检验 通过样本数据建立回归方程后一般不能用于 对实际问题的分析和预测,通常要进行各种 统计检验,包括回归方程的拟合优度检 验、回归方程的显著性检验、回归系数的显 著性检验、残差分析等。
2
1 p( x i − x ) 常值。其中,hii = + n 为杠杆值。 n 2 ∑ ( xi − x )
i =1
• 剔出残差的学生化残差SREi = 观测值为异常值。
ei ˆ σ 1 − hii
的绝对值大于3的
21
1 1 n p • 中心化杠杆值chii = 1 − 大于其均值 ∑ chii = n n i =1 n 2或3倍的观测值为异常值。 ei2 hii • 库克距离Di = × 2 (1 + p )σ (1 − hii )2 是hii 与ei的综合效应,其值大于1的观测值为异常值。 • 在剔出第i个样本前后,标准化回归系数变化的绝对 值大于2/ n,或者标准化预测值变化的绝对值大于 2/ p/n 的观测值为异常值。
在β j = 0的零假设下,t = ˆ 其中,SD β j = ˆ βj
ˆ SD β j
( )
)
服从自由度为(n − k − 1)的t分布。
( )
ˆ σ2 SST j 1 − R 2 j
(
;SST j 是x j的离差平方和;R 2 是x j j
对其它所有解释变量回归的决定系数。回归方程显著性检验中的
τ
第6讲 SPSS的相关分析和线性回归分析 §6.1 相关分析
目的:分析两变量间统计关系的强弱程度。当 分析两变量间线性统计关系的强弱程度 时,采用相关系数。对不同类型的变量 应采用不同的相关系数来度量,常用的 相关系数主要有Pearson简单相关系数、 Spearman等级相关系数、Kendall τ 相关系数。 操作:Analyze→Correlate →Bivariate。
投投投投投 投投投投课
论论课
投投投投投投投投投课
论论课
.944** .000 31 .887** .000 31
.953** .000 31
**. Correlation is significant at the 0.01 level (2-tailed).
5
2 Spearman等级相关系数 • 适用:度量定序变量间的线性相关关系。 • 数学定义及检验统计量:
10
表6-2 课题相关因素的偏相关分析结果
Correlations Control Variables 投入高级职称的人 课题总数 Correlation 年数 Significance (2-tailed) df 论文数 Correlation Significance (2-tailed) df 课题总数 1.000 . 0 -0.140 0.461 . 28 论文数 -0.140 0.461 28 1.000 0
ˆ ˆ ˆ ˆ ˆ S w β1 , β 2 , L , β k = ∑ wi y i − β 0 − β 1 x1i − L β k x ki
i =1
(
)
n
(
)
2
其中,wi 是权重,方差较小的项給予较大的权重。
20
④异常值检验
ˆ • 标准化残差ZRE = ei / σ的绝对值大于3的观测值为异常值。 • 学生化残差SREi = ei ˆ σ 1 − hii 的绝对值大于3的观测值为异
Leabharlann Baidu
14
(1)回归方程的拟合优度检验 目的:检验样本数据点聚集在回归线周围的密集程 度,从而评价回归方程对样本数据的代表程度。 统计量:
ˆ ∑ ( yi − y )
i =1 n i −1 n 2
决定系数:R 2 =
SSR = SST
( y i − y )2 ∑
= 1−
ˆ ( y i − y i )2 ∑
2 小样本下,τ = (U − V ) 服从Kendall τ 分布; n(n − 1)
9n(n − 1) 大样本下,Z = τ 近似服从标准正态分布; 2(2n + 5)
U是一致对数目;V是非一致对数目。
7
§6.2 偏相关分析
概念:在控制其它变量线性影响的情况下,分析两 变量间的线性关系。 样本偏相关系数:控制了x2的线性作用后,x1和y之 间的一阶偏相关系数为
n
et2 ∑
t =2
n
ˆ ≈ 2(1 − ρ ),范围在0和 + 4之间。
19
③异方差分析
目的:当随机误差项存在条件异方差时,OLS估计不再是最 小方差的无偏估计,不再是有效估计;容易导致回归系数 限制性检验的t值偏高,进而容易拒绝其零假设,设那些本 不应留在方程中的变量被保留下来,并最终使模型的预测 偏差较大。 检验:方法之一是Spearman等级相关系数法,其中变量为残 差绝对值序列的秩和解释变量的秩。 矫正:存在条件异方差时应用加权OLS估计参数。
回归分析的目的是通过样本数据,得到β的估计量,进而 ˆ ˆ ˆ ˆ 得到回归方程E ( y x ) = β + β x + β x + L + β x 。回归方
0 1 1 2 2 k k
其中,y是被解释变量;x是解释变量;β是总体参数;
程反映了解释变量一个单位的变化引起被解释变量的平均变化。
12
3 回归参数的普通最小二乘(OLS)估计 OLS法是最常见的参数估计方法,其原理是使每 个样本点与回归线上的对应点在垂直方向上的离 差平方和最小得条件下,得到参数的估计值。即 对下面的回归模型求极值及解方程组,得到回归 参数的估计值。
λi 分别是最大特征根与第i个特征根。
24
5 线性回归分析的操作 Analyze→Regression →Linear 例6.3 利用表6-1,对科研立项课题数进行回 归分析。 计算结果见表6-3至表6-12。
25
表6-3 课题数回归分析结果(强制进入)(1)
Model Summary Adjusted R Std. Error of the Model R R Square Square Estimate 1 0.969 0.939 0.924 231.5255 a. Predictors: (Constant), 获奖数, 投入科研事业费(百元), 论文数, 专著数, 投入人年数, 投入高级职称的人年数
n
( y i − y )2 ∑
i =1
i =1 n
= 1−
SSE SST
调整的决定系数:R 2 = 1 −
SSE / (n − k − 1) SST / (n − 1)
15
(2)回归方程的显著性检验 目的:检验被解释变量与解释变量间的线性关系是 否显著,用线性模型来描述他们之间的关系是否 恰当。 统计量:
9
• 例6.2 在例6.1中发现,课题数与论文数之 间都有较强的正线性相关关系。但这种关 系中可能掺入了高级职称人数的影响(见 表6-1),因此需要进行课题数与论文数之 间的偏相关分析。 结果见表6-2。可以看出,课题数与论文数 之间的偏相关系数比简单相关系数减少了, 并且偏相关系数变得统计上不显著。
ry1, 2 =
(1 − r )(1 − r )
2 y2 2 12
ry1 − ry 2 r12
8
• 检验统计量:“两总体的偏相关系数与零无显著 差 异”的零假设下,t统计量服从自由 度为n-q-2的t分布。
n−q−2 t=r 1− r2
其中,r为偏相关系数;q为偏相关阶数。 • 操作:Analyze→Correlate →Partial。
18
②残差序列的独立性分析 分析方法有绘制图形、计算自相关系数、 DW(Durbin-Watson)检验三种。
ˆ 其中,自相关系数ρ =
∑e e
t =2 n t =2
n
t t −1 n
,范围在 − 1和 + 1之间;
et2 ∑ et2−1 ∑
t =2
DW =
(et − et −1 )2 ∑
t =2
3
图6-1 课题相关因素的矩阵散点图
4
表6-1 课题相关因素的简单相关系数矩阵
Correlations
课课课课 课课课课
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
小样本下,r = 1 − 6∑ Di2 n n −1
n
(
i =1 2
)
服从Spearman分布;
大样本下,Z = r n − 1 近似服从标准正态分布。 Di = U i − Vi ;U i、Vi 为两变量的秩。
6
3 Kendall τ 相关系数 • 适用:度量定序变量间的线性相关关系。是非参 数检验方法。 • 数学定义及检验统计量: