回归分析SPSS操作
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2)校正的决定系数Adj R2
MSE Adj R 1 MST
2
0<AdjR2≤1, 越接近于1, 说明回归方程效果越好。
即使自变量对Y无显著意义,R2也随方程中的变 量个数增加而增加。Adj R2可以惩罚复杂模型。
结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响
F=t2
截距 回归系数
预测值
残差
未标准化残差 标准化残差 学生化残差
本对话框用来定义存储
进入数据文件的新变量
预测区间
均数的置信区间 个体的容许区间
图5 “Linear Regression: Save”对话框
( xi x ) 2 1 ˆ Yi t 2,v se n x 2 nx 2
2 ( x x ) 1 i ˆ t s 1 Y i 2, v e n x 2 nx 2
异常值 a 不影响
异常值 b 影响
第i个观察值的学生化残差
ˆi yi y S yi y ˆi ˆi yi y ( xi x ) 1 s 1 ( ) 2 n ( xi x )
2
resid studentized
s
2 ˆ y y i i i 1
2.3 结果和讨论
(1)输出的结果文件中的第一部分:
估计标准误 Se
2 e i
X与Y的简单相关系数
n2
2 ˆ ( y y ) i i
n2
1)决定系数R2
SSR SSE R 1 SST SST
2
它表示在因变量 y 的总变异中可由回归方程所解释部分的 比例。 0<R2≤1, 越接近于1, 说明回归方程效果越好。
2. 矩阵表示
标准化回归方程:
1 2 3 Y=.413×Z1+e Y=.340×Z1- .336×Z4+ e Y=.401×Z1- 6.639×Z4 + .477×Z5+e
y = Xβ + e
3. 最小二乘估计
ˆ = (XX)-1 Xy β
Zero-Order
均数的置信区间: 均数界值×标准误 个体的容许区间(参考值范围):
ˆ ±t s Y i α 2,v e 1 ( xi - x )2 + 2 n ∑ (x - x )
均数界值×标准差
2 1 ( x x ) i ˆ ±t s 1 + + Y 2 i α 2,v e n ∑ (x -x )
可信区间与预测区间示意图
标准化预测值 标准化残差 剔除残差 调整预测值 学生化残差 学生化剔除残差 标准化残差图 直方图 正态概率图 输出标准化残差相对 于因变量的散布图
图4 “Linear Regression:Plots”对话框
对应x值的残差图
ˆ yy
0
Байду номын сангаас
x
良好模式
ˆ yy
0
x
方差不齐
ˆ yy
0
x
不满足线性回归假设
实现步骤
图1 在菜单中选择“Linear”命令
因变量
自变量
指定回归方法
全部选入
图2 “Linear Regression”对话框
提供决定系数、估计 标准误、ANOVA表等
与回归系数相 关的统计量
异常值诊断
报告残差超过2个标 准差的被试
图3 “Linear Regression: statistics”对话框
回归分析
1
回归分析基本概念 一元线性回归分析
2
3
多元线性回归分析
1
回归分析基本概念 回归分析主要解决以下几方面的问题:
通过分析大量的样本数据,确定变量之间的数学关系式。
对所确定的数学关系式的可信程度进行各种统计检验,并 区分出对某一特定变量影响较为显著的变量和影响不显著的
变量。
利用所确定的数学关系式,根据一个或几个变量的值来预
标准化回归系数
b1 r
sY sX
ˆY rz x z
ˆY z x z
(2)第二部分 异常值分析
ˆi yi y resid standardized s where s std dev of residuals
ˆ y y
i 1 i i n 2
s
n2
如果标准化残差超过2/-2,称为异常值outliers。 当样本量比较小,异常值又会影响回归系数的估计时,应 该关注异常值的影响。
z1 66.00 55.00 50.00 55.00 55.00 62.00 60.00 52.00 56.00 50.00 58.00 53.00 52.00 56.00 50.00 63.00 56.00 47.00 53.00 z2 64.00 50.00 47.00 59.00 59.00 54.00 60.00 52.00 55.00 50.00 54.00 52.00 56.00 65.00 63.00 57.00 46.00 50.00 66.00 z3 58.00 53.00 46.00 52.00 47.00 46.00 52.00 57.00 44.00 45.00 52.00 65.00 63.00 62.00 55.00 51.00 45.00 50.00 55.00 z4 1.08 1.00 1.31 1.00 1.00 1.08 1.08 1.00 1.69 1.08 1.00 1.08 1.46 1.00 1.00 1.00 2.23 2.08 1.00 Z5 1.00 1.11 1.20 1.00 1.00 1.00 1.00 1.00 1.00 1.14 1.00 1.00 1.43 1.00 1.00 1.00 1.29 1.14 1.00 满 意 度 25.00 22.00 20.00 20.00 24.00 23.00 21.00 23.00 15.00 25.00 25.00 22.00 20.00 22.00 20.00 26.00 21.00 20.00 25.00
1.00
1.00 1.31 1.77 1.08 1.00
1.00
1.00 1.14 1.43 1.00 1.00
24.00
24.00 19.00 17.00 24.00 23.00
实现步骤
逐步回归 Enter:所有自变量强制进入回归方程
图7-7 “Linear Regression”对话框(二)
3.2 逐步回归
研究者往往是根据自己的经验或借鉴他人的研究 结果选定若干个自变量,这些自变量对因变量的
影响作用是否都有统计学意义还有待于考察。
在建立回归方程的过程中有必要考虑对自变量进 行筛选,挑选出若干个与因变量作用较大的变量 建立回归方程。剔除那些对因变量没有影响的变 量,从而建立一个较理想和稳定的回归方程。
X1
X2
R2y.12
3.3 结果和讨论
(1)输出结果文件中的第一部分:
第三个回归方程的 解释率最高
R2的改变都是显著的,说明增加自变量可以显著 地改善对因变量的预测
2)输出的结果文件中第二部分:
F检验的结果显示,三个回归方程都显著 1 H0 : B1=0 2 H0 : B1= B2=0
3 H0 : B1= B2= B3=0
3
多元线性回归分析
3.1 统计学上的定义
定义:在上一节中讨论的回归问题只涉及了一 个自变量,但在实际问题中,影响因变量的因素往
往有多个。例如,商品的需求除了受自身价格的影
响外,还要受到消费者收入、其他商品的价格、消 费者偏好等因素的影响;影响水果产量的外界因素 有平均气温、平均日照时数、平均湿度等。
53.00
56.00 59.00
1.00
1.00 1.85
1.00
1.00 1.14
30.00
27.00 18.00
67.00
56.00 53.00 53.00 60.00 54.00
53.00
56.00 46.00 57.00 40.00 45.00
53.00
56.00 50.00 67.00 56.00 42.00
若F≥F(界值),则拒绝H0 ,可决定增多相应的自 变量; 否则,不拒绝H0 ,可决定不增加相应的自变量。
3.2 SPSS中实现过程
研究问题
用多元回归分析来分析36个员工多个心理变量
值(z1~z5)对员工满意度my的预测效果,测得试 验数据如表9-2所示。
表9-2员工多个心理变量值和员工满意度数据
测或控制另一个特定变量的取值,并给出这种预测或控制的 精确度。
2
一元线性回归分析
2.1 统计学上的定义和计算公式
定义:一元线性回归分析是分析某一个因素 (自变量)是如何影响另一事物(因变量)的过程,
所进行的分析是比较理想化的。其实,在现实生活
中,任何一个事物(因变量)总是受到其他多种事 物(多个自变量)的影响。
1.15
1.08 1.08 1.85 1.00 1.31 1.23 1.00
1.14
1.00 1.00 1.71 1.00 1.14 1.14 1.14
23.00
26.00 26.00 30.00 25.00 27.00 20.00 26.00
68.00
60.00 64.00
58.00
53.00 56.00
逐步回归法变量取舍标准 用F值的显著性水平作为标准 用F值作为标准
在回归方程中包括常项 缺失值的处理方式
用均值代替缺失值
图6 “Linear Regression:Options”对话框
3.3 结果和讨论
(1)输出结果文件中的第一部分:
复相关=√R2
Y
R2
Y
SS SS回归 1 误差 SS总 SS总
z1
z2
z3
z4
z5
满 意 度
61.00
59.00 55.00 56.00 59.00 60.00 52.00 56.00
55.00
64.00 60.00 52.00 51.00 53.00 51.00 57.00
58.00
54.00 55.00 51.00 52.00 47.00 55.00 59.00
提供决定系数、估计 标准误、ANOVA表等 关于回归系数的选择项 与回归系数相关的统计量 非标准化回归系数95%置信区间 非标准化回归系数的方差-协方差 德宾-沃森自相关 观测值诊断
显示每个自变量进 入方程后对R2和F 值的影响
描述性统计量
部分相关和偏相关
共线性诊断
图3 “Linear Regression:Statistics”对话框
当自变量之间存在高度相关性,将引起回归方程估计结果
不稳定,参数(回归系数)估计的标准误大大增加,称为 共线性。
共线性诊断:
1)条件数(Condition Index):
k<10(轻度) 10<k<30(中度) k>30(严重) 2)方差扩大因子(VIF): >5或10,严重 3) Tolence(容忍度): <.1 严重
逐步回归的思想:
1. 开始方程中没有自变量,然后按自变量对y的贡 献大小由大到小依次挑选进入方程,每选入一个
变量,都要对进行检验,决定变量的取或舍。
2. 每一步都作一次如下的检验: H0 : p个自变量为好 H1 : p+1个自变量为好
采用F作为统计量。
SSE (H0 )-SSE (H1 ) F= SSE(H1 )/ (n-p-2) 其中SSE (H0 )表示用p个变量回归的残差平方和 SSE (H1 )表示用p+1个变量回归的残差平方和。
n
n2
ˆ y S yi y ˆ i 考虑了用来计算残差的 i 值有不同的方差。这种
调整能够使残差分析更加敏感地发现方差不齐。
学生化残差超过2和-2的点可认为是异常值
(3)第三部分 数据窗口的存储
未标准化残差 标准化残差
预测区间
均数的置信区间 个体的容许区间
学生化残差
1.7 利用回归方程进行估计和预测
2.2 SPSS中实现过程
研究问题
合成纤维的强度与其拉伸倍数有关,测得试验
数据如表9-1所示。求合成纤维的强度与拉伸倍数之 间是否存在显著的线性相关关系。
表1强度与拉伸倍数的试验数据
序 号 1 2 3 4 5 6 7 8 9 10 11 12 拉伸倍数 2.0 2.5 2.7 3.5 4.0 4.5 5.2 6.3 7.1 8.0 9.0 10.0 强度(kg/mm2) 1.6 2.4 2.5 2.7 3.5 4.2 5.0 6.4 6.5 7.3 8.0 8.1
H0 : B2 0
非标准化回归方程:
1 Y=7.337+.276×Z1+e
多重回归的矩阵表达
1. 一般公式
2 Y=14.129+.227×Z1-3.301×Z4+e 3 Y=4.335+.268×Z1-6.286×Z4+10.188×Z5+e
yi 0 1x1 2 x2 p xp ei