回归分析SPSS操作
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∑ 1
+ n
(xi - x)2 (x - x)2
个体的容许区间(参考值范围):
均数界值×标Yˆ准i ±tα差2,vse
∑ 1
1+ n +
(xi - x)2 (x -x)2
可信区间与预测区间示意图
3
多元线性回归分析
3.1 统计学上的定义
定义:在上一节中讨论的回归问题只涉及了一 个自变量,但在实际问题中,影响因变量的因素往 往有多个。例如,商品的需求除了受自身价格的影 响外,还要受到消费者收入、其他商品的价格、消 费者偏好等因素的影响;影响水果产量的外界因素 有平均气温、平均日照时数、平均湿度等。
其中SSE (H0 )表示用p个变量回归的残差平方和 SSE (H1 )表示用p+1个变量回归的残差平方和。
1 1 n
(xi x)2 x2 nx 2
2.3 结果和讨论
(1)输出的结果文件中的第一部分:
X与Y的简单相关系数
估计标准误
Se
ei2 n2
( yi yˆi )2 n2
1)决定系数R2
R2 SSR 1 SSE SST SST
它表示在因变量y的总变异中可由回归方程所解释部分 的比例。 0<R2≤1, 越接近于1, 说明回归方程效果越好。
回归分析
1
回归分析基本概念
2
一元线性回归分析
3
多元线性回归分析
1
回归分析基本概念
回归分析主要解决以下几方面的问题:
通过分析大量的样本数据,确定变量之间的数学关系式。
对所确定的数学关系式的可信程度进行各种统计检验,并 区分出对某一特定变量影响较为显著的变量和影响不显著的 变量。 利用所确定的数学关系式,根据一个或几个变量的值来预 测或控制另一个特定变量的取值,并给出这种预测或控制的 精确度。
预测值
残差
未标准化残差 标准化残差 学生化残差
本对话框用来定义存储 进入数据文件的新变量
图5 “Linear Regression: Save”对话框
预测区间
均数的置信区间 个体的容许区间
Yˆi t 2,vse
1 n
(xi x)2 x2 nx 2
Yˆi t 2,vse
b1
r
sY sX
标准化回归系数
zˆY rzx
zˆY zx
(2)第二部分 异常值分析
resid standardized
yˆi yi s
where s std dev of residuals
n
yi yˆi 2
s i1 n2
如果标准化残差超过2/-2,称为异常值outliers。 当样本量比较小,异常值又会影响回归系数的估计时, 应该关注异常值的影响。
方差。这种调整能够使残差分析更加敏感地发现方差不齐。
学生化残差超过2和-2的点可认为是异常值
(3)第三部分 数据窗口的存储
未标准化残差 标准化残差 学生化残差
预测区间
均数的置信区间 个体的容许区间
1.7 利用回归方程进行估计和预测
均数的置信区间:
均数界值×标Y准ˆi ±t误α 2,vse
3.2 逐步回归
研究者往往是根据自己的经验或借鉴他人的研究 结果选定若干个自变量,这些自变量对因变量的 影响作用是否都有统计学意义还有待于考察。
在建立回归方程的过程中有必要考虑对自变量进 行筛选,挑选出若干个与因变量作用较大的变量 建立回归方程。剔除那些对因变量没有影响的变 量,从而建立一个较理想和稳定的回归方程。
2)校正的决定系数Adj R2
Adj R2
1
MSE MST
0<AdjR2≤1, 越接近于1, 说明回归方程效果越好。
即使自变量对Y无显著意义,R2也随方程中的变量 个数增加而增加。Adj R2可以惩罚复杂模型。
结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响
截距 回归系数
F=t2
实现步骤
图1 在菜单中选择“Linear”命令
因变量
自变量
指定回归方法
全部选入
图2 “Linear Regression”对话框
与回归系数相 关的统计量
提供决定系数、估计 标准误、ANOVA表等
异常值诊断
报告残差超过2个标 准差的被试
图3 “Linear Regression: statistics”对话框
逐步回归的思想:
1. 开始方程中没有自变量,然后按自变量对y的
贡献大小由大到小依次挑选进入方程,每选入一 个变量,都要对进行检验,决定变量的取或舍。
2.
每一步都作一次如下的检验: H0 : p个自变量为好 H1 : p+1个自变量为好
采用F作为统计量。
F=
SSE (H0 )-SSE (H1 ) SSE(H1 )/ (n-p-2)
表1强度与拉伸倍数的试验数据
序号 1 2 3 4 5 6 7 8 9 10 11 12
拉伸倍数 2.0 2.5 2.7 3.5 4.0 4.5 5.2 6.3 7.1 8.0 9.0 10.0
强度(kg/mm2) 1.6 2.4 2.5 2.7 3.5 4.2 5.0 6.4 6.5 7.3 8.0 8.1
异常值 a 不影 响
异常值 b 影响
第i个观察值的学生化残差
resid studentized
yi yˆi S yi yˆi
s
yi yˆi
1(1 n
(
xi ( xi
x
)2 x)
2
)
n
yi yˆi 2
s i1 n2
S
yi yˆi
考虑了用来计算yˆ残i 差的 值有不同的
标准化预测值 标准化残差
剔除残差 调整预测值 学生化残差
学生化剔除残差
标准化残差图
直方图
输出标准化残差相对
百度文库
正态概率图 于因变量的散布图
图4 “Linear Regression:Plots”对话框
对应x值的残差图
y yˆ
0 x
良好模式
y yˆ
0
x
方差不齐
y yˆ
0
x
不满足线性回归假设
2
一元线性回归分析
2.1 统计学上的定义和计算公式
定义:一元线性回归分析是分析某一个因素 (自变量)是如何影响另一事物(因变量)的过程, 所进行的分析是比较理想化的。其实,在现实生活 中,任何一个事物(因变量)总是受到其他多种事 物(多个自变量)的影响。
2.2 SPSS中实现过程
研究问题
合成纤维的强度与其拉伸倍数有关,测得试验 数据如表9-1所示。求合成纤维的强度与拉伸倍数之 间是否存在显著的线性相关关系。