回归分析SPSS操作ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
调整能够使残差分析更加敏感地发现方差不齐。
学生化残差超过2和-2的点可认为是异常值
(3)第三部分 数据窗口的存储
未标准化残差 标准化残差 学生化残差
预wenku.baidu.com区间
均数的置信区间 个体的容许区间
1.7 利用回归方程进行估计和预测
• 均数的置信区间:
均数界值×标准误 ∑ Yˆi ±tα 2,vse
1 +
b1

r
sY sX
标准化回归系数
zˆY rzx
zˆY zx
(2)第二部分 异常值分析
resid standardized
yˆi yi s
where s std dev of residuals
n
yi yˆi 2
s i1 n2
如果标准化残差超过2/-2,称为异常值outliers。 当样本量比较小,异常值又会影响回归系数的估计时,应 该关注异常值的影响。
表1强度与拉伸倍数的试验数据
序号 1 2 3 4 5 6 7 8 9 10 11 12
拉伸倍数 2.0 2.5 2.7 3.5 4.0 4.5 5.2 6.3 7.1 8.0 9.0 10.0
强度(kg/mm2) 1.6 2.4 2.5 2.7 3.5 4.2 5.0 6.4 6.5 7.3 8.0 8.1
1 1 n
(xi x)2 x2 nx 2
2.3 结果和讨论
(1)输出的结果文件中的第一部分:
X与Y的简单相关系数
估计标准误
Se
ei2 n2
( yi yˆi )2 n2
• 1)决定系数R2
R2 SSR 1 SSE SST SST
它表示在因变量y的总变异中可由回归方程所解释部分的 比例。 0<R2≤1, 越接近于1, 说明回归方程效果越好。
3.2 逐步回归
• 研究者往往是根据自己的经验或借鉴他人 的研究结果选定若干个自变量,这些自变 量对因变量的影响作用是否都有统计学意 义还有待于考察。
• 在建立回归方程的过程中有必要考虑对自 变量进行筛选,挑选出若干个与因变量作 用较大的变量建立回归方程。剔除那些对 因变量没有影响的变量,从而建立一个较 理想和稳定的回归方程。
逐步回归的思想:
• 1. 开始方程中没有自变量,然后按自变量 对y的贡献大小由大到小依次挑选进入方程, 每选入一个变量,都要对进行检验,决定变 量的取或舍。
2. 每一步都作一次如下的检验:
H0 : p个自变量为好 H1 : p+1个自变量为好
采用F作为统计量。
SSE (H0 )-SSE (H1 ) F=
n
(xi - x)2 (x - x)2
• 个体的容许区间(参考值范围):
均数界值×标准差 ∑ Yˆi ±tα 2,vse
1 1+ n +
(xi - x)2 (x -x)2
可信区间与预测区间示意图
3
多元线性回归分析
3.1 统计学上的定义
定义:在上一节中讨论的回归问题只涉及了一 个自变量,但在实际问题中,影响因变量的因素往 往有多个。例如,商品的需求除了受自身价格的影 响外,还要受到消费者收入、其他商品的价格、消 费者偏好等因素的影响;影响水果产量的外界因素 有平均气温、平均日照时数、平均湿度等。
异常值 a 不影响 异常值 b 影响
• 第i个观察值的学生化残差
resid studentized

yi yˆi S yi yˆi

s
yi yˆi
1(1 n
(
xi ( xi
x
)2 x)
2
)
n
yi yˆi 2
s i1 n2
S yi yˆi 考虑了用来计算残差的 yˆi 值有不同的方差。这种
2)校正的决定系数Adj R2
Adj R2
1
MSE MST
0<AdjR2≤1, 越接近于1, 说明回归方程效果越好。
即使自变量对Y无显著意义,R2也随方程中的变 量个数增加而增加。Adj R2可以惩罚复杂模型。
结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响
截距 回归系数
F=t2
标准化预测值 标准化残差
剔除残差 调整预测值 学生化残差 学生化剔除残差
标准化残差图
直方图
输出标准化残差相对
正态概率图 于因变量的散布图
图4 “Linear Regression:Plots”对话框
• 对应x值的残差图
y yˆ
0 x
良好模式
y yˆ
0
x
方差不齐
y yˆ
0
x
不满足线性回归假设
SSE(H1 )/ (n-p-2)
其中SSE (H0 )表示用p个变量回归的残差平方和 SSE (H1 )表示用p+1个变量回归的残差平方和。
预测值
残差
未标准化残差 标准化残差 学生化残差
本对话框用来定义存储 进入数据文件的新变量
图5 “Linear Regression: Save”对话框
预测区间
均数的置信区间 个体的容许区间
Yˆi t 2,vse
1 n
(xi x)2 x2 nx 2
Yˆi t 2,vse
回归分析
1
1
回归分析基本概念
2
一元线性回归分析
3
多元线性回归分析
1
回归分析基本概念
回归分析主要解决以下几方面的问题:
通过分析大量的样本数据,确定变量之间的数学关系式。
对所确定的数学关系式的可信程度进行各种统计检验,并 区分出对某一特定变量影响较为显著的变量和影响不显著的 变量。 利用所确定的数学关系式,根据一个或几个变量的值来预 测或控制另一个特定变量的取值,并给出这种预测或控制的 精确度。
2
一元线性回归分析
2.1 统计学上的定义和计算公式
定义:一元线性回归分析是分析某一个因素 (自变量)是如何影响另一事物(因变量)的过程, 所进行的分析是比较理想化的。其实,在现实生活 中,任何一个事物(因变量)总是受到其他多种事 物(多个自变量)的影响。
2.2 SPSS中实现过程
研究问题
合成纤维的强度与其拉伸倍数有关,测得试验 数据如表9-1所示。求合成纤维的强度与拉伸倍数之 间是否存在显著的线性相关关系。
实现步骤
图1 在菜单中选择“Linear”命令
因变量
自变量
指定回归方法
全部选入
图2 “Linear Regression”对话框
与回归系数相 关的统计量
提供决定系数、估计 标准误、ANOVA表等
异常值诊断
报告残差超过2个标 准差的被试
图3 “Linear Regression: statistics”对话框
相关文档
最新文档