张文彤-SPSS-第14节-回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归分析
相关分析
Partial过程
在控制家庭收入QS9对总信心指数影响的前提下,考察总信心指数值和年龄的相关性。

相关分析和回归分析的关系
X
,可以计算出自变量改变一个单位时因变
这在实际工作中尤为重要
回归分析假定自变量对因变量的影响强度是始终保持不变的,如公式所示:
ˆ
=
a
bx
y+
对于因变量的预测值可以被分解成两部分:
常量(constant):x取值为零时y的平均估计量,可以被看成是一个基线水平
回归部分:它刻画因变量Y的取值中,由因变量Y与自变量X的线性关系所决定的部分,即可以由X直接估计的部分
Ŷ:y的估计值(所估计的平均水平),表示给定自变量的取值时,根据公式算得的y的估计值
a:常数项,表示自变量取值均为0时因变量的平均水平,即回归直线在y轴上的截距
多数情况下没有实际意义,研究者也不关心
b:回归系数,在多变量回归中也称偏回归系数。

自变量x 改变一个单位,y估计值的改变量。

即回归直线的斜率
估计值和每一个实测值之间的差被称为残差。

它刻画了因变量y 除了自变量x 以外的其它所有未进入该模型,或未知但可能与y 有关的随机和非随机因素共同引起的变异,即不能由x 直接估计的部分。

为了方程可以得到估计,我们往往假定i 服从正态分布N(0,σ2)。

i
i e bx a y ++= 案例:销量影响因素分析
某专门面向年轻人制作肖像的公司计划在国内再开设几家分店,收集了目前已开设的分店的销售数据(Y ,万元)及分店所在城市的16岁以下人数(X1,万人)、人均可支配收入(X2,元),数据见reg.sav 。

试进行统计分析。

实际上拟合的模型如下:
2211ˆx b x b a y
++=
这个表达式:常数项表示,16岁以下0人,可支配0元,预期的销售额的方程。

i i i i i e x b x b a e y
y +++=+=2211ˆ这个表达式中的B1X1表示,当人均可支配收入不变时,相应的每增加一个单位人数,销售额会增加b1个单位
SPSS 实现过程
分析——回归——线性——将自变量和因变量选入框中,点击继续
输出四张表格
第1张表格为变量的筛选过程,变量信息和所选方法
总模型的汇总报告
如果用于预测的效果可从该表的数据中看出。

负相关系数R=0.957a R平方(决定系数)用于预测因变量的可靠性,如果可预测为100%,R平方等于0.917占比很大。

总模型的检验
H0:所有回归系数相等(所有回归系数等于零)没有任何一个自变量对因变量有预测价值。

因为p值等于0.00b,拒绝H0接受H1,认为在这个模型当中至少有一个自变量是对因变量有预测价值的。

模型中各个参数的估计与检验
Ho:
第1行,常数项等于0(无实际价值)
第2行,年轻人人数,p值=0.000,有统计学意义。

当控制了“人均可支配收入”后,年轻人每增加1个单位,销售额平均会增加1.4个单位。

第3行,人均可支配收入,p值=0.033,有统计学意义。

当控制了“年轻人数”后,可支配收入每增加1个单位,相应的销售额会增加0.009个单位。

从这里就可写出回归方程
标准系数:可以看出哪个自变量的作用大小相互比较,第4列
模型适用条件
线性趋势(做散点图即可看出)
独立性(考察背景)
正态性
方差齐性
如果只是探讨自变量与因变量间的关系,则后两个条件可以适当放宽
样本量
根据经验,记录数应当在希望分析的自变量数的20倍以上为宜
实质上样本量和模型的决定系数有关,可通过迭代的方法进行计算
常用指标
偏回归系数
相应的自变量上升一个单位时,因变量取值的变动情况,即自变量对因变量的影响程度。

标化偏回归系数:量纲问题
决定系数
相应的相关系数的平方,用R2表示,它反映因变量y的全部变异中能够通过回归关系被自变量解释的比例。

线性回归模型简介
分析步骤
做出散点图,观察变量间的趋势
4个4变量的散点图
第1个图:标准的散点图,线性直线趋势,偏离不是很远
第2个图:有关联趋势,做曲线回归
第3个图:大部分在线上,但有一点偏离太远,不应直接建模。

检查数据考虑取舍
第4个图:三点间有趋势,但是右上角点,需要检查数据,再取舍。

分析步骤
考察数据的分布,进行必要的预处理。

即分析变量的正态性、方差齐等问题
进行直线回归分析
残差分析
残差间是否独立(Durbin-Watson检验)在统计量中选择
残差分布是否为正态(图形或统计量)
分析步骤
残差分析
强影响点的诊断
多重共线性问题的判断
这两个步骤和残差分析往往混在一起,难以完全分出先后
残差的值在±3之内,在±3之外为可疑强影响点。

进一步诊断在保存对话框中选择。

相关文档
最新文档