《SPSS数据分析教程》 ——回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0 1
i 1
ˆ ˆx ˆi 或者 y 0 1 i 预测误差为
ˆi ei yi y
SPSS在输出回归系数的估计值的同时还会给出 回归系数估计值的标准误差值;SPSS 还可以 给出预测值和各种预测误差
回归方程拟合程度检验
回归方程的检验也就是验证两个变量之间的线性关系 的确在统计上显著。一般进行如下的假设检验 ,它 包括 1)常数项的t检验 H0: ¯0 = 0 ˆ ) 检验统计量为: 常数项的估计值的标准误差为 s.e.( 0
决定系数R2
平方和定义
SST ( yi y ) 2
i 1
n
ˆi y )2 SSR ( y
ˆi ) 2 SSE ( yi y
i 1
n
i 1 n
三者之间的关系为:
SST = SSR +SSE R^2 = SSR /SST
R2的解释
决定系数R2的大小反映了回归方程能够解释的 响应变量总的变差的比例,其值越大,回归方 程的拟合程度越高。 一般情况下,随着预测变量个数的增大,决定 系数的值也变大,因此在多重回归分析中,需 要反映回归方程中预测变量的个数,即引入了 调整的决定系数。
0
调整的R2
随着自变量个数的增多,不管增加的自变量是 否和因变量的关系密切与否,R方都会增大; 调整的R方是根据回归方程中的参数的个数进 行调整的R方,它对参数的增多进行惩罚,调 整R方它没有直观的解释意义,它的定义为
R调整
2
SSE /(n p 1) n 1 11 (1 R 2 ) SST /(n 1) n p 1
回归模型的主要问题
进行一元线性回归主要讨论如下问题:
(1) 利用样本数据对参数¯0, ¯1和¾ 2,和进行点估计, 得到经验回归方程 (2) 检验模型的拟合程度,验证Y与X之间的线性相关 的确存在,而不是由于抽样的随机性导致的。 (3) 利用求得的经验回归方程,通过X对Y进行预测或 控制。
简单回归方程的求解
回归术语
对于有一个响应变量的线性回归,当p=1时, 我们称为简单线性回归(Simple Linear Regression,或称为一元线性回归),当 p>2 时我们称为多元线性回归(Multiple Linear Regression)。
回归和相关分析
回归分析是在相关分析的基础上,确定了变量 之间的相互影响关系之后,准确的确定出这种 关系的数量方法。因此,一般情况下,相关分 析要先于回归分析进行,确定出变量间的关系 是线性还是非线性,然后应用相关的回归分析 方法。在应用回归分析之前,散点图分析是常 用的探索变量之间相关性的方法。
ˆ ˆx ˆ0 0 1 0
SPSS可以提供标准化的预测值和调整的预测值
简单线性回归举例
一家计算机服务公司需要了解其用电话进行客 户服务修复的计算机零部件的个数和其电话用 的时间的关系。经过相关分析,认为二者之间 有显著的线性关系。下面我们用线性回归找到 这两个变量之间的数量关系。
《SPSS数据分析教程》 ——回归分析
本章学习目标
掌握线性回归分析的基本概念 掌握线性回归的前提条件并能进行验证 掌握线性回归分析结果的解释 掌握多重共线性的判别和处理 能用线性回归模型进行预测
回归分析的基本概念
什么是回归分析
回归分析是研究变量之间相关关系的一种统计方法 如果两个变量之间的Pearson相关系数绝对值较大, 从散点图看出变量间线性关系显著,那么下一步就是 应用回归分析的方法来找出变量之间的线性关系。 例如,房屋的价格和房屋的面积,地理位置,房龄和 房间的个数都有关系。又比如,香烟的销量和许多地 理和社会经济因素有关,像消费者的年龄,教育,收 入,香烟的价格等。
SSR/ p SSR/ 1 MSR 回归均方 F SSE/(n p 1) SSE /(n 2) MSE 残差均方
SPSS在回归输出结果的ANOVA表中给出SSR, SSE,SST和F统计量的取值,同时给出F值的显 著性值(即p值)。
用回归方程预测
在一定范围内,对任意给定的预测变量取值, 可以利用求得的拟合回归方程进行预测。其预 测值为:
应用举例
数据文件performance.sav记录了一项企业心 理学研究的数据。它调查了一个大型金融机构 的雇员,记录了他们和主管的交互情况的评价 和对主管的总的满意情况。我们希望该调查来 了解主管的某些特征和对他们的总的满意情况 的相互关系。
打开数据文件performance.sav,选择【分析】 →【回归】→【线性】,如图8-3所示。把变 量Y选入到因变量框中,把变量X1到X6选入到 自变量框中,其他选项保留默认值。单击【确 定】。
源自文库
多元线性回归的模型为: Y = ¯0 +¯1 X1 + ¯2 X2 + +¯p Xp +²
回归系数的估计和简单线性回归一样,仍然应 用最小二乘法
回归方程的显著性检验
与一元的情形一样,上面的讨论是在响应变量 Y与预测变量X之间呈现线性相关的前提下进行 的,所求的经验方程是否有显著意义,还需对 X与Y间是否存在线性相关关系作显著性假设检 验,与一元类似,回归方程是否有显著意义, 需要对回归参数¯0,¯1,,¯p进行检验。
回归模型的显著性的F检验
总平方和SST反映因变量Y的波动程度或者不确 定性,在建立了Y对X的回归方程后,总平方和 SST分解成回归平方和SSR与参差平方和SSE两 部分。其中SSR是由回归方程确定的,SSE是不 能由自变量X解释的波动,是由X之外的未加控 制的因素引起的。这样,SST中能够由自变量 解释的部分为SSR,不能由自变量解释的部分 为SSE。这样回归平方和越大,回归的效果越 好,据此构造F检验统计量
回归分析的分类
根据回归函数的形式,回归分析可以分为线性 回归和非线性回归:
线性回归: Y= ¯0 +¯1 X1+¯2 X2 + +¯p Xp +²
(y)
非线性回归 如果预测变量和响应变量之间有上页(¤)所示 的关系,但是不能表示为(y)所示的线性方程 的形式,我们称该回归关系为非线性回归。
简约回归模型
简约回归模型结果及解释
动手练习
数据文件world95.sav记录了1995年统计的各个国家的生育率 (fertility)和妇女的平均预期寿命(lifeexpf)等数据。 1)探索性分析这两个变量,探察两个变量中是否存在异常点。 2)做出这两个变量的散点图,建立两个变量的线性回归模型,判断 得到的模型的合理性。 3)利用生育率来预测妇女的预期寿命。并设置相关选项,以进一步 检验关于线性回归的假定条件。判断该数据是否满足线性回归的 假定条件。 4)并进行回归诊断,对模型的系数进行解释。从输出结果,判断妇 女多要一个小孩对她的寿命的影响情况。。
应用回归分析的步骤
步骤1:写出研究的问题和分析目标 步骤2:选择潜在相关的变量 步骤3:收集数据 步骤4:选择合适的拟合模型 步骤5:模型求解 步骤6:模型验证和评价 步骤7:应用模型解决研究问题
简单线性回归
简单线性回归的形式为:
Y = ¯0 +¯1 X +² 其中变量X为预测变量,它是可以观测和控制的;Y 为因变量或响应变量,它为随机变量; ² 为随机误 差。 通常假设² ~N(0,¾ 2),且假设与X无关。
我们希望根据观测值估计出简单回归方程中 的待定系数¯0和¯1,它们使得回归方程对应 的响应变量的误差达到最小,该方法即为最 小二乘法。 也就是求解¯0和¯1,使得
S( 0 , 1 ) ( yi 0 1 xi ) 2
n
达到最小。 ˆ ˆ 0 1 ,则回归方程为 把得到的解记为 ˆ ˆX ˆ Y
回归方程
回归关系一般用下列方程表示
Y=f(X1,X2,,Xp)+² (¤) Y被称作因变量,或者响应变量;而X1,X2,,Xp称 作自变量、控制变量、解释变量或者预测变量;而 f(.)则称为回归函数, ² 为随机误差或随机干扰,它 是一个分布与自变量无关的随机变量,我们常假定 它是均值为0的正态变量。
结果及其解释
“t”列记录了各回归系数t检验的t统计量,而 Sig.列记录了相应的显著性值。这里,只有X1 和X3的显著性值小于0.1,注意到回归方程的 常数项也不显著。然而,大部分情况下不显著 的预测变量都要从回归方程中移除,而回归常 数代表了响应变量的基本水平,不管显著与否, 大部分情况都保留在回归方程中。因此,我们 可以仅仅考虑Y和X1、X3之间的关系而忽略其 他预测变量。
集体项目
回归分析的结果及其解释
拟合优度检验
多元线性回归
实际应用中,很多情况要用到多个预测变量才 能更好地描述变量间的关系,如果这些预测变 量在预测方程中的系数为线性,那么回归方程 称为多元线性回归方程。就方法的实质来说, 处理多个预测变量的方法与处理一个预测变量 的方法基本相同。
多元线性回归的模型
SPSS回归分析
在SPSS中打开数据文件ComputerRepair.sav, 变量Units记录了修复的零部件的个数;变量 Minuts记录了服务所占用的电话时间。 选择【分析】→【回归】→【线性】。把 Units选入到自变量框中;把Minuts选入到因 变量框中。其他选项保留默认值。
SPSS回归分析
ˆ 0 t 0 ˆ) s.e.( 0
回归系数显著性检验
2)回归系数的显著性检验 H0: ¯1 =0 检验统计量为:
ˆ 1 1 t ˆ) s.e.( 1
回归的三个平方和
我们把拟合值和真实值的差值的平方和称为残 差平方和,记为SSE;把由于采用拟合回归直 线后预测值较采用响应变量均值提高的部分的 平方和称为回归平方和,记为SSR;真实值和 响应变量均值的平方和称为总平方和,记为 SST。
检验每个回归系数是否显著 H0:¯i =0, i=0,1,2,, p
这里和一元线性回归的检验一样,检验统计量 为t统计量。 检验所有回归系数都不显著,即 H0:¯0 =¯1==¯p 这里的检验统计量为
SSR/ p MSR F SSE /(n p 1) MSE
F检验的 H 被拒绝,并不能说明所有的自变量 都对因变量Y有显著影响,我们希望从回归方 程中剔除那些统计上不显著的自变量,重新建 立更为简单的线性回归方程,这就需要对每个 回归系数做显著性检验。 即使所有的回归系数单独检验统计上都不显 著,而F检验有可能显著,这时我们不能够说 模型不显著。这时候,尤其需要仔细对数据进 行分析,可能分析的数据有问题,譬如共线性 等。
i 1
ˆ ˆx ˆi 或者 y 0 1 i 预测误差为
ˆi ei yi y
SPSS在输出回归系数的估计值的同时还会给出 回归系数估计值的标准误差值;SPSS 还可以 给出预测值和各种预测误差
回归方程拟合程度检验
回归方程的检验也就是验证两个变量之间的线性关系 的确在统计上显著。一般进行如下的假设检验 ,它 包括 1)常数项的t检验 H0: ¯0 = 0 ˆ ) 检验统计量为: 常数项的估计值的标准误差为 s.e.( 0
决定系数R2
平方和定义
SST ( yi y ) 2
i 1
n
ˆi y )2 SSR ( y
ˆi ) 2 SSE ( yi y
i 1
n
i 1 n
三者之间的关系为:
SST = SSR +SSE R^2 = SSR /SST
R2的解释
决定系数R2的大小反映了回归方程能够解释的 响应变量总的变差的比例,其值越大,回归方 程的拟合程度越高。 一般情况下,随着预测变量个数的增大,决定 系数的值也变大,因此在多重回归分析中,需 要反映回归方程中预测变量的个数,即引入了 调整的决定系数。
0
调整的R2
随着自变量个数的增多,不管增加的自变量是 否和因变量的关系密切与否,R方都会增大; 调整的R方是根据回归方程中的参数的个数进 行调整的R方,它对参数的增多进行惩罚,调 整R方它没有直观的解释意义,它的定义为
R调整
2
SSE /(n p 1) n 1 11 (1 R 2 ) SST /(n 1) n p 1
回归模型的主要问题
进行一元线性回归主要讨论如下问题:
(1) 利用样本数据对参数¯0, ¯1和¾ 2,和进行点估计, 得到经验回归方程 (2) 检验模型的拟合程度,验证Y与X之间的线性相关 的确存在,而不是由于抽样的随机性导致的。 (3) 利用求得的经验回归方程,通过X对Y进行预测或 控制。
简单回归方程的求解
回归术语
对于有一个响应变量的线性回归,当p=1时, 我们称为简单线性回归(Simple Linear Regression,或称为一元线性回归),当 p>2 时我们称为多元线性回归(Multiple Linear Regression)。
回归和相关分析
回归分析是在相关分析的基础上,确定了变量 之间的相互影响关系之后,准确的确定出这种 关系的数量方法。因此,一般情况下,相关分 析要先于回归分析进行,确定出变量间的关系 是线性还是非线性,然后应用相关的回归分析 方法。在应用回归分析之前,散点图分析是常 用的探索变量之间相关性的方法。
ˆ ˆx ˆ0 0 1 0
SPSS可以提供标准化的预测值和调整的预测值
简单线性回归举例
一家计算机服务公司需要了解其用电话进行客 户服务修复的计算机零部件的个数和其电话用 的时间的关系。经过相关分析,认为二者之间 有显著的线性关系。下面我们用线性回归找到 这两个变量之间的数量关系。
《SPSS数据分析教程》 ——回归分析
本章学习目标
掌握线性回归分析的基本概念 掌握线性回归的前提条件并能进行验证 掌握线性回归分析结果的解释 掌握多重共线性的判别和处理 能用线性回归模型进行预测
回归分析的基本概念
什么是回归分析
回归分析是研究变量之间相关关系的一种统计方法 如果两个变量之间的Pearson相关系数绝对值较大, 从散点图看出变量间线性关系显著,那么下一步就是 应用回归分析的方法来找出变量之间的线性关系。 例如,房屋的价格和房屋的面积,地理位置,房龄和 房间的个数都有关系。又比如,香烟的销量和许多地 理和社会经济因素有关,像消费者的年龄,教育,收 入,香烟的价格等。
SSR/ p SSR/ 1 MSR 回归均方 F SSE/(n p 1) SSE /(n 2) MSE 残差均方
SPSS在回归输出结果的ANOVA表中给出SSR, SSE,SST和F统计量的取值,同时给出F值的显 著性值(即p值)。
用回归方程预测
在一定范围内,对任意给定的预测变量取值, 可以利用求得的拟合回归方程进行预测。其预 测值为:
应用举例
数据文件performance.sav记录了一项企业心 理学研究的数据。它调查了一个大型金融机构 的雇员,记录了他们和主管的交互情况的评价 和对主管的总的满意情况。我们希望该调查来 了解主管的某些特征和对他们的总的满意情况 的相互关系。
打开数据文件performance.sav,选择【分析】 →【回归】→【线性】,如图8-3所示。把变 量Y选入到因变量框中,把变量X1到X6选入到 自变量框中,其他选项保留默认值。单击【确 定】。
源自文库
多元线性回归的模型为: Y = ¯0 +¯1 X1 + ¯2 X2 + +¯p Xp +²
回归系数的估计和简单线性回归一样,仍然应 用最小二乘法
回归方程的显著性检验
与一元的情形一样,上面的讨论是在响应变量 Y与预测变量X之间呈现线性相关的前提下进行 的,所求的经验方程是否有显著意义,还需对 X与Y间是否存在线性相关关系作显著性假设检 验,与一元类似,回归方程是否有显著意义, 需要对回归参数¯0,¯1,,¯p进行检验。
回归模型的显著性的F检验
总平方和SST反映因变量Y的波动程度或者不确 定性,在建立了Y对X的回归方程后,总平方和 SST分解成回归平方和SSR与参差平方和SSE两 部分。其中SSR是由回归方程确定的,SSE是不 能由自变量X解释的波动,是由X之外的未加控 制的因素引起的。这样,SST中能够由自变量 解释的部分为SSR,不能由自变量解释的部分 为SSE。这样回归平方和越大,回归的效果越 好,据此构造F检验统计量
回归分析的分类
根据回归函数的形式,回归分析可以分为线性 回归和非线性回归:
线性回归: Y= ¯0 +¯1 X1+¯2 X2 + +¯p Xp +²
(y)
非线性回归 如果预测变量和响应变量之间有上页(¤)所示 的关系,但是不能表示为(y)所示的线性方程 的形式,我们称该回归关系为非线性回归。
简约回归模型
简约回归模型结果及解释
动手练习
数据文件world95.sav记录了1995年统计的各个国家的生育率 (fertility)和妇女的平均预期寿命(lifeexpf)等数据。 1)探索性分析这两个变量,探察两个变量中是否存在异常点。 2)做出这两个变量的散点图,建立两个变量的线性回归模型,判断 得到的模型的合理性。 3)利用生育率来预测妇女的预期寿命。并设置相关选项,以进一步 检验关于线性回归的假定条件。判断该数据是否满足线性回归的 假定条件。 4)并进行回归诊断,对模型的系数进行解释。从输出结果,判断妇 女多要一个小孩对她的寿命的影响情况。。
应用回归分析的步骤
步骤1:写出研究的问题和分析目标 步骤2:选择潜在相关的变量 步骤3:收集数据 步骤4:选择合适的拟合模型 步骤5:模型求解 步骤6:模型验证和评价 步骤7:应用模型解决研究问题
简单线性回归
简单线性回归的形式为:
Y = ¯0 +¯1 X +² 其中变量X为预测变量,它是可以观测和控制的;Y 为因变量或响应变量,它为随机变量; ² 为随机误 差。 通常假设² ~N(0,¾ 2),且假设与X无关。
我们希望根据观测值估计出简单回归方程中 的待定系数¯0和¯1,它们使得回归方程对应 的响应变量的误差达到最小,该方法即为最 小二乘法。 也就是求解¯0和¯1,使得
S( 0 , 1 ) ( yi 0 1 xi ) 2
n
达到最小。 ˆ ˆ 0 1 ,则回归方程为 把得到的解记为 ˆ ˆX ˆ Y
回归方程
回归关系一般用下列方程表示
Y=f(X1,X2,,Xp)+² (¤) Y被称作因变量,或者响应变量;而X1,X2,,Xp称 作自变量、控制变量、解释变量或者预测变量;而 f(.)则称为回归函数, ² 为随机误差或随机干扰,它 是一个分布与自变量无关的随机变量,我们常假定 它是均值为0的正态变量。
结果及其解释
“t”列记录了各回归系数t检验的t统计量,而 Sig.列记录了相应的显著性值。这里,只有X1 和X3的显著性值小于0.1,注意到回归方程的 常数项也不显著。然而,大部分情况下不显著 的预测变量都要从回归方程中移除,而回归常 数代表了响应变量的基本水平,不管显著与否, 大部分情况都保留在回归方程中。因此,我们 可以仅仅考虑Y和X1、X3之间的关系而忽略其 他预测变量。
集体项目
回归分析的结果及其解释
拟合优度检验
多元线性回归
实际应用中,很多情况要用到多个预测变量才 能更好地描述变量间的关系,如果这些预测变 量在预测方程中的系数为线性,那么回归方程 称为多元线性回归方程。就方法的实质来说, 处理多个预测变量的方法与处理一个预测变量 的方法基本相同。
多元线性回归的模型
SPSS回归分析
在SPSS中打开数据文件ComputerRepair.sav, 变量Units记录了修复的零部件的个数;变量 Minuts记录了服务所占用的电话时间。 选择【分析】→【回归】→【线性】。把 Units选入到自变量框中;把Minuts选入到因 变量框中。其他选项保留默认值。
SPSS回归分析
ˆ 0 t 0 ˆ) s.e.( 0
回归系数显著性检验
2)回归系数的显著性检验 H0: ¯1 =0 检验统计量为:
ˆ 1 1 t ˆ) s.e.( 1
回归的三个平方和
我们把拟合值和真实值的差值的平方和称为残 差平方和,记为SSE;把由于采用拟合回归直 线后预测值较采用响应变量均值提高的部分的 平方和称为回归平方和,记为SSR;真实值和 响应变量均值的平方和称为总平方和,记为 SST。
检验每个回归系数是否显著 H0:¯i =0, i=0,1,2,, p
这里和一元线性回归的检验一样,检验统计量 为t统计量。 检验所有回归系数都不显著,即 H0:¯0 =¯1==¯p 这里的检验统计量为
SSR/ p MSR F SSE /(n p 1) MSE
F检验的 H 被拒绝,并不能说明所有的自变量 都对因变量Y有显著影响,我们希望从回归方 程中剔除那些统计上不显著的自变量,重新建 立更为简单的线性回归方程,这就需要对每个 回归系数做显著性检验。 即使所有的回归系数单独检验统计上都不显 著,而F检验有可能显著,这时我们不能够说 模型不显著。这时候,尤其需要仔细对数据进 行分析,可能分析的数据有问题,譬如共线性 等。