用SPSS做回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从而用以进行预测或控制,达到指导生产活动的目的。
例1、某医学研究所对30个不同年龄的人的血压(高 压)进行了测量,得到如下数据:
年龄 血压 年龄 血压 39 47 45 47 65 45 67 42 67 56 36 50 39 21 44 144 120 138 145 162 142 170 124 158 154 136 142 120 120 116 64 56 59 34 42 48 45 17 20 19 53 63 29 25 69
结合SPSS的曲线模型选择:
操作步骤:Analyze→Regression →Curve Estimation…
鼠标在选项上点击右键可看到相应模型类型
例.
测量13个样品中某种金属含量Y与该样品采集点距 中心观测点的距离X,有如下观测值:
2 3 4 5 7 8 10 106.4 108.2 109.5 109.5 110.0 109.9 110.4 2 0 8 0 0 3 9 xi 11 14 15 16 18 19 yi Y关于 110.5 106.6 110.9 110.7 111.0 111.2 求 X的关系式。 9 2 0 6 0 0
例. 《概率论与数理统计》P280 例9.3.1
在汽油中加入两种化学添加剂,观察它们对汽车消 耗1公升汽油所行里程的影响,共进行9次试验,得到 里程Y与两种添加剂用量X1、X2之间数据如下: xi1 0 1 0 1 2 0 2 3 1 xi2 0 0 1 1 0 2 2 1 3 yi 15.8 16.0 15.9 16.2 16.5 16.3 16.8 17.4 17.2 试求里程Y关于X1、X2的经验线性回归方程,并求 误差方差σ2的无偏估计值。
xi yi
y 106.3094 1.7172ln x
112
首先绘出散点图:
步骤: Graphs →Scatter… →Simple
111
110
109
108
¿ ¬ Á ʺ ð ô ½
0 10 20
107 106
ຫໍສະໝຸດ Baidu
à À ¾ ë
根据散点图的形态可以认为变量X与Y之间具 有对数曲线类型的回归方程:
X4 27. 38. 20. 99. 43. 33. 46. 78. 52. 22. 39. 28. 46. 59. 70. 52. 38. 32.
1.初步分析(作图观察)
1) 按Graphs→Scatter →Simple顺序展开对话框 2) 将y选入Y Axis,然后将其余变量逐个选入X Axis , 绘出散点图,观察是否适宜用线性方程来拟合。
结果:
y 15.6468 0.4139 x1 0.3139 x2 2 0.0387 F 30.6202 F0.01 (2, 6) 10.92 R 0.9543
检验说明线性关系显著
三、非线性回归
在实际问题中,常会遇到变量之间关系不是线性的 相关关系,而是某种曲线的非线性相关关系。此时首 先要确定回归函数的类型,其原则是: 1. 根据问题的专业知识或经验确定 2. 根据观测数据的散点图确定 常选曲线类型: 双曲线、幂函数曲线、对数曲线、指数曲线、 倒数指数曲线、S形曲线
二、多元线性回归
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 n 0 1 1 2 2 m m
1. 参数估计方法——最小二乘法
2. 回归方程显著性的检验——就是检验以下假设是 否成立(采用方差分析法):
H0 : b0 b1 b2 bm 0
结果说明——回归系数分析:
1. Model 为回归方程模型编号 2. Unstandardized Coefficients 为非标准化系数,B为系数值, Std.Error为系数的标准差 3. Standardized Coefficients 为标准化系数 4. t 为t检验,是偏回归系数为0(和常数项为0)的假设检验 5. Sig. 为偏回归系数为0 (和常数项为0)的假设检验的显著性 水平值 6. B 为Beta系数,Std.Error 为相应的标准差
为了求得经验公式, 可通过如下步骤进 行:
当自变量和 因变量选好 后,点击 OK 键
结果说明——常用统计量:
P (1 R 2 ) R R N P 1 ( P为 自 变 量 个 数 , N为 样 本 数 )
2 a 2
1. Model为回归方程模型编号(不同方法对应不同模型) 2. R为回归方程的复相关系数 3. R Square即R2系数,用以判断自变量对因变量的影响有 多大,但这并不意味着越大越好——自变量增多时,R2 系数会增大,但模型的拟合度未必更好 4. Adjusted R Square即修正R2,为了尽可能确切地反映模 型的拟合度,用该参数修正R2系数偏差,它未必随变量 个数的增加而增加 5. Std. Error of the Estimate是估计的标准误差
•逐步筛选法(STEPWISE) (最常用) •向前引入法(FORWARD) •向后剔除法(BACKWARD)等
逐步回归的基本思想和步骤:
开始 对不在方程中的变 量考虑能否引入? 能 否 筛选结束
引入变量
否 对已在方程中的变 量考虑能否剔除? 能 剔除变量
例2、大春粮食产量的预报模型
某地区大春 粮食产量 y 和大春粮食 播种面积x1、 化肥用量x2、 肥猪发展头 数x3、水稻 抽穗扬花期 降雨量x4的 数据如下表, 寻求大春粮 食产量的预 报模型。
162 150 140 110 128 130 135 114 116 124 158 144 130 125 175
以年龄为自变量x, 血压为因变量y,可 作出如下散点图:
为了判断经验公式是否可用线性函数来拟合,可以 画出散点图观察。其方法如下:
改变显示格式
双击
改变坐标轴的显示
从散点图可以 看出年龄与血 压有线性关系:
对于多元线性回归主要需研究如下几个问题:
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 m 0 1 1 2 2 m m
1) 建立因变量Y与x1、x2、…、xm的经验公式(回 归方程) 2) 对经验公式的可信度进行检验 3) 判断每个自变量xi(i=1, … , m)对Y的影响是否显 著? 4) 利用经验公式进行预报、控制及指导生产 5) 诊断经验公式是否适合这组数据
3. 结果分析
被引入与被剔除的变量
回归方程模型编号 引入回归方程的自变量名称 从回归方程被剔除的自变量名称 回归方程中引入或剔除自变量的依据
常用统计量
由复相关系数R=0.982说明该预报 模型高度显著,可用于该地区大春 粮食产量的短期预报
方差分析表
回归系数分析
回归方程为:y 205.059 1.100x2 5.626x3 1.359x4 按常识理解,粮食产量和播种面积关系密切,但预报 模型中,变量x1未引入,这是因为: 多年来该地区的大春粮食播种面积变化甚微,近 于常数,因而对产量的影响不大而失去其重要性。
结果:
y 0.0472 0.3389 x 2 0.0019
F 117.1282 F0.01 (1, 8) 11.26 R 0.9675 R0.01 (8) 0.765
检验说明线性关系显著
操作步骤:Analyze→Regression →Linear… →Statistics→Model fit Descriptives
2. 回归模型的建立
1) 按Statistics→Regression →Linear顺序展开对话框 2) 将y作为因变量选入Dependent框中,然后将其余变 量选入作为自变量选入Independent(s)框中
3. Method框中选择 Stepwise(逐步回归) 作为分析方式 4. 单击Statistics按钮, 进行需要的选择, 单击Continue返回 5. 单击OK按钮执行
Y 309.0 400.0 454.0 520.0 516.0 459.0 531.0 558.0 607.0 541.0 597.0 558.0 619.0 618.0 742.0 805.0 859.0 855.0 X1 137.0 148.0 154.0 157.0 153.0 151.0 151.0 154.0 155.0 155.0 156.0 155.0 157.0 156.0 159.0 164.0 164.0 156.0 X2 4.0 6.0 10.0 18.0 13.0 10.0 15.0 16.0 27.0 36.0 46.0 47.0 48.0 60.0 96.0 191.0 186.0 195.0 X3 15.0 26.0 33.0 38.0 41.0 39.0 37.0 38.0 44.0 51.0 53.0 51.0 51.0 52.0 52.0 57.0 68.0 74.0
y a b ln x
操作步骤:Analyze→Regression →Curve Estimation… 通过点击右键观看选择适当的 类型:Logarithmic 结果如右:
由图易知,结果 方程与书上结果 有差距 y 106.707 1.3834ln x
通过对图形仔细分析,可以发现X=14时, Y=106.62导致图形剧烈变化!
ˆ y ˆ y y y y y
2 2 i i i i i 1 i 1 i 1 n
方差分析的主要思想是把 yi 的总方差进行分解:
n n 2 def
ESS MSS
误差平方和
模型平方和
如果自变量对Y的影响显著,则总方差主要应由xi 引起,也就是原假设不成立,从而检验统计量为: MSS k MMS(模型均方 ) F ESS ( m k 1) EMS(均方误差 ) 多元线性回归的方差分析表: 方差来 源 自变量 随机误 差 和 自由度 m n-m-1 n-1 平方和 MSS ESS TSS 均方 MMS EMS F MMS —— EMS p值 p
多元线性回归
一、简介 在现实生活中,客观事物常受多种因素影响,我 们记录下相应数据并加以分析,目的是为了找出对我 们所关心的指标(因变量)Y有影响的因素(也称自变 量或回归变量)x1、x2、…、xm,并建立用x1、x2、…、 xm预报Y的经验公式:
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 m 0 1 1 2 2 m m
逐步回归——变量选择问题
在实际问题中,影响因变量Y的因素(自变量)可 能很多。在回归方程中,如果漏掉了重要因素,则会 产生大的偏差;但如果回归式中包含的因素太多,则 不仅使用不便,且可能影响预测精度。如何选择适当 的变量,建立最优的回归方程呢? 在最优的方程中,所有变量对因变量Y的影响都应 该是显著的,而所有对Y影响不显著的变量都不包含 在方程中。选择方法主要有:
例. 《概率论与数理统计》P267 例9.2.1
第一导丝盘速度Y是合成纤维抽丝的重要因素,它 与电流的周波X有密切关系,由生产记录得: 周波X 49. 50. 49. 49. 49. 49. 49. 49. 50. 50. 2 0 3 0 0 5 8 9 2 2 速度Y 16. 17. 16. 16. 16. 16. 16. 17. 17. 17. 2 试求Y 的经验回归直线方程,并求误差方差 7 对X 0 8 6 7 8 9 0 0 σ1 的 无偏估计值。 检验X与Y之间是否存在显著的线性关系(取 α=0.01)?
结果说明——方差分析:
1. Sum of Squares为回归平方和(Regression)、残差平方和 (Residual)、总平方和(Total) 2. df 为自由度 3. Mean Square 4. F 5. Sig 为大于F的概率,其值为0.000,拒绝回归系数为0的原假 设:b0=b1=0——即认为回归方程显著性成立
例1、某医学研究所对30个不同年龄的人的血压(高 压)进行了测量,得到如下数据:
年龄 血压 年龄 血压 39 47 45 47 65 45 67 42 67 56 36 50 39 21 44 144 120 138 145 162 142 170 124 158 154 136 142 120 120 116 64 56 59 34 42 48 45 17 20 19 53 63 29 25 69
结合SPSS的曲线模型选择:
操作步骤:Analyze→Regression →Curve Estimation…
鼠标在选项上点击右键可看到相应模型类型
例.
测量13个样品中某种金属含量Y与该样品采集点距 中心观测点的距离X,有如下观测值:
2 3 4 5 7 8 10 106.4 108.2 109.5 109.5 110.0 109.9 110.4 2 0 8 0 0 3 9 xi 11 14 15 16 18 19 yi Y关于 110.5 106.6 110.9 110.7 111.0 111.2 求 X的关系式。 9 2 0 6 0 0
例. 《概率论与数理统计》P280 例9.3.1
在汽油中加入两种化学添加剂,观察它们对汽车消 耗1公升汽油所行里程的影响,共进行9次试验,得到 里程Y与两种添加剂用量X1、X2之间数据如下: xi1 0 1 0 1 2 0 2 3 1 xi2 0 0 1 1 0 2 2 1 3 yi 15.8 16.0 15.9 16.2 16.5 16.3 16.8 17.4 17.2 试求里程Y关于X1、X2的经验线性回归方程,并求 误差方差σ2的无偏估计值。
xi yi
y 106.3094 1.7172ln x
112
首先绘出散点图:
步骤: Graphs →Scatter… →Simple
111
110
109
108
¿ ¬ Á ʺ ð ô ½
0 10 20
107 106
ຫໍສະໝຸດ Baidu
à À ¾ ë
根据散点图的形态可以认为变量X与Y之间具 有对数曲线类型的回归方程:
X4 27. 38. 20. 99. 43. 33. 46. 78. 52. 22. 39. 28. 46. 59. 70. 52. 38. 32.
1.初步分析(作图观察)
1) 按Graphs→Scatter →Simple顺序展开对话框 2) 将y选入Y Axis,然后将其余变量逐个选入X Axis , 绘出散点图,观察是否适宜用线性方程来拟合。
结果:
y 15.6468 0.4139 x1 0.3139 x2 2 0.0387 F 30.6202 F0.01 (2, 6) 10.92 R 0.9543
检验说明线性关系显著
三、非线性回归
在实际问题中,常会遇到变量之间关系不是线性的 相关关系,而是某种曲线的非线性相关关系。此时首 先要确定回归函数的类型,其原则是: 1. 根据问题的专业知识或经验确定 2. 根据观测数据的散点图确定 常选曲线类型: 双曲线、幂函数曲线、对数曲线、指数曲线、 倒数指数曲线、S形曲线
二、多元线性回归
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 n 0 1 1 2 2 m m
1. 参数估计方法——最小二乘法
2. 回归方程显著性的检验——就是检验以下假设是 否成立(采用方差分析法):
H0 : b0 b1 b2 bm 0
结果说明——回归系数分析:
1. Model 为回归方程模型编号 2. Unstandardized Coefficients 为非标准化系数,B为系数值, Std.Error为系数的标准差 3. Standardized Coefficients 为标准化系数 4. t 为t检验,是偏回归系数为0(和常数项为0)的假设检验 5. Sig. 为偏回归系数为0 (和常数项为0)的假设检验的显著性 水平值 6. B 为Beta系数,Std.Error 为相应的标准差
为了求得经验公式, 可通过如下步骤进 行:
当自变量和 因变量选好 后,点击 OK 键
结果说明——常用统计量:
P (1 R 2 ) R R N P 1 ( P为 自 变 量 个 数 , N为 样 本 数 )
2 a 2
1. Model为回归方程模型编号(不同方法对应不同模型) 2. R为回归方程的复相关系数 3. R Square即R2系数,用以判断自变量对因变量的影响有 多大,但这并不意味着越大越好——自变量增多时,R2 系数会增大,但模型的拟合度未必更好 4. Adjusted R Square即修正R2,为了尽可能确切地反映模 型的拟合度,用该参数修正R2系数偏差,它未必随变量 个数的增加而增加 5. Std. Error of the Estimate是估计的标准误差
•逐步筛选法(STEPWISE) (最常用) •向前引入法(FORWARD) •向后剔除法(BACKWARD)等
逐步回归的基本思想和步骤:
开始 对不在方程中的变 量考虑能否引入? 能 否 筛选结束
引入变量
否 对已在方程中的变 量考虑能否剔除? 能 剔除变量
例2、大春粮食产量的预报模型
某地区大春 粮食产量 y 和大春粮食 播种面积x1、 化肥用量x2、 肥猪发展头 数x3、水稻 抽穗扬花期 降雨量x4的 数据如下表, 寻求大春粮 食产量的预 报模型。
162 150 140 110 128 130 135 114 116 124 158 144 130 125 175
以年龄为自变量x, 血压为因变量y,可 作出如下散点图:
为了判断经验公式是否可用线性函数来拟合,可以 画出散点图观察。其方法如下:
改变显示格式
双击
改变坐标轴的显示
从散点图可以 看出年龄与血 压有线性关系:
对于多元线性回归主要需研究如下几个问题:
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 m 0 1 1 2 2 m m
1) 建立因变量Y与x1、x2、…、xm的经验公式(回 归方程) 2) 对经验公式的可信度进行检验 3) 判断每个自变量xi(i=1, … , m)对Y的影响是否显 著? 4) 利用经验公式进行预报、控制及指导生产 5) 诊断经验公式是否适合这组数据
3. 结果分析
被引入与被剔除的变量
回归方程模型编号 引入回归方程的自变量名称 从回归方程被剔除的自变量名称 回归方程中引入或剔除自变量的依据
常用统计量
由复相关系数R=0.982说明该预报 模型高度显著,可用于该地区大春 粮食产量的短期预报
方差分析表
回归系数分析
回归方程为:y 205.059 1.100x2 5.626x3 1.359x4 按常识理解,粮食产量和播种面积关系密切,但预报 模型中,变量x1未引入,这是因为: 多年来该地区的大春粮食播种面积变化甚微,近 于常数,因而对产量的影响不大而失去其重要性。
结果:
y 0.0472 0.3389 x 2 0.0019
F 117.1282 F0.01 (1, 8) 11.26 R 0.9675 R0.01 (8) 0.765
检验说明线性关系显著
操作步骤:Analyze→Regression →Linear… →Statistics→Model fit Descriptives
2. 回归模型的建立
1) 按Statistics→Regression →Linear顺序展开对话框 2) 将y作为因变量选入Dependent框中,然后将其余变 量选入作为自变量选入Independent(s)框中
3. Method框中选择 Stepwise(逐步回归) 作为分析方式 4. 单击Statistics按钮, 进行需要的选择, 单击Continue返回 5. 单击OK按钮执行
Y 309.0 400.0 454.0 520.0 516.0 459.0 531.0 558.0 607.0 541.0 597.0 558.0 619.0 618.0 742.0 805.0 859.0 855.0 X1 137.0 148.0 154.0 157.0 153.0 151.0 151.0 154.0 155.0 155.0 156.0 155.0 157.0 156.0 159.0 164.0 164.0 156.0 X2 4.0 6.0 10.0 18.0 13.0 10.0 15.0 16.0 27.0 36.0 46.0 47.0 48.0 60.0 96.0 191.0 186.0 195.0 X3 15.0 26.0 33.0 38.0 41.0 39.0 37.0 38.0 44.0 51.0 53.0 51.0 51.0 52.0 52.0 57.0 68.0 74.0
y a b ln x
操作步骤:Analyze→Regression →Curve Estimation… 通过点击右键观看选择适当的 类型:Logarithmic 结果如右:
由图易知,结果 方程与书上结果 有差距 y 106.707 1.3834ln x
通过对图形仔细分析,可以发现X=14时, Y=106.62导致图形剧烈变化!
ˆ y ˆ y y y y y
2 2 i i i i i 1 i 1 i 1 n
方差分析的主要思想是把 yi 的总方差进行分解:
n n 2 def
ESS MSS
误差平方和
模型平方和
如果自变量对Y的影响显著,则总方差主要应由xi 引起,也就是原假设不成立,从而检验统计量为: MSS k MMS(模型均方 ) F ESS ( m k 1) EMS(均方误差 ) 多元线性回归的方差分析表: 方差来 源 自变量 随机误 差 和 自由度 m n-m-1 n-1 平方和 MSS ESS TSS 均方 MMS EMS F MMS —— EMS p值 p
多元线性回归
一、简介 在现实生活中,客观事物常受多种因素影响,我 们记录下相应数据并加以分析,目的是为了找出对我 们所关心的指标(因变量)Y有影响的因素(也称自变 量或回归变量)x1、x2、…、xm,并建立用x1、x2、…、 xm预报Y的经验公式:
ˆ f ( x , x ,, x ) b b x b x b x Y 1 2 m 0 1 1 2 2 m m
逐步回归——变量选择问题
在实际问题中,影响因变量Y的因素(自变量)可 能很多。在回归方程中,如果漏掉了重要因素,则会 产生大的偏差;但如果回归式中包含的因素太多,则 不仅使用不便,且可能影响预测精度。如何选择适当 的变量,建立最优的回归方程呢? 在最优的方程中,所有变量对因变量Y的影响都应 该是显著的,而所有对Y影响不显著的变量都不包含 在方程中。选择方法主要有:
例. 《概率论与数理统计》P267 例9.2.1
第一导丝盘速度Y是合成纤维抽丝的重要因素,它 与电流的周波X有密切关系,由生产记录得: 周波X 49. 50. 49. 49. 49. 49. 49. 49. 50. 50. 2 0 3 0 0 5 8 9 2 2 速度Y 16. 17. 16. 16. 16. 16. 16. 17. 17. 17. 2 试求Y 的经验回归直线方程,并求误差方差 7 对X 0 8 6 7 8 9 0 0 σ1 的 无偏估计值。 检验X与Y之间是否存在显著的线性关系(取 α=0.01)?
结果说明——方差分析:
1. Sum of Squares为回归平方和(Regression)、残差平方和 (Residual)、总平方和(Total) 2. df 为自由度 3. Mean Square 4. F 5. Sig 为大于F的概率,其值为0.000,拒绝回归系数为0的原假 设:b0=b1=0——即认为回归方程显著性成立