第八讲多元回归模型【课件】
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
部分参考书目:
阮桂海主编,SPSS实用教程,电子工业出版社,
2000年8月;
卢纹岱等编著,SPSS For Windows从入门到精 通,电子工业出版社,1997年6月; 北京大学人口所编译, SPSS BASE系统用户指南,
1995年。
诊断你的模型:残差分析
❖ 残差分析不仅被用于判断你对模型中误差项所设 的假定是否符合,而且还可以检测出异常值和有 影响的点。
Variable) ❖ 如何定义虚拟变量?
例:x=0 (女性),x=1(男性) ❖ 如何解释回归模型?
E(y)01x
Johnson过滤水股份公司
Johnson公司对遍步南弗罗里达州的水过滤 系统提供维修服务。为了估计服务时间和成本, 公司希望能够对顾客的每一次维修请求预测必要 的维修时间。他们收集的数据中包含就近一次维 修至今的时间(月数)、故障的类型(电子和机 械)以及相应的维修时间(小时)。
❖ 异常值不一定是影响点,反之,影响点的残差也 可以很小,不一定是异常值。
❖ 识别影响点的方法:杠杆率比较大(大于 3(p+1)/n), 或者Cook距离D比较大(>1).
2
75
3
65
4
90
3
90
2
Travel Time (hours) 9.3 4.8 8.9 6.5 4.2 6.2 7.4 6.0 7.6 6.1
利用你的模型进行预测
❖ 使用计算机软件产生回归模型; ❖ 通过检验判断你的模型; ❖ 你可以预测什么?
定性的自变量
❖ 方差分析的解决方案:因子,处理。 ❖ 回归分析的解决方案:引入虚拟变量(Dummy
H 0:i0H 1:i0
❖ 拒绝域
ti
bi sbi
,
其中 sbi是bi的标准误差
t i t /2 ( n p 1 ) 或 t t /2 ( 者 n p 1 )
例子:巴特勒运输公司
Miles
Number
Traveled of Deliveries
100
4
50
3
100
4
100
2
50
2
80
第八讲多元回归模 型课件
2001年11月
光华管理学院 王明进 陈奇志
1
第七讲内容复习
❖ 你认为什么类型的问题可以使用简单线性回归模 型来刻画?
❖ 请你说出一个简单线性回归模型的形式是怎样的? 它包含哪些假定?
❖ 你如何对这一模型里面的参数进行估计和假设检 验?
❖ 你如何理解估计的回归方程?如何利用它进行预 测?
Superbrands’98(1997年10月20日)给出 了10种主要品牌的啤酒的广告费用(百万美元) 和销售数量(百万桶)的统计资料,根据该数据 可以得到销售量对广告投入的回归方程, SALES=4.089 +0.196AD,对应的残差图见下页。你根据该残 差图能够得出什么结论?
Superbrands’98案例残差图
其两个标准差之外的观测。 ❖ 识别之后:
检查是否输入数据错误,如果是,则改正数 据;否则,也应当保留该观测,而不是简单地删 除。
一个具有异常值的散点图
80
70
60
50
40
30
20
10
0
1
2
3
4
5
6
7
X
Y
识别影响点
❖ 影响点(Influential Observation)是指对回归结 果具有很大影响的观测。
你能够建立起一个预测方程吗?
建立维修时间的回归方程
❖ 第一个回归方程
y2.150.30x41 R20.534 (3.55(3) .03)
❖ 第二个回归方程
y ˆ0.930 0.358x17 16 .26x2 2R 720.859 (6.2(04).02)
❖ 解释你得到的回归方程!
SPSS软件的使用
❖ 残差分析的工具是残差图。 ❖ 残差图是由横轴为自变量或者因变量的预测值、
纵轴为残差或者学生化残差组成的散点图。
Reynolds公司的销售人员
Reynolds公司是一家生产工业天平和实 验室设备的企业。公司管理人员想要对公司销 售人员的工作年限和天平的销售数量之间的关 系进行研究。他们随机抽取了15名销售人员, 利用相应的数据资料得到了他们近期的销售数 量对工作年限的简单线性回归方程, SALES=111 +2.38 MONTHS。观察该回归方程的残差图 (见下页),你觉得哪些地方存在问题,如何 进行更改?
y ~ N ( 0 1x1 2 x2 p x p , 2 ) 使用最小二乘方法估计 i , i 0,1, p.
估计的回归方程是 yˆ b0 b1 x1 b2 x2 b p x p
认识R2
❖ 总变差的分解:SST=SSR+SSE; ❖ 判定系数: R2=SSR/SST; ❖ 多重相关系数R; ❖ 调整(修正)的判定系数:
Dependent Vari able: SALES
3
2
1
0
-1
-2 -1.0
-. 5
0.0
.5
1.0
1.5
2.0
Regres s ion Standar diz ed Predic ted utlier)是指残差异常大的观测。 ❖ 识别方法:残差项(或者学生化标准残差)落在
Reynolds公司案例残差图
Dependent Variable: SALES
2.0
1.5
1.0
.5
0.0
- .5
- 1.0
- 1.5
- 2.0
- 1.5
- 1.0
- .5
0.0
.5
1.0
1.5
2.0
Re gre ssio n S ta ndardized P red icted Val ue
衡量广告的效果
AR d 2 j1(1R 2)n n p 1 1
对回归方程的检验
❖ 问题:因变量和所有自变量之间是否存在显著的 关系?
❖ 检验假设
❖ 拒绝域
H 0:12 p0
F M M S S SE R S /S n ( /S p p E 1 R ) F (p ,n p 1 )
对回归系数的检验
❖ 检验假设 ❖ 检验统计量
第七讲内容复习(续)
❖ 判决系数的含义是什么?它和相关系数的关系是 怎样的?
❖ 你如何理解对模型的假定和实际数据之间的关系? ❖ 你会使用EXCEL进行简单回归模型的建立和检验
吗?
第八讲
多元回归模型
2001年11月
更多的自变量
多元回归模型
y 0 1x1 2 x2 p x p 假定误差项 ~ N (0, 2 ), 那么
阮桂海主编,SPSS实用教程,电子工业出版社,
2000年8月;
卢纹岱等编著,SPSS For Windows从入门到精 通,电子工业出版社,1997年6月; 北京大学人口所编译, SPSS BASE系统用户指南,
1995年。
诊断你的模型:残差分析
❖ 残差分析不仅被用于判断你对模型中误差项所设 的假定是否符合,而且还可以检测出异常值和有 影响的点。
Variable) ❖ 如何定义虚拟变量?
例:x=0 (女性),x=1(男性) ❖ 如何解释回归模型?
E(y)01x
Johnson过滤水股份公司
Johnson公司对遍步南弗罗里达州的水过滤 系统提供维修服务。为了估计服务时间和成本, 公司希望能够对顾客的每一次维修请求预测必要 的维修时间。他们收集的数据中包含就近一次维 修至今的时间(月数)、故障的类型(电子和机 械)以及相应的维修时间(小时)。
❖ 异常值不一定是影响点,反之,影响点的残差也 可以很小,不一定是异常值。
❖ 识别影响点的方法:杠杆率比较大(大于 3(p+1)/n), 或者Cook距离D比较大(>1).
2
75
3
65
4
90
3
90
2
Travel Time (hours) 9.3 4.8 8.9 6.5 4.2 6.2 7.4 6.0 7.6 6.1
利用你的模型进行预测
❖ 使用计算机软件产生回归模型; ❖ 通过检验判断你的模型; ❖ 你可以预测什么?
定性的自变量
❖ 方差分析的解决方案:因子,处理。 ❖ 回归分析的解决方案:引入虚拟变量(Dummy
H 0:i0H 1:i0
❖ 拒绝域
ti
bi sbi
,
其中 sbi是bi的标准误差
t i t /2 ( n p 1 ) 或 t t /2 ( 者 n p 1 )
例子:巴特勒运输公司
Miles
Number
Traveled of Deliveries
100
4
50
3
100
4
100
2
50
2
80
第八讲多元回归模 型课件
2001年11月
光华管理学院 王明进 陈奇志
1
第七讲内容复习
❖ 你认为什么类型的问题可以使用简单线性回归模 型来刻画?
❖ 请你说出一个简单线性回归模型的形式是怎样的? 它包含哪些假定?
❖ 你如何对这一模型里面的参数进行估计和假设检 验?
❖ 你如何理解估计的回归方程?如何利用它进行预 测?
Superbrands’98(1997年10月20日)给出 了10种主要品牌的啤酒的广告费用(百万美元) 和销售数量(百万桶)的统计资料,根据该数据 可以得到销售量对广告投入的回归方程, SALES=4.089 +0.196AD,对应的残差图见下页。你根据该残 差图能够得出什么结论?
Superbrands’98案例残差图
其两个标准差之外的观测。 ❖ 识别之后:
检查是否输入数据错误,如果是,则改正数 据;否则,也应当保留该观测,而不是简单地删 除。
一个具有异常值的散点图
80
70
60
50
40
30
20
10
0
1
2
3
4
5
6
7
X
Y
识别影响点
❖ 影响点(Influential Observation)是指对回归结 果具有很大影响的观测。
你能够建立起一个预测方程吗?
建立维修时间的回归方程
❖ 第一个回归方程
y2.150.30x41 R20.534 (3.55(3) .03)
❖ 第二个回归方程
y ˆ0.930 0.358x17 16 .26x2 2R 720.859 (6.2(04).02)
❖ 解释你得到的回归方程!
SPSS软件的使用
❖ 残差分析的工具是残差图。 ❖ 残差图是由横轴为自变量或者因变量的预测值、
纵轴为残差或者学生化残差组成的散点图。
Reynolds公司的销售人员
Reynolds公司是一家生产工业天平和实 验室设备的企业。公司管理人员想要对公司销 售人员的工作年限和天平的销售数量之间的关 系进行研究。他们随机抽取了15名销售人员, 利用相应的数据资料得到了他们近期的销售数 量对工作年限的简单线性回归方程, SALES=111 +2.38 MONTHS。观察该回归方程的残差图 (见下页),你觉得哪些地方存在问题,如何 进行更改?
y ~ N ( 0 1x1 2 x2 p x p , 2 ) 使用最小二乘方法估计 i , i 0,1, p.
估计的回归方程是 yˆ b0 b1 x1 b2 x2 b p x p
认识R2
❖ 总变差的分解:SST=SSR+SSE; ❖ 判定系数: R2=SSR/SST; ❖ 多重相关系数R; ❖ 调整(修正)的判定系数:
Dependent Vari able: SALES
3
2
1
0
-1
-2 -1.0
-. 5
0.0
.5
1.0
1.5
2.0
Regres s ion Standar diz ed Predic ted utlier)是指残差异常大的观测。 ❖ 识别方法:残差项(或者学生化标准残差)落在
Reynolds公司案例残差图
Dependent Variable: SALES
2.0
1.5
1.0
.5
0.0
- .5
- 1.0
- 1.5
- 2.0
- 1.5
- 1.0
- .5
0.0
.5
1.0
1.5
2.0
Re gre ssio n S ta ndardized P red icted Val ue
衡量广告的效果
AR d 2 j1(1R 2)n n p 1 1
对回归方程的检验
❖ 问题:因变量和所有自变量之间是否存在显著的 关系?
❖ 检验假设
❖ 拒绝域
H 0:12 p0
F M M S S SE R S /S n ( /S p p E 1 R ) F (p ,n p 1 )
对回归系数的检验
❖ 检验假设 ❖ 检验统计量
第七讲内容复习(续)
❖ 判决系数的含义是什么?它和相关系数的关系是 怎样的?
❖ 你如何理解对模型的假定和实际数据之间的关系? ❖ 你会使用EXCEL进行简单回归模型的建立和检验
吗?
第八讲
多元回归模型
2001年11月
更多的自变量
多元回归模型
y 0 1x1 2 x2 p x p 假定误差项 ~ N (0, 2 ), 那么