第八讲多元回归模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2001年11月
38
王明进 陈奇志
回顾与总结(2)
处理你得到的数据之前,你要明确: 你要描述一个总体? 你要比较两个总体? 你想比较多个总体? 你想了解两个变量之间的关系? 你想了解多个变量之间的关系?
2001年11月
39
王明进 陈奇志
回顾与总结(3)
你的数据的类型是什么? 如果是一个品质数据你可以描述它的什 么特征?如何去做? 如果是一个数量数据你如何描述它的集 中位置(代表值)?如何描述它的变异 性?
判决系数的含义是什么?它和相关系数 的关系是怎样的? 你如何理解对模型的假定和实际数据之 间的关系? 你会使用EXCEL进行简单回归模型的建 立和检验吗?
2001年11月
3
第八讲
多元回归模型
2001年11月
2001年11月
光华管理学院 王明进 陈奇志
4
王明进 陈奇志
更多的自变量
2001年11月
5
2001年11月
36
王明进 陈奇志
课后寄语
希望你从此会善待数据!希望当 你在未来的某个决策中被不确定的 因素困扰时,会想到统计分析方法 可能是一条帮助你的途径!
2001年11月
37
王明进 陈奇志
回顾与总结(1)
统计学的目的是整理、探索、挖掘数据 中的信息。认识数据是统计学的最基本 任务。 你面临的问题是什么?在你决策过程中 哪些不确定性因素困扰了你?你要验证 一个什么结论? 你需要收集哪些数据?如何收集?
2001年11月
28
王明进 陈奇志
多重共线性问题
在多元线性回归模型中,多重共线性性 (Multicollinearity)是指自变量之间存在 线性相关的关系。 多重共线性存在时会使得系数估计的标 准误差增大,从而使得相应的t统计量减 小和p值增加。
2001年11月
29
王明进 陈奇志
识别多重共线性性
2001年11月
33
王明进 陈奇志
总结:如何建立一个回归模型 ?
1、正确选择自变量和因变量(需要考虑交 互作用吗?是否需要进行必要的变换? 需要虚拟变量吗?);
2、正确使用计算机软件建立回归模型;
3、查看残差图(线性假设成立吗?存在异 方差吗?有异常值或影响点存在吗?) ;
4、判断是否存在多重共线性问题;
王明进 陈奇志
认识R2
总变差的分解:SST=SSR+SSE; 判定系数: R2=SSR/SST; 多重相关系数R; 调整(修正)的判定系数:
2001年11月
6
王明进 陈奇志
对回归方程的检验
问题:因变量和所有自变量之间是否存 在显著的关系? 检验假设
拒绝域
2001年11月
7
王明进 陈奇志
对回归系数的检验
2001年11月
40
王明进 陈奇志
回顾与总结(4)
对于两个品质的总体,如何进行两个总 体的比较? 对于两个数量的总体,如何比较它们的 均值?比较方差? 如何比较多个正态总体的均值?
2001年11月
41
王明进 陈奇志
回顾与总结(5)
你要研究两个变量的关系时,这两个变 量的类型分别是什么? 如果是 两个品质变量你如何去做? 如果是一个品质变量和一个数量变量之 间的关系你怎么去做?
第八讲多元回归模型
王明进 陈奇志
第七讲内容复习
你认为什么类型的问题可以使用简单线 性回归模型来刻画?
请你说出一个简单线性回归模型的形式 是怎样的?它包含哪些假定?
你如何对这一模型里面的参数进行估计 和假设检验?
你如何理解估计的回归方程?如何利用 它进行预测?
2001年11月
2wenku.baidu.com
王明进 陈奇志
第七讲内容复习(续)
2001年11月
25
王明进 陈奇志
你需要了解的问题
Dubuque的价格怎样影响到它的市场份额? Oscar Mayer的价格会影响到Dubuque的市场 份额吗? Ball Park的价格影响到Dubuque的市场份额吗 ? Oscar Mayer和Ball Park谁是Dubuque主要的 竞争对手?

北京大学人口所编译, SPSS BASE系统 用户指南, 1995年。
2001年11月
14
王明进 陈奇志
诊断你的模型:残差分析
残差分析不仅被用于判断你对模型中误 差项所设的假定是否符合,而且还可以 检测出异常值和有影响的点。
残差分析的工具是残差图。
残差图是由横轴为自变量或者因变量的 预测值、纵轴为残差或者学生化残差组 成的散点图。
自变量的相关矩阵; 方差膨胀因子(Variance Inflation Factors, 简记作VIF): 刻画了相比多重共线性不存 在时回归系数估计的方差增大了多少。 VIF越大说明多重共线性问题越严重。 经验法则:VIF >10
2001年11月
30
王明进 陈奇志
需要删除哪些变量?
H0: 3=4=0; H1: 3和4中至少有一个不是零。 检验的思路:对比简化模型和完全模型;
2001年11月
20
王明进 陈奇志
一个具有异常值的散点图
2001年11月
21
王明进 陈奇志
识别影响点
影响点(Influential Observation)是指对 回归结果具有很大影响的观测。
异常值不一定是影响点,反之,影响点 的残差也可以很小,不一定是异常值。
识别影响点的方法:杠杆率比较大(大于 3(p+1)/n),或者Cook距离D比较大(>1).
HOT DOG!
Dubuque是一家热狗生产厂家,他们最近 收到信息说,Ball Park,一家与他们竞争的品 牌,将会降低他们热狗的价格。公司内部围绕 这是否会给他们现在的市场份额带来负面影响 展开了争论,有人认为应该采取相应的措施来 保护已有的市场份额,也有人说Oscar Mayer 才是他们的主要竞争对手,可以不必采取任何 措施。你觉得应该如何处理这一问题?
例:x=0 (女性),x=1(男性) 如何解释回归模型?
2001年11月
11
王明进 陈奇志
Johnson过滤水股份公司
Johnson公司对遍步南弗罗里达州的 水过滤系统提供维修服务。为了估计服 务时间和成本,公司希望能够对顾客的 每一次维修请求预测必要的维修时间。 他们收集的数据中包含就近一次维修至 今的时间(月数)、故障的类型(电子 和机械)以及相应的维修时间(小时) 。
2001年11月
18
王明进 陈奇志
Superbrands’98案例残差图
2001年11月
19
王明进 陈奇志
识别异常值
异常值(Outlier)是指残差异常大的观测 。
识别方法:残差项(或者学生化标准残 差)落在其两个标准差之外的观测。
识别之后:
检查是否输入数据错误,如果是,
则改正数据;否则,也应当保留该观测 ,而不是简单地删除。
2001年11月
34
王明进 陈奇志
总结:如何建立一个回归模型 ?
5、小心地处理系数的p值比较大的变量,区别那 些VIF比较大和VIF比较小的情况。切记:你 不应该马上把那些p值较大的自变量都消除!
6、你可以尝试使用软件提供的变量选择过程建 立模型。(但是你要明白选择出什么样的模型 仍然是由你来控制的。)
识别之后:建议应该同时报告包含影响 点和除去影响点的两种回归结果。
2001年11月
22
王明进 陈奇志
一个具有影响点的散点图
2001年11月
23
王明进 陈奇志
其它的内容
使用残差检验误差项的正态性;
使用残差来分析误差项的独立性: Durbin-Watson统计量d。
2001年11月
24
王明进 陈奇志
2001年11月
26
王明进 陈奇志
数据说明
Mktdub
Pdub
Poscar
Pbpreg ;
Pbpbeef
格。
Dubuque热狗的市场份额; Dubuque热狗的市场价格; Oscar热狗的市场价格; Ball Park常规热狗的市场价格
Ball Park全牛肉热狗的市场价
2001年11月
27
王明进 陈奇志
你对这样的模型满意吗?
Mktdub=0.04030263-0.0007598Pdub
(2.8538) (-9.3896)
+0.00026223Poscar+0.00034727Pbreg
(3.1117)
(1.0472)
+0.0002929376Pbpbeef
(0.3489)
R2=52.63%, Adj-R2=50.88%
2001年11月
42
2001年11月
31
王明进 陈奇志
谁是Dubuque最大的竞争对手?
Mktdub=0+1Pdub+2Poscar+3Pbpreg +
理解2 和3 的含义; 如何检验假设
你的结论是什么?
2001年11月
32
王明进 陈奇志
模型的选择
逐步回归 (Stepwise)过程; 向前选择 (Forward)过程; 向后选择(Backward)过程; 最佳子集的选择。
7、无论如何再回到第3步都是有益的!
2001年11月
35
王明进 陈奇志
总结:分析你得到的模型
1、你必须回到你具体问题的情景中去! 1、如何对你的模型和系数进行解释? 2、使用你的模型进行预测。此时,你要注
意很多问题! 3、把具体的问题化成模型中的假设?尝试
着去找到检验的方法。 4、体会使用模型辅助你进行决策!
2001年11月
15
王明进 陈奇志
Reynolds公司的销售人员
Reynolds公司是一家生产工业天平和实验 室设备的企业。公司管理人员想要对公司销售 人员的工作年限和天平的销售数量之间的关系 进行研究。他们随机抽取了15名销售人员,利 用相应的数据资料得到了他们近期的销售数量 对工作年限的简单线性回归方程,SALES=111
检验假设 检验统计量
拒绝域
2001年11月
8
王明进 陈奇志
例子:巴特勒运输公司
2001年11月
9
王明进 陈奇志
利用你的模型进行预测
使用计算机软件产生回归模型; 通过检验判断你的模型; 你可以预测什么?
2001年11月
10
王明进 陈奇志
定性的自变量
方差分析的解决方案:因子,处理。 回归分析的解决方案:引入虚拟变量( Dummy Variable) 如何定义虚拟变量?
+2.38 MONTHS。观察该回归方程的残差图 (见下页),你觉得哪些地方存在问题,如何 进行更改?
2001年11月
16
王明进 陈奇志
Reynolds公司案例残差图
2001年11月
17
王明进 陈奇志
衡量广告的效果
Superbrands’98(1997年10月20日) 给出了10种主要品牌的啤酒的广告费用 (百万美元)和销售数量(百万桶)的 统计资料,根据该数据可以得到销售量 对广告投入的回归方程,SALES=4.089 +0.196AD,对应的残差图见下页。你 根据该残差图能够得出什么结论?
你能够建立起一个预测方程吗?
2001年11月
12
王明进 陈奇志
建立维修时间的回归方程
第一个回归方程
第二个回归方程
解释你得到的回归方程!
2001年11月
13
王明进 陈奇志
SPSS软件的使用
部分参考书目:
阮桂海主编,SPSS实用教程,电子工业
出版社,2000年8月;
卢纹岱等编著,SPSS For Windows从入 门到精通,电子工业出版社,1997年6月
相关文档
最新文档