现代统计分析方法与应用课件 第七章 自变量选择与逐步回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录 上页 下页 返回 结束
5
§7.1 自变量选择对估计和预测的影响
自变量的选择我们可以看成是对一个实际问题是用(7.1) 式全模型还是用(7.2)式选模型去描述。如果应该用(7.1) 式全模型去描述实际问题,而我们误选了(7.2)式选模型, 这就说明我们在建模时丢掉了一些有用的变量;如果应该 选用(7.2)式选模型,而我们误选了模型(7.1)式,这就 说明我们把一些不必要的自变量引进了模型。 模型选择不当会给参数估计和预测带来什么影响?下面我们 将分别给予讨论。
§7.2 所有子集回归
在第五章,曾从数据与模型拟合优劣的直观考虑出发,认为 残差平方和SSE最小的回归方程就是最好的。还曾用复相关 系数R来衡量回归拟合的好坏。 但是当自变量子集在扩大时,残差平方和随之减少,而复判 定系数随之增大 。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
11
§7.1 自变量选择对估计和预测的影响
(二) 选模型正确而误用全模型的情况
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
12
§7.1 自变量选择对估计和预测的影响
一个好的回归模型,并不是考虑的自变量越多越好。在建 立回归模型时,选择自变量的基本指导思想是“少而精”。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
10
§7.1 自变量选择对估计和预测的影响
性质3和性质4表明,用选模型去作预测,残差的方 差比用全模型去作预测的方差小,尽管用选模型所 作的预测是有偏的,但得到的预测偏差的方差下降 了。这说明尽管全模型正确,误用选模型是有弊也 有利的。 性质5说明即使全模型正确,但如果其中有一些自 变量对因变量影响很小或回归系数方差过大,我们 丢掉这些变量之后,用选模型去预测,可以提高预 测的精度。由此可见,如果模型中包含了一些不必 要的自变量,模型的预测精度就会下降。
第 7章
• §7.1 自变量选择对估计和预测的影响 • §7.2 所有子集回归 • §7.3 逐步回归 • §7.4 实例与评注
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
1
第 7章
• 在建立一个实际问题的回归模型时,首先碰到的问题便是 如何确定回归自变量,一般情况,大都是根据所研究问题 的目的,结合实际问题理论罗列出对因变量可能有影响的 一些因素作为自变量。 • 如果遗漏了某些重要的变量,回归方程的效果肯定不会好; • 如果担心遗漏了重要的变量,而考虑过多的自变量,在这 些变量中,某些自变量对问题的研究可能并不重要,有些 自变量数据的质量可能很差,有些变量可能和其他变量有 很大程度的重叠。如果回归模型把这样一些变量都选进来, 不仅计算量增大好多,而且得到的回归方程稳定性也很差, 直接影响到回归方程的应用。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
2
第7章 自变量选择与逐步回归
从20世纪60年代开始,关于回归自变量的选 择成为统计学中研究的热点问题。统计学家 们提出了许多回归选元的准则,并提出了许 多行之有效的选元方法。本章从回归选元对 回归参数估计和预测的影响开始,介绍自变 量选择常用的几个准则;扼要介绍所有子集 回归选元的几个方法;详细讨论逐步回归方
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
6
§7.1 自变量选择对估计和预测的影响
二、自变量选择对预测的影响
关于自变量选择对预测的影响可以分成两种情况考虑, 第一种情况是全模型(7.1)式正确而误用了选模型 (7.2)式;第二种情况是选模型(7.2)式正确而误用 了全模型(7.1)式。以下分别考虑这两种情况对回归 的影响。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
7
§7.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况
2019/1/30
中国人民大学六西格玛质量管理研究中心
Βιβλιοθήκη Baidu目录 上页 下页 返回 结束
8
§7.1 自变量选择对估计和预测的影响
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
9
§7.1 自变量选择对估计和预测的影响
性质1和性质2表明,当全模型(9.1)式正确时,而我们舍 去了m - p个自变量,用剩下的p个自变量去建立选模型 (9.2)式,参数估计值是全模型相应参数的有偏估计,用 其作预测,预测值也是有偏的。这是误用选模型产生的弊 端。
然而,尽管估计量是有偏的,但预测偏差的方差会下降。另 外,如果保留下来的自变量有些对因变量无关紧要,那么, 方程中包括这些变量会导致参数估计和预测的有偏性和精度 降低。
自变量的选择有重要的实际意义。在建立实际问题的回归模 型时,我们应尽可能剔除那些可有可无的自变量。
2019/1/30 14
目录 上页 下页 返回 结束
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
13
§7.1 自变量选择对估计和预测的影响
哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选 模型估计的保留变量的回归系数的方差,要比由全模型所估 计的相应变量的回归系数的方差小。而且,对于所预测的因 变量的方差来说也是如此。丢掉了一些对因变量y有影响的 自变量后,所付出的代价是估计量产生了有偏性。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
3
§7.1 自变量选择对估计和预测的影响
一、全模型和选模型
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
4
§7.1 自变量选择对估计和预测的影响
2019/1/30
中国人民大学六西格玛质量管理研究中心
中国人民大学六西格玛质量管理研究中心
§7.2 所有子集回归
一、所有子集的数目
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
15
§7.2 所有子集回归
二、关于自变量选择的几个准则
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
16
5
§7.1 自变量选择对估计和预测的影响
自变量的选择我们可以看成是对一个实际问题是用(7.1) 式全模型还是用(7.2)式选模型去描述。如果应该用(7.1) 式全模型去描述实际问题,而我们误选了(7.2)式选模型, 这就说明我们在建模时丢掉了一些有用的变量;如果应该 选用(7.2)式选模型,而我们误选了模型(7.1)式,这就 说明我们把一些不必要的自变量引进了模型。 模型选择不当会给参数估计和预测带来什么影响?下面我们 将分别给予讨论。
§7.2 所有子集回归
在第五章,曾从数据与模型拟合优劣的直观考虑出发,认为 残差平方和SSE最小的回归方程就是最好的。还曾用复相关 系数R来衡量回归拟合的好坏。 但是当自变量子集在扩大时,残差平方和随之减少,而复判 定系数随之增大 。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
11
§7.1 自变量选择对估计和预测的影响
(二) 选模型正确而误用全模型的情况
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
12
§7.1 自变量选择对估计和预测的影响
一个好的回归模型,并不是考虑的自变量越多越好。在建 立回归模型时,选择自变量的基本指导思想是“少而精”。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
10
§7.1 自变量选择对估计和预测的影响
性质3和性质4表明,用选模型去作预测,残差的方 差比用全模型去作预测的方差小,尽管用选模型所 作的预测是有偏的,但得到的预测偏差的方差下降 了。这说明尽管全模型正确,误用选模型是有弊也 有利的。 性质5说明即使全模型正确,但如果其中有一些自 变量对因变量影响很小或回归系数方差过大,我们 丢掉这些变量之后,用选模型去预测,可以提高预 测的精度。由此可见,如果模型中包含了一些不必 要的自变量,模型的预测精度就会下降。
第 7章
• §7.1 自变量选择对估计和预测的影响 • §7.2 所有子集回归 • §7.3 逐步回归 • §7.4 实例与评注
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
1
第 7章
• 在建立一个实际问题的回归模型时,首先碰到的问题便是 如何确定回归自变量,一般情况,大都是根据所研究问题 的目的,结合实际问题理论罗列出对因变量可能有影响的 一些因素作为自变量。 • 如果遗漏了某些重要的变量,回归方程的效果肯定不会好; • 如果担心遗漏了重要的变量,而考虑过多的自变量,在这 些变量中,某些自变量对问题的研究可能并不重要,有些 自变量数据的质量可能很差,有些变量可能和其他变量有 很大程度的重叠。如果回归模型把这样一些变量都选进来, 不仅计算量增大好多,而且得到的回归方程稳定性也很差, 直接影响到回归方程的应用。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
2
第7章 自变量选择与逐步回归
从20世纪60年代开始,关于回归自变量的选 择成为统计学中研究的热点问题。统计学家 们提出了许多回归选元的准则,并提出了许 多行之有效的选元方法。本章从回归选元对 回归参数估计和预测的影响开始,介绍自变 量选择常用的几个准则;扼要介绍所有子集 回归选元的几个方法;详细讨论逐步回归方
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
6
§7.1 自变量选择对估计和预测的影响
二、自变量选择对预测的影响
关于自变量选择对预测的影响可以分成两种情况考虑, 第一种情况是全模型(7.1)式正确而误用了选模型 (7.2)式;第二种情况是选模型(7.2)式正确而误用 了全模型(7.1)式。以下分别考虑这两种情况对回归 的影响。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
7
§7.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况
2019/1/30
中国人民大学六西格玛质量管理研究中心
Βιβλιοθήκη Baidu目录 上页 下页 返回 结束
8
§7.1 自变量选择对估计和预测的影响
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
9
§7.1 自变量选择对估计和预测的影响
性质1和性质2表明,当全模型(9.1)式正确时,而我们舍 去了m - p个自变量,用剩下的p个自变量去建立选模型 (9.2)式,参数估计值是全模型相应参数的有偏估计,用 其作预测,预测值也是有偏的。这是误用选模型产生的弊 端。
然而,尽管估计量是有偏的,但预测偏差的方差会下降。另 外,如果保留下来的自变量有些对因变量无关紧要,那么, 方程中包括这些变量会导致参数估计和预测的有偏性和精度 降低。
自变量的选择有重要的实际意义。在建立实际问题的回归模 型时,我们应尽可能剔除那些可有可无的自变量。
2019/1/30 14
目录 上页 下页 返回 结束
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
13
§7.1 自变量选择对估计和预测的影响
哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选 模型估计的保留变量的回归系数的方差,要比由全模型所估 计的相应变量的回归系数的方差小。而且,对于所预测的因 变量的方差来说也是如此。丢掉了一些对因变量y有影响的 自变量后,所付出的代价是估计量产生了有偏性。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
3
§7.1 自变量选择对估计和预测的影响
一、全模型和选模型
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
4
§7.1 自变量选择对估计和预测的影响
2019/1/30
中国人民大学六西格玛质量管理研究中心
中国人民大学六西格玛质量管理研究中心
§7.2 所有子集回归
一、所有子集的数目
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
15
§7.2 所有子集回归
二、关于自变量选择的几个准则
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
16