应用回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章
5.1自变量选择对回归参数的估计有何影响?
答:全模型正确而误用选模型时,我们舍去了m-p 个自变量,用剩下的p 个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计。选模型正确而误用全模型时,参数估计值是选模型相应参数的有偏估计。 5.2 自变量选择对回归预测有何影响? (一)全模型正确而误用选模型的情况
估计系数有偏,选模型的预测是有偏的,选模型的参数估计有较小的方差,选模型的预测残差有较小的方差,选模型预测的均方误差比全模型预测的方差更小。 (二)选模型正确而误用全模型的情况
全模型的预测值是有偏的,全模型的预测方差的选模型的大,全模型的预测误差将更大。 5.3如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣?
答:应该用自由度调整复决定系数达到最大的准则。当给模型增加自变量时,复决定系数也随之增大,然而复决定系数的增大代价是残差自由度的减小,自由度小意味着估计和预测的可靠性低。应用自由度调整复决定系数达到最大的准则可以克服样本决定系数的这一缺点,把2
R 给予适当的修正,使得只有加入“有意义”的变量时,经过修正的样本决定系数才会增加,从而提高预测的精度。 5.4 试述前进法的思想方法。
解:主要是变量由少到多,每次增加一个,直至没有可引入的变量为止。
具体做法是:首先将全部m 个自变量,分别对因变量y 建立m 个一元线性回归方程,并分别
计算这m 个一元回归方程的m 个回归系数的F 检验值,记为11112{,,,}m F F F L ,选其最大者1111
12max{,,,}
j m F F F F =L ,给定显著性水平α,若
1(1,2)
j F F n α≥-,则首先将
j
x 引入回
归方程,假设
1
j x x =。其次,将
12131(,),(,),,(,)m y x x x x x x L 分别与建立m-1个二元线性回归方程,对这m-1个回归方程中
23,,,m x x x L 的回归系数进行F 检验,计算F 值,记为
22223{,,,}m F F F L ,选其最大的记为222223max{,,,}j m F F F F =L ,若2(1,3)j F F n α≥-,则
接着将j
x 引入回归方程。以上述方法做下去。直至所有未被引入方程的自变量的F 值均小
于
(1,1)F n p α--为止。
5.5 试述后退法的思想方法。
首先用全部m 个变量建立一个回归方程,然后在这m 个变量中选择一个最不重要的变量,将它从方程中剔除。
5.6 前进法、后退法各有哪些优缺点?
解:都可以挑选出对因变量有显著性影响的自变量,逐个挑选并排除显著性较低的自变量。 前进法的缺点:不能反映引进新的自变量后的变化情况。
后退法的缺点:开始把全部自变量引入回归方程,计算量很大。一旦自变量被剔除,就不会再被引入回归方程。
5.7 试述逐步回归的思想方法。
基本思想:有进有出。
具体做法:将变量一个个引入,当每引进一个自变量后,对已引入的变量要逐个检验,当原引入的变量由于后面的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中提出一个变量,为逐步回归的一步,每一步都要进行F 检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。
5.8在运用逐步回归法时,αα进出与 的赋值原则是什么?如果希望回归方程中多保留一些自变量,α进应如何赋值?
答:在运用逐步回归法时,要求引入自变量的显著性水平α进小于剔除自变量的显著性水平α出。在运用逐步回归法引入变量时,我们是在(1
,1)p j F F n p α≥--时,将x j 引入方程,所以如果希望回归方程中多保留一些自变量,则引入自变量时的的检验临界值
(1,1)F n p α-
-应尽可能地小一些,相应地,α进应尽可能地大一些。
5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y (亿元)为因变量,自变量如下:x1为农业增加值(亿元);x2为工业增加值(亿元);x3为建筑业增加值(亿元);x4为人口数(万人);x5为社会消费总额(亿元);x6为受灾面积(万公顷)。据《中国统计年鉴》获得与变量y 有较强的相关性,分别用后退法和逐步回归法作自变量选元。 表5.4
5.10表5.5的数据是1968-1983年期间美国与电话线制造有关的数据,各个变量的含义如下:x
1
——年份;
x
2
——国民生产总值(10亿美元);
x
3
——新房动工数(单位:1000);
x
4
——失业率(%);
x
5
——滞后6个月的最惠利率;
x
6
——用户用线增量(%);
y ——年电话线销量(百万尺双线)。
(1)建立y对x
2~ x
6
的线性回归方程;
(2)用后退法选择自变量;
(3)用逐步回归法选择自变量;
(4)根据以上计算结果分析后退法与逐步回归法的差异。
表5.5
(1)解:利用SPSS 得回归方程为:
23456ˆ5922.827 4.864 2.374817.90114.593846.867y x x x x x =++-+-
(2)用后退发生剔除变量
5x ,得最优回归方程:
2346ˆ6007.320 5.068 2.308824.261862.699y x x x x =++--
(3)用逐步回归法依次引入
3x ,5x ,4x ,得最优回归模型:
354ˆ1412.807 3.440348.927415.136y x x x =++-
(4)两种方法得到的最终模型是不同的,后退法首先剔除了5x ,而逐步回归在第二步引入
了
5x ,说明两种方法对自变量的重要性的认可是不同的,这与自变量之间的相关性有关联。
相比之下,后退法首先对全模型做了回归,每个自变量都发挥了自己的作用,所得的结果更值得信服。从本例的内容看,5x 是滞后6个月的最惠利率,对因变量的影响似乎不大。