第四章 回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§4.2 回归变量的选择与逐步回归

二、逐步回归(stepwise )

逐步回归分三种:

向前选择法,从模型中无自变量开始,根据给定的条件,每次将

一个最符合条件的变量进入模型,直至所有符合条件的变量都进

入模型为止。

向后剔除法,先建立全模型,根据给定的条件,每次剔除一个最

不符合条件的自变量,直到回归方程不在含有不符合条件的自变

量为止。

Stepwise 法,即前面两种方法的结合,从含有某几个变量或没有

自变量开始,根据给定的条件,将一个最符合条件的变量进入模

型,再剔除新老变量中不符合条件的变量,接着再选入符合条件

的变量,再剔除新老变量不符合条件的变量。如此反复选入变、

剔除变量,直到没有一个变量可选入和剔除为止。

命令:stepwise(X,y)

stepwise(X,y,inmode)

stepwise(X,y,inmodel,penter,premove)

stepwise(X,y)

X 为不包括全为1列向量n ×m ,n 为样本容量,m 为自变量个数。y 为因变量n ×1列向量。

stepwise(X,y,inmode)

Inmode 为逐步回归时,最初所包括的自变量。如果n=4, 如果inmode 为[1,3],则表明最初所包括的自变量为X 矩阵第1列和第3列所对应的自变量。Inmode 缺失时,表明最初没有包括自变量,只包括n ×1全为1的列向量。

stepwise(X,y,inmodel,penter,premove)

逐步回归时,为了了解增加和剔除变量的原则,以增加一个变量为例:1

新模型中的参数个数)

(增加的变量个数,新模型中的参数个数)

)-(增加的变量个数)-(=新模型中的参数个数)

新模型残差平方和增加的变量个数老模型的回归平方和)新模型的回归平方和-新老新---=n n n F F ~F /(R 1/R R /(/(222

相应的P 值:()值F F p p >=

当相应的P 值小于等于penter 时,新的变量将被引进时。

同理,删除一个变量x 时:

1 可参见《计量经济学基础》上册,[美]达摩达尔·N ·古扎拉蒂 中国人民大学出版社 p240-p243

老模型中的参数个数)

(删除的变量个数,老模型中的参数个数)

)-(删除的变量个数)-(=老模型中的参数个数)

老模型残差平方和删除的变量个数新模型的回归平方和)老模型的回归平方和-老新老---=n n n F F ~F /(R 1/R R /(/(222

当相应的P 值大于等于premove 时,相应的变量x 将被删除。

如果最小的P 值小于等于给定penter ,或最大的P 值大于等于给定的premove ,则每一步都是选择最大的F 值(或的P 值最小的)变量引进模型。将最小的F 值(或最大的P 值)对应的变量删除。penter 一定小于等于premove

缺失的情况下,penter 为0.05,premove 为0.1。

值得注意的是,以增加一个变量为例,新模型中F 值等于新模型中增加变量

对应的t 值的平方,新模型中F 值对应的P 值等于新模型中增加变量对应t 值的P 值。

z =[5.5000 31.0000 10.0000 8.0000 79.3000

2.5000 55.0000 8.0000 6.0000 200.1000

8.0000 67.0000 12.0000 9.0000 163.2000

3.0000 50.0000 7.0000 16.0000 200.1000

3.0000 38.0000 8.0000 15.0000 146.0000

2.9000 71.0000 12.0000 17.0000 177.7000

8.0000 30.0000 12.0000 8.0000 30.9000

9.0000 56.0000 5.0000 10.0000 291.9000

4.0000 42.0000 8.0000 4.0000 160.0000

6.5000 73.0000 5.0000 16.0000 339.4000

5.5000 60.0000 11.0000 7.0000 159.6000

5.0000 44.0000 12.0000 12.0000 8

6.3000

6.0000 50.0000 6.0000 6.0000 23

7.5000

5.0000 39.0000 10.0000 4.0000 107.2000

3.5000 55.0000 10.0000

4.0000 15

5.0000

8.0000 70.0000 6.0000 14.0000 201.4000

6.0000 40.0000 11.0000 6.0000 100.2000

4.0000 50.0000 11.0000 8.0000 13

5.8000

7.5000 62.0000 9.0000 13.0000 223.3000

7.0000 59.0000 9.0000 11.0000 195.0000]

x=z(:,[1:4]);y=z(:,5);

stepwise(x,y)% 回车得:

解释一下上面这个对话框,同四个部分组成:

左上角

右上角

中间

最低端

第一部分,彩色水平柱状图是回归系数90%的置信区间,黑色水平柱状图是回归系数95%的置信区间。如果柱状图穿过中间虚线(横坐标为0),则在相应的显著性水平下,回归系数为0。柱状图中间的红点,为对应回归系数的值。

第二部分,红色字体表示在原始模型上加上相应变量时,对应变量的回归系数,对应的t统计量值和对应的p值。蓝色模型为原始模型的变量的回归系数,对应的t统计量值和对应p值。在此例中,全为红色,说明原始模型自变量是包括只有全为1列向量。

y=c1+6.53444×x1 回归系数t值:0.7768对应的p值0.4473

y=c2+4.02871×x2 回归系数t值:0.44192对应的p值0.0003

相关文档
最新文档