多元线性回归分析范例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。《中国统计年鉴》把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,其中自变量单位为亿元人民币。即样本量n=31,变量p=12。
利用SPSS软件对数据进行处理,输出:
图1 输入/移除变量
图1即输入了所有模型中的变量,分别为
x1:农林牧渔服务业
x2:地质勘查水利管理业
x3:交通运输仓储和邮电通信业
x4:批发零售贸易和餐饮业
x5:金融保险业
x6:房地产业
x7:社会服务业
x8:卫生体育和社会福利业
x9:教育文化艺术和广播
x10:科学研究和综合艺术
x11:党政机关
x12:其他行业
图2 模型概述
即回归方程对样本观测值的拟合程度,复相关系数R=0.875,决定系数R 2=0.935。由决定系数接近1,得出回归拟合的效果较好,但是并不能作为严格的显著性检验。由R 2决定模型优劣时需慎重,尤其是样本量与自变量个数接近时。
图3 回归方程显著性的F 检验
F=10.482,F α(n,n-p-1)=F α(30,18)=2.11(α=0.05),P 值=0.000,表明回归方程高度显著,即12个自变量整体对因变量y 产生显著线性影响。但是并不能说明回归方程中所有自变量都对因变量y 有显著影响,因此还要对回归系数进行检验。
图4 回归系数的显著性t 检验(t 0.05(20)=1.725)
y 对12个自变量的线性回归方程为:
1234
5678
9101112y 205.388 1.438 2.622 3.2970.9465.521 4.068 4.16215.40417.3389.15510.536 1.37x x x x x x x x x x x x =--++--++-++-+
但是,负的回归系数显然是不合理的,其原因可能是自变量之间的共线性。所以这一回归方程并不理想,所选自变量数目过多,部分回归系数的显著性检验不能通过,这就是样本量个数n太小,而自变量个数p又较多造成R2虚假现象。如果样本量再稍作改变,未知参数就会发生较大变化,即表现出很不稳定的状况。
在一元线性回归中,回归系数显著性的t检验与回归方程显著性的F检验是等价的,而在多元线性回归中,这两种检验是不等价的,某个或某几个自变量的系数不显著,回归方程显著性的F检验仍可能是显著的,即F检验只说明自变量整体对因变量y产生显著线性影响。
图5相关系数阵和协方差阵
由图可知部分自变量自身的方差较大,与其他自变量之间也存在较明显的相关关系。
所以这一回归方程并不理想,所选自变量数目过多,部分回归系数的显著性检验不能通过,在一定程度上说明它们对应的自变量在回归方程中可有可无,为使模型简化,需剔除不显著的自变量,重新建立回归方程。但
应用后退法剔除多余变量。当有多个自变量对因变量y无显著影响时,由于自变量之间的交互作用,不能一次剔除掉所有不显著的变量。原则上每次只剔除一个变量,先剔除其中t的绝对值最小的(或p值最大的)一个变量,然后再对求得的新回归方程进行检验,有不显著的变量再剔除,直到保留的变量对y有显著影响为止。也可以根据对问题的定性分析选择t值较小的变量先剔除。
下面是剔除多余变量后的回归方程及回归诊断
剔除顺序为x1,x2,x12,x4,x7,x6,x5,中间过程省略
t 0.05(25)=1.708,即后退法终止。
修正后,y 对自变量的线性回归方程为: 1110983998.12644.11334.17188.20325.4690.184x x x x x y -++-+-= x 3交通运输仓储和邮电通信业 x 8卫生体育和社会福利业 x 9教育文化艺术和广播 x 10科学研究和综合艺 x 11党政机关