北航数理统计大作业(逐步回归)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用数理统计
第一次大作业
学号: 姓名: 班级:
? B11 班
2015 年 12 月
民航客运量的多元线性回归分析
摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了 1996
年至 2013 年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人 数,城镇居民可支配收入等因素,利用统计软件 SPSS 对各因素进行了筛选分析, 采用逐步回归法得到最优多元线性回归模型,并对模型的回归显着性、拟合度以 及随机误差的正态性进行了检验,并采用 2014 年的数据进行检验,得到的结果 达到预期,证明该模型建立是较为成功的。
12123
111764
13827
115583
15968
125656
18576
135670
19251
146193
23052
152451
26769
168145
29316
473104
146192
31896
189337
35397
210597
模型的建立
以民航客运量 y 为因变量,以上 5 种影响因素为自变量 Xi ,构建回归方程:
通过最优回归方程,我们可以发现航空客运量与城镇居民的可支配收入线 性相关十分显着,这是符合常识的,只有居民可支配收入越来越高,才会选择航 空这种昂贵的客运方式。
图7
参考文献:
[1] 2015 年中国统计年鉴 [2] 孙海燕、周梦、李卫国、冯伟. 应用数理统计.北京航空航天大学出版 社,2009
[3] 朱卫卫. 基于偏最 小二乘回归的我国民航客运量影响因素分析[J]. 中国市场. 2010(41): 110-112 精 心搜集整理,只为你的需要
标准系数
t
B
标准 误差
试用版
.030
.996
.817
.173
.579
.837
.421
Sig.
.001 .000 .000 .000 .004
表 7 是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差 等统计量的最大值、最小值、均值和标准差。残差平方和 Q 描述的是随机误差 引起因变量 Y 的分散程度,Q 越大分散性也越大,则线性关系越不明显。由表 7 可见标准化残差的最大绝对值为。而且标准残差的均值为 0,说明随机误差对 Y 值的影响很小。
2.数据的统计与分析
本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴 2014》以及中 国知网数据查询中的数据,收集了 1996 年至 2013 年各个自变量因素的数据,分 析它们之间的联系。整理如表 1 所示。
表 1:
年份
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
表5
Anovaa
模型
平方和
df
均方
F
Sig.
回归
1
.000b
1
残差
.261
16
总计
17
回归
2
.000c
2
残差
15
总计
17
a. 因变量: 民用航空客运量
b. 预测变量: (常量), 城镇居民人均可支配收入。
c. 预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。
由表6可以得到两个模型的回归方程分别:
关键词:多元线性回归,逐步回归法,民航客运量
0.符号说明
变量 民用航空客运量
国民生产总值 铁路客运量 民航航线里程 入境过夜旅游人数 城镇居民人均可支配收入
符号 Y X1 X2 X3 X4 X5
1.引言
随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人 们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来 越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前 列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影 响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。 本文收集整理了与我国航空客运量相关的历年数据,运用 SPSS 软件对数据进行 分析,研究 1996 年起至 2013 年我国民航客运量 y(万人)与国民生产总值 X1 (亿元)、铁路客运量 X2(万人)、民航航线里程 X3(万公里)、入境过夜旅游人 数 X4(万人)、城镇居民人均可支配收入 X5(元)的关系。采用逐步回归法建立 线性模型,选出较优的线性回归模型。
. 步进(准则: F-to-enter 的概率 <= .050, F-to-remove 的概 率 >= .100)。
a. 因变量: 民用航空客运量
表3
模型
Beta In
已排除的变量a
t
Sig.
偏相关
国内生产总值
.197b
.517
.612
.132
铁路客运量
.989
1
民航航线里程
.704
过夜游客 国内生产总值
继续下一步逐步回归分析,逐步回归的基本思想是将变量逐个引入模型,每 引入一个变量后都要进行F检验,并对已经选入的变量逐个进行t检验,当原来引 入的变量由于后面变量的引入变得不再显着时,则将其删除。以确保每次引入新 的变量之前回归方程中只包含先主动变量。这是一个反复的过程,直到既没有显 着的变量选入回归方程,也没用不显着的变量从回归方程中剔除为止。在SPSS 软件中可直接进行逐步回归分析,得出以下结果:
1. 以城镇居民可支配收入为自变量的拟合函数:
y=+
2.
以城镇居民可支配收入和过夜入境旅游人数为自变量的拟合函数:
y=++
且所有系数的显着性水平都小于,每个回归方程都是有意义的。
表6
模型
(常量) 1
城镇居民人均可支配收入
(常量)
2
城镇居民人均可支配收入
过夜游客
a. 因变量: 民用航空客运量
系数a
非标准化系数
拟合度检验
.993
1
.003
1
df2
Sig. F 更
改
16
.000
15
.004
由表4,模型1的决定系数R2=,模型2的决定系数R2=,可以看出回归方程都
高度显着,且模型2比模型1更优。 回归方程的显着性检验:
由表 5,方差分析表 Sig 值都<,说明每个模型都拒绝回归系数均为 0 的假设, 每个方程都是显着的。
城镇居民人均可支配 收入
.06
.06
.94
.94
.01
.00
.37
.01
.62
.99
过夜游客
.00 .00
表 8 是 SPSS 软件的多重共线性诊断表,它包括 3 项诊断值:特征值、条件 数和方差比率。特征值表明在自变量中存在多少截然不同的维数,当几个特征值 都接近 0 是,变量是高度相关的。条件数是最大特征值对每一个连续特征值的比 率的平方根,若条件数大于 15 则表明可能存在多重共线问题,若大于 30 则表明 存在严重的多重共线性问题。显然表 8 中变量 X4 过夜入境旅游人数的条件数大 于 30,说明回归方程存在多重共线性。
.421b .306c
.004
.663
.308
.272
2
铁路客运量
.777
民航航线里程
.011c
.138
.892
.037
a. 因变量: 民用航空客运量 b. 模型中的预测变量: (常量), 城镇居民人均可支配收入。 c. 模型中的预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。
表4
模型汇总c
模
R
型
R方
调整 R 方
标准 估计的误差
R 方更改
共线性统计量 容差 .003 .058 .044 .018 .003 .058 .043
F 更改
更改统计量 df1
1
.996a
.993
.992
2
.998b
.996
.995
a. 预测变量: (常量), 城镇居民人均可支配收入。 b. 预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。 c. 因变量: 民用航空客运量
3.结论
为了解决多重共线性的问题,排除模型 2,考虑到模型 1 的拟合度也是很好 的,综合来看认为模型 1 为更优。最终得到的回归方程为:
y=+
并以 2014 年的数据检验该回归方程,2014 年航空客运量为 39195 万人,城 镇居民人均可支配收入为,将自变量 X5 带入回归方程得到 y=万人,与实际的客 运量 39195 万人的误差为%。因此可以认为该模型基本达到了预期的目标。
由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其 他自变量都没有进入模型,模型2在1的基础上再纳入了过夜入境旅游人数,其他 的自变量也都被排除了。
表2
输入/移去的变量a
模型
输入的变量
移去的变量
方法
城镇居民人均可支配 收入 1
过夜游客 2
. 步进(准则: F-to-enter 的概率 <= .050, F-to-remove 的概 率 >= .100)。
国内生产 民航客运
总值(亿 量(万人)
元)
民航航线 铁路客运
里程(万 量(万人)
公里)
入境过夜 旅游人数 (万人)
城镇居民 可支配收 入(元)
5555
78973
94797
5630
93308
5755
95085
6094
100164
6722
105073
75241051558594源自1056068759
97260
残差检验 如图 6 是残差分布直方图。在回归分析中,总是假定残差服从正态分布,这
个图就是根据样本数据的计算结果显示残差分析的实际情况。从图来看标准化残 差还是近似服从正态分布的。
图6
如图 7 残差的积累概率图基本围绕在假设直线 (正态分布)周围,说明残 差分布基本符合正态分布,说明民航客运量这个因变量基本上可以用线性回归方 法建立模型。
其中 为常数项, 为误差项。
先观察自变量与因变量的关系,用 SPSS 得到各个自变量与因变量的散点图:
图 1 民航客运量与国内生产总值散点图 图 2 民航客运量与铁路客运量散点图
图 3 民航客运量与航线里程散点图 图4 民航客运量与入境过夜人数散点图
图 5 民航客运量与人均可支配收入散点图
从以上五张散点图,我们可以看出因变量民航客运量与国内生产总值,入境 过夜旅游人数和城镇居民人均可支配收入均有较好的线性关系,这说明建立线性 模型是有意义的。
表7
残差统计量a
极小值
极大值
均值
标准 偏差
N
预测值 残差 标准 预测值 标准 残差 a. 因变量: 民用航空客运量
.0000 .000 .000
18
18
18
.939
18
多重共线性的诊断
表8
模型
维数
特征值
1
1
2
.127
1
2
2
.147
3
.002
a. 因变量: 民用航空客运量
共线性诊断a
条件索引
方差比例
(常量)
第一次大作业
学号: 姓名: 班级:
? B11 班
2015 年 12 月
民航客运量的多元线性回归分析
摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了 1996
年至 2013 年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人 数,城镇居民可支配收入等因素,利用统计软件 SPSS 对各因素进行了筛选分析, 采用逐步回归法得到最优多元线性回归模型,并对模型的回归显着性、拟合度以 及随机误差的正态性进行了检验,并采用 2014 年的数据进行检验,得到的结果 达到预期,证明该模型建立是较为成功的。
12123
111764
13827
115583
15968
125656
18576
135670
19251
146193
23052
152451
26769
168145
29316
473104
146192
31896
189337
35397
210597
模型的建立
以民航客运量 y 为因变量,以上 5 种影响因素为自变量 Xi ,构建回归方程:
通过最优回归方程,我们可以发现航空客运量与城镇居民的可支配收入线 性相关十分显着,这是符合常识的,只有居民可支配收入越来越高,才会选择航 空这种昂贵的客运方式。
图7
参考文献:
[1] 2015 年中国统计年鉴 [2] 孙海燕、周梦、李卫国、冯伟. 应用数理统计.北京航空航天大学出版 社,2009
[3] 朱卫卫. 基于偏最 小二乘回归的我国民航客运量影响因素分析[J]. 中国市场. 2010(41): 110-112 精 心搜集整理,只为你的需要
标准系数
t
B
标准 误差
试用版
.030
.996
.817
.173
.579
.837
.421
Sig.
.001 .000 .000 .000 .004
表 7 是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差 等统计量的最大值、最小值、均值和标准差。残差平方和 Q 描述的是随机误差 引起因变量 Y 的分散程度,Q 越大分散性也越大,则线性关系越不明显。由表 7 可见标准化残差的最大绝对值为。而且标准残差的均值为 0,说明随机误差对 Y 值的影响很小。
2.数据的统计与分析
本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴 2014》以及中 国知网数据查询中的数据,收集了 1996 年至 2013 年各个自变量因素的数据,分 析它们之间的联系。整理如表 1 所示。
表 1:
年份
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
表5
Anovaa
模型
平方和
df
均方
F
Sig.
回归
1
.000b
1
残差
.261
16
总计
17
回归
2
.000c
2
残差
15
总计
17
a. 因变量: 民用航空客运量
b. 预测变量: (常量), 城镇居民人均可支配收入。
c. 预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。
由表6可以得到两个模型的回归方程分别:
关键词:多元线性回归,逐步回归法,民航客运量
0.符号说明
变量 民用航空客运量
国民生产总值 铁路客运量 民航航线里程 入境过夜旅游人数 城镇居民人均可支配收入
符号 Y X1 X2 X3 X4 X5
1.引言
随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人 们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来 越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前 列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影 响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。 本文收集整理了与我国航空客运量相关的历年数据,运用 SPSS 软件对数据进行 分析,研究 1996 年起至 2013 年我国民航客运量 y(万人)与国民生产总值 X1 (亿元)、铁路客运量 X2(万人)、民航航线里程 X3(万公里)、入境过夜旅游人 数 X4(万人)、城镇居民人均可支配收入 X5(元)的关系。采用逐步回归法建立 线性模型,选出较优的线性回归模型。
. 步进(准则: F-to-enter 的概率 <= .050, F-to-remove 的概 率 >= .100)。
a. 因变量: 民用航空客运量
表3
模型
Beta In
已排除的变量a
t
Sig.
偏相关
国内生产总值
.197b
.517
.612
.132
铁路客运量
.989
1
民航航线里程
.704
过夜游客 国内生产总值
继续下一步逐步回归分析,逐步回归的基本思想是将变量逐个引入模型,每 引入一个变量后都要进行F检验,并对已经选入的变量逐个进行t检验,当原来引 入的变量由于后面变量的引入变得不再显着时,则将其删除。以确保每次引入新 的变量之前回归方程中只包含先主动变量。这是一个反复的过程,直到既没有显 着的变量选入回归方程,也没用不显着的变量从回归方程中剔除为止。在SPSS 软件中可直接进行逐步回归分析,得出以下结果:
1. 以城镇居民可支配收入为自变量的拟合函数:
y=+
2.
以城镇居民可支配收入和过夜入境旅游人数为自变量的拟合函数:
y=++
且所有系数的显着性水平都小于,每个回归方程都是有意义的。
表6
模型
(常量) 1
城镇居民人均可支配收入
(常量)
2
城镇居民人均可支配收入
过夜游客
a. 因变量: 民用航空客运量
系数a
非标准化系数
拟合度检验
.993
1
.003
1
df2
Sig. F 更
改
16
.000
15
.004
由表4,模型1的决定系数R2=,模型2的决定系数R2=,可以看出回归方程都
高度显着,且模型2比模型1更优。 回归方程的显着性检验:
由表 5,方差分析表 Sig 值都<,说明每个模型都拒绝回归系数均为 0 的假设, 每个方程都是显着的。
城镇居民人均可支配 收入
.06
.06
.94
.94
.01
.00
.37
.01
.62
.99
过夜游客
.00 .00
表 8 是 SPSS 软件的多重共线性诊断表,它包括 3 项诊断值:特征值、条件 数和方差比率。特征值表明在自变量中存在多少截然不同的维数,当几个特征值 都接近 0 是,变量是高度相关的。条件数是最大特征值对每一个连续特征值的比 率的平方根,若条件数大于 15 则表明可能存在多重共线问题,若大于 30 则表明 存在严重的多重共线性问题。显然表 8 中变量 X4 过夜入境旅游人数的条件数大 于 30,说明回归方程存在多重共线性。
.421b .306c
.004
.663
.308
.272
2
铁路客运量
.777
民航航线里程
.011c
.138
.892
.037
a. 因变量: 民用航空客运量 b. 模型中的预测变量: (常量), 城镇居民人均可支配收入。 c. 模型中的预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。
表4
模型汇总c
模
R
型
R方
调整 R 方
标准 估计的误差
R 方更改
共线性统计量 容差 .003 .058 .044 .018 .003 .058 .043
F 更改
更改统计量 df1
1
.996a
.993
.992
2
.998b
.996
.995
a. 预测变量: (常量), 城镇居民人均可支配收入。 b. 预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。 c. 因变量: 民用航空客运量
3.结论
为了解决多重共线性的问题,排除模型 2,考虑到模型 1 的拟合度也是很好 的,综合来看认为模型 1 为更优。最终得到的回归方程为:
y=+
并以 2014 年的数据检验该回归方程,2014 年航空客运量为 39195 万人,城 镇居民人均可支配收入为,将自变量 X5 带入回归方程得到 y=万人,与实际的客 运量 39195 万人的误差为%。因此可以认为该模型基本达到了预期的目标。
由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其 他自变量都没有进入模型,模型2在1的基础上再纳入了过夜入境旅游人数,其他 的自变量也都被排除了。
表2
输入/移去的变量a
模型
输入的变量
移去的变量
方法
城镇居民人均可支配 收入 1
过夜游客 2
. 步进(准则: F-to-enter 的概率 <= .050, F-to-remove 的概 率 >= .100)。
国内生产 民航客运
总值(亿 量(万人)
元)
民航航线 铁路客运
里程(万 量(万人)
公里)
入境过夜 旅游人数 (万人)
城镇居民 可支配收 入(元)
5555
78973
94797
5630
93308
5755
95085
6094
100164
6722
105073
75241051558594源自1056068759
97260
残差检验 如图 6 是残差分布直方图。在回归分析中,总是假定残差服从正态分布,这
个图就是根据样本数据的计算结果显示残差分析的实际情况。从图来看标准化残 差还是近似服从正态分布的。
图6
如图 7 残差的积累概率图基本围绕在假设直线 (正态分布)周围,说明残 差分布基本符合正态分布,说明民航客运量这个因变量基本上可以用线性回归方 法建立模型。
其中 为常数项, 为误差项。
先观察自变量与因变量的关系,用 SPSS 得到各个自变量与因变量的散点图:
图 1 民航客运量与国内生产总值散点图 图 2 民航客运量与铁路客运量散点图
图 3 民航客运量与航线里程散点图 图4 民航客运量与入境过夜人数散点图
图 5 民航客运量与人均可支配收入散点图
从以上五张散点图,我们可以看出因变量民航客运量与国内生产总值,入境 过夜旅游人数和城镇居民人均可支配收入均有较好的线性关系,这说明建立线性 模型是有意义的。
表7
残差统计量a
极小值
极大值
均值
标准 偏差
N
预测值 残差 标准 预测值 标准 残差 a. 因变量: 民用航空客运量
.0000 .000 .000
18
18
18
.939
18
多重共线性的诊断
表8
模型
维数
特征值
1
1
2
.127
1
2
2
.147
3
.002
a. 因变量: 民用航空客运量
共线性诊断a
条件索引
方差比例
(常量)