基于线性回归的我国客运量预测模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于线性回归的我国客运量预测模型摘要:为了对我国客运量进行预测,利用spss18.0软件建立了我国客运量的逐步线性回归模型和基于相关性分析的多元线性回归模型,并分析了两种模型的预测精度。分析表明,基于相关性分析的多元线性回归模型比逐步线性回归模型具有更好的精确度。
关键词:逐步线性回归模型;相关性分析;多元线性回归模型中图分类号:u491 文献标识码:a文章编号:
0 引言
随着我国经济的不断发展,公路里程的不断增长,我国交通运输得到了较快的发展,成为我国社会生产、经济和生活中一个不可缺少的重要环节。客运量作为交通量的重要组成部分,其发展变化可以影响到整个交通运输业的发展。运用科学的方法和手段对客运量进行预测,可以预知未来一定时期内运输市场需求的变化趋势以及与之相关的各种因素的变化的影响进行分析,为运输企业制定经营目标和做出各种经营决策提供依据[1]。
通过对历史资料的逐年比较、分析,发现有两个明显的特点:第一,交通量逐年增加是大趋势;第二,交通量受很多其他因素的影响较大。多元线性回归作为一种较为科学的方法,在各行各业都有较为广泛的应用,可以在获得影响因素的前提下,将定性问题定量化,确定各因素对主体问题的影响程度[2]。但是影响客运量的因素太多,如果建模时全部考虑,不仅数据量太大,而且由于某些
因素对客运量的影响太小而导致模型不够精确。因此,本文选用逐步线性回归法和相关性分析法对影响因素进行筛选,并利用
spss18.0软件建立预测模型。
1 多元线性回归模型理论概述
1.1 多元逐步线性回归的思想[3]
多元逐步线性回归是一种多元统计数据分析方法,它能消除自变量之间存在的多重共线性。假设有因变量y和m个自变量,首先观察n个样本点,构成因变量的n次观察值构成一个n维列向量y=,和自变量,nm的观察值构成的观察矩阵x=。本文采用backward,回归(给定置信水平=0.1),将x中的所有解释变量提取出来实施对这些变量的回归,如果回归方程已经达到满意程度,则算法终止,否则,将利用被解释后的信息剔除一些与0无显著性差异的变量(即sig≥0.1=的变量)。再形成一个新的解释变量构成的观察矩阵x’,如此反复进行回归,直至达到满意精度为止。若最终的解释变量构成的观察矩阵,实施回归后,得到的y与之间的关系就是所要求解的线性回归模型。
1.2 相关性分析的思想[4]
相关分析是研究事物现象间的相关关系,主要是通过大量的观测,取得足够的实际观察资料,运用数理统计方法,研究错综复杂的客观现象间的相互关系、相互联系的性质和表现形式及联系的密切程度等。
在实际运用中,最常使用的相关系数是由英国统计学家卡尔·皮尔逊提出的简单相关系数。其数学表达式为:
其中x和y为两个待研究变量, (,) (i=1, 2,…, n)为两变量的n对观察值,和分别为n个观察值的均值。r与两变量x 和y的变异程度、度量单位及n的大小都无关系,因而可以用它来度量两变量间的相关性质和相关程度。r的正负表示两变量间相关的性质,|r| (|r|≤1)的大小表示两变量间相关的密切程度,越大表示相关程度越强,反之则越弱。由此可以得出以下结论:①当r=0时, x与y不相关;②当0 在相关分析中,一般根据|r|的数值大小,将不完全线性相关的密切程度分为四个等级:0<|r|≤0.3的微弱相关; 0.3<|r|≤0.5的低度相关; 0.5<|r|≤0.8的中度相关; 0.8<|r|≤1的高度相关。 2 客运量预测模型的建立 影响客运量的因素有很多,归纳起来主要有经济因素、人口因素、政策因素和其他因素等,我们选取人口数量,国民生产总值(gdp),民用汽车拥有量,公路里程,社会消费品零售额,国家财 政收入,固定资产投资,道路运输就业人数和客运量 [2,5]做相关新分析,统计数据见表1所示。 表1 1996-2009年主要社会经济指标统计 注:表中数据均来自《中国统计年鉴》 2.2 多元线性逐步回归模型的建立 利用spss18.0软件对表1中数据进行逐步线性回归建模,其结果如表2所示。 表2 输入/移除的变量 由表2中数据可以看出,软件选择出国民生产总值(gdp)和公路里程两个影响因素,并根据这两个因素建立线性回归模型,结果如表3所示。 表3 模型汇总 从表3可得整体相关系数r=0.995,判定系=0.990,调整的判定系数=0.988。说明样的回归效果较好,方程拟合程度非常高。 回归方程各变量系数如表4所示。 表4 系数 由表4中数据我们可以得到回归方程为: (2—1) 其中为客运量;为gdp;为公路里程。 进行f检验,由表3中数据可得统计量:f=543.597, sig.=0.000<0.05,因此回归效果显著。 进行t检验,由表4中数据可得:对应的显著性检验的t值分别为14.124和-3.349,两个回归系数b的显著性水平sig.=0.000和0.006均小于0.05,可以认为自变量和对因变量均有显著影响。 根据预测模型我们可以得到1996-2009年客运量预测数据如表10所示。 2.2 多元线性回归模型的建立 由于影响客运量发展的因素太多,我们不可能把所有影响因素考虑在内,因此,首先对表1中各因素进行相关性分析,其结果见表5。 表5 相关性 由表5中数据我们可以知道,与客运量数据相关性达到90%以上的因素主要有国民生产总值(gdp),民用汽车拥有量,社会消费品零售额,国家财政收入和固定资产投资。我们利用表1中数据,设因变量为客运量y1,自变量分别为国民生产总值(gdp),民用汽车拥有量,社会消费品零售额,国家财政收入和固定资产投资建立客运量预测模型,其结果见表6所示。 表6 模型汇总