数学建模论文——上海世博会
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题.
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出.
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性.如有违反竞赛规则的行为,我们将受到严肃处理.
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):宁波工程学院
参赛队员(打印并签名) :1. 王辰
2. 江帆
3. 张宜龙
指导教师或指导教师组负责人(打印并签名):数模组
日期: 2010 年 9 月 14 日赛区评阅编号(由赛区组委会评阅前进行编号):
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):
论文标题
摘要
本文根据题目的要求,在合理的假设之下,建立了合理的世博预测客流量模型,为准确预测世博客流量提供了可靠的依据.
问题一、首先,参照国际通常惯用的客流预测方法引力模型,并结合上海当地旅游业发展的实际情况,对2010年世博会中国内地客流进行预测.修正后的引力
模型为:
d
i i
a b c
i i i
X G D
Y Z T
=⋅⋅⋅÷,对该式左右分别取对数,于是将非线性
模型转化为了线性模型,得到回归方程后即进行F和t检验,若某个自变量的偏回归系数无显著性,则将该变量剔除,重新建立不包含该变量的多元回归方程,重复检验,直到余下的偏回归系数都具有统计意义,最后了需要的得到最优方程.
问题二、在世博会进行近半,已经获得了大量真实的客流量数据,可以根据数据利用Excel作图得到已知天数的客流量.通过分析三幅图,问题需要预测的是世博会期间的客流量,即是对总体的预测.根据上图表的数据和实际因素进行剩余天数客流量的预测.预测的原则有二,一是借鉴历史经验,二是从层次分析法的角度定性处理.通过历史经验,获得历史数据的趋势,从而为第二步的定量分析提供了理论基础.第二步通过层次分析,从各个因素分析,得到的结论是个项影响因素几乎均接近1:1,从而根据百分偏差的评价标准,得到的误差较小.
最后,通过引力模型得到预测数据为7048万人次,而在问题二中我们借鉴了历史数据以及利用层次分析合理预测得到的客流量是6983.58万人次,通过合理性指标评价满足要求,但是考虑到评价标准也是在实际的基础之上进行一定的预测,势必会给问题一种的模型评价带来误差,这种差异主要是由于常态模型不能把世博会对旅游业的附加效应考虑进去的原因造成的.当然我们做的预测仅仅是在客源地保持目前的认知水平下进行的,如果考虑核心地区和1类地区同2类至5类地区认知水平不一样的实际情况,那么得到的预测结果又不一样.如果假设全部地区的旅游人数都比较高的情况下,得到的结果又不一样.于是对于问题二可以进行进一步的完善.
关键词:日客流量引力模型定量分析时间序列分析模型多元回归模型F检验
一、问题的提出
自从1851年英国伦敦举办第一届世博会以来,迄今为止,全球已经举办了38届世博会.根据历史的经验,申办国都把预测客流量作为是否申办成功的重要指标,一旦申办成功,举办国都把实际客流量作为是否成功举办的重要指标.
从2010年5月上海世博会开馆以来,至今已有一段时间,每天也会报道当天的客流量.
问题1:若你在2010年5月以前,建立你的模型来预测上海世博会的客流量.
问题2:2010年5月上海世博会开馆以来,至今已有一段时间,每天也会报道当天的实际客流量,如何调整你以前的模型或重建你的模型预测来上海世博会的客流量.
二、问题的分析
通常,申办国都把预测客流量作为是否申办成功的重要指标,一旦申办成功,举办国都把实际客流量作为是否成功举办的重要指标.那么就需要建立一个能够预测客流量的模型,来预测世博开馆前前的客流量,以及通过世博开馆后的相关数据来检验、修正或是重建模型,从而到达解决问题的目的.
问题一,因为世博开馆前要预测客流量,目前对2010年的上海世博会客流量的预测模型有3种,分别是渗透率模型、引力模型和多元回归模型.渗透率模型是主观性较强的直观模型,是以受访者的参观意愿为主要依据,结合人口基数和携带系数,对世博会客流量做直观推测.但该模型有自身参观意愿而造成的地区性偏差,所以渗透率模型仅用于参观意愿和客流量进行区间估计.而多元回归模型是在参考了引力模型和渗透率模型的基础之上,提出了更改和修正方案.在多元回归模型的参数选定上,我们考虑了多种因素进去.但是该方案至今仍在尝试之中,并不完善,并且在实际之中还存在漏洞.又在问题中包括了诸多未知因素,考虑到如果可以抓住主要矛盾、考虑到次要矛盾,一些次要的影响因素便可以不作考虑.那么,通过建立引力模型,采用定量分析及时间分析序列模型,将近年各省的人口数,各省的人均收入,及各省到上海的距离等主要因素考虑在内,便很好的预测了世博会开馆前的客流量.
问题二,因为世博开馆日期近半,可以获得真实的数据,这就为我们修正第一问的模型提供了一个检验的平台,通过数据的带入,可以发现,该模型确实存在一定的局限性,那么我们通过修正该模型得到了一个新的模型,而且各种数据均接近吻合,于是解决了第二问的要求.在处理中,我们通过引入神经网络这个概念还利用历史世博客流量作为参考依据.
三、基本假设
1、假设无特殊因素导致上海世博会客流人数出现异常波动;
2、假设在一定时期内人口数和人均收入都是不变的;
3、假设游客到世博的影响因素都是一样的;
4、假设客源地保持目前的认知水平;
5、假设世博会对旅游业的附加效应对模型影响可以忽略;
四、定义符号说明
五、模型的分析、建立与求解
在问题一中:我们对上海世博客流量的预测大致分为2个基本步骤.第一步是参照国际通常惯用的客流量预测方法—引力模型.利用引力模型我们可以大致预测出2010年5—10月游客的总数量;第2步是考虑到世博会客流量的预测要全面考虑引起客流变化的各种外界因素,比如当地的经济、社会、人口的全面发展、当地气候、节假日、交通以及一些政治和商业活动等等影响—这些因素错综复杂,难以计量或预测,如果将这些因素及其关系综合考虑,预测过程将是十分复杂的.所以我们对这些因素综合处理,使之能建立定量函数表示出日客流,再用建立时间序列分析法来以一种考虑变量随时间发展变化规律并用该变量以往的统计资料建立模型作外推的预测方法.它是一种动态的数列分析,所需要的只是序列本身的历史数据.
对于问题二中我们通过将实际的客流量进行合理性处理,得到世博总客流量,然后引入合理性指标函数,检验问题一中利用引力模型预测的总客流量进行合理性评价.当在百分之五之内则模型一中预测是合理的;否则需要修正或者改变模型.
首先,定义合理性指标函数:
定义: 21
2
X X E X -∆=
5、1模型一的建立与求解:
首先,参照国际通常惯用的客流预测方法引力模型,并结合上海当地旅游业发展的实际情况,对2010年世博会中国内地客流进行预测.修正后的引力模型为:
a b c
i i i
i d
i
Y Z T X G D ⋅⋅=⋅
. (1)
将上式两边取对数得到:
ln ln ln ln ln ln i i i i i X G a Y b Z c T d D =+++-. (2)
令: 11112222
33331ln ln ln ln 1ln ln ln ln 1
ln ln ln ln Y Z T D Y Z T D X Y Z T D ⎡⎤
⎢⎥⎢⎥
=
⎢⎥⎢⎥⎣⎦
, (3)
则,(ln ,,,,)T
y G a b c d =-. (4) 那么我们可以将模型简化为: ln i X X y =⋅. (5) 所以我们接下来的任务是确定参数G,a,b,c,d 的值.再代入(1)式,将其作为我们预测全国各省市去上海看世博客流的预测函数,最后将所有省市到上海的客流只和作为世博的总客流.
表达式(1)为典型的多元回归表达式,我们可以利用spss 软件确定参数G,a,b,c,d.
接下里分析一下多元回归分析步骤: i :用各变量的数据建立回归方程;
ii :对总的方程进行假设检验——F 检验; iii :当总的方程有显著性的意义时,应对每个自变量的偏回归系数再进行假设检验——t 检验,若某个自变量的偏回归系数无显著性,则应把改变量剔除(通常每次只剔除关系最弱的一个因素),重新建立不包含该变量的多元回归方程.对重新建立的的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止.最后得到最优方程.
1、建立回归方程
具体中我们将各省市2009年人均收入和18~65岁的城镇人口数预测值、个省市距上海的距离、2009年各省市到上海的旅客人数以及上海对各省市的吸引力常数分别取对数(见附录6),代入(1)式,(具体数据见附录)利用spss 软件非线性回归求出:
所以:LnG=-0.268,a=0.47,b=0.64,c=1.04,d=-0.36代入(1)式得:
故建立回归方程:ln 2.680.47ln 0.64ln 1.04ln 0.36ln i i i i i X Y Z T D =-++++ (6)
变形得:0.47
0.64 1.04
2.68
0.36
**e *
i
i
i
i i
Y Z T X D -= (7)
2、回归方程的假设检验——F 检验
有上表可知各参数显著性及整个方程的拟合优度2111n SSE
R n k SST
-=---均达到统
计显著水平(P<0.05).
3、再进行各个回归系数的假设检验—t检验
对于同一资料,不同自变量的t值可以相互比较,t的绝对值越大,说明该自变量对Y的回归所起的作用越大.由表二可知,各变量对回归起的作用都大,无需剔除变量.所以初步认为,利用此引力模型来预测世博客流有一定可利用性!
接下来根据历年到上海客流量大致将各省市分为核心地区、1类地区、2类地区、3类地区、4类地区和5类地区(其中江苏、浙江为核心地区;广东、山东、河南、湖北、湖南、江西、安徽、福建、四川和北京为第一类地区;河北、山西、广西、陕西、云南、重庆和贵州为第二类地区;辽宁、天津和甘肃为第三地区;宁夏、新疆、吉林、内蒙古和黑龙江为第四地区;青海和海南为第五地区),再查出2010年分出的这些地区的总人口数,暂且假设其年龄分布不变,得到
18~65岁的人口数,且假设上海对这些地区的吸引力常数也不变,这样对于模型(6)中为预测客流的未知数都可以知道,然后将这些地区的人均收入、吸引力常数和18~65岁的城镇人口数预测值、各省市距上海的距离以及收入预测代入(7)得:
表三:2010年上海世博会客流量预测结果
通过上表我们可以得到2010年各省市到上海旅游的城镇人口预测总数为14097万人次,再根据往年中各季度旅游统计数据及中国旅游网,我们估计2010年5~10月游客量为2010年一半是合理的,故2010年5~10月的游客数为:7048万人次.这只是对整个世博客流总数的一个大致预测.
问题二的建立与求解:
现行,世博会正火热进行中,每天参观世博馆的人数,同样络绎不绝.及此,查找了相关的官方数据,见附录.根据数据利用EXCLE画出一张图表.(表一:已开馆时每天的人数).表二:五月份每天的人数;表三:六、七月及八月已知天数的人数.
表四:已开馆时每天的人数
很明显,从散点图可以看出五月份的人数呈现明显的上升趋势;而六月份到八月份的参馆人数主要在40~50万人之间,保持稳定状态.虽然在这期间都有些波动,但并不影响整体状态趋势.据此将时间分成两个阶段,得到表二(五月份每天人数),表二(六、七月及八月已知天数的人数)
表五:五月份每天的人数
表六:六、七月及八月已知天数的人数
从表五,表六可以更明显的看出上下波动的数据可以相互持平,对整体的参观者人数水平没有多大影响.
由于,问题需要预测的是世博会期间的客流量,所以不必要对每一天的客流量进行预测,只要对总体预测就行.所以可以根据上图表的数据和实际因素进行剩余天数客流量的预测.
接下来给出预测上海世博会总客流的原则:
A:一方面借鉴历史经验:
图一、德国汉诺威世博会客流日分布图
图二、西班牙塞维利亚世博会客流分布图
从以上两图中可以看出下列特征:
1、世博会开始时客流峰值较小,接近尾声时迎来客流高峰;
2、世博开始时人们对世博了解不深,客流相对较小;
3、周末客流显著高于工作日;
4、整个图中按时间序列的一半来看,前半段内客流总量与后半段大致相等.
综上所述,也可以预测上海世博会前三个月内客流总量与后三个月的客流总量应该相等,这可以作为合理预测整个上海世博会总客流量的原则之
一.
B:另一方面从层次分析法角度定性处理:
5月1号到10月31号总共6个月时间,可以把时间分成两部分,第一部分是5月到7月,第二部分8月到10月.根据中国国情与地理位置等实际情况出发,第一部分时间对人参馆的影响因素相仿,根据人类心理学,这两部分时间对大众的吸引
程度也同样相似,所以只要根据第一部分的人数就能直接预测出总人数.
即,从层次分析角度出发得: 图三:
从假期的角度,都有长假,五一和国庆,分别有一个月的暑假时间,周末节假日相比1:1;从天气来看,分别是春末到酷夏,从酷夏到初秋,即天气一样1:1;从吸引指数看,平时没有多大变化,具体体现在开幕式与闭幕式,由此吸引指数也可以近似看作1:1;交通方面在从分准备下不会影响参观时间的选择,即也为1:1.
由此可以简单的定义两个时间段参馆人数也为1:1.
由所查找数据得
12
11
X
X
=
(8)
21
X X = (9)
122X X X X
=+= (10)
利用EXCLE 求和函数得: 1X = 34917900 即X =69835800 根据合理性指标:
21
2
X X E X -∆=
(11)
得E
=0.92%.
从所得百分偏差说明问题一的模型与实际数据比较符合,比较完善,但考虑到有些未知因素的影响与模型只是用于大众普通情况,所以肯定存在误差.
模型的完善:
根据百分偏差的评价标准,误差的确很少,但由于问题二的总人数预测算法比较简单,并不算是实际数据,所以将利用神经网络模型将模型一得到的数据进行训练,得到更加完善的数据.
六、结果分析
通过引力模型我们得到预测上海世博会总客流量是7048万人次,而在问题二中我们通过借鉴历史经验和层次分析法合理预测得到的上海世博会总客流量是69835800人次,通过合理性指标评价满足要求.但是考虑到评价表准也是在实际的基础之上进行一定的预测,势必会给问题一中模型的合理性评价呆来误差,对于问题二的处理有待于进一步完善.
七、模型推广
我们的引力模型不仅可以应用在大型展览会的客流量,而且还可以应用在奥运会,及即将在广州举办的亚运会.而我国这种大型的活动也是各种学科的重要推动力量和源泉.关于这种模型,已经成为国际惯用的常态下的客流量的预测方法,且相对来说,其预测结果更为准确.
八、模型的评价与改进
在问题一中利用引力模型进行预测时,该模型也存在一定的局限性.该模型只是从定性的角度分析预测了2010年上海世博会的总参观人数,对于每天的客流没有进行预测,可以看到常态下依据二手数据预测的参观人数与回归模型会存在一定的差异.这种差异主要是由于常态模型不能把世博会对旅游业的附加效应考虑进去的原因造成的.当然我们做的预测仅仅是在客源地保持目前的认知水平下进行的,如果考虑核心地区和1类地区同2类至5类地区认知水平不一样的实际情况,那么得到的预测结果又不一样.当然假设全部地区的旅游人数都比较高的情况下,得到的结果又不一样.所以今后还有待于进一步修正和完善.
参考文献:
[1]XXX,XXXXXXXXXXXXXXXXXXX,XXXXXXX,XXXXX;
[2]XXX,XXXXXXXXXXXXXXXXXXXXXXXXXXXXX,XXXXXXXXXXXX,XXXXX;
[3]XXX,XXXXXXXXXXXXXXXXXXX,XXXXXXX,XXXXX;
[4]XXX,XXXXXXXXXXXXXXXXXXXXXXXXXXXXX,XXXXXXXXXXXX,XXXXX.
书籍的表述方式为:
[编号] 作者,书名,出版地:出版社,出版年.
参考文献中期刊杂志论文的表述方式为:
[编号] 作者,论文名,杂志名,卷期号:起止页码,出版年.
参考文献中网上资源的表述方式为:
[编号] 作者,资源标题,网址,访问时间(年月日).
正文引用处用方括号标示参考文献的编号,如[1][3]等;
在文章中的图片、表格等要有注释、说明.
摘要中要把文章中模型的方法、思想、技巧、结论体现出来.
文章中的错别字要尽量避免.
附件
(附件另起一页,程序要合理的缩进格式)
附件
附录1:中国各省GDP排名
附录2:各省份18-65岁人数
附录3:各省份到上海距离
附录6:处理后
19。