基于数据自然规律的不同拟合方法比较研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于数据自然规律的不同拟合方法比较研究
目的:寻找最优的数据拟合方法;方法:以数据为基础,分别用统计方法中的趋势法、分段法、AID法(Automatic Interaction Detection)进行拟合,通过比较拟合值与实际值,并计算各方法的均方误差,分析上述3种方法的拟合精度;结果:分段法所拟合的数据误差最小,拟合精度最高;结论:对于收集的可靠数据进行拟合时,须采用多个适用的拟合方法分别拟合,并进行比较后选择一个模型显著,精度高的作为最终决策模型,效果会更好。
标签:拟合方法比较;趋势法;分段法;AID法;应用条件;拟合精度
1 概述
拟合方法是统计预测的前提,拟合模型建立的不好,何谈预测效果?鉴于近30年来的各种规划涉及的预测方法应有尽有,但这些预测存在的一个严重问题是相差几百万、几千万都丝毫没有影响到“规划”的所谓科学性、合理性,这正是做课题人员的统计预测知识缺乏,而导致规划中预测结果的“宽范围”特殊性,使的规划检查执行进度时出现预测结果与后期实际结果相差得经过很长的时间才有可能,甚至永远不可能实现的困境。这里基于数据本身的特征进行拟合效果比较,进而达到拟合效果高精度实现。关于数据本身的规律大体上表现为两大类,一类是横截面数据的拟合,这一类大多涉及到多元回归问题,更多的是对所建模型利用样本区间以外的影响因素数据进行预测;另一类是时间序列数据的预测,更注重于趋势预测。本文主要研究时间序列数据的拟合问题。
在时间序列预测中,当序列存在明显的趋势成分时,需要使用趋势预测法[1]进行预测。然而有时候单一形式曲线的预测效果并不是很好。对此,李武选通过对旅游外汇收入数据采用分段拟合技术[2]建立模型进行预测,取得比单一形式曲线更好的拟合精度;方开泰使用AID法[3]将数据分区间进行拟合,发现AID 法在有异常数据的预测中比单一形式曲线有更好的效果。钱晓莉[4]将AID法应用于通过企业的广告费用预测销售收入的实例中,指出该法适宜于对含有特异值的样本进行预测。本文通过对某地的有关预报数据进行实证分析,用这3种拟合方法进行拟合,并比较三者的拟合效果。
2 研究方法及其应用条件
2.1 趋势拟合法
在趋势拟合法中主要有线性趋势和非线性趋势两种方法。线性趋势是指研究现象随着时间的推移而呈现出稳定增长或下降的线性变化规律,其线性拟合方程为yt=b1+b1t,其中待定系数和可根据最小二乘法求解。当所要研究现象呈现出某种非线性趋势,则需要拟合适当的趋势曲线。这种方法应用要求时间序列数据本身具有明显的趋势特征,如线性或者非线性特征。
2.2 分段拟合法
分段拟合法根据所要研究对象随时间的推移呈现出不同类型的趋势变化将其分段,针对每段进行拟合,最后整合出整体数据的拟合情况。此法应用条件是数据自然的规律要具有线性及非线性或者拐点等特征。
2.3 AID拟合法
AID拟合法是将有序样本数据合理分类,划分各类的原则是最优分割原则,最后根据要拟合的值所属类的平均值作为其拟合值。该法的应用条件是数据本身应具有明显的波动聚集特征。
3 实证分析
3.1 数据来源
本文研究方法使用的实际数据(见表1):
该数据具有适用于上述3种拟合方法的基本要求,可以使用上述方法建立拟合模型并可以进行拟合。
3.2 趋势拟合法
用SPSS20.0软件中11 种常用的趋势曲线进行拟合,依据最大作为选择标准,可得较满意S曲线拟合。
结果说明:以上两个p值均小于0.05,表明模型中变量之间的关系在统计意义上是显著的;统计量F=10.120,Sig=0.011<0.05,表明S曲线模型整体上是统计显著的,即模型可用。
3.3 分段拟合法
通过对数据做散点图可看出将该时间序列分为三段较好,第一段包括前四个时间序列数据,第二段包括接下来的中间的三个数据,第三段包括剩下的四个数据,然后针对每段建立模型进行拟合。在对每段进行拟合时,通过SPSS20.0软件中11 种常用的趋势曲线进行拟合,根据拟合优度系数最大以及模型中系数与模型整体的统计显著性选择最优的拟合模型。
结果说明:以上三个模型,对系数的t检验以及对整个模型的F检验结果都是统计显著的,故模型均是合理的,可以用来拟合。
3.4 AID拟合法
先将该时间序列数据分类。最优分割原则是使组内離差平方和达到极小,并
且每次分类时都将一组数据只分成两类。由总离差平方和=组内离差平方和+组间离差平方和可知,要使组内离差平方和极小化,则要使组间离差平方和极大化。计算可得总体均值=6.91。组间平方和QA=n1(.1-)2+n2(.2-)2,其中nj为第j(j=1,2)类包含的数据的个数,.j为第j(j=1,2)类的均值。分别以t=1,2 (10)
为分割点计算QA,得QA在以t=4为分割点时最大,故将t=4作为分割点,把数据分成两类{y1~y4},{y5~y11}。相对于全部数据的个数来说,第二类包含的数据仍较多,故将第二类{y5~y11}继续分类,重复上述步骤,得以t=7作为分割点,将{y5~y11}分为{y5~y7},{y8~y11}。因此,最终将该数据分为三类,分别是{y1~y4},{y5~y7},{y8~y11}。t也相应地分成三个区间:[1,4],[5,7],[8,11] ,每一类的平均值分别为2.3,14.5,5.8。然后进行拟合,根据将要拟合的值所属类的平均值作为其最终拟合值。
3.5 3种拟合方法的比较
在比较拟合精度时,可选取的评价指标有均方误差、绝对误差、相对误差等,本文采用均方误差来评价拟合方法的优劣。根据MSE=(yt-t)2/n,通过计算可得:趋势拟合法的均方误差;分段拟合法的均方误差;AID拟合法的均方误差。
比较均方误差的大小,可看出分段法的效果最好,AID法次之,最后是趋势法;从个性离差值上比较来看,分段拟合也同样有最好的预测效果;同时,通过3种方法残差个值的绝对值大小比较,也可得到相同的结论。
4 结论
预测的基础是基于样本数据的拟合模型最优,本文研究的结论是对于本预报数据而言,基于上述3种方法拟合模型的结果,分段法是将时间序列数据分段进行拟合,可以更好地根据每段的变化趋势拟合曲线,使每段的拟合值误差减小,进而提高整体的拟合效果;AID法是将时间序列数据按最优分割原则分类,将相近的样本数据分到了一类,对于有异常数据的样本拟合能达到更好的效果。
在实践中,我们可以用AID法中的最优分割原则将时间序列数据分类,并将该分类结果作为分段法的分段依据,然后在每一段内使用趋势法进行拟合,以达到更好的拟合效果。
另外,还可以用加权组合的方法来拟合,通过赋予上述3种拟合方法合理的权重,然后对3组拟合值进行加权组合得到新的拟合值。
参考文献
[1] 贾俊平,何晓群,金勇进.统计学[M].北京:中国人民大学出版社,2009:374-392.
[2] 李武选,王小建,李源,等基于30年入境旅游外汇收入的最佳建模与预测[J].统计与信息论坛,2009,24(4):21-26.