数据挖掘实验报告

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

时间序列的模型法和数据挖掘两种方法比较分析研究

实验目的:通过实验能对时间序列的模型法和数据挖掘两种方法的原理和优缺点有更清楚的认识和比较.

实验内容:选用1952-2006年的中国GDP,分别对之用自回归移动平均模型(ARIMA) 和时序模型的数据挖掘方法进行分析和预测,并对两种方法的趋势和预测结果进行比较

并给出解释.

实验数据:本文研究选用1952-2006年的中国GDP，其资料如下

日期国内生产总值(亿元)日期国内生产总值(亿元)

2006-12-312094071997-12-3174772 2005-12-311830851996-12-31

2004-12-311365151995-12-31

2003-12-311994-12-31

2002-12-311993-12-31

2001-12-311992-12-31

2000-12-31894041991-12-31

1999-12-31820541990-12-31

1998-12-31795531989-12-31

1988-12-311969-12-31

1987-12-311968-12-31

1986-12-311967-12-31

1985-12-311966-12-311868 1984-12-3171711965-12-31

1983-12-311964-12-311454 1982-12-311963-12-31

1981-12-311962-12-31

1980-12-311961-12-311220 1979-12-311960-12-311457 1978-12-311959-12-311439 1977-12-311958-12-311307 1976-12-311957-12-311068 1975-12-311956-12-311028 1974-12-311955-12-31910 1973-12-311954-12-31859 1972-12-311953-12-31824 1971-12-311952-12-31679 1970-12-31

表一

国内生产总值（GDP）是指一个国家或地区所有常住单位在一定时期内生产活动的最终成果。这个指标把国民经济全部活动的产出成果概括在一个极为简明的统计数字之中为评价和衡量国家经济状况、经济增长趋势及社会财富的经济表现提供了一个最为综合的尺度，可以说，

它是影响经济生活乃至社会生活的最重要的经济指标。对其进行的分析预测具有重要的理论与现实意义。

实验步骤:

1. 选用1952年到2001年这50个数据参与自回归移动平均模型(ARIMA)建模(所用的工具是

Eviews). 根据博克斯-詹金斯提出的建模思想,具体步骤为:

(1) 对原序列进行平稳性检验。在以年份为横轴，以山东省GDP为纵轴的坐标系中作曲线图

如图1所示。

图一

从图1中可以看出全国的GDP不具有明显的周期变化和季节波动，但呈现出明显的增长趋势，他的相关系数和偏相关系数如图二所示

图二

从图二中可以看到，他的自相关系数是拖尾的，而偏相关系数是截尾的。对样本数据用ADF 进行单位根检验的到结果如图三

图三

这里ADF值大于三个不同检验水平下的临界值，故而可以判断出，我国GDP序列是非平稳的。这就需要对GDP序列进行差分以使序列变得平稳。由图一可以看出，GDP序列明显带有指数性质，因此现对该序列进行对数变换在eviews中输入genr lngdp=ln(gdp)生成新的序列lngdp，并对新序列进行平稳性检验。Lngdp的相关系数和偏相关系数如图四所示，

图四

对lngdp用ADF进行单位根检验的结果如图五

图五

这里lngdp的ADF变成了，依然大于三种不同检验水平下的临界值。从中可以看出，对GDP 序列进行对数处理后，序列lngdp序列依然不平稳。需要再对lngdp序列进行差分处理。在eviews中输入genr dlngdp=d(lngdp)生成新序列dlngdp。并对dlngdp进行平稳性分析。其自相关系数和偏自相关系数如图六所示

图六

其ADF检验如图六

图六

这是ADF值为小于在1%校验水平下的临界值，即可以得出dlngdp序列为平稳序列的结论。

(2) 通过计算能够描述序列特征的一些统计量（如自相关系数或非自相关系数），来确定ARMA模型的结束p和q，并初始计算时选择尽可能少的参数。从dlngdp序列的自相关系数和偏自相关系数图中可以看出，该序列可以用ARMA模型来表示，且由于自相关系数与偏自相关系数都是一阶截尾的，故取p=1，q=1，采用ARIMA（1，1）模型。

第三步，估计模型的未知参数，并检验参数的显著性，以及模型本身的合理性。在eviews 中输入ls dlngdp c AR(1) MA(1)得到结构如图七所示

图七

从图中可以看出，估计出的方程模型C 值，AR(1)值的可信度较高，而MA(1)的估计值可信度相对低一些。总体方程具有很高的可信度。对模型进行残差序列分析得到如图八所示

图八

最右侧Probe 列中的数字表示相应自由度条件下卡方统计量取值大于相应Q 值的概率。因为这一列概率值都大于，说明模型的随机误差序列是一个白噪声序列。模型均值及自相关系数的估计都通过显著性检验，模型本身也通过了残差自相关检验。因此模型可以用来预测。则，该方程的表达式为：110.3580.1030.324t t t t r r a a ---=++

2 用时序算法的数据挖掘方法对数据进行挖掘(选取1952-2001年的数据),得到趋势图.具体步骤为:

(1) 创建数据仓库

(2)创建数据源和数据视图,搭建挖掘环境

(3) 对已经建立的数据仓库进行数据挖掘.在”选择数据挖掘技术”选择时序模型,在定型数据时,输入和可预测都选择GDP

(4) 得到挖掘结果.切换到”挖掘模型查看器”选项卡,得到挖掘结果.

图九 4.用两种方法的结论进行预测

根据ARIMA 估算出的方程进行预测2000-2008得到

年度实际GDP

预测GDP

误差

2000 2001 2002 2003 2004 2005 17. 2006 3. 2007

表二

其预测值与实际值的拟合曲线如图十

图十

数据挖掘的方法只能预测到紧接着一年即2002年的GDP,值为:

实验结果: 从图十的拟合曲线来看，随着预测期的延长，模型法的到误差可能会出现逐渐增大的情况。用数据挖掘的方法预测到2002年GDP 值为,比较表二,可知数据挖掘的方法较模型法更准确一些.

实验结论:

(1) 两种方法的思路和操作程序有很大不同.前者是一种传统的建模方法,理论基础很强;