sas建立时间序列模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS软件简介 SAS系统是由美国SAS软件研究所开发的用于决策支持的大型集成信息系统,是数据处理和统计领域的国际标准软件之一,广泛应用于金融、医药卫生、生产、运输、通讯、政府、教育和科研等领域。应用SAS软件建立时间序列模型准备工作:建立一个时间序列数据集 SAS语句: Data 数据集名; Input 序号(year or month)变量名 @@; Cards;/(输入数据,按input格式逐个输入数据,以分号结束); Proc print data=数据集名;/输出数据表 Run; SAS的建模步骤第一阶段: 模型的识别平稳性模型识别
首先判定时间序列数据是否为平稳随机数据,(一)通过时间序列数据趋势图判别。(二)通过自相关函数和偏自相关函数的截尾性识别模型“IDENTIFY”语句通过SAS软件,运行程序如下: proc arima data 数据集 identify var 变量名 nlag 时间间隔个数run; 计算出自相关系数ACF, 逆自相关系数SIACF, 偏自相关系数PACF和互相关系数。根据样本自相关系数ACF和偏相关系数PACF的形态来识别模型类别。如果序列的样本自相关系数在q步后截尾,则是MA序列,如果偏相关系数在p步后截尾,则是AR序列。如果都不截尾,只是按负指数衰减或以阻尼正弦波形式趋于零(即是拖尾的),则应判断为ARMA序列,但是不能确定阶次。若序列的样本自相关和偏相关系数都不截尾,而且至少有一个不是拖尾,即下降趋势很慢,不能被负指数函数所控制,或是不具有下降的趋势而是周期变化,那么我们便认为序列具有增长趋势或季节性变
化,是非平稳序列。可应用提取趋势性和季节性的方法,对数据进行
处理,就是主要通过差分等变换将非平稳序列变成一个平稳序列。非
平稳序列的平稳化若序列是非平稳的,下面是通过差分
变换变成一个平稳序列。 SAS的程序为一阶差分变量名(1)identify var 变量(1) nlog N ; run; 若一
阶差分是平稳的,对差分序列建模,观测ACF、PACF的变化趋势,初
步给出的阶数。因为输入数据是序列的有限样本,所以由输入序列计
算出样本自相关系数是逼近产生序列的理论自相关系数。这意味着样
本自相关系数不能够恰好等于任何模型的理论自相关系数,并且可能
会具有一种或多种不同的模型的理论自相关系数相似的类型。若一阶
差分序列仍不平稳,重复以上过程,(二阶差分,三阶差分等等)直
到差分序列平稳。第一阶段 IDENTIFY 的输出描述统计量:N E X D X σ X 自相关系数散点图 ACF 自相关系数图表
及序列的当前值和过去值的相关程度,图中以图像的形式显示相关系
数的值。偏相关系数 PACF 与自相关系数图格式相同逆自
相关系数 SIACF 在ARIMA建模中,样本递自相关系数和PACF
起大体一样的作用,但SIACF在指出子集和季节自回归模型时效果优
于PACF。对偶模型的自相关系数称作原模型的逆自相关系数。白
噪声检验――卡方检验 H0 :直到某一给定时间间隔的样本自相关系
数没有显著不为零的. Xt为白噪声,独立的随机扰动)如果对所有
时间间隔,该零假设成立,则没有需要建模的信息,也不需要建立ARIMA模型. 被检查的时间间隔个数依赖于选项对前N-2个自相关
系数的检验P值。 P 0.005 拒绝 H0 (拒绝为白噪声,P 0时, Xt高度自相关) P 0.005 接受 H0 即对所有时间间隔,自相关系数为零,说明没有建模信息,不必要做下去了)第二阶段:估计和诊断检验阶段时间序列Wt由IDENTIFY语句识别并且由ESTIMATE语句处理, 即在完成可能的模型识别后,开始估计和诊断检查阶段. ESTIMATE的输出参数估计表:估计方法:METHOD 选择不同的估计方法(条件最小二乘法估计,极大似然估计,条件、无条件估计,线性或非线性估计)参数估计值提供:估计值,标准差,t比值 t比值:关于参数估计值的显著性检验(近似值)。当观测序列的长度很短,并且被估计参数的个数相对于序列昌都很长时,t统计量的近似效果很差。均值项MU 常数项:Constant Estimate 模型的常数项可以表示为均值项MU和自回归参数的函数。拟合优度统计量表 Variance Estimate 残差序列的方差 Std Error Estimate 方差估计值的平方根AIC和BIC两个信息准则(贝叶斯准则)其中L是一个近似值,以AIC的绝对值越小拟合优度越好. 参数估计值的相关系数表判断其变量之间互线性可能影响结果的程度. 如果两个参数估计值高度相关相关系数很高 , 可以考虑模型从模型中去掉一个参数对应的变量。残差自相关系数的检验对于残差序列的卡方检验统计量将指明残差是否不相关,或是否包含可以被更复杂模型利用的附加信息。 H0:无自相关 P值 0.0005, 拒绝原假设,即残差非白噪声. 利用后移算子记号列出估计模型例:Model for
variable SALES 变量名 Estimate Mean 0.90279892
MU Period s of Differencing 1 差分阶数 d Autoregressive Factors 自回归 Factor
1:1-0.86847 B** 1 Factor对应的数学形式为:模
型为ARIMA 1,1,0 估计ARMA模型――混合自回归滑动平均模型
PROC ARIMA 启动ARIMA建模过程完整的PROC ARIMA程序如下:
Proc arima data 数据集名; identify var 变量名
nlog 时间滞后个数; run; //输出identify 语句的结
果 identify var 变量名(1),nlog N(8~24); run; //
输出对变量一阶差分序列的identify结果 estimate p ? q ? ; run;
//输出估计模型ARIMA p,d,q 的结果注意: 一个RUN语句并不终
止PROC ARIMA过程,只是告知执行之前的语句IDENTIFY, ESTIMATE
和 FORECAST语句只有一种层次关系,附加的IDENTIFY语句用来表
明一个不同的时间序列(差分变化),影响后面的操作. 第三阶段:
预测阶段 SAS语句 forecast lead 12 Interval month id
date out results (输出的数据名); run; LEAD 选项指定
向前预测的周期数 ID 选项指定时间序列预测观测标记日期的ID
变量 INTERVAL 选项指明数据是用月记录的,并且使得PROCARIMA
能够成为预测时间外插的DATE值 OUT 选项把预测值写到一个名
为RESULT的输出数据集中输出结果:输出每个预测时刻的观测值数
目、预测值、预测值的标准误差估计以及预测的95%置信区间的上限
和下限 ALPHA Value ――设定预信置信限, 确省值0.05 95%