疾病发病情况的时间序列分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
某市恶性疾病的时间序列分析
摘要:本文对某市1990~2007年间某恶性疾病的发病情况进行统计,运用时间序列分析,建立ARIMA模型对该病发病情况进行研究,并对未来几年的发病情况做出了预测。
关键字:时间序列ARIMA,拖尾截尾
时间序列分析的简介
时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。
时间序列是把反映现象发展水平的统计指标数值,按照时间先后顺序排列起来所形成的一组统计数字序列。时间序列又称动态数列或时间数列。时间序列分析就是利用这组数列,应用数理统计方法加以处理,以预测未来事物的发展。时间序列分析是定量预测方法之一,它的基本原理:一是承认事物发展的延续性。应用过去数据,就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理。该方法简单易行,便于掌握,但准确性差,一般只适用于短期预测。时间序列预测一般反映三种实际变化规律:趋势变化、周期性变化、随机性变化。
时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。时间序列分析常用在国
民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。
时间序列分析主要用途:①系统描述。根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述。②系统分析。当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理。
③预测未来。一般用ARMA模型拟合时间序列,预测该时间序列未来值。④决策和控制。根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
基本步骤:①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。②根据动态数据作相关图,进行相关分析,求自相关函数。相关图能显示出变化的趋势和周期,并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。③辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、
滑动平均模型或组合ARMA 模型等来进行拟合。当观测值多于50个时一般都采用ARMA 模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。 ARIMA 的三种模型 1)建立p 阶自回归)(p AR 模型:
t
p t p t t t x x x x εφφφφ+++++=--- 22110 2)建立q 阶移动平均)(q MA 模型: q
t q t t t t x -------+=εθεθεθεμ 2211
3)),(q p ARMA 模型:
q
t q t t t p t p t t t t x x x x -----------+++++=εθεθεθεφφφφ 221122110
三个模型的拖尾、截尾性
建模的步骤:
图6.0 自回归滑动平均(ARMA)模型建模步骤数据搜集
对数据进行平稳化和检验处理
在SAS中,使用Gplot过程作出swl的时序图
在sas编辑框输入
proc gplot data=fb;
plot swl*year=1 ;
symbol c=red i=join v=star;
run;
得到时序图为
很明显看出其不是平稳序列,故我们要对其平稳化处理。我们再在sas 编辑框输入
proc gplot data=fb;
plot cfswl*year=1 ;
symbol c=red i=join v=star;
run;
得出了死亡率一阶差分的时序图
初步判断基本上符合平稳性,下面再对其进行平稳性检验和白噪声检验,输入
proc arima data= fb;
identify var=cfswl stationarity =(adf=3) nlag=12;
run;
得到
用Q LB统计量作的2检验结果表明:差分后的swl序列的Q LB统计
量的P值为0.0127(<0.05),故序列为非白噪声序列。
该序列的自相关图和偏自相关图为
从中可以看出自相关图拖尾,偏自相关图2阶截尾,初步判断该模型为ARIMA(2,1,0)
注意:AS白噪声自相关检验结果:
To lag—延迟阶数
Chi-Squre—是Q LB统计量,服从卡方分布
Df—是Q LB统计量服从的卡方分布的自由度
Pr>Chisq—该Q LB统计量的P值
另自相关函数图中:
Lag—延迟阶数
Covariance—延迟阶数给定后的自协方差函数
Correlation—延迟阶数给定后的自相关函数
Std Error—自相关函数的标准差
“.”—2倍标注差范围
下面我们要用最有模型定阶函数对该序列定阶。在编辑框输入
proc arima data=fb;
identify var=cfswl nlag=6minic p=(0:7) q=(0:7);
run;
得到了
看出sas系统给出定阶为p=1 q=0,即为ARIMA(1,1,0)下面对该模型检验看其是否合适。在编辑框输入
proc arima data=fb;
identify var=cfswl;
estimate p=1q=0;
run;
得到了残差检验自相关矩阵