2005_2011年我国肺结核发病的时间流行病学特征及趋势_任正洪

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

当月天数 31 28 31 30 31 30 31 31 30 31 30 31 31 29 31 30 31 30 31 31 30 31 30 31
报告值
3213. 45 99617 3505. 61 98157 4382. 19 135848 4311. 70 129351 4036. 42 125129 3978. 13 119344 3633. 77 112647 3714. 19 115140 3564. 17 106925 3238. 45 100392 3688. 73 110662 3377. 74 104710
图 3 经 1 阶普通差分和 1 阶季节差分后的我国报告 肺结核新法病人数序列的偏自相关系数图
根据以上拟合得到的最佳模型,预测 2011 年和 2012 年我国肺结核新发病人数见表 2。由表 2 可知, 对 2011 年的预测值与实际报告值相差不大,实际报告 值都在预测值的 95% 可信区间内。2012 年我国肺结 核月新发病人数仍维持在 9 万 ~ 13 万左右,3 月和 4 月将是报告数最多的月份。
由于报告的新发病人数的峰和谷,随着年份的推 移都有所下降,我国报告肺结核新发病人数似乎表现 出了下降的趋势。
图 1 自 2005 年以来我国每月报告的新发肺结核病人数
误差为 6. 32% ,不到 10% ,模型预测精度较高; 但其决 定系数和调整决定系数只有 46% ~ 47% ,比较低。
图 2 经 1 阶普通差分和 1 阶季节差分后的我国报告 肺结核新法病人数序列的自相关系数图
则少报告大约 22700 人,如果春节在 2 月分,则少报告 大约 20500 人。模型的平均绝对百分误差为 5. 33% ,
也有统计学意义的; 是否是春节所在月份,对肺结核新 模型预测精度较高; 其决定系数和调整决定系数分别
发病人数影响显著,春节所在月份肺结核新发病人报 达 69. 5% 和 68. 2% 。利用该 模 型 预 测 的 2011 年 和
5078. 49
137388 4553. 95
117342 3907. 40
157433 5200. 49
136618
117222
156015
4059. 28
3412. 80
4705. 75
125838 4242. 35
127271
105797 3595. 92
107878
145878 4888. 78
【关键词】 肺结核 新发病人数 时间序列分析 预测
结核病是一种慢性传染病,其发病规律和流行特 点决定了在今后相当长的时期内其危害将持续存在。 根据世界卫生组织的统计,2010 年全世界新发肺结核 880 万,2010 年我国结核病年发病人数约为 130 万,占 全球发病的 14. 3% ,位居全球第 2 位。尽管我国的肺 结核疫情有了显著的改善,但仍是全球结核病流行严 重的国家之一,同时也是全球耐多药结核病流行严重 的国家之一〔1〕。
2. SARIM A 模型的建立和预测 2005 年以来我国报告的肺结核新发病人数序列 并不是平稳序列。经过一价普通差分和一价季节差分 运算后的新序列较平稳,而且不是白噪声序列。图 2 和图 3 分别图示了新序列的样本自相关系数和样本偏 自相关系数。根据图 2 和图 3,我们拟订初始普通自 回归与移动平均和季节自回归与移动平均的价数,结 合拟 合 精 度 指 标,最 后 发 现 没 有 常 数 项 的 SARIM A ( 0,1,1) ( 0,1,1) 12 为最佳模型,其参数及其评价指标 分别列于表 1。由表 1 可知,该模型有统计学意义的, 其各项参数也有统计学意义的; 模型的平均绝对百分
SARIM A( 0,1,1) ( 0,1,1) 12 NOINT
预测值
95% CI 下限 95% CI 上限
3033. 15 94028
2386. 25 73974
3680. 05 114082
3347. 12 93719
4431. 86
2700. 37 75610
3785. 22
3993. 87 111828
3. “事件模型”的建立和预测 将是否是 春 节 所 在 月 份 作 为 偶 然 事 件,拟 合“事 件模型”,发现没有常数项的 CE + SARIM A ( 1,1,0)
·160·
中国卫生统计 2013 年 4 月第 30 卷第 2 期
( 0,1,1) 12 模型最佳,其参数及其评价指标也分别列于 表 2。由表 2 可知,该模型有统计学意义,其各项参数
参数估计
标准误
t 统计量
P值
参数估计
标准误
t 统计量
ቤተ መጻሕፍቲ ባይዱ
P值
延迟 1 个月移动平均系数 延迟 12 个月季节移动平均系数 延迟 1 个月自回归系数 春节是否在这个月
0. 8738 0. 6373
0. 0689 0. 1399
12. 6877 4. 5544
< 0. 0001 < 0. 0001
0. 9110 0. 4075 0. 3575 - 732. 51
当发生异常的外部事件( 例如,自然灾害、政策变 化等) 而影响被预测的序列时,应该用干扰模型。考 察我国肺结核新发病人数据发现,每年春节所在的月 份,肺结核新发病人数都比较少。为了考察春节对肺 结核新发病人报告数的影响,我们采用干扰模型的方 法,将是否处在春节所在月份当成一个偶然变量,并假 定该变量对肺结核新发病人数的影响即时出现、即时 消失,拟合了 一 个 我 们 称 之 为“事 件 模 型 ”的 模 型,其 形式为 CE + SARIMA( p,d,q) ( P,D,Q) s,其中 E 为偶 然事件变量,C 为该偶然事件对被预测序列的影响,其 余同前述〔3 - 4〕。
资料与方法
1. 资料 本文所采用的数据来自卫生部公开发布的每月全 国法定传染病疫情报告中的肺结核发病数。由于每月 天数不同,为了增加可比性,我们计算得到了每月平均 每天的肺结核新发病人数。 2. 统计分析方法 显然,所分析的数据属于典型的时间序列数据,故 采用时间序列分析预测方法。理论上讲,所有时间序 列数据都可以用 Box-Jenkins 模型分析方法,即自回归 移动平均( autoregressive moving average,ARIMA) 模型 分析方法。Box-Jenkins 模型,适用于单变量的时间序
所有统计分析在 SAS 9. 0 中完成的。
Chinese Journal of Health Statistics,Apr 2013,Vol. 30,No. 2
结果
2005 ~ 2011 年我国每月的肺结核报告新发病人 数见图 1,其比较形象地显示了我国报告肺结核新发 病人数随时间变化的关系。
1. 我国报告的肺结核新发病人数的变化趋势 我国报告的肺结核新发病人数具有明显的规律 性。以一年为一个周期,每年发生十分相似的变化: 每 年的 1 月或 2 月,报告新发病人数最少; 3 ~ 6 月,各月
0. 0769 0. 1305 0. 1398 88. 3596
11. 8488 3. 1224 2. 5582 - 8. 2901
< 0. 0001 0. 0026 0. 0128 < 0. 0001
模型方差
104660
68947
误差平方和 均方误差 均方误差平方根 平均绝对百分误差 平均绝对误差 决定系数 调整决定系数 AIC
146663
2003 年 SARS 的爆发,暴露了我国传染病疫情监 测报告等信息方面存在的问题,促使国家下决心改善 传染病信息报告制度。在国家的大力支持下,中国疾 病预防控制中心( CDC) 建成了“中国传染病监测报告 信息系统”,并自 2005 年起正式投入运行。该系统能 够实时网络监测我国 37 种法定传染性疾病的疫情,及 时提供给 各 级 卫 生 主 管 部 门 公 开 发 布〔2〕。 本 文 拟 利 用我国自开展网络直报以来的肺结核新发病人数数 据,分析我国肺结核的流行病学特征,建立数学模型, 预测 2012 年我国肺结核发病人数,为我国肺结核病的 防治和疫情监测提供参考依据。
8994855. 4 126688. 1
355. 9327 6. 32
252. 51 0. 470 0. 462
838. 21
5169982. 0 72816. 6 269. 8456 5. 33 213. 26 0. 695 0. 682 802. 89
SBIC
842. 74
811. 95
表 2 用不同模型预测 2011 年和 2012 年肺结核新发病人数
·158·
·论著·
中国卫生统计 2013 年 4 月第 30 卷第 2 期
2005 ~ 2011 年我国肺结核发病的时间流行病学特征及趋势
北京大学医学部公共卫生学院妇女与儿童青少年卫生学系( 100191) 任正洪
【提 要】 目的 分析我国肺结核发病的流行病学特征,预测我国肺结核发病人数,为我国肺结核病的防治和疫情 监测提供参考依据。方法 2005 ~ 2011 年卫生部公开发布的每月肺结核发病数。采用时间序列分析方法建立预测模型, 经过统计学检验和评价后再进行预测。结果 拟合得到的最佳模型是没有常数项的 SARIMA( 0,1,1) ( 0,1,1) 12 和没有常 数项的 CE + SARIMA( 1,1,0) ( 0,1,1) 12 ,但后一个事件模型更优; 春节所在月份报告的肺结核新发病人数偏少,平均每 日少 733 人; 根据拟合的模型估计得到了 2012 年我国各月份肺结核新发病人数。结论 我国肺结核的发生具有明显周 期性和季节性,一年一周期,冬春季节多发。
时间 2011. 01 2011. 02 2011. 03 2011. 04 2011. 05 2011. 06 2011. 07 2011. 08 2011. 09 2011. 10 2011. 11 2011. 12 2012. 01 2012. 02 2012. 03 2012. 04 2012. 05 2012. 06 2012. 07 2012. 08 2012. 09 2012. 10 2012. 11 2012. 12
·159·
报告的肺结核新发病人数都很高,为各年的高峰期; 随 后减少,直到 10 月或者 11 月,形成一个新的底,但比 年初的高; 而后又有上升,直到次年的春节前,形成一 个小高峰,再开始下一年的轮回。显然,我国报告的肺 结核新发病人数具有明显的季节性,每年的冬天和春 天( 除春节所在月份外) 报告新发病人数最多。
告数平均每天少报告 733 人。即如果春节在 1 月份, 2012 年我国肺结核新发病人数见表 2。
表 1 2005 年以来我国报告肺结核新发病人数时间序列模型分析的参数估计及评价
SARIM A( 0,1,1) ( 0,1,1) 12 NOINT
CE + SARIM A( 1,1,1) ( 0,1,1) 12 NOINT
列数据,是一种特殊的线性模型。 本分析采用季节自回归移动平均( seasonal autore-
gressive moving average,SARIMA) 模型,其一般形式是 SARIMA( p,d,q) ( P,D,Q) s,其中 p 是自回归的价数, d 是普通差分运算的价数,q 是移动平均的价数,P 是 季节自回归的价数,D 是季节差分的价数,Q 是季节移 动平均的价数,s 是季节周期的时间长度。拟合模型 时,首先通过对原始数据进行普通和 / 或季节差分运算 而得到平稳的非白噪声序列,并用增广 DF 检验( augmented Dickey-Fuller,ADF) 方法检验其平稳性。确认 其平稳且非白噪声后,考察差分运算后新序列的样本 自相关系数( autocorrelation function,ACF) 图和偏自相 关系数( partial autocorrelation function,PACF) 图,以初 步拟定以上 p,d,q 和 Q 价数,拟合模型。对于拟合得 到的模型,采用 Ljung-Box 检验方法对其残差序列的 自相关性进行检验,以判断模型的充分性; 结合考察模 型精确性的指标,综合判断而选择得到最佳模型; 采用 得到的模型,预测来年我国肺结核新法病人数〔3 - 4〕。
相关文档
最新文档