预测疾病发病率的统计分析方法进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
预测疾病发病率的统计分析方法进展
摘要:医学统计作为医学研究的辅助的工具有着重要的作用,并且在医学实验设计到数据分析方面有着广泛的利用。正确统计分析方法的应用能够有效的提高医学研究的质量。本文通过分析预测疾病发病率的统计分析方法的应用的介绍,以期能给广大医务工作者科学研究提供一定的知道。
关键词:疾病发病率、统计分析方法、进展
对于疾病尤其是传染病有效的控制,离不开有效的对疾病发病率的预测和检测。一并发病率预测是通过长期的、有计划的观察和相关数据的搜集对疾病发病率利用合理的统计分析方法进行预测。目前,我国已经建成了全国范围类的疾病信息报告网络,通过网络能够对全国疾病发病率进行检测。但是,目前我国对于这些检测数据的利用还是停留在描述性统计分析的阶段,缺乏利用高级有效的统计方法,进行前瞻性的预测分析。本文通过研读大量文献,归纳国内外文献中利用到的有效的统计分析方法,进行相关的概述。
1 预测疾病发病率统计分析概述
由于对于疾病监测系统搜集的数据十分庞大,并且对于这些数据的处理也有着多样的处理方法。因此,分析这些数据有前瞻性和回顾性的,由于本文主要是预测疾病发病率,主要介绍前瞻性的分析方法。另外,根据数据选择的不同时间段可以把数据分析分为年度、周和月分析。数据选取的不同,分析出来的结果不同,用于预测的范围也不同。
另外对于疾病检测系统数据的回顾性和描述性分析已经非常成熟,可以通过利用不同统计图表来刻画不同的信息。现有文献对于这方面的研究主要是来分析检测数据是否具有很好的时间聚集和空间性。
本文要介绍的前瞻性的研究方法,主要是通过之前的监控数据,对于未来疾病发病的趋势进行有效的分析和预测。前瞻性的分析方法主要分为三种:时空聚集性分析方法、空间分析方法、其他分析方法。
2 时空聚集性分析方法
时空聚集性分析方式是根据不同地区人口分布的差异来矫正人口空间分布,从而检验疾病发病率的时空分布是否服从随机状态。可以按照不同的检验目的分为一般聚集性和焦点聚集性检验。一般聚集性检验是在没有先验条件下即没有先
验假设中对其进行聚集性定位。其中其又分为全局聚集性和聚集性探测检验两类。全局聚集性检验是对整个要进行研究区域检验其是否存在聚集性,而聚集性探测检测是对拒不进行聚集性定位。焦点聚集性是检测在实现确定的区域附近是否具有拒不聚集性的存在。
2.1 聚集性探测检验
聚集性探测检测的方法主要是最大超额时间检验、Besag Newell方法、Kulldorff空间扫描统计量、Turnbull方法。较为成熟并且应用最多的方法是Kulldorff空间扫描统计量,其核心思想是在进行检测的区域上面构建一个圆形扫描窗口,让这个窗口在区域上面移动,其扫描的半径不断增加最终增加到设定好的上线,从而由于半径不同会出现许多的扫描窗口,通过计算这些窗口的内外似然值,其中具有最大似然值的窗口不可能是随机产生的群体。2005年,相关学者对于这个方法进行了改良,把窗口并不限于圆形扩展为任意形状的窗口。2.2 全局聚集性检验
全局聚集性检验有K个最邻近法、Oden方法和Mantel方法、Ipop方法、Cuzick Edwards方法和Bonetti Pagano的M统计量。这里面最新的方法是由Jacquez (1996)提出的K个最邻近法,通过这个方法可以有效的检验空间区域内相邻的病例在时间上也存在相邻性。并且相关学者应用这个方法有效的验证了挪威等地牛群传染病中的时空聚集性。
3 时间分析方法
3.1 时间序列分析方法
由于疾病发病情况通常具有季节性和相关性,因此可以根据此类数据特性利用时间序列分析方法对疾病发病率进行有效的预测。时间序列分析应用于医学领域是从计量经济学领域衍生过来的。其主要的模型有:指数平滑模型、移动平均模型、ARIMA模型(自回归移动平均模型)。其中对于自回归移动平均模型的应用是最为广泛的。
自回归移动平均模型又称为Box-Jenkins模型,用ARIMA(d,q)表示。这个模型可以有效的对非平稳数据进行预测,其中模型中的d代表差分阶数即把非平稳数据转化为平稳数据进行的差分次数,q用于表现模型移动平均的技术。如果遇到平稳的数据则可以通过建立ARMA模型进行预测,通常发病率数据是非平稳
的数据,因此ARIMA模型的运营较为广泛。ARIMA模型主要通过四个步骤进行预测分析。首先,对原始数据进行平稳性判断,主要通过分析数据的ACF和PACF 图来进行平稳性判断和模型的选择。其次,参数估计和模型诊断,如果通过诊断模型符合要求则下一步进入预测应用。通过合适的模型利用过去的数据对于未来传疾病发病率进行预测。
3.2 过程控制图
这种方法的核心思想是假设随机变量独立且满足正太分布,通过对统计量y 的构造,对统计量进行分析,当其超过设定的控制界限的时候可以认为其为非正常时间。因此,对于这种方法应用的关键是选择合适的控制界限。通常通过选择控标准差的倍数来设定控制界限。这其中常用的过程控制图有移动平均图、指数加权移动平均图和Shewhart图、累积控制图。
3.3 历史极限法
历史极限法是将疾病目前4周的发病数量与之前的基线进行比较,基线是指整个果断5年的相应的前面、当前和之后4周的发病数据的平均值。从而,根据过去5年的这15个数值,并且现在的4周出现的发病数量的总和除以过去5年15个数值的平均值,并将这个壁纸在对数坐标中表现出来与之前的历史基线进行比较。这个方法简单易用,但是其并未考虑相关性和趋势性,不一定任何一个样本都满足正太分布。
4 空间分析方法
要想得到疾病发病的空间变化的趋势,来预测疾病在各个区域未来的发病率,就需要把空间技术与疾病发病率预测结合起来。早在1854年就有英国学者把地理信息应用到疾病发病率预测当中。
4.1 广义线性模型和广义线性混合模型
广义线性模型是由Kleinman提出来的,其可以有效的对局部区域中每个病例进行有效的地理定位。其简称为SMART分值法。核心思想是把局部区域中的每一个小区域看作一个小的个体,通过随机效应来分析小区域中的重复数据。这个方法容纳长期趋势、季节性和时间聚集性,可以校正区域人群中的不同特征。
4.2 Rogerson空间累计和法
这个方法是把空间统计量加入到累积和法上面形成的,进而应用到疾病发病