大数据与疾病监测

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ISSN 2095-1566CN11-9306／R 述评

作者简介：马逸杰（1994—），男，硕士研究生，主要研究方向为医学科研数据挖掘。通讯作者：陈大方，E-mail ：dafangchen@

大数据与疾病监测

马逸杰，陈大方*

北京大学公共卫生学院，北京100081

Big Data and Disease Surveillance

MA Yi-jie,CHEN Da-fang*

School of Public Health,Peking University,Beijing 100081,China

疾病监测是长期地、连续地、系统地收集、核对、分析疾病动态分布和影响因素的资料，形成有用的信息，并将信息及时送达需要了解这些信息的人员和机构，为决策、制定、实施、评价和调整疾病有关政策，采取干预措施提供基础资料[1]。疾病监测能够帮助人们从时间和空间维度探究卫生事件的分布情况及作用规律，帮助人们了解卫生事件的发展趋势，并对可能发生的卫生事件提供预警，进而辅助相关机构及时开展防疫和诊疗工作[2]。随着人们医疗需求的逐步变化和医疗改革的不断深入，疾病监测范围已从传染病逐渐扩展到非传染病，除了传染病监测，对于肿瘤、伤害、高血压和心脑血管病的监测也已经成为当前疾病监测的重要部分[3]。与此同时，随着互联网和信息技术的迅猛发展，卫生数据呈现指数级增长，医疗卫生行业开始进入大数据时代。大数据时代的到来，为动态监测疾病状况、提前进行危险预警、及时处理健康问题等提供更多可能[4]。本文介绍近年来大数据及数据挖掘的发展情况，并总结了近年来国内外大数据在疾病监测中的研究进展，以期为日后大数据在疾病监测中的应用提供新的思路，为相关实践提供指导。

什么是大数据

1.1

大数据的定义、特征及分类

大数据是一个抽象的概念，各领域对它定义不

尽相同。一般来说，大数据涉及的数据量规模巨大，无法通过人工在合理时间内截取、处理并整理成为人们能解读的信息[5]，是超出常规数据库工具获取、存储、管理及分析能力的数据集[6]。美国国家标准与技术研究院认为“大数据指的是数据的数量、采集速度或者那些无法用传统的方法来进行有效分析的数据，或者是可以用重要的横向放大技术进行有效处理的数据”[7]。相比现有的其他技术，大数据具有“廉价、迅速、优化”的优点。

大数据的特征可以用5个“V ”来概括：Volume （数据体量大）、Velocity （数据增长速度快）、Variety （数据类型多样）、Veracity （数据真实性高）、Value （数据价值丰富）[8]。有学者通过结合大数据的定义和5个V 的特征，提出大数据具有预警性、预测性、差异性、共享性和动态性等特性[9]。除了这些特性，大数据在健康领域还具有多态性、时序性、隐私性和冗余性等健康大数据特有的一些特性[10]。

根据不同的分类依据，大数据有多种分类方法。依据数字集合的结构状态分类，大数据可分

伤害医学（电子版）2019年3月，8（1）：1-5DOI：10.3868/j.issn.2095-1566.2019.01.001

2大数据与疾病监测

为：①结构化数据，如企业的财务系统、人事系统；②半结构化数据，如电子邮件、HTML网页；

③非结构化数据，如视频、移动终端、传感器等产生的数据。依据数据的应用类型，也可以将大数据分为海量交易数据、海量交互数据以及将交易和交互数据糅合起来进行处理的海量处理数据三类。而依据数据的来源，大数据可分为行政记录数据、商业记录数据、互联网及搜索引擎数据三大类[11]。1.2大数据常用分析方法

随着大数据时代的来临，作为处理分析大数据手段的数据挖掘应运而生。数据挖掘是指从数据库中，提取隐含在其中的人们事先未知、潜在的有用的信息和知识的过程，是传统统计分析方法的扩展和延伸[12]。它最主要的特点是在没有明确假设的前提下去挖掘信息并发现知识。

依据目的的不同，可以将数据挖掘分为预测型数据挖掘和描述型数据挖掘。①预测型数据挖掘的目的主要是根据历史数据中已知的结果，推断或预测未知数据的可能值，主要有回归和分类2种模式[13]。回归是指确定响应变量和一个或多个自变量之间依赖关系以构建预测模型，并对未知数据进行预测，常用的算法有线性回归、Logistic回归等；分类是指基于已知所属类别的历史数据的特征预先定义好类别，构建预测类别的模型，再根据待查数据的相关特征与这些类别相应特征之间的相似程度确定待查数据应划归入的类别，常用的算法有K-NN算法、决策树、人工神经网络、支持向量机及各种集成算法等。②描述型数据挖掘的目的是发现数据中潜在的联系模式或关系（相关、趋势、聚类、轨迹和异常），常用方法有关联规则、序列规则和聚类[13]。关联规则是指通过从大量数据中发现数据之间某些未知的、潜在的且有实际意义的关联或联系，并以关联规则的形式表现出来；序列规则可挖掘相对时间或其他模式出现频率较高的模式，通过对时间序列数据挖掘，可获得与时间密切相关的信息，实现知识获取；聚类是把不同的对象集合分成若干个不同类别的模型，每个模型具有相似的对象，有着基本相似的特征，又与其他类别中的对象不相同。

同时，作为数据挖掘技术的一种延伸，可视分析也在大数据的处理分析中占有重要地位。大数据可视分析是指在对大数据进行数据挖掘的同时，利用支持信息可视化的用户界面以及支持分析过程的

人机交互方式与技术，有效融合计算机的计算能力和人的认知能力，以获得对于大规模复杂数据集的深入认知[14]。目前大数据可视分析主要应用于文本可视化、网络（图）可视化、时空数据可视化、多维数据可视化四个方面。典型的文本可视化技术是“标签云”，即将关键词根据词频或其他规则进行排序，按照一定规律进行布局排列，用大小、颜色、字体等图形属性对关键词进行可视化；网络（图）可视化的目的是基于网络节点和连接的拓扑关系，直观地展示网络中潜在的模式关系；时空数据可视化可以与地理制图学相结合，重点对时间与空间维度以及与之相关的信息对象属性建立可视化表征，对与时间和空间密切相关的模式及规律进行展示；多维数据可视化是为了处理具有多个维度属性的大数据，包括了散点图、投影和平行坐标等分析方法[15]。大数据可视化能够有效地弥补计算机自动化分析方法的劣势与不足，辅助人们更为直观和高效地洞悉大数据背后的信息、知识。

1.3大数据与疾病监测

传统的疾病监测主要依赖于专门的疾病监测系统和公共卫生项目，由于技术和经费的制约，这种监测模式在监测的时效性、覆盖面和预警能力方面都有很大的局限性[16]，比如一些疾病的发生没有及时上报，部分地区无法得到有效监测，一些疾病的危险不能提前预测。而大数据和数据挖掘的出现则为疾病监测和预警提供了新的方向。通过互联网将医院、商业公司及政府收集的医疗健康大数据进行整合，利用数据挖掘技术分析，可以极大地扩大监测范围，并能动态地了解监测疾病的发生状况，进而及时对可能的疾病危险提出预警和做出反应。这种监测模式不仅克服了传统模式的诸多弊端，而且能有效地节约疾病监测成本。总之，大数据与疾病监测的结合将产生无法预计的健康和经济效益[17]。

2大数据在疾病监测中的应用

2.1传染性疾病监测

以大数据为基础的传染性疾病监测，根据数据来源不同可以分为三大类：社交通讯大数据，搜索引擎大数据和医疗大数据。进入信息时代，社交通信数据随着互联网的普及和通讯技术的发展得到大量的积累，可以在传染病监测中发挥巨大的作用。在通过社交网络大数据对传染病监测的案例中，