谷歌流感趋势的启示:大数据分析中的陷阱
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
谷歌流感趋势的启示:大数据分析中的陷阱*
本文译自 ,“The Parable of Google Flu: Traps in Big Data Analysis ”,2013,343(3):1203~1205一文。
2013年2月,谷歌流感趋势
(Google flu trends, GFT)成为新闻头条,但原因并非如谷歌高管们或者流感追踪系统开发者所愿。《自然》(Nature )杂志发表文章指出,GFT 预测的流感样病例(influenza like illness, ILI)门诊比例超过了美国疾病控制和预防中心(the Cen-ters for Disease Control and Preven-
tion, CDC)基于全美各实验室监测报告得出的预测结果的两倍多
[1, 2]
。尽管开发GFT 的目的是预测CDC 报告,但还是出现了预测结果远远高于实际的问题。鉴于GFT 通常被认为是大数据应用的典范[3, 4],那么我们能从这个错误中总结出
作者:大卫·拉泽(David Lazer) 莱恩·肯尼迪(Ryan Kennedy) 盖瑞·金(Gary King) 亚历山德罗·维斯皮那尼(Alessandro Vespignani )译者:张志昌
关键词:谷歌流感趋势 算法动力学
什么经验教训呢?
我们所要探讨的问题不仅仅限于GFT 。对搜索或者社会媒体是否能预测某个未知参数x 的研究已经屡见不鲜 [5~7],并且常常与传统的方法和假设构成鲜明的对
比。虽然这些研究已经体现出搜索历史、社会媒体等数据的价值,但还远远没有达到可以取代传统方法或理论的地步[8]。这里我们将探讨导致GFT 发生错误的两个原因——对大数据的浮夸和算法动力学,并从中总结经验教训,使我们能够在大数据时代更好地前进。
对大数据的浮夸
“对大数据的浮夸”经常隐含这样一种假设, 即认为大数据是传统数据收集和分析方法的替代品,而不是传统方法的补充。我们已经在很多地方断言,大数据中存在
流感预测中的巨大误差在很大程度上是可以避免的,这为大数据的应用提供了经验教训。
着巨大的科学机遇[9~11]。但是,数据量并不意味着我们可以忽略测量的基本问题、结构效度、可靠性以及数据间的依赖关系[12]。大数据时代的核心挑战是,被广泛关注的大部分大数据并非是那些可生成适合科学分析的有效、可靠数据的设备的输出结果。
GFT的最初版本是一个特别的、有问题的大数据与小数据间的联姻。从本质上讲,其所用的方法是从5000万个搜索词中寻找可拟合1152个数据点的最佳匹配[13]。找到了与流感趋势匹配的检索词,但流感趋势和检索词在结构上不相关,因此无法用来预测流感发展趋势,这种可能性相当高。实际上,GFT的开发者声称已经去除了与流感无关却与CDC的数据密切相关的季节性检索词,比如与高中篮球相关的数据[13]。这本应当是对我们的警示,说明大数据可能会过拟合数量很少的案例。在通常情况下数据分析都必须注意这一问题。这种随心所欲地去除某些搜索词汇的方法在预测2009年非季节性甲型H1N1流感时失败了,根本没有预测到其流行[2,14]。简而言之, GFT的最初版本功能部分是流感探测,部分是冬季探测。GFT的工程师在2009年更新了算法,该模型一直沿用至今,只在2013年10月发布了几处更新[10, 15]。
尽管在2013年之前没有被广泛报道,但新的GFT已经在更加长的一段时间内一直在高估流感的流行情况。在2011~2012年的流感季节里,GFT的预测结果与实际情况有非常大的差距。从2011年
8月份开始的108周时间内,GTF
有100周的预测结果过高(见图1)。
这些误差不是随机分布的。例如,
上一周的预测误差会影响本周的预
测结果(时间自相关),误差的方向
和大小会随时间(季节性)而变化。
这些模式说明GFT忽略了值得考
虑的信息,而这些信息是可以用传
统的统计学方法提取的。
即使2009年对GFT进行了
更新,把算法的比较值看作一个
独立的流感监测器还是有问题的。
2010年的一项研究表明,GFT预
测流感的准确度并不比利用已有
的CDC数据(通常有2周的滞后)
进行相当简单的前向投影所推测
出的结果好[4]。从那时起,GFT的
比较值变得甚至更差,CDC滞后
模型的效果要明显优于GFT(见
图1)。甚至用3周前的CDC数据
来推测当前流感的流行情况,效果
都比GFT的预测结果好(见补充
材料(SM))。
在有大量的方法可以推测流
感活动的情况下[16~19],是否意味
着当前版本的GFT就没用了?当
然不是。通过把GFT与其他接近
实时的健康数据相结合,可以获
得更大的价值[2, 20]。例如,将GFT
07/01/1007/01/1107/01/12
图1 GFT的过高估计。对2012~2013年季节性流感的流行情况,GFT 的估计过高;对2011~2012年流感疫情的估计比实际情况高50%。从2011年8月21日到2013年9月1日,GFT在为期108周的时间里有100周的预测结果都偏高。上图:对流感样病例门诊数的估计结果。“CDC 滞后模型”结合了滞后的CDC数据和52周的季节性变量。“Google Flu + CDC”模型结合了GFT、滞后的CDC估计、GFT估计的滞后偏差以及52周的季节性变量;下图:偏差[以百分比表示,{(非CDC估计值-CDC估计值)/CDC估计值}]。两种替代模型的偏差都要比单独使用GFT的偏差低;GFT在样本外期间的平均绝对偏差为0.486,CDC滞后模型的平均绝对偏差为0.311,GFT与CDC相结合的平均绝对偏差为0.232。以上这些差异在P<0.05时有统计显著性。见补充材料SM。