浅谈医学大数据

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅谈医学大数据

陈遵秋和陈漪伊夫妇是美籍华人，现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表，与大家一起探讨。

现在无论国内外均出现了移动医疗热，所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说，90% 以上的人都不知道医疗大数据分析是什么东西，因此这是一篇扫盲贴，但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本，以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。

大数据定义及其特征

大数据顾名思义就是数量极其庞大的数据资料。从上世纪80 年代开始，每隔40 个月世界上储存的人均科技信息量就会翻倍(Hibert & Lopez, 2011)。2012 年，每天会有2.5EB 量的数据产生(Andrew & Erik, 2012)。现在，2014 年，每天会有2.3ZB 量的数据产生(IBM, 2015)。这是一个什么概念？现在一般我们电脑的硬盘大小都以GB，或者TB 为单位了。1GB 的容量可以储存约5.4 亿的汉字，或者170 张普通数码相机拍摄的高精度照片，或者

300-350 首长度为5-6 分钟的MP3 歌曲。那GB 和TB, EB，ZB 的关系又是怎样？

1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一台1TB 硬盘容量的电脑，那1ZB 就是大致等于10 亿台电脑的容量, 远远超出了我们一般的想象。

早期，IBM 定义了大数据的特性有3 个：大量性（Volume）, 多样性（Variety）, 快速性（Velocity）(Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后来又有学者把价值（Value）加到大数据的特性里。随着时间的推移和人们思考的进一步完善，又有三个大数据的特性被提出：易变性（Variability），准确性(Veracity) 和复杂性(Complexity)。

作者认为价值本质上是数据被分析后体现出来的有用信息知识的程度，和其他几个特性有根本区别。其他几个特性可以说是数据工作者具体实践中面临的挑战，而价值则是征服这些挑战后获得的回报。

大数据的6个特性描述如下：

大量性：一般在大数据里，单个文件大量性的级别至少为几十，几百GB 以上，一调查(Russom, 2013) 显示相当多的机构拥有的数据总量在10 到99TB 之间。用我们传统的数据库软件，1GB 已经可以储存千万条有着几百个变量的数据记录了。

多样性：泛指数据类型及其来源的多样化(Troester, 2012)，进一步可以把数据结构归纳为结构化(structured)，半结构化(semi-structured)，和非结构化(unstructured) (SAS, 2014) 。

快速性：反映在数据的快速产生及数据变更的频率上。比如一份哈佛商学院的研究报告称在2012 年时，谷歌每天就需要要处理20PB 的数据(Harvard Business Review, 2012)。

易变性：伴随数据快速性的特征，数据流还呈现一种波动的特征。不稳定的数据流会随着日，季节，特定事件的触发出现周期性峰值(Troester, 2012)。

准确性：又称为数据保证(data assurance)。不同方式，渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低(W.Raghupathi & Raghupathi, 2014)。所谓“垃圾进，垃圾出”。没有数据保证，大数据分析就毫无意义。

复杂性：复杂性体现在数据的管理和操作上。IT 时代，随着数据来源及数据量的爆发，各种不同渠道数据的大量涌现，数据的管理和操作已经变得原来越复杂。如何抽取，转换，加载，连接，关联以把握数据内蕴的有用信息已经变得越来越有挑战性。

医疗大数据的爆发

早期，大部分医疗相关数据是纸张化的形式存在，而非电子数据化存储，比如官方的医药记录，收费记录，护士医生手写的病例记录，处方药记录，X 光片记录，磁共振成像（MRI）记录，CT 影像记录等等。

随着强大的数据存储，计算平台，及移动互联网的发展，现在的趋势是医疗数据的大量爆发及快速的电子数字化。以上提到的医疗数据都在不同程度上向数字化转化。

有报告显示，2011 年，单单美国的医疗健康系统数据量就达到了150EB。照目前的增长速度，ZB（约1021GB）和YB（约1021GB）的级别也会很快达到(IHTT, 2013)。Kaiser Permanente，一个在加州发展起来的医疗健康网络系统, 就有9 百万的会员，被认为拥有26.5 到44PB 的电子健康记录(IHTT, 2013)。

IT 时代涌现的还有各种网络社交媒体数据，比如曾经Google 用来预测流感的数据。基因数据也是非常庞大的存在，一次全面的基因测序，产生的个人数据则达到300GB (Leah, 2014)。公开发布的基因DNA 微阵列达到50 万之多，每一阵列包含数万的分子表达值。在生物医药方面，功能性磁共振影像的数据量也达到了数万TB 级别，每一幅影像包含有5 万像素值(Fan, Han, & Liu, 2014)。

此外，各种健身，健康可穿戴设备的出现，使得血压、心率、体重，血糖，心电图（EKG）等的监测都变为现实和可能，信息的获取和分析的速度已经从原来的按“天”计算，发展到了按“小时”，按“秒”计算。比如，一家名为Blue Spark 的科技公司已经生产出能24 小时实时监测体温的新型温度计贴片temptraq。

这种数据的扩展速度和覆盖范围是前所未有的，数据的格式也五花八门，可能是无格式文件（flat file），CSV，关系表，ASCII/ 纯文本文件等等。

同时，数据的来源也纷繁复杂，可能来自不同的地区，不同的医疗机构，不同的软件应用。不可否认，一旦理顺了多格式，多源头，呈爆炸性成长的大数据的整合和分析，医疗大数据将对提高医疗质量，强化患者安全，降低风险，降低医疗成本等方面发挥无与伦比的巨大作用。

医疗大数据的优势和应用场景

有效的整合和利用数字化的医疗大数据对个体医生，康宝中心，大型医院，和医疗研究机构都有着显著的好处。