基于大数据的医疗卫生信息平台建设研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于大数据的医疗卫生信息平台建设研究
聂文梅刘宏英张叶娥李勇宋晓霞
(山西大同大学数学与计算机科学学院大同037009)
摘要: 随着大量智能医疗设备的广泛使用和医疗数据的指数级增长,医疗卫生领域正面临着大数据的挑战。这些挑战对医疗卫生信息平台建设提出了新的要求。在对山西省医疗卫生信息平台现状分析的基础上,构建了一个符合山西省医疗特点的基于大数据的医疗卫生信息平台。与传统的医疗卫生信息平台相比,该平台又集成了无线传感网、智能医疗设备无线网和云平台,综合运用了Hadoop、Storm和MOM等大数据技术对医疗卫生数据进行了收集、存储和分析处理,能够更优质更广泛地服务于患者、医护人员乃至政府决策人员。
关键词:大数据,医疗卫生信息平台,Hadoop,Storm,MOM
中图法分类号:TP301. 6文献标识码A
目前医疗信息数据处于从传统业务交易数据到大数据积累的转折点,尤其影像数据这类非结构化数据成为了重要的业务数据之一。据IDC 预测,中国的大数据市场在2012-2016年间将增长5倍。区域化的发展,使数据在省内聚集,数据规模更加客观;医疗行业是与人口呈现正相关的行业,中国的人口基数使得大数据成为不得不使用的方法;传统的医疗信息处理方式经历了PC、PC集群、小型架构和大型主机四个阶段。然而,这些传统的方式已经不能满足省级医疗数据的处理,大数据的高性价比使其成为解决医疗信息的一个重要手段。
大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据有4V特点,即V olume(量大),数据已经从 TB 级跃升至PB级;Velocity(高速),Twitter每天产生大约8TB的信息[1];Variety (多样),区别于传统的数据结构和类型,数据结构和类型更加复杂,超过80%的数据都是非结构化数据,比如网上的流媒体数据、物联网中RFID感应数据以及社交网络上产生的各种数据等;Value(价值),是不得不考虑的,是决策的依据。这样的数据集对存储、分析和可视化提出了新要求[2,3]。
为了解决大数据面临的存储、分析和可视化挑战,人们开发了能够进行多线程计算任务的新软件程序框架[3-5]。文献[1]采用了MapReduce和Hadoop对临床数据进行分析,说明这两个开源工具可以充分用于医疗领域。文献[6]开发了基于Hadoop的医疗信息处理系统,采用分布式算法实现大数据处理。许多文献研究了医疗传感网,但大部分是与可穿戴式医疗传感器相关的[7,8,9]。也有人开发了用于监测病人日常活动的基础设施[10], 如用于家庭监护[11]和用于医院监护的[12]。它们都没有从大数据的处理角度考虑问题。考虑大数据技术,将无线传感网与云计算结合进行整合的如文献[13],但它只用于大数据的
收集。还有文献[14,15]也提出了分布式无线传感网中节能的大数据收集办法。文献[16]对大数据开源工具与Storm进行了对比研究;文献[17]提出了一个新的基于云的网页服务集群方法—Twitter Storm,但只是用来处理来自客户端的网页服务请求;Storm可以低延迟的处理实时流大数据[18],Storm也可作为实时数据处理的工具[19]。
但以上文献大部分都不是对大数据工具进行整合的,即使有些文献有一定的整合,但他们也不是针对医疗信息现状整合的平台。
山西虽然建立了以山西医疗健康网、山西卫生信息网和山西妇幼保健信息网为主的网络平台,但其功能仅限于传播医疗知识,发布医疗信息,网上挂号和网上咨询等。山西省医疗卫生仍然面临着新的挑战:1)优质卫生资源不足,医生医疗水平低,医疗设备缺乏,优质医疗资源分布不均衡。2)山西省人均可支配收入低,医疗费用昂贵,降低看病成本是亟待解决的一个问题。3)山西省是地方病高发区和重病区,缺乏地方病有效治疗方案和典型病例的推广和研究。
针对山西省医疗卫生信息平台的现状和山西医疗卫生存在的挑战,本文通过对无线传感网、智能医疗设备无线网和云平台的集成而构建了一个医疗卫生信息平台。该平台与传统的医疗信息平台相比,新增了诸多功能,如远程医护培训、远程治疗、远程护理、药品全程管理、通过云平台建立的优秀案例库以及地方病防治系统。从而有效地解决了山西的优质卫生资源不足、分布不均衡;看病成本高和地方病有效治疗的推广和研究问题。从而,该平台能够真正服务于患者、医护人员乃至政府决策人员。
1相关技术
Hadoop是一个平台,MapReduce是一个并行处理框架,提供分布式存储和计算能力,在单个计算机节点和集群上开源实现。对比现有的并行处理方法,Hadoop和MapReduce有两个优点:1)通过复制计算任务的容错存储产生可靠地处理和克隆数据块在计算集群的不同计算节点。2)高吞吐量数据处理通过批处理框架和Hadoop分布式文件系统(HDFS),存储在HDFS的数据随时可用[5]。
Storm也是一个并行处理工具[20],是针对Hadoop系统的扩展性和代码的繁琐性,以及粗糙的容错处理机制提出的,支持实时流处理、扩展机制简单、任务力度相对灵活,用户可以使用Storm称之为Topology的简单架构根据需要编写自己的任务函数,可以通过MapBolt和ReduceBolt函数实现Mapreduce功能。Storm
不存储中间数据,组件之间通过消息方式传递数据,对于不需要中间存储的数据来说,降低了处理过程的繁琐和延迟。Storm的易用、快速、容错、可靠性和扩展性这五大特性让其成为处理实时数据流的首选工具。
面向消息中间件(Message-oriented middleware, MOM),指的是利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据
通信来进行分布式系统的集成[21]。通过提供消息传递和消息排队模型,它可在分布环境下扩展进程间的通信,并支持多通讯协议、语言、应用程序、硬件和软件平台。目前流行的MOM中间件产品有IBM的MQSeries、 Java消息服务 (Java Message Service,JMS)等。JMS 应用程序接口,是一个Java平台中关于面向消息中间件MOM的API,用于在两个应用程序之间,或分布式系统中发送消息,进行异步通信。JMS是一个与具体平台无关的API,绝大多数MOM提供商都对JMS 提供支持。
2基于大数据的医疗卫生信息平台2.1医疗卫生信息平台架构
针对山西省医疗卫生发展中的矛盾冲突以
及医疗卫生领域自身特性[22],本文采用政府、医疗机构和具有专业信息化技术的企业的联合模式来构建山西省医疗卫生信息化平台架构,实现数字化医院和基于公共卫生的区域医疗信息化。在医生、设备等医疗资源有限的情况下,区域信息服务平台首先是按照政府的要求建设运营,为政府提供服务,让政府买单;同时,通过数据的二次开发,给医药、健康管理公司等提供参考,让企业买单;另外,可以同步开拓基于个人家庭的终端业务,如血压、血氧、心电等方面的监测,并将监测的信息数据上传到个人电子信息健康档案,更好地发挥电子健康档案的作用,然后实行一定的合理收费。通过企业、政府、医疗机构三方的合作,实行社会投资、市场化运作、专业化管理,最后实现政府、企业、相关医疗事业单位和个人共同买单,共同受益,从而有效解决我省医疗卫生事业的矛盾冲突,更好的促进卫生事业的发展。
从技术角度考虑,平台充分运用物联网技术、射频识别(RFID)技术、传感器技术、云计算以及一些智能终端(比如Smart Phone)等对医院原有信息系统进行扩充和整合。
基于大数据的医疗卫生信息平台架构由无
线传感网(Wireless sensor network, WSN)、智能医疗设备无线网、传统医疗信息网和云平台构成,如图1所示。该架构是对传统医疗信息网络的扩充和整合,具有以下特点:
1)充分利用基于RFID技术和传感器技术的一些仪器或设备来对药品、医疗器械和设备以及病人进行识别、监测以及生命体征信息的采集和交换。
2)提供了基于3G、Wi-Fi和WiMAX等移动通信网、无线传感网和互联网信息传输平台,云计算平台提供异构海量数据的分析处理和挖掘、存储等服务,从而为用户提供全面实时的医疗卫生信息服务。