医疗健康大数据分析的关键技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

医疗健康大数据分析的关键技术

大数据分析结构源于信息生命周期管理的概念:收集、储存、处理、传播。

经过多种领域长期的运用和在不断尝试、总结错误的基础上,SAS系统提供了包括以下几个大数据分析的技术过程和生命周期:

①识别和构造问题;②准备数据、定位和数据清

洗;③数据探索(摘要统计、图形分析等);④数据转换和选择(挑选范围和数据分组);⑤开发、校正和运行统计模型;⑥评价和监控模型结果,呈现和提炼分析模型。

这些步骤需求四个主要角色,即数据管理者、系统管理者、分析者和数据挖掘者。虽然以上是大数据分析的一般过程,但它高度适用于医疗健康大数据分析领域,见图1。

医疗健康大数据分析的

新技术

医疗健康大数据增长快速、半结构和非结构化,以及

这些系统首先存储能力不够,且一般都是独立的,不能分享与合并数据,而任何集中式的数据库系统仍然要面对如单一的控制点、瓶颈问题等,但这些问题可以通过使用分布式系统的设想来解决。云计算(一种分布式计算模式)、Hadoop、MapReduce和MongoDB等分布式系统在一些医疗健康研究单位对于存储和计算大量数据的使用已经变得很常见。

(1) 云计算

医疗健康实践者为了诊断患者在实时时间分享信息是必要的,但通过集中式的系统不能满足,因为在这样的系统中交互操作和观点分享很慢。云计算和服务技术对于解决“数据碎片化以致不能分享信息”这个问题可能有效,它能够提供使用者以共同的程序使用资源。

在技术上,云有能力储存大量的数据,并且它的计算部分提供一个IT平台来削减电子医疗系统记录的成本。

另外,云环境使得患者、医疗健康计划服务和实践者容易进入数据记录。Kuo报道云计算在信息交流技术(ICT)领域逐步发展,已经获得医疗健康组织持续的关注来克服许多互联网医疗障碍。

在数据信息的安全问题上,医疗健康信息系统(HIS)中分布式云计算结构的使用可能会造成信息的泄露,因为云掌握着患者的信息并能提供不同的服务给授权的使用者。所以患者的数据(特别是敏感的数据)应当通过采用综合的物理

安全、数据加密、使用者的真实验证等来保护。

在HIS中一个比较简单和通用的方框图模式为在安全使用和容易进入患者数据之间提供连接,模式结构包含了四个基本的模块也就是使用者的登录系统、患者的数据库、医生的数据库和医院医生的登录系统,出于安全的考虑这些模块可以阻止一些重要和敏感的患者信息进入。

其它分布式系统

除了云计算外,由Ha-doop、MongoDB等分布式数据库构成的数据网络可以分享和共用多个位点和资源的数据,包括并且不限于已经获得的临床实验、基因库或社交媒体资源,所以其分析的规模和统计能力都大大增强,又因为数据合作者始终保持数据的使用权所以数据隐私和安全可以得到保障。

Hadoop分布式系统平台在医疗健康背景下识别出问题后,可以从EHR等系统中提取数据,获取的数据再被数据转换工具转变为如患者姓名、地址和医疗历史记录等具体准则的数据标准格式;

接着,被转换过的数据被下载进入目标数据库,比如Hadoop分布文件系统(HDFS)中存储或进入能进一步加工和分析的Hadoop云系统,在其数据平台上进行软件和挖掘模型分析。

美国乔治梅森大学Feras等就是利用了Ha-doop开拓性的进行了国家层面医疗健康大数据的研究,他们创建的CHESS(医疗健康电子软件综合系统)平台可以把用户上传的各种数据集移到Hadoop开源平台上(不需要数据清洗和结构化)进行工具分析,还可在CHESS上进行Tableau、R、Excel和国家层面数据的SQLDB分析,见图2。

另外,美国FDA主持的“哨兵系统”也是一个Hadoop搭建的分布式数据网络,通过数据和分析工具的分享来监管医药产品的安全。

“哨兵系统”的一般数据模型(SCDM)是一套几个图表组成的标准化数据格式和图表,核心图表存在和位于所有数据合作者的位点上,见图3。

此外,“哨兵系统”主要使用SAS作为基础的分析系统,分析SCDM格式化了的数据,从中抽取想要识别的患者群,图4是其中一种图表分析方法,有分析的一致性、可重复、灵活性、大规模、透明化、再生性六种优点。

在Hadoop的基础上,MongoDB(一种能支持NoSQL查询的基于分布式文件存储的数据库)的出现增强了分布式系统的功能。

以Hadoop为框架,MongoDB可以把不同结构的文件储存在同一个数据库里,并通过加强MapReduce来完成复杂的聚合任务。

Antony选择糖尿病作为MongoDB分析的对象,因为糖尿病具有复杂庞大的数据。他的研究首先把各种资源处实时产生的数据集收集上来,图3“哨兵系统”的六个核心数据模型SCDM 手工输入到MongoDB的数据库中。

MongoDB可以实现快速储存和查询,输入结果由MapReduce程序自动产生。

Antony首先通过MapReduce得到了糖尿病人信息的详细描述,如每个患者的ID、胆固醇水平等,这些信息片段储存在

MongoDB中,然后再用机器学习中的NaiveBayes(朴素贝叶斯分类器)筛选出信息特征,再对这些特征进行概率分类,最后得出各种特征的风险评估概率,得出预测结果,如年龄46岁发生糖尿病的风险概率是80%,见图5。

相关文档
最新文档