医疗大数据分析应用平台建设项目关键核心技术和算法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

医疗大数据分析应用平台建设项目关键核心技术和算法众多海量医药医疗数据为大数据管理与处理平台提出了诸多技术挑战。第一,由于数据是不断累积的,平台需具备高可扩展性;第二,存储层应适应不同的存取访问需求. 实时应用如医院的挂号和收费系统等,主要涉及小量数据的读取与写入,要求后端存储能够快速读写; 复杂应用如医疗历史数据挖掘等,涉及大量数据的读取,要求后端存储实现高吞吐量读取;第三,由于医疗数据关乎人的生命,需要保证平台的高容错与高可用性,能够应对常态化的出错问题。

1.1大数据分析能力

大数据分析能力体现在五个基本方面:

●大数据可视化分析能力

大数据分析的使用者有大数据分析专家,同时还有普通用户,二者对于大数据分析最基本的要求就是可视化分析。

●大数据挖掘发现能力

大数据分析的理论核心就是数据挖掘算法,被全世界统

计学家所公认的各种统计方法才能深入数据内部,更快速的处理大数据,挖掘出公认的价值;如果一个算法得花上好几年才能得出结论,那大数据的价值就减弱了。

●大数据预测趋势能力

大数据分析最重要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。大数据语义引擎能力

大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求。

●大数据质量和管理能力

大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。

1.2大数据分析技术

●数据采集:ETL工具负责将分布的、异构数据源中的数

据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

●数据存取:关系数据库、NOSQL、SQL等。

●基础架构:云存储、分布式文件存储等。

●数据处理:自然语言处理技术、人工智能等

●统计分析:假设检验、显著性检验、差异分析、相关分

析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等。

●数据挖掘:分类、估计、预测、相关性分组或关联规则、

聚类、描述和可视化、复杂数据类型(Text,Web ,图形图像,视频,音频等)挖掘。

●模型预测:预测模型、机器学习、建模仿真。

结果呈现:云计算、标签云、关系图等。

1.3大数据存储技术和系统

在数据存储系统体系结构方面,以大量廉价服务器组成无共享(shared-nothing) 集群的方式逐渐成为主流。这种体系结构易于实现高可用、高性能、渐进可扩展的存储系统,并且由于存储资源与计算资源紧密耦合,在扩充存储容量的同时,计算能力也能够同步增强,能够避免\存得下,算不出" 的问题。在软件方面,文件存储是最基本的数据存储方式。文件存储的优点是访问接口简单,文件格式可以由使用者灵活定义,因此文件存储往往作为更高级的数据管理系统的底层存储服务。目前能够存储超大规模数据的文件存储系统包括Lustre、Google file system (GFS)、Hadoop distributed file system (HDFS)以及Amazon S3 等。它们的共同特点是基于无共享架构、能够管理数百乃至数千存储节点、自动维护数据冗余或副本、高并发顺序访问吞吐率等。

1.4大数据业务模型建模

在更高级的数据管理方面,最重要的数据管理系统是以关系数据模型为基础的关系数据库系统(RDBMS)。关系数据模型最主要的优点之一是具有与一阶逻辑体系同等强大的知识表达能力,这意味着现实中的许多查询都可以用关系代数描述。此外,使用关系数据模型,用户能够方便地为各种对象以及对象之间的联系设计逻辑模型而无需了解数据库的实现细节。因此,在21 世纪之前,关系数据库被广泛应用于各类信息系统,如医院常用的电子病历系统、临床信息系统、用药管理系统、ICU监护系统等。关系数据模型虽然具有诸多优点,但要实现一个高效率的关系数据库系统却并不容易。这主要是因为:

(1) 为保证关系数据模型功能的完整性,很多数据操作难以进行专门优化;

(2) 为保证事务处理的原子性、一致性、分离性和持久性,带来了大量的额外开销。

因此在管理大数据时,以Oracle database、SQL server、

MySQL 为代表的传统关系数据库常常成为性能瓶颈。这些系统的低效不仅表现为查询速度慢,而且数据加载与建立索引的过程也十分漫长。由于原始数据和数据处理的中间结果大部分是非结构化(unstructured) 数据或半结构化(semi-structured) 数据,如网页、日志、文档、图片、视频等,传统关系数据库被认为不适用于存储这类数据,因此需要使用其他类型的数据管理系统。现有的针对此类数据的管理系统被笼统地称为NoSQL 数据库,按照数据模型分类,可以分为以下3种(按照数据模型由简单至复杂的顺序排列)。

键-值存储系统: 键-值(key-value) 数据模型将数据表示为键与值的映射关系。所有的键|值存储系统都支持的基本操作是给定一个键,查找其对应的值。当键上可以定义比较关系时,有些系统也支持键上的范围查询(range query)。键-值模型功能简单和易于实现,键-值存储系统一般具有极佳的可扩展能力和访问性能,因此多用于支持高并发的Web 服务查询或作为其他存储系统的高性能缓存。目前主流的

分布式键| 值存储系统包括Amazon dynamo、Redis、MemcacheDB 等。

●列族存储系统: 列族(column-family) 数据模型是在键-值模型基础上,将值定义为列族的集合,每个列族可以包含多个相关属性列。与键-值存储系统相比,列族存储系统支持的基本操作也是按值查找和范围查询,但允许用户指定返回的结果中所需包含的属性列,因此更加灵活易用,并且在仅用到小部分属性列的情况下查询性能更好。近10年来,最具代表性的大规模列族存储系统是Google bigtable,类似的系统包括HBase和Hypertable等。

●文档存储系统: 文档(document-oriented) 数据模型也可视为键-值模型的扩展,与列族模型不同的是它将值定义为类似广义表的数据结构。从抽象的角度看,列族模型是一种特殊的文档模型。文档存储系统除了支持基于键的查询,一般还允许用户指定值上的过滤条件(取决于具体系统实现),但更为灵活的数据结构需要更多空间存储以及更长时间解析,其查询速度通常比列族存储系统慢。目前主流的文档

相关文档
最新文档