医学数据挖掘研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学数据挖掘研究
陈彬玫①
①成都市郫县中医医院,610225
摘要当今医疗数据海量增长,利用数据挖掘找出对各类医疗决策有价值的知识迫在眉睫。本文介绍了大数据时代背景下医学数据的内容和特点,并研究了数据仓库构建医疗信息化知识平台的动力、关键技术,最后总结了医学数据挖掘挑战。
关键词医学数据;数据挖掘;数据仓库;
1 引言
以计算机技术为核心的信息与通信技术凭借互联网的飞速发展,大大地促进了医疗卫生行业各个应用领域和行业的发展,形成了包括医院信息系统、公共卫生信息系统、远程医疗、家庭护理和区域协同医疗等数百亿的医疗卫生ICT产业,并得到了学术界和工业界的广泛重视。医疗信息化的发展,也促进了医疗数据的爆炸性增长。
但是,医疗信息化也面临很多问题。在资源利用方面,大病小病都找三甲医院,优质医疗资源紧张,医生的经验与精力也有限,没有充分发挥医生的价值。在医患信息交流方面,信息缺乏,信息不对称。民众医学健康、预防、康复知识匮乏,信息化建设的过程中也缺乏病人的主动参与。对于医疗行业本身,患者个体差异大,医疗疾病种类繁多,复合疾病常见,关系复杂,很难标准化、自动化。在医学认知方面,新的疾病不断产生和变化,医疗发展水平还有未知领域。
人的健康是开展医疗信息化的最终目的,也是国家投入巨资推动医疗信息化的出发点和落脚点。目前,区域医疗信息化是投资的重点,其主要内容是以电子病历和电子档案为基础的数据集成和共享。在这些信息系统的基础上,医疗服务将从传统经验分析和临床试验发展到从海量医疗健康数据中挖掘医疗知识,利用信息化技术创造优质的医疗服务惠及广大民众。
2 医学数据挖掘的研究动力
2.1 伦理需求身体健康是人类社会的本质需求。因此,医疗信息化的根本使命是保证人们身体健康,满足个性化医疗服务,最大限度保证公民的医疗质量和医疗安全。通过信息化建设和数据挖掘平台的建设,可以促进现代医疗模式的应用,大大扩展了医疗服务的活动范围。进而使得社会获得巨大的信息化红利,提高人们的生活水平和生活质量。
2.2 经济效益医疗行业是继电信行业之后最有可能深入广泛开展数据挖掘并从中获得实际效益的行业之一。医疗行业是具有大量现金流的行业,完全有能力通过开展数据挖掘。作为根本的民生举措,国家也在持续加大投入。计世资讯《2013年中国医卫行业信息化建设与IT应用趋势研究报告》的研究结果显示,2012年中国医卫行业IT投入达185.6亿元,较2011年同比增长22.6%;2013年医卫行业信息化建设投入将继续保持理性状态,呈现平稳增长趋势。2013年中国医卫行业的IT投资规模约为225.5亿元人民币,较2012年同比增长21.5%。如下图所示。
图1 2011-2013年中国医疗行业信息化投资规模
通过开展数据挖掘,医疗单位可以提升医疗服务质量,增加医疗项目,降低医疗费用和医疗风险。
2.3 数据资源医疗行业具有丰富的第一手的数据资源。医院每天都在产生数据,人们在生活的过程中时时刻刻在产生数据指标。这些数据通过建模、抽取、加载和转换,经过计算机的处理,将成为个人医疗服务和疾病诊断的宝贵资料。
3 医学数据的内容及特点
3.1 种类多样和模式多态医学数据产生于医院的日常经营过程中,既包括医院管理信息,也包括临床医疗信息。医学数据具有多种形式,包括影像、信号、纯数据、文字以及用于科普、咨询的动画、语音和视频信息等,医学数据的多样性是它区别于其他领域数据的最显著特征[1-4]。
3.2 异质性医生和患者沟通过程是一种社会性沟通过程,其中的诊断数据采集难度大,不易标准化。这给数据的建模和集成带来巨大挑战。
3.3 数据的隐私性医学资料是关于人的资料,涉及隐私、伦理、法律和社会方面的问题。因此医学数据挖掘者有义务和职责在保护患者隐私的基础上进行科学研究,并且确保这些医学数据的安全性和机密性[1-4]。文献[7,9]探讨了隐私性的解决方案。
3.4 不完整性由于疾病的个体差异以及诊治医生的不同,许多医学信息的表达和病案记录本身就具有不确定性和模糊的特点,有一定的主观性。病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映[1-4]。
3.5 时间性人的生命和就诊记录都是时间的函数,医学检测的波形、图像也是时间的函数,这些数据具有时间序列性。
3.6 冗余性医学诊疗记录的社会化属性决定医学数据是现实社会反映,必然存在很多冗余的数据。
4 医学数据挖掘平台的构建
4.1 数据仓库的概念数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
这是一个偏向学术的定义,却非常准确的界定了数据仓库与其他数据库系统的本质区别。数据库是一种通用平台,建立于严格的数学模型之上,用来管理企业数据,进行事务处理,完成相关业务。而数据仓库没有严格的数据理论,更偏向于工程,它不是花钱就可购买到的成品,而是企业一个日积月累的建立过程,它的应用对象是不同层次的管理者,它的数据源是多种数据源,库中数据无须修改删除,主要是大规模查询和分析,因此要求有大量的历史数据和汇总数据。
4.2 医学数据挖掘的过程数据仓库的目的就是在多个维度整合和归纳数据,包括数据清洗、数据集成、数据转换、数据加载(ETL过程)等(如图2所示)。数据仓库可以看作是数据挖掘的一个重要过程。另外,数据仓库还提供OLAP工具用于交互分析:多维数据在不同粒度上的分析——方便高效的数据整合和挖掘。可以继承到OLAP操作中的数据挖掘工具包括:关联分析、分类、聚类和预测等(这些操作都可以增强知识的挖掘)。因此数据仓库是医学数据挖掘的一个非常重要的平台。