数据挖掘论文医学数据论文:医学数据挖掘综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘论文医学数据论文:医学数据挖掘综述

摘要:医学数据挖掘是提高医学信息管理水平,为疾病的诊断和治疗提供科学准确的决策,促进医疗发展的需要。该文主要介绍了医学数据的特点,医学数据挖掘的发展状况和应用的技术方法,同时展望了数据挖掘技术在医学领域的应用前景。

关键词:数据挖掘;医学数据;神经网络;关联规则

summary of medical data mining

wang ju-qin

(department of computer technology, wuxi institute of technology, wuxi 214121, china)

abstract: medical data mining is necessary for improving the management level of medical information, providing scientific decision-making for the diagnosis and treatment of disease, and promoting the development of medicine. this paper mainly introduces the characters of mining medical data, the application and methods used in medicine, and also the application prospect medical field is outlined.

key words: data mining; medical data; neural network; association rules

1 数据挖掘的产生

1.1 产生背景

在当今信息化和网络化的社会条件下,随着计算机、数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业都开始采用计算机以及相应的信息技术进行管理和运营,由此积累了大量的数据资料;另外,互联网的发展更是为我们带来了海量的数据和信息。但是,这些存储在各种数据媒介中的数据在缺乏强有力的工具的情况下,已经超出了人的理解和概括能力,导致收集在大型数据库中的数据变成了“数据坟墓”,并带来了一大堆问题:比如信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理,等等[1]。而激增的数据背后隐藏着许多重要的信息,决策者的决定往往不是基于数据库中的有用信息,而是凭直觉,因为决策者缺乏从海量数据中提取有价值知识的工具。数据和所需信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转化成知识的“金块”,人们迫切需要新一代的计算技术和工具来挖掘数据堆中的有用信息。

1.2 可行性

近十余年来,计算机和信息技术有了长足发展,产生了许多新概念和新技术,如更高性能的计算机和操作系统,因

特网,数据仓库,神经网络等等。这使得数据挖掘技术在具备了市场需求的条件下,同时也具备了技术基础。在这样的背景下,数据挖掘技术就应运而生了。

2 医学数据概述

2.1 医学数据的内容

计算机信息管理系统在医疗机构的广泛应用促进了医学信息的数字化, 同时电子病历和病案的大量应用、医疗设备和仪器的数字化,使得医学领域数据的内容不断扩大,涵盖了医疗过程和医学活动的全部数据资源。医学数据资料主要来源于统计报表、医疗卫生工作记录、专题实验或者调查记录、专题性的资料等三个方面[2],其中主要包括完整的人类遗传密码信息,大量关于病人的病史、诊断、检验和治疗的临床信息,药品管理信息、医院管理信息等。

2.2 医学数据的特点

1)模式的多态性。首先表现为表达格式的多样性。医学信息包括纯数据(体征参数,化验结果),信号(脑电信号,机电信号),图像(b超,ct等医学成像设备的检验结果),文字(病人的身份记录,症状描述),以及动画、语音和视频信息。其次,数据表达很难标准化,对各种病例状态的描述也比较模糊,没有统一的标准和要求,不使用完全相同的专有名词,甚至对临床数据的解释都是用非结构化的语

言,等等[3]。模式多态性是医学数据区别于其他领域数据的最根本和最显著的特性,同时这种特性也在一定程度上加大了数据挖掘的难度和速度。

2)不完整性。医学数据不可能全面地反映任何一种疾病的全部信息,因此也不可能通过挖掘,针对某一种疾病获取完整可靠的治疗和解决方案。这首先是因为医学数据相关信息(例如病例等)的记录存储还不是很完备和充分,还不能够达到完全总结出待挖掘规律的数量[3]。同时,即使记录在案的信息,其本身的表达方式就比较模糊,不可能通过精确值等方法来呈现,因此这些原因形成了医学数据的不完整性。

3)时间性[3]。一般情况下针对病人医疗活动的记录信息都具有一定的时间特性,并且会随着时序环境的变化而产生不同的表达效果;另外诸如医学检测的波形图像等信息也都是以时间函数为基础进行表达的。

4)冗余性。医学数据信息中有大量的相同部分被重复记录下来,比说一些常见疾病,病人的症状表现一般都比较相似,检查和化验的结果以及最后的治疗措施等绝大部分也因此而相同。因此即使病人的个人信息等存在较小差异,其记录的大部分医学数据都表现为完全相同或者大部分相同,这就体现为冗余性[3]。这种数据特点不但迅速增加了此类

数据本身的数量,同时也给挖掘操作带来了更大的困难,应该在此之前就对这些冗余信息进行清理和过滤,去除不必要的重复部分,以简化挖掘操作的实现过程。

5)隐私性[8]。显然,记录的医学信息中,许多有关病人个体的信息涉及到社会伦理,法律以及个人所有权等,具有一定的隐私性,从社会,医学以及病人本身等方面来说都必须进行保护,不能外泄。但是当数据存储系统受到一些不可预料的侵入时,或者当其隐私保护的要求和挖掘操作的开放共享要求等产生矛盾时,势必会带来隐私性、安全性和机密性方面的问题。这就要求在进行医学数据挖掘时,必须严格以保护数据隐私为基础,

2.3 医学数据挖掘的可行性和必要性

2.3.1 必要性

众所周知,庞大的医学数据中蕴含着许多非常有价值的信息资源,这些资源对于相关病例的诊断治疗以及医学方面的研究发展都具有非常重要的意义。但是从目前的状况来看,大多数医学机构和人员对这些存储数据的利用还远远没有达到预期的目标和效果,仅局限于一些低端的操作和使用,比如简单的数据录入,数据的查询、修改、删除等,而并没有对收集的数据进行系统的分析研究,以从中得出适用于一般的规律特点,所以无法对相关病例的后继诊断提供科

相关文档
最新文档