数据挖掘在医学方面的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘在医学方面的应用

摘要：着信息技术的发展，采集、存储和管理数据的手段日益完善。数据挖掘学科应运而生。本文介绍数据挖掘的概念和应用，以及国内医学方面数据挖掘的应用现状及展望。

关键字：数据挖掘医学

Abstract: The discipline of data mining emerges with the development of technology and maturation of methods of data collection, storage and management. The paper introduces the concept of data mining. This paper introduces data mining concepts and applications, as well as domestic medical data mining application status and its prospect.

Key Words: data mining；biomedical

1引言

随着数据库技术的飞速发展，信息技术已渗透到包括医学在内的各种领域。很多大中型医院都相继建立了自己的医院信息系统(HIS)，随着HIS的应用和不断发展，数据库中的数据量迅速膨胀，数据库规模逐渐扩大，复杂程度日益增加。但是尽管积累了大量的业务数据，真正能将这些数据的价值挖掘出来，并运用到医院的临床辅助诊断和日常管理决策中去的却很少。提出了建立基于HIS系统的医学信息数据仓库，在此基础上，对数据仓库中的医疗数据进行疾病监测、预测、医院管理辅助决策等方面的数据挖掘。为医务工作者、临床管理人员、科研人员提供辅助决策与综合分析的工具。在医疗方面具有重要的意义。

2.数据挖掘技术介绍

2.1数据挖掘额的概念

数据挖掘是商务智能应用中较高层次的一项技术，是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程1。利用数据挖掘用户将可以更加方便地发现数据的规律，用户可以利用这些规律对某些符合特征的数据作出预测。

数据挖掘所得到的信息应具有先未知，有效和可实用三个特征。先未知是指数据挖掘所得到的信息应该是先前不能凭直觉或一般的技术方法所能得到的信息，挖掘到的住处越是出乎意料就可能越有价值。在这方面的一个典型例子就是一家连锁商店通过数据挖掘发现小孩尿布和啤酒之间有着惊人的联系。而有效和可实用是数据挖掘的目的所在。

数据挖掘的分析方法有很多种，针对不同的用途就有不同的分析方法，比较常见的分析方法有一下集几种：分类、预测、相关性分组活关联规则、聚类、估值、描述和可视化、复杂数据类型挖掘，包括文本数据挖掘。WEB数据挖掘、图形图像数据挖掘、视频和音频数据挖掘。

2.2数据挖掘的过程

数据挖掘的过程一般由三个主要的阶段构成：数据准备、开采操作、结果表达和解释，对知识的发现可以描述为这三个阶段的反复过程。

(1)数据准备

这个阶段又可进一步分成三个子步骤：数据集成，数据选择、数据预处理。数据集成将多文件和多数据库运行环境中的数据进行组合，解决语义模糊性，处理数据中的遗漏和清洗无效数据等。数据选择的目的是辨别出需要分析的数据集合，缩小处理范围，提高数据挖掘的质量。预处理是为了克服目前数据挖掘工具的局限性。

(2)数据挖掘

这个阶段进行实际性分析工作，包括的要点是：先决定如何产生假设，是让数据挖掘系

统为用户产生假设，还是用户自己对数据库中可能包含的知识提出假设，前一种称为发现型的数据挖掘；后一种称为验证型的数据挖掘。再选择合适的工具进行发掘知识的操作，最后进行证实。

(3)结果表述和解释

根据用户的需求对提取的信息进行分析，挑选出有效信息，并且通过决策支持工具进行移交。因此，这一步骤的任务不仅是把结果表达出来(例如采用信息可视化方法)，还要对信息进行过滤处理，如果不能令用户满意，需要重复以上数据挖掘的过此，这一步骤的任务不仅是把结果表达出来(例如采用信息可视化方法)，还要对信息进行过滤处理，如果不能令用户满意，需要重复以上数据挖掘的过程。

2．3数据挖掘的功能

(1)自动预测趋势和行为：数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

(2)关联分析：数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

(3)聚类：数据库中的记录可被划分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。

(4)概念描述：概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。

(5)偏差检测：数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。

3数据挖掘在医学中的应用

3．1数据挖掘在生物医学／DNA中的应用

随着全球人类基因组计划(Human Genome Project)对人类24对染色体全部基因测序的完成，人类基因的研究将进入全新的发展阶段。因此对DNA的序列模式分析是分子生物医学领域工作者面临的重要任务，而数据挖掘成为DNA分析中的强有力的工具，并在以下方面对DNA 的分析做出不小的贡献。

(1)DNA序列问相似搜索与比较：在基因分析中一个最为重要的搜索问题是DNA序列中的相似搜索和比较。对分别来自带病和健康组织的基因序列，进行比较以识别两类基因间的差异。做法可以是首先从两类基因中检索出基因序列，然后找出并比较每一类中频繁出现的模式，通常在带病样本中出现频度超出健康样本的序列，可以认为是导致疾病的基因因素；另一方面，在健康样本中出现频度超出带病样本的序列，可以认为是抗疾病的因素。

(2)关联分析：同时出现的基因序列的识别：目前许多研究关注的是一个基因与另一个基因的比较。大部分疾病不是由单一基因引起的，而是基因组合起来共同起作用的结果。关联分析方法可用于帮助确定在目标样本中同时出现的基因种类，此类分析将有助于发现基因组和x,-t基因间的交叉与联系的研究。

(3)路径分析：发现在不同阶段的致病基因：引起一种疾病的基因可能不止一个，不过不同基因可能在不同阶段起着作用。如果能找到疾病发展的不同阶段遗传因素序列，就有可能开发针对疾病不同阶段的治疗药物，从而取得更为有效的治疗效果，在遗传研究中路径分析会起到重要的作用。