数据医学数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1 课题研究的医学应用背景
计算机信息管理系统在医疗机构的广泛应用,促进了医学信息的数字化,同时,电子病历和病案的大量应用、医疗设备和仪器的数字化,使得医院数据库的信息容量不断地膨胀。这些宝贵的医学信息资源对于疾病的诊断、治疗和医学研究都是非常有价值的。然而,目前大多数医院对数据库的处理仅限数据的录入、修改、查询、删除等平凡过程,属于医学数据库的低调操作,缺乏数据的集成和分析,更谈不上医学决策和知识的自动获取。如何利用这些海量的信息资源来为疾病的诊断和治疗提供科学的决策,总结各种医治方案,更好地为医院的决策管理、医疗、科研和教学服务,已越来越为人们关注。另一方面,随着人们生活水平的提高、保健意识的增强以及我国医疗体制改革的深入,基于计算机技术、通信技术的远程医疗和社区医疗,已经逐渐成为各大医院的另一个潜在市场。如何对医学数据库进行自动提升和处理,使其更好地为远程医疗和社区医疗提供全面的、准确的诊断决策和保健措施,已成为促进医院发展、提高服务质量而必须解决的新问题。
医学数据挖掘是计算机技术、人工智能、统计学等与现代医疗相结合的产物,也是提高医疗服务质量和医院管理水平的需要,具有广阔的应用前景。和仅限于某一专项领域知识的医疗专家系统不同,医学数据挖掘是面向整个医学数据库或医学信息集合提供知识和决策,它是医疗决策支持系统的重要组成部分。
1.2 国内外的研究现状
目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合。在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售。
与国外相比,国内对数据挖掘的研究稍晚,1993年国家自然科学基金首次开始支持对该领域的研究项目。近年来发展迅速,进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、“九五”计划等。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。这些单位包括清华大学、中科院计算技术研究
所、空军第三研究所、海军装备论证中心等。尽管目前数据挖掘的论文统计数相当可观,但我国的数据挖掘应用尚处于尝试性的萌芽阶段,企业大规模地运用数据挖掘技术,没有形成整体力量。国内企业实现数据挖掘的困难在于缺少数据积累、难于构建业务模型、各类人员之间的沟通存在障碍、缺少有经验的实施者、初期资金投入较大。目前在国内数据挖掘也是广泛应用在商业范围,对非盈利机构的信息研究不多。
1.3 课题研究的内容
本课题是通过对高血压病症的数据库进行数据采集,利用粗糙集的约简算法对数据进行预处理,再对决策规则进行提取,最终进行模糊解释及知识评价。看看哪些病症是高血压最明显的特征。
二、数据挖掘
2.1 数据挖掘的定义及现实意义
随着计算机技术的迅猛发展以及网络的普及,许多行业如商业、企业、科研机构和政府部门等都有了更多的机会和便捷的方法与外界进行信息交流,数据库的规模、范围和深度都在快速不断扩大,从而积累了海量的、以不同形式存储的数据资料,同时在许多领域也建立了数据仓库。在这些海量数据中往往隐含着各种各样的信息,这些信息人们往往凭直觉与经验是难以发现的。如何从大量的数据中获得有价值的信息,采用传统的数据库技术已显得无能为力了,数据的迅速增加与数据分析处理方法之后的矛盾越来越大,人们希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管理,从而达到为决策服务的目的。数据挖掘(Data Mining,DM)就是为了满足这种需求而迅速发展起来的一种新的数据处理技术。它的实质是一种发现知识的应用技术,是一个提取有用信息的过程。
数据挖掘的发展历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,较通用的定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘要解决的问题就是在庞大的数据中寻找有价值的隐藏信息,加以分析,并将这些有意义的信息归纳成结构模式,提供给有关部门在进行决策时参考。
2.2 数据挖掘的研究内容及功能
目前数据挖掘的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。数据挖掘所发现的知识最常见的有以下几类:
(1)广义知识( Generalization)
广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识, 反映同类事物共同性质, 是对数据的概括、精炼和抽象。
(2)关联知识( Association)
它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联, 那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是
Agrawal R 提出的Apriori 算法。
(3) 分类知识( Classification )
它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的的分类方法。它是从实例集中构造决策树, 是一种有指导的学习方法。
(4) 预测型知识( Prediction)
它根据时间序列型数据, 由历史的和当前的数据去推测未来的数据, 也可以认为是以时间为关键属性的关联知识。目前, 时间序列预测方法有经典的统计方法、神经网络和机器学习等。
(5) 偏差型知识( Deviation)
偏差型知识是对差异和极端特例的描述, 揭示事物偏离常规的异常现象, 如标准类外的特例, 数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现, 并随着概念层次的提升, 从微观到中观、到宏观, 以满足不同用户不同层次决策的需要。
与上述研究内容相对应,数据挖掘主要有以下五类功能:
(1)分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户已采取相应的贷款方案。
(2)聚类数据库中的记录可以被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。
(3)关联规则和序列模式的发现关联是某种事物发生时其他事物会发生的这样一种联系。与关联不同,序列是一种纵向的联系。
(4)预测数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
(5)偏差的检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别对分析对象的少数的、极端的特例的描述,揭示内在的原因。
需要注意的是数据挖掘的各项功能不是独立存在的,而是互相联系发挥作用。