数据仓库与数据挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与数据挖掘
摘要
数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念.做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。用Data Miner作为对数据挖掘的工具,给出了应用于医院的数据仓库实例。指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性,为支持医院管理者的分析决策作出了积极探索。
Abstract
The Data Mine is a burgeoning technology,the research about it is developing flourishing.In this paper,it expatiates and analyses the concepts of Data Warehouse and Data Mine Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.The data warehouse supports the mass data on the further handling and recycling.The paper points out the use of data mining in patient charge control,medical quality control, hospital resources allocation management. It helps the hospital to make decisions positively
关键字:数据仓库;数据挖掘;医院信息系统
Key words:Data Warehouse;Data Mine;Hospital information system
目录
1、数据仓库的概述 (1)
1.1 数据仓库的特征 (1)
1.2 数据仓库系统 (2)
1.3 联机分析技术 (2)
2、数据挖掘 (3)
2.1 数据挖掘定义及实现过程 (3)
2.2 数据挖掘的分类 (4)
2.3 数据挖掘任务 (5)
3、数据挖掘与数据仓库的联系 (6)
4、数据挖掘技术在医院管理中的应用 (7)
4.1 病人费用构成分析 (7)
4.2 同期费用对比分析 (7)
4.3 病人结构分析 (8)
4.4 病人流动情况分析 (8)
4.5 病人就诊时间分析 (8)
4.6 成本效益分析 (8)
5、总结 (9)
随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失。所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今,高级数据分析——数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域。
1、数据仓库的概述
数据仓库对不同的使用者、不同的操作范围,它有不同的意义。被誉为数据仓库之父的W.H.Inmom将数据仓库Data Warehouse)定义为『41:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
1.1 数据仓库的特征
(1)数据是面向主题的
传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。而现今的数据仓库是有较强主题组织性的,高层赶地将数据归类,去除无用的数据。
(2)数据的集成性
因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。
(3)数据的相对稳定性
数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。(4)数据的不易失性(长期性)
数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时问效果,这样才能更好的体现历史数据的趋势预测性。
1.2 数据仓库系统
目前,数据仓库系统主要以现有的商用数据库管理系统作为数据的存储体,与传统的数据库系统不同,数据仓库系统是以面向主题的、集成的、时变的和稳定的为特点,因此在数据仓库系统的建设中,其主要内容为数据抽取与数据集成。
在数据集成过程中,由于各数据源的类型多样,包括各种类型的关系数据库管理系统、文件系统,甚至还包括来自WEB上的数据,这些数据在模式设计上也是多种多样,数据质量也千差万别,数据内容的来源也不统一,因此在数据集成过程中数据模式的设计、数据清洗和数据的转换、导人和更新方法是主要难点,目前的研究工作也主要集中在这几个方面。
在数据清洗中一个重要的问题是重复数据的发现与删除.由于数据来自不同的数据源,所以相同的数据经常会在数据仓库中出现多个复本,但由于各个数据源的数据质量有较大差别,同样的数据在录入时由于拼写错误、不一致的习惯会出现小的差别,从而被认为是不同的数据。为了提高数据仓库中的数据的可靠性,需要将这些可能的重复数据找出来,并进行删除。目前在重复数据的寻找方面主要采用一些标准文本相似性匹配方j去,如编辑距离、Cosine Metric等。但这些方法无法解决语义上的相似性判定问题。
1.3 联机分析技术
联机分析技术是针对数据仓库应用中广泛出现的大量的聚集操作而产生的一种新的技术,总体上讲联机分析技术可以分成两种类型,一种是基于关系数据库系统实现的联机分析系统,简称ROLAP。其基本思想是对数据仓库中的数据模式进行合理组织,直接通过关系查询实现联机分析系统支持的下钻、上翻、分片、分块等操作。目前各个关系数据库厂商均在它们的关系数据库管理系统的产品中提供了相应的查询手段,同时为了提高查询的性能,它们还增加了相应的索引机制;另一种基于多维模型实现联机分析,简称MOLAP。这种方法基于多维数组实