计算机导论教学课件第12章数据库、数据仓库与数据挖掘

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏 在数据中的信息和知识。知识即意味着数据元素之间的关系和模式。
因此,数据挖掘可以定义为:应用一系列技术从大型数据库或数据仓库 的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事 先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形 式。
作为知识发现过程的一个特定步骤,数据挖掘是一系列技术及应用,或者说是 对大容量数据及数据间关系进行考察和建模的方法集。它的目标是将大容量数 据转化为有用的知识和信息。
知识发现是一个多步骤的对大量数据进行分析的过程,包括数据预处理、模式 提取、知识评估及过程优化。知识获取往往需要经过多次的反复,通过对相关 数据的再处理及知识发现算法的优化,不断提高学习效率。如在分析影响信用 风险的因素时,可能先假设几种可能的因素,然后通过不断反复的实验,不断 增加或删除因素,最终得到对信用风险最具影响的因素。
计算机导论教学课件第12章数据库 、数据仓库与数据挖掘
12.1
数据库基础
12.2
数据仓库
12.3
数据挖掘
12.1 数据库基础
12.1.4 数 据库的发

12.1.1 数 据库的基
本结构
12.1.3 数 据模型
12.1.2 数 据库的特

12.1.1 数据库的基本结构
在数据文件中,字段是有意义数据的最小单元(例如二维表格的列),称为 数据文件的基本组成模块。字段有字段名,用来描述字段中的内容。例如, 字段Name可能描述了一组职工姓名数据。字段可以设置为可变长度或者固定 长度。
数据仓库是一种存储技术,它的数据存储量是一般数据库的100倍,它包含大 量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需 要提供所需的数据和信息。而数据挖掘是从人工智能机器学习中发展起来的, 它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库完成数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初 步加工的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有 的新特点,对数据挖掘技术提出了更高的要求。另一方面,数据挖掘为数据仓 库提供了更好的决策支持,同时促进了数据仓库技术的发展。可以说,数据挖 掘和数据仓库技术要充分发挥潜力,就必须结合起来。
12.1.3 数据模型
数据模型用来描述数据库中数据存储的方式。当使用有效的数据模型创 建数据库时,就可以按照能够为公司或者组织机构提供有用信息的方式 来输入、定位和操作数据。设计数据库结构时,数据模型可以帮助理解 实体之间的关系,创建最有效的结构来存储数据。
1.实体关系 2.关系数据库模型 3.面向对象数据库模型
输入在字段中的数据依赖于字段的数据类型。从技术上讲,数据类型定义了 数据在磁盘和内存中表示的方式;从用户的角度来说,数据类型决定了操作 数据的方式。文件中的每个字段都分配有数据类型,最常用的数据类型是字 符和数值。数值类型的字段可以进行数值运算;字符类型的字段包含了那些 不需要进行数学操作的数据,例如名字、描述、城市、缩写、电话号码和学 号等。还有一些其他数据类型,如日期、逻辑和备注类型等。
因此,数据仓库是一种新的数据处理体系结构和信息管理技术,它是企业内 部各部门业务数据进行统一和综合的中央数据仓库。它为企业决策支持系统 和行政信息系统提供所需的信息,为预测利润、风险分析、市场分析以及加 强客户服务与营销活动等管理决策提供支持。
要提高分析与决策的效率和有效性,分析型处理及其数据必须与操作型处理 及其数据相分离,必须把分析型数据从事务处理环境中提取出来,按照DSS 处理的需要进行重新组织,建立单独的分析处理环境。数据仓库正是为了构 建这种新的分析处理环境而出现的一种数据存储和组织技术。
12.3 数据挖掘
作为决策支持新技术,数据挖掘也和数据仓库一样,近年来得到了迅速 发展。
数据挖掘(DM,Data Mining,也称数据开采)是从大型数据库或数据 仓库中发现并提取隐藏在其中的有用信息或知识信息的一种技术,它主 要是利用某些特定的知识发现 (KDD,Knowledge Discovery in Database)算法,在一定的运算效率的限制内,从数据对象(例如数据 库或数据仓库,也可以是文件系统或其他任何组织在一起的数据集合) 中发现有关的知识。它帮助决策者寻找数据间潜在的关联,发现被忽略 的因素。而这些信息和因素对预测趋势和决策行为是至关重要的。
数据仓库有如下一些特点。
1.面向主题 2.集成的 3.相对稳定 4.反映历史变化
数据仓库由数据仓库数据库、数据抽取工具、元数据等内容组成。
1.数据仓库数据库 2.数据抽取工具 3.元数据 4.访问工具 5.数据集市(Data Marts) 6.数据仓库管理 7.信息发布系统
12.1.4 数据库的发展
数据库技术是计算机科学中发展最快的领域之一。
1.分布式数据库系统 2.数据库机器 3.数据库语义模型 4.数据库智能检索 5.办公室自动化系统中的数据库
wk.baidu.com
12.2 数据仓库
12.2.1 数据仓 库的特点
12.2.2 数据仓 库与数据库
12.2.1 数据仓库的特点
数据库的基本结构分三个层次,反映了观察数据库的三种不同角度 (视图) 。
1.物理数据层
2.概念数据层
3.逻辑数据层
12.1.2 数据库的特点
数据库不同层次之间的联系是通过映射进行转换的。数据 库具有以下主要特点:
1.实现数据共享。 2.减少数据的冗余度 3.数据的独立性 4.数据实现集中控制 5.数据一致性和可维护性
12.2.2 数据仓库与数据库
作为数据管理手段,传统的数据库技术是单一的数据资源,主要用于事务处 理,也称为操作型处理。它以数据库为中心,进行从事务处理、批处理到决 策分析的各种类型的数据处理工作。用户关心的是响应时间、数据的安全性 和完整性。
数据仓库用于决策支持,也称分析型处理,它是建立决策支持系统(DSS) 的基础。数据仓库对关系数据库的联机分析能力提出了更高的要求,采用普 通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门 的改进。因此,数据仓库与数据库的区别不仅仅表现在应用的方法和目的方 面,同时也涉及到产品和配置上的不同。
相关文档
最新文档