数据仓库与数据挖掘考试复习重点
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
5
逻辑模型 作用:由于概念模型并不能直接建立数据仓库的物理模型,所以我们必须通过逻 辑模型来指导数据仓库的物理实施。 逻辑模型的描述方法:逻辑模型的描述方法是利用关系模型,即用一系列的关系 模式来表达数据仓库概念模型中的事实实体和维度实体(另外还要考虑粒度) 逻辑模型的工作内容: 粒度层次划分 数据分割策略的确定 关系模型的定义* 数据源及数据抽取模型的确定* 物理模型 考虑的要素: 因此,进行数据仓库的物理设计就是要物理地组织好数据,以访问尽可能少的数 据块返回尽可能多的有效记录 粒度:指数据仓库的数据单位中保存数据的细化或综合程度的级别。粒度可以影 响数据仓库所能回答的查询类型,同时决定了存放在数据仓库中数据量的大小和 查询效率。 需要看 PPT 练习 确定粒度大小的考虑原则:
600
600
500
500
400
400
时间(年)
300
300
休眠数据量(GB)
数据仓库容量(GB)
200
200
100
100
0
0
1
2
3
4
休眠数据是指那些存在于数据仓库中的、当前并不使用、将来也很少使用或者根
本就不会使用的数据。
产生休眠数据的原因
由于概括表格的创建(对低粒度的汇总)
Ø 分析问题时所关心的事实 Ø 分析问题时的各种观察角度 Ø 描述事实及观察角度的属性 概念建模的方法 ①传统方法——ER 图 ②多维数据模型(星型模型):是一种能够清楚地表达分析领域的数据模型结构。 P39 维度 事实度
6
• 开发步骤:首先建立部门级数据集市为出发点;同时统观全局,建立逻辑 子集;最后由多个数据集市集成企业级的数据仓库
• 统一的维 • 统一的事实 有了统一的维和同意的事实,构建数据集市时就可以以统一的维和统一的事实为 总线,从而使得数据集市之间能够相互协调,构成一个企业级的数据仓库。 第三章 数据仓库管理技术 数据仓库的管理主要包括: 对数据的管理 对系统的管理 数据仓库的管理主要指对数据的管理: 休眠数据的管理 元数据的管理 数据质量的管理(清理数据)
对比内容
数据库
数据仓库
数据内容
当前值
历史的、存档的、归纳的、计 算的数据
数据目标
面向业务操作程序、重复处理 面向主题域、管理决策分析应
1
1
用
数据特性
动态变化、按字段更新
静态、不能直接更新、只定时 添加
数据结构
高度结构化、复杂、适合操作 简单、适合分析
由于错误估计实际上所需要的历史数据的年限
由于随着时间的推移,需求的现实性逐渐明显
由于坚持让详细数据驻留在数据仓库中
对休眠数据的处理:先查找休眠数据,然后删除休眠数据,选择删除的数据
删除休眠数据:
垃圾桶
归档存储 7
数 据 集 大 数据维、维中属性数、维中 数据维、维中属性数、维中数据均
小
数据均是少量的
是庞大的
企业管理人员、系统分析 数据与系统启动,少量的人员指导 启 动 方 式
员、管理顾问启动与控制 智能性好
技术状况 成熟
统计分析工具已成熟 其他工具正在发展中
4
元数据的定义: 定义一:关于数据的数据。 定义二:元数据的描述 前台元数据:更具描述性质,它帮助查询工具和报表生成更顺利地工作,它主要 出于终端用户考虑。 后台元数据:与过程相关,它指导着数据抽取、净化和装载的过程。 元数据的主要作用: 管理数据仓库:利用元数据来存储和更新数据。 帮助使用数据仓库:用户利用元数据来了解、访问数据。 元数据分类(形式): 根据内容分:数据源元数据,预处理数据元数据,数据仓库主题元数据,查询服 务元数据 根据作用分:管理元数据,用户元数据 数据仓库的数据模型 1、概念模型 概念建模的目的 确定数据仓库中应该包含的数据类及其相互关系,而不必考虑具体技术条件的限 制。 概念建模的工作内容 ①确定系统应包含的主题域 ②确定数据挖掘中各主题的要素及其描述属性
• 如数据仓库的空间有限,则应考虑采用高粒度级别 • 如追求数据仓库能回答的问题类型的能力,则应考虑采用低粒度级别 • 如要减轻处理器的负担,提高查询效率,则应考虑采用高粒度级别 • 如没有存储空间的限制,则可采用多重粒度级别 数据分割:是把大的数据集划分成多个较小的数据集,并分散到不同的物理单元 进行存储,使它们能独立地被处理。它便于管理,并可以提高访问效率。 数 据 仓 库 的 开 发 流 程 • 数据仓库的规划与分析阶段(确定目标,技术平台) • 数据仓库的设计与实施阶段*
数据仓库概念模型的设计 数据仓库逻辑模型的设计 数据仓库物理模型的设计 源数据抽取、清洗、整理与装载设计 数据表达及访问设计 数据仓库维护方案的设计 • 数据仓库的使用阶段 总线型结构的数据仓库(如何建立企业全局的数据仓库)
计算
使用频率
高Baidu Nhomakorabea
中到低
数据访问量 每个事务只访问少量记录
有的事务可能要访问大量记录
对响应时间 的要求
以秒为单位计量
以秒、分钟、甚至小时为计量 单位
数 据 仓 库 是将原始的操作数据进行各种处理,并转换成综合信息,提供功能强 大的分析工具,对这些信息进行多方位的分析,以帮助企业领导做出更符合业务 发展规律的决策。 数据仓库的特征:面向主题性、集成性、不可更新性、时变性(计量的属性会改 变)。 1995 年在美国计算机年会上提出数据挖掘。 从技术角度看,数 据 挖 掘 是从大量的、不完全的、有噪声的、模糊的、随机的 实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知 识的过程; 从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对 商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅 助商业决策的关键知识。 为商业决策提供真正有价值的信息,进而提高竞争力, 获得利润。 总之:数据挖掘是按企业既定业务目标,对大量的企业数据进行探索和分析,揭 示隐藏的、未知的或验证已知的规律,并进一步将其模型化的先进有效的方法。 数据挖掘的与数据仓库的关系 数据挖掘是数据仓库发展的必然结果:
传 统 数 据 分 析 工 具 回顾型的、验证型的
数 据 挖 掘 工 具 预测型的、发现型的
分析重点 已经发生了什么
预测未来的情况、解释发生的原因
从最近的销售文件中列出 锁定未来的可能客户
分析目的 最大客户
以减少未来的销售成本
7
近线存储 (邻线存储 Near Line) 选择删除的数据 用一个活动监视器,即一个数据使用跟踪器来确定数据仓库中的数据访问模型。 基于数据访问模型的方法来删除数据是一种正确的方法。 确定访问可能性 确定已被或未被访问的数据; 基于过去的活动建立一个访问轮廓; 基于所建立的这种轮廓来确定访问可能性。 元数据的管理 企业级中心知识库是集成企业范围内的不同开发工具和知识库,共享元数据环境。 数据质量的管理 脏数据:在数据源中抽取、转换和装载到数据仓库的过程中,出现的多余数据和 无用的数据。 脏数据产生的四种方式
问 题 的 方 面
事 务 处 理 应 用
分 析 处 理 应 用
性 能 特 性
操作频率高,处理和响应的 程序运行时间长,消耗大量系
时间短
统资源
数 据 集 成
数据大多分散而非集成
需要集成的、全面而正确的数 据
数据动态集成 不需要
第二章 数据仓库结构
数据仓库的体系结构(了解)
3
3
数据仓库技术的体系结构(重要)
数据预处理功能:对数据源中的数据进行预处理 数据仓库管理工具:完成数据仓库的建模、确定数据的粒度级别、指定数据仓库 的物理存储模式、确保数据仓库的运行效率,数据仓库的元数据管理 应用工具:提供各种应用工具来对数据仓库中的数据进行处理 数据仓库是企业级的,数据集市我们可以把它理解成为部门级的数据仓库,满足 某个部门的进行分析决策的需求而建立的。 如果一个数据集市不依赖于中央数据仓库,则这个数据集市为独立数据集市。独 立数据集市可能会造成各数据集市中的数据不一致、形成信息孤岛、维护困难等 问题。 从数据仓库中获得数据,并根据部门的分析领域和查询功能进行重新组织和优化 的数据集市称为从属数据集市。保证了各个数据集市间和数据仓库中数据的一致 性。
第一章 由于采用的模型主要是数学模型,所以其辅助决策的能力主要表现在定量分析上, 从而发展起把管理信息系统和模型辅助决策系统结合起来的 DDS。主要进行的是 分析处理。 数据的分析应用为信息资源的利用开辟了一条新的道路,基于这种思想,在数据 库之上建立一种用于分析的模型,从而构成一种用于数据分析、预测及决策的系 统,称为决策支持系统(Decision Support System,DSS),也称为业务智能 (Business Intelligence,BI)。 DDS 与专家系统同时兴起,属于定性的,DDS 属于定量的。把两者相结合的系 统称为智能决策支持系统 IDSS。
数据挖掘可以看作是 OLAP 的高级阶段,为数据仓库提供了更好的决策支持, 促进了数据仓库技术的发展。 数据仓库为数据挖掘提供应用基础: 提供了深层次分析所需要的正确、完整和集成的数据; OLAP 工具为数据挖掘提供了有关的数据操作支持,给数据挖掘带来便利和 功能。 数据挖掘在商业上有大量的应用,分为两类:
n 对某种情况的预测(Prediction); n 寻找事物之间的关联(Association)。 应用领域包括生物医药和 DNA 分析(致病基因)、金融(信用,投资,目标市场 客户聚类)、零售业(促销)、电信业
2
工 具 特 点
数据以一定的周期刷新,保证 决策的正确性
历 史 数 据
只需要当前数据,或短期内 必须以大量的历史数据为依
的数据
托
数 据 的 综 合
不具备
需要对细节数据进行不同程 度的综合,提高分析效率
数据仓库概念的提出 在数据库的基础进行改造,产生了新的满足决策分析需要的数据环境——数据仓 库 Data Warehouse,DW 数据仓库与数据库的区别 数据库的应用是以事务处理为主,强调的是更新数据库,联机事务处理(Online Transaction Processing,OLTP) 数据仓库的应用是以分析应用为主,从数据库中提取、分析和利用信息,联机分 析处理(Online Analytical Processing,OLAP)