数据挖掘期末考试重点

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1·元数据:是关于数据仓库中数据的数据。

2·数据仓库中的元数据可以分为四类

1)关于数据源的元数据:对不同平台上的数据源的物理结构和含义的描述;

2)关于数据模型的元数据:描述了数据仓库中有什么数据以及数据之间的关系,它们是用

户使用管理数据仓库的基础;

3)关于数据仓库映射的元数据:反映数据仓库中的数据项是从哪个特定的数据源填充的,

经过哪些转换,变换和加载过程;

4)关于数据仓库使用的元数据:数据仓库中信息的使用情况描述,这类元数据能帮助用户

到数据仓库查询所需要的信息,用于解决企业问题。

3·数据仓库和数据集市的区别

数据仓库收集了关于整个组织的主题(如顾客、商品、销售、资产和人员)信息,因此是企业范围的。对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模。

数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。

对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。

4·数据集市主要有两种结构:

从属数据集市(数据直接来自于中央数据仓库)

独立数据集市(数据直接来源于各生产系统)

5·数据库与数据仓库的联系与区别?

联系:数据仓库的出现,并不是要取代数据库。可以说,数据库、数据仓库相辅相成、各有千秋。

区别:出发点不同(面向事物/面向主题)、存储的数据不同(实时数据/历史数据)、设计规则不同(范式/反范式)、提供的功能不同(捕获数据/分析数据)、基本元素不同(事实表/维表)、容量不同(GB/TB)、服务对象不同(业务处理人员/高层决策人员)。6·粒度的作用:

粒度越小,数据的综合程度越低,存储的数据越详细,需要的索引项越多,存储的数据量越大;回答查询的种类越多。

粒度越高,数据综合程度越高,需要的索引项越少,存储的数据量越小,查询的效率也越高

7·数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。

8·数据集市的两种架构:

(1)、从属数据集市:它的数据直接来自于中央数据仓库。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。

(2)独立数据集市:它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。

9·星型模型与雪花模型的比较:

本质相同,都由事实表、维表构成

大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。雪花模型将维表按层次进行了规范化,可以节省空间,使结构清晰,但在查询时涉及

更多的连接操作。

10·星型模型的优点:星型模型存取数据速度快,主要是由于它针对各个维做了大量的预处理,如按照维进行预先的统计、分类、排序等;另外,星型模型比较直观,便于用户理解。11·星型模型的缺点:当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有的维表的主键组成,这种维的变化带来数据变化将是非常复杂、非常耗时的。并且,星型模型的数据冗余量很大。

12·雪花模型的优点:在一定程度上减少了数据存储量,规范化的结构更容易更新和维护。13·雪花模型的缺点:它比较复杂,用户不易理解;浏览内容相对困难;额外的连接降低了查询的性能。

在数据仓库中,通常不推荐使用雪花模型,因为数据仓库对查询性能的要求更高。

14·ETL:

*定义:Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程。

*ETL工具:Informatica 公司的Power Center 、IBM 公司的Data Stage 、Oracle 公司的Warehouse Builder 以及Microsoft 公司的SQL Server IS 等。

*主要功能:数据抽取(从数据库中导入与决策相关的数据);数据转换(对数据粒度以及不一致的数据进行转换);数据清洗(校验数据源的数据质量,尽量减少差错);数据装载(把数据装载到数据仓库中.)

15·数据挖掘

*定义:在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据中,进行分析、归纳与整合等工作,以萃取出有用的信息,找出有意义且用户有兴趣的模式,提供企业管理阶层在进行决策时的参考依据。

*功能:(1)分类:按照分析对象的属性分门别类加以定义建立类组class;(2)估计:根据既有连续性数值的相关属性数据,以获知某一属性未知值;(3)预测:根据对象属性的过去观察值来估计该属性未来值;(4)关联分组:从所有对象决定那些相关对象应该放在一起;(5)聚类:将异质总体中区分为特征相近的同质组类clusters

*步骤:(1)理解数据与数据所代表的含义;(2)获取相关知识与技术;(3)整合与检查数据;(4)去除错误或不一致的数据;(5)建模与假设;(6)数据挖掘运行(7)测试与验证所挖掘的数据(8)解释与使用数据

16·OLAP联机分析处理(on line analytical processing)从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。

17·数据挖掘与OLAP的差异:

(1)、OLAP是决策支持领域的一部分。OLAP分析师是建立一系列的假设,然后通过OLAP 来证实或推翻这些假设来最终得到自己的结论。

(2)、数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。

(3)、数据挖掘和OLAP具有一定的互补性。

18·数据仓库与数据挖掘联系:

相关文档
最新文档