数据挖掘与商务智能复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、联机分析处理(on line analytical processing ,OLAP)从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。
2、数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。
3、数据仓库的特点:(1)数据仓库是面向主题的(2)数据仓库的整合性(3)数据仓库数据的集成性(4)数据仓库的稳定性(5)数据仓库的长期性(6)数据仓库是随时间变化的(7)数据仓库的数据量很大(8)数据仓库软、硬件要求较高
4、数据库与数据仓库的关系:
5、数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。
数据集市的两种架构:
(1)、从属数据集市:它的数据直接来自于中央数据仓库。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。
(2)独立数据集市:它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。
6、数据挖掘是在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。
7、数据挖掘与OLAP的差异:
(1)、OLAP是决策支持领域的一部分。OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。(2)、数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。
(3)、数据挖掘和OLAP具有一定的互补性。
8、实施数据挖掘建模的六个阶段及四个层次
阶段:(1)、定义商业问题:针对企业问题和企业需求进行了解和确认,针对不同的需求做深入的了解,将其转化为数据挖掘的问题,并拟定逐步构想。
(2)、数据理解:建立数据库和分析数据库
(3)、数据预处理:同第二步为数据处理的核心
(4)、建立模型:分析已经筛选和净化的数据,采用各种定性和定量技术方法,对既有数据构建模式和模型,替企业解决问题。
(5)、评价和解释:对建立模型的结果进行解释,并对这一模型所带来的商业效果加以评价。
(6)、实施:两种使用方法,第一,提供给分析人员作参考,由他通过察看和分析这个模型之后提出行动方案建议,第二,把此模型应用到不同的数据集上,并不断地检测效果。
层次:阶段、泛化任务、具体任务、操作实例
每个阶段由若干泛化任务组成,每个泛化实施若干具体任务,每个具体任务由若干过程实例来完成。上二层独立于具体数据挖掘方法。
9、商务智能是数据仓库、联机分析处理和数据挖掘等相关技术走向商业应用后形成的一种应用技术。该技术收集、汇总了与商务活动有关的各种数据,将其集成到数据仓库中。采用联机分析技术对商务活动进行实时的监控、分析,便于及时采取有效的商务决策,提升商务活动的绩效。应用数据挖掘技术对描述商务活动的数据进行挖掘,以获取有效的商务信息,从中提取商务知识,为企业商业发展寻找新的机遇。
10、星型模型与雪花模型的比较:
本质相同,都由事实表、维表构成
大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。雪花模型将维表按层次进行了规范化,可以节省空间,使结构清晰,但在查询时涉及更多的连接操作。
星型模型的优点:星型模型存取数据速度快,主要是由于它针对各个维做了大量的预处理,如按照维进行预先的统计、分类、排序等;另外,星型模型比较直观,便于用户理解。
星型模型的缺点:当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有的维表的主键组成,这种维的变化带来数据变化将是非常复杂、非常耗时的。并且,星型模型的数据冗余量很大。
雪花模型的优点:在一定程度上减少了数据存储量,规范化的结构更容易更新和维护。
雪花模型的缺点:它比较复杂,用户不易理解;浏览内容相对困难;额外的连接降低了查询的性能。
在数据仓库中,通常不推荐使用雪花模型,因为数据仓库对查询性能的要求更高。
Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。
该算法利用了一个基本性质:一个频繁项目集的任一子集必定也是频繁项目集,一个非频繁项目集的任一超集必定也是非频繁项目集。Apriori算法:使用候选项集找频繁项集
例一个Apriori的具体例子。该例基于图6.2的AllElectronics的事务数据库。数据库中有9个事务,即|D|=9。Apriori假定事务中的项按字典次序存放。我们使用图6.3解释Apriori算法发现D中的频繁项集。
Apriori算法:使用候选项集找频繁项集
“如何将Apriori性质用于算法?”
为理解这一点,我们必须看看如何用Lk-1找Lk。
下面的两步过程由连接和剪枝组成。
1.连接步:为找Lk,通过Lk-1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。
2.剪枝步:Ck是Lk的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在Ck中。
注意,Apriori算法使用逐层搜索技术,给定k-项集,我们只需要检查它们的(k-1)-子集是否频繁。