数据仓库与数据挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、数据仓库:是面向主题的、集成的、不可更改的、随时间不断变化的数据集合,用于支持经营管理中的决策制定过程。
2、数据仓库的特征
1)数据仓库中的数据是面向主题的
2)数据仓库中的数据是集成的
3)数据仓库中的数据是不可更改的
4)数据仓库中的数据是随时间不断变化的
3、数据集市:也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。
数据集市分为两种:从属数据集市和独立数据集市。
4、数据仓库系统(Data Warehouse System)分为管理层(ETL管理工具)、存储层(数据仓库和数据集市)和分析工具层(OLAP、数据挖掘等)三个部分。
5、数据仓库中的数据组织采用分级的方式进行组织,通常分为早期细节级、当前细节级、轻度综合级、高度综合级和元数据五部分。
6、粒度:数据仓库的数据单位中保存数据细化或综合程度的级别。
高细节级,低粒度级;低细节级,高粒度级;
7、元数据:数据的数据,可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,是每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。
8、数据仓库开发的三个阶段:
1)数据仓库规划分析阶段
2)数据仓库设计实施阶段
3)数据仓库的使用维护阶段
9、数据仓库开发的特点
1)数据仓库的开发是从数据出发的;
2)数据仓库使用的需求不能在开发初期完全明确;
3)数据仓库的开发是一个不断循环的过程,是启发式开发。
10、数据仓库设计的主要任务是进行数据建模,确定数据仓库中数据的内容及其构成关系。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过冲中是实现的。
11、事实表:主要包含表述特定商业事件的数据,即某些特定商业事件的度量值(不允许修改);
维度表:主要包含存储在事实表中数据的特征数据。维度表由维主键和维属性组成。(时间维度、地理维度、机构维度、客户维度)
13、变量:数据的实际意义,即描述数据是什么;
维:人们观察数据的特定角度;
维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面。称这多个描述方面为维的层次;
维成员:维的一个取值称为该维的一个维成员;
数据单元:多维数组的取值称为数据单元。
14、切片:在多维数组的某一维上选定一维成员的操作称为切片(选定多维数组的一个二维子集);
切块:在多维数组的某一维上选定某一区间的维成员的操作称为切块(选定多维数组的一个三围子集);
旋转:改变一个报告或者页面显示的维方向;
钻取:改变维的层次,变换分析的粒度,分为上卷和下钻
上卷(Roll Up)是在某一维上将低层次细节数据概括到高层次的汇总数据;
下钻(Drill Down)从汇总数据深入到细节数据进行观察或增加新维。
15、OLAP按照其存储器的数据存储格式可以分为关系OLAP、多维OLAP和混合OLAP。
16、数据挖掘的演变过程
机器学习→神经网络→知识发现→数据挖掘技术
17、数据挖掘:从大量的、不完全的的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。
18、数据挖掘与OLAP的区别
OLAP分析过程在本质上是一个演绎推理的过程,而数据挖掘在本质上是一个归纳的过程。
19、数据挖掘的知识类型:
广义知识:类别特征的概括性描述知识;
关联知识:数据仓库中存在的一类重要的可被发现的知识;
分类知识:反映同类事务共同性的特征型知识和不同事务之间的差异型特征知识;
预测知识:预测连续值,是根据事件序列型数据,由历史的和当前的数据去推测未来的数据;
偏差知识:对差异和极端特例的描述,用来揭示事务偏离常规的异常现象。
20、数据挖掘知识发现的4个阶段:确定主题、数据处理、数据挖掘和模式解释评估与应用。
21、数据挖掘的对象:结构化数据和非结构话数据。
22、数据挖掘的任务:描述和预测。
23、分类和聚类
分类:通过建立模型描述预定的数据类或概念集,并对未分类的对象进行分类(有监督的学习);
聚类:根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组(无监督的学习);
区别:(1)分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习;
(2)在进行分类之前,已知数据的分类情况;而进行聚类之前,对目标数据的分类情况一无所知。
24、原始数据中存在的问题:不一致、重复、不完整、含噪声、维度高。
25、数据预处理的常用方法:
1)数据清理:填充空缺值、识别孤立点、去掉原始数据中的噪声和无关数据;
2)数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中;
3)数据变换:把原始数据转换成为适合数据挖掘的形式(包括汇总、聚集、概化、规范化)
4)数据归约:对源数据集得到的数据集的归约表示
26、噪声数据的处理:t
噪声:在测量一个变量时可能产生一些误差或者错误,使得测量相对于真实值有一定的偏差,这种偏差称为噪声。
处理方式:数据平滑,使相邻数据尽可能的接近;
数据平滑的方法包括分箱(详见P138)、聚类、回归。
27、数据变换(使数据符合算法和挖掘目标的需要)
1)聚集:对数据进行汇总;
2)数据概化
3)规范化:将数据按比例缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成数据挖掘结果的偏差。
最小-最大规范化(详见P145)
x ‘=()min _min _max _min
_max _min _new new new old old old x +--- 28、数据规约的目的:为了获得比原始数据小得多的、但不破坏数据完整性的挖掘数据集,该数据集可以等到与原始数据相同的挖掘结果。
数据规约的几种方法:
1)数据立方体聚集;2)维归约;3)数据压缩;4)数值归约;5)离散化和概念分层;
29、维归约:是指通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。
主成分分析(PCA ):是一种用于连续属性的线性代数技术,将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
奇异值分解(SVD ):是线性代数中一种重要的矩阵分解,与PCA 有关,是矩阵分析中正规矩阵酉对角化的推广。
算法(略)。