数据仓库与数据挖掘期末复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.数据仓库的概念和特点p11
定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。
特性:
面向主题的、集成的、非易失的、随时间不断变化的。
1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。
2、集成的(最重要):数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。
3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操作。即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。
4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。操作型环境一般60-90天,数据仓库5-10年。
⑵操作型环境中的数据库含有数据的“当前值”,其准确性访问是有效的,其当前值能被更新,数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。
⑶操作型环境中的数据键码结构可能含有也可能不含有;数据仓库的键码结构总是包含某时间元素。
2.数据仓库中的关键概念14
外部数据源:就是从系统外部获取的同分析主题相关的数据。
数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。
数据清洗:所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。
数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。
数据加载:是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载代价,对不同业务的数据采用不同的加载周期,但必须保持同一时刻业务数据的完整性和一致性。
元数据:元数据是关于数据的数据。元数据位于数据仓库的上层,而且能够记录数据仓库中对象的位置。
数据集市:面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。
数据粒度:粒度是数据仓库的数据单位中保存数据的细化程度或综合成都的级别。细化程度越高,粒度级别就越低。相反,细化程度越低,粒度级别就越高。
数据仓库的数据组织结构:
早期细节级(通常用于备用的、批量化的存储)、当前细节级、轻度综合数据级(数据集市)以及高度综合数据级。一旦数据过期,就由当前细节级进入早期细节级。经综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数据级进入高度综合数据级。
数据粒度的两种形式:第一种形式的粒度是对数据仓库中的数据的综合程度高低的一种度量,另一种形式即样本数据库,是针对数据挖掘的,样本数据库是以一定的采样率(或按数据的重要程度的不同)从细节档案数据或轻度综合数据中抽取的一个子集。
数据分割:分割是指将数据分割到各自的物理单元中以便能分别进行处理,提高数据处理效率,数据分割后形成的数据单元称为分片。
4.数据仓库的数据追加与方法
数据追加:数据仓库中的数据初装完成后,再向数据仓库输入数据的过程。
数据仓库的内容仅限于上一次向数据仓库输入数据后在OLTP数据库中发生变化的数据。
捕捉变化数据的常用途径如下:
(1)时标方法:
如果数据含有时标,对于插入或更新的数据记录,在记录中设置相应的时标,那么只需根据时标判断哪些数据是上次追加后变化的即可。但并非所有数据库中的数据都含有时标。
(2)DELTA文件
1.DELTA文件是由应用生成的,记录应用所改变的所有内容。
2.利用DELTA文件效率很高,它避免扫描整个数据库。但因应用系统常由不同的软件开发商开发,生成DELTA文件的应用并不普遍,还有更改应用代码的方法,可在生成新数据时将其自动记录下来,但应用数目庞大,修改的代码十分繁琐。
(3)前后映像文件的方法:
1.在抽取数据前后对数据库各做一次快照,然后比较两幅快照
从而确定新数据。
2.它占用大量资源,对性能影响极大,因此无实际意义。
(4)日志文件(最切实有效)
日志是DMBS的固有机制
系统日志能把数据库服务器所执行的所有操作详细记录下
来,通过分析日志获取数据变化情况。
它还具有DELTA文件的优越性质,提取数据只要局限日志
文件即可,不用扫描整个数据库。
固有机制,不影响OLTP性能。
5..数据仓库的数据清理
1.数据加入失去原有细节的一个定期综合文件
2.数据从高性能介质转移到大容量介质上
3.数据从系统中实质性的清除
4.数据从体系结构的某一个层次转至另一个层次,必须从操作型层次转至数据仓库层次
6.数据集市的类型概念,在企业中很重要的作用
数据集市(Data Mart) ,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。数据仓库在整个组织范围内为各个部门提供管理与决策支持,而数据集市通常处于部门级,只能为某个局部范围内的管理人员提供服务,因此也称为部门级数据仓库。因此可以说数据集市是针对特定应用的数据仓库,即针对某个具有战略意义的应用或部门级应用,支持用户利用已有的数据做出管理决策。
数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。
1.独立型数据集市(独立数据集市)其数据直接来自各个生产系统,许多企业考虑投资问题,最终建成独立数据集市,用来解决个别部门较为迫切的决策问题。从这种意义上讲,它和企业数据仓库除了在数据量和服务对象上存在差别外,逻辑结构并无多大区别,也许就是把数据集市成为部门级数据仓库的主要原因。
2.从属性数据集市(从属集市):数据直接来自中央数据仓库访