数据仓库与数据分析-第一-至第三章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与数据分析第一、二、三章
一、数据处理的类型:
1、操作型处理:操作型处理主要完成数据的收集、整理、存储、查询和增、删改操作等,主要由一般工作人员和基层管理人员完成。
2、分析型处理:分析型处理是对数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析,从中获取信息,因此也称为信息型处理,主要由中高级管理人员完成。
操作型数据处理:
二、联机事务处理系统(OLTP)的主要功能:对事务进行处理,快速地响应客户的服务要求,使企业的业务处理自动化。
其主要性能指标是事务处理效率和事务吞吐率,每个事务处理的时间越快越好,单位时间能完成的事务数量越多越好。
三、dbms:数据库管理系统。Dwms:数据仓库管理系统。OLAP:联机分析处理。Oltp基于db,olap基于dw。
四、事务:用户定义的一个数据库操作序列,这些操作要么全做、要么全不做,是一个不可分割的工作单元。在关系数据库中,一个事务可以是一条SQL语句、一组SQL语句或整个程序。
五、事务的ACID性质:
1、原子性:事务是一个逻辑工作单元,是一个整体,是不可分割的。
2、一致性:事务在完成时,必须使所有的数据都保持一致状态。
3、隔离性:事务并发执行也能保持原子性和一致性,则是事务的隔离性。
4、持久性:一旦事务成功完成,该事务对数据库所施加的所有更新都是永久的。
六、决策支持系统(DSS):分析型数据处理的典型。决策支持系
统需要具备的基本功能是建立各种数学模型,对数据进行统计分析,得出有用的信息作为决策的依据和基础。DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因。
分析型数据处理需要访问大量的当前和历史数据,进行复杂的计算,即需要本部门的数据也会需要其他部门的数据,甚至是竞争对手的数据。
七:操作型数据和分析型数据的区别:
操作型数据分析型数据
细节的综合的,或提炼的
当前数据历史数据
可更新(可以update)不更新(不可update,但可
insert)
操作需求事先可知道操作需求事先不知道
完全不同的生命周期
生命周期符合SDLC
(软件开发生命周期)
对性能要求高对性能要求宽松
一个时刻操作一单元一个时刻操作一集合
事务驱动分析驱动
面向业务处理面向分析
一次操作数据量大,计算复杂
一次操作数据量小,计算
简单
支持日常操作支持管理需求
八、数据分散的原因:
1、事务处理应用的分散:OLTP系统一般只需要与本部门业务有关的当前数据,没有包括企业范围内的集成应用。
2、“蜘蛛网”问题:抽取数据后,在此基础上继续抽取,不加控制的连续抽取导致企业的数据间形成了错综复杂的网状结构,称为“蜘蛛网”。
3、数据不一致问题:应用间的数据不一致,如同一字段在不用应用中具有不同的类型、名称;同名字段有不同含义。
4、外部数据和非结构化数据:外部数据源的特点是非结构化数据较多。
九、数据集成:1、静态集成:集成后不再与数据源发生联系;2、动态集成:以一定的周期刷新集成数据。
十、数据的综合:1、DSS:不对细节数据进行分析,需要综合数据;2、事务处理系统:细节数据,不具备综合能力,综合是一种数据冗余,加以限制。
在事务型环境中直接构建分析型应用是一种失败的尝试,最终采用了将分析型数据和操作型数据分离。
十一、数据仓库:数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用以更好地支持企业或组织的决策分析处理。
十二、数据仓库数据的四个基本特征:
1、数据仓库的数据是面向主题的;主题:是在较高层次上将企业信息系统中的数据综合 、 归类并进行分析利用的抽象。对应企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织:①抽取主题: 按照分析的要求来确定;②确定每个主题所应包含的数据内容。不仅适用于分析型数据环境的数据组织方式也适用于建设企业全局数据库的数据组织方式。
从面向应用到面向主题的转变过程中,丢弃了原来不必要的、不适于分析的信息。主题之间的重叠是逻辑上的重叠,而不是同一数据内容的重复物理存储。
主题域:一个完备的分析领域。①独立性: 主题域必须具有独立内涵,要求有明确的界限;②完备性: 主题内包含任何对商品的分析处理要求的一切内容.
2、数据仓库的数据是集成的:①从原有的分散的数据库数据中抽取、清洗得到;②从原有的分散的数据库数据中综合得到。是数据仓库建设中最关键、最复杂的步骤。
3、数据仓库的数据是不可更新的:①不对历史数据修改;②可以从当前的数据仓库中删去。
4、数据仓库的数据是随时间不断变化的:①时间变化不断增加新的数据内容;②随时间变化不断删去旧的数据内容
十三、数据仓库的实现方式:1、关系方式,即关系数据库;2、多维方式,即多维数组。
十四、数据仓库的功能:数据仓库实际上是一种数据存储,他将各种异构数据源中的数据集成在一起,并保持其语义一致从而为企业决策提供支持。
数据仓库为异构集成提供的方案是“更新驱动”,而不是“查询驱动”。更新驱动的方法:将来自多个异构数据源的数据预先进行集成,并存储在数据仓库中,供查询和分析。
十五:数据仓库的组成:数据仓库系统由数据源、集成工具、数据仓库与数据仓库服务器、OLAP服务器、元数据与元数据管理工具、数据集市和前台分析工具等组成。
集成工具(简称ETL工具):包括数据抽取、清洗、转换、加载工具,完成数据的集成。
十六:数据集市:一种小型的数据仓库。
分类:1、从属型数据集市:从数据仓库中获取数据而生成的数据集市。2、独立型数据集市:数据集市直接从操作型环境中获取数据。
十七、建立数据仓库的两种思想:1、自顶向下:根据数据仓库,建立多个从属型的数据集市;2、自底向上:根据需求,建立起多个数据集市,然后再不断扩充、完善,形成一个全局数据仓库。
十八、数据集市与数据仓库的区别:1、数据集市是部门级的数据仓库,和全局数据仓库之间有许多不同。数据集市是为特定部门的“主题域”而组织起来的一批数据和业务规则。不同部门有不同的“主题域”,因而也就有不同的数据集市。2、构成数据集市的硬件、软件、数据和应用程序都隶属于不同的部门。