复旦大学精品课程《商务智能》课件,数据仓库课件复习精品资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2
分析型处理



分析型处理:用于管理 人员的决策分析,例如 DSS、 EIS和多维分析等。 它帮助决策者分析数据 以察看趋向、判断问题。 分析型处理经常要访问 大量的历史数据,支持 复杂的查询。 分析型处理过程中经常 用到外部数据,这部分 数据不是由事务型处理 系统产生的,而是来自 于其他外部数据源。
7
实施数据仓库的条件

数据积累已达到一定规模 面临激烈的市场竞争 在IT方面的资金能得到保障
8
数据仓库的发展
自从NCR公司为Wal Mart建立了第一个数据仓库。 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美 企业,结果表明:数据仓库为企业提供了巨大的收益。 早期的数据仓库大都采用当时流行的客户/服务器结构。近年来 分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分 为若干个分布式对象,这些分布式对象不仅可以直接用于建立数 据仓库,还可以在应用程序中向用户提供调用的接口。 IBM的实验室在数据仓库方面已经进行了10多年的研究,并将 研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。
3
事务型处理数据和分析型处理数据的区别
特性 OLTP OLAP
特征 面向 用户 功能 DB 设计 数据 汇总 视图 工作单位 存取 关注 操作 访问记录数 用户数 DB规模 优先 度量
操作处理 事务 办事员、DBA、数据库专业人员 日常操作 基于E-R,面向应用 当前的;确保最新 原始的,高度详细 详细,一般关系 短的、简单事务 读/写 数据进入 主关键字上索引/散列 数十个 数千 100MB到GB 高性能,高可用性 事务吞吐量
数据仓库
Data Warehouse
赵卫东 博士 复旦大学软件学院
wdzhao@fudan.edu.cn
1
事务型处理


事务型处理:即操作型处理,是指对数据库的联机操作 处理OLTP。事务型处理是用来协助企业对响应事件或 事务的日常商务活动进行处理。它是事件驱动、面向应 用的,通常是对一个或一组记录的增、删、改以及简单 查询等(大量、简单、重复和例行性)。 在事务型处理环境中,数据库要求能支持日常事务中的 大量事务,用户对数据的存取操作频率高而每次操作处 理的时间短。
10
面向主题


数据仓库中的数据是按照各种主题来组织的。主题在数据仓 库中的物理实现是一系列的相关表,这不同于面向应用环境。 如保险公司按照应用组织可能是汽车保险、生命保险、伤亡 保险,而数据仓库是按照客户、政策、保险金和索赔来组织 数据。 面向主题的数据组织方式可在较高层次上对分析对象的数据 给出完整、一致的描述,能完整、统一的刻画各个分析对象 所涉及的企业的各项数据以及数据之间的联系,从而适应企 业各个部门的业务活动特点和企业数据的动态特征,从根本 上实现数据与应用的分离。



9
数据仓库(Data Warehouse)




Байду номын сангаас
数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为 上层应用提供统一 用户接口,完成数据查询和分析。支持整个 企业范围的主要业务来建立的,主要特点是,包含大量面向整 个企业的综合信息及导出信息。 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的 只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、 带有时间属性的、面向主题及不可更新的数据集合。 以1992年W H Inmon出版《Building the Data Warehouse》 为标志,数据仓库发展速度很快。 W H Inmon被誉为数据仓库 之父。 W H Inmon对数据仓库所下的定义:数据仓库是面向主题的、 集成的、稳定的、随时间变化的数据集合,用以支持管理决策 的过程。
信息处理 分析 知识工人(如经理、主管、分析员) 长期信息需求,决策支持 星形/雪花,面向主题 历史的;跨时间维护 汇总的,统一的 汇总的,多维的 复杂查询 大多为读 信息输出 大量扫描 数百万 数百 100GB到TB 高灵活性,端点用户自治 查询吞吐量,响应时间 4
数据库系统的局限性


client 数据库适于存储高度结构化的日 applications 常事务细节数据,而决策型数据 Application 多为历史性、汇总性或计算性数 layer 据,多表现为静态数据,不需直 接更新,但可周期性刷新。 决策分析型数据是多维性,分析 内容复杂。 在事务处理环境中,决策者可能 并不关心具体的细节信息,在决 策分析环境中,如果这些细节数 XML 据量太大一方面会严重影响分析 document 效率,另一方面这些细节数据会 分散决策者的注意力。 Data management
SSL
Internet
Browsers Web servers
Excel spreadsheet Oracle SQL Server
layer
DB2
5
数据库系统的局限性(续)
当事务型处理环境和分析型处理环境在同一个数据库系统中, 事务型处理对数据的存取操作频率高,操作处理的时间短, 而分析型处理可能需要连续运行几个小时,从而消耗大量的 系统资源。 决策型分析数据的数据量大,这些数据有来自企业内部的, 也有来自企业外部的。来自企业外部的数据又可能来自不同 的数据库系统,在分析时如果直接对这些数据操作会造成分 析的混乱。对于外部数据中的一些非结构化数据,数据库系 统常常是无能为力。
11
集成性

数据仓库中的数据是从原 有分散的源数据库中提取 出来的,其每一个主题所 对应的源数据在原有的数 据库中有许多冗余和不一 致,且与不同的应用逻辑 相关。为了创建一个有效 的主题域,必须将这些来 自不同数据源的数据集成 起来,使之遵循统一的编 码规则。


6
多库系统的限制




可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能 通过网络在线联入多库系统。 响应速度:全局查询多级转换和通信传输, 延迟和低层效率影 响响应速度。 系统性能:总体性能取决于源站点中性能最低的系统, 影响系 统性能的发挥; 系统开销:每次查询要启动多个局部系统, 通信和运行开销大。
相关文档
最新文档