数据仓库总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
·数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。·数据仓库的特点
–面向主题
–集成
–相对稳定
–反映历史变化
数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于
支持企业或组织的决策分析处理。
数据仓库,Data Warehouse,可简写为DW。
数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的
(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史
变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
◆面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分
离,而数据仓库中的数据是按照一定的主题域进行组织的。
◆集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过
系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息
是关于整个企业的一致的全局信息。
◆相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是
数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库
中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
◆反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一
时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的
发展历程和未来趋势做出定量分析和预测。
从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储
(Data Storage)、数据访问(Data Access)三个关键部分。
发展阶段:
数据仓库的架构
1.数据源:他是数据仓库的基础,位于数据仓库构架的最底层,是数据仓库的数据源泉。包括各个业务处理子系统的信息。
2. ETL:是数据仓库的核心。数据仓库如何高效管理数据是区别与面向操作数据库的主要标准。完成按照主题管理数据,聚合数据存放于多维数据库中。
3.数据存储与管理:是整个数据仓库系统的核心
4.OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势
5.前端展现:主要包括各种报表、查询、OLAP分析、数据挖掘等。
· OLAP 分析
OLAP 定义
·OLAP (联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出
来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而
获得对数据的更深入了解的一类软件技术。(OLAP 委员会的定义)
· OLAP 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
OLAP 特性
·快速性:用户对 OLAP 的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求
做出反应。
·可分析性: OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析。
·多维性:多维性是 OLAP 的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重
层次维的完全支持。
·信息性:不论数据量有多大,也不管数据存储在何处,OLAP 系统应能及时获得信息,并且管理大容
量信息。
OLAP 分析
·切片和切块(Slice and Dice)–在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需
要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。
·钻取(Drill)–钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻
取的深度与维所划分的层次相对应。
·旋转(Rotate)/转轴(Pivot)–通过旋转可以得到不同视角的数据。
数据源:ORACLE,MS SQL,DB2,文本文件等
ETL:POWER CENTER,OWB,DB2 DWM, Teradata Builder,C,Shell,Perl,DATASTAGE,INFORMATICA,SAGENT 等
数据存储与管理:ORACLE,IBM UDB ,SYBASE IQ 等 vOLAP 服务器:IBM OLAP Server ,ORACLE Express server
前端展现:–报表、查询、OLAP分析:BO,MSTR,BRIO,Cognos,–数据挖掘:IBM IM,SAS EM,SPSS CLEMENTINE
数据挖掘服务与常用算法
· 数据挖掘服务与常用算法
数据仓库技术的应用
·数据仓库技术在移动通信领域的应用
1 决策支持系统的应用背景
随着市场竞争的日益激烈,数据仓库的应用也越来越广泛。采用数据仓库的企业有两个前提条件,一
是企业存在大量数据,二是企业处在竞争的环境中。
要想在当今社会激烈的竞争环境下迅速、长足的发展,建立起一套自己的"数字神经系统"是必要的,
即通过各路"神经" 对外界环境变化的迅速感知传输至"大脑"中枢,然后将经中枢处理得出的应对及预
防措施及时反馈给各路"神经"。所以必须搭建起企业当前和今后发展的综合软件应用平台,优化工作
流程,提高企业整体工作效率,及时掌握影响企业运作的关键指标与决策依据、突发事件、重大事件
及关系紧密的行业、专业、市场信息,做到"信息掌握及时,管理高效顺畅"。
针对信息化的应用,移动通信行业信息化进程得到巨大发展和广泛应用,运营网络系统、综合业务系统、计费系统、办公自动化等系统的相继使用,为计算机应用系统的运行积累了大量的历史数据。但
在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析
人员与管理决策者的。一方面,联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业务扩展的需求;另一方面,管理者和决策者只能根据固定的、定时的报表系
统获得有限的经营与业务信息,无法适应激烈的市场竞争。