数据仓库发展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
据,数据仓库可以视业务的需要设置这一区域。
主要技术(一)
数据库技术、ETL技术、OLAP技术、元数据管理技术、前台展 现技术、报表技术、挖掘技术、仿真优化技术。 数据库技术:数据库技术是支撑数据仓库技术的最基础技术。 有关系数据库、层次数据库、网络数据库等类型,目前呈现比较 好的发展态势的对象关系数据库也是一种类型。最典型的是关系 数据库的应用。 ETL技术:ETL技术是支撑数据仓库系统正常运转的基本技术。 因为数据仓库系统是集成的、与时间相关的数据集合。随着时间 的推移,各种新数据的进入,旧数据的转移等等工作,仓库建设 前后,都没有间断过。要实现这些数据的自动更新运转,以及新 业务数据、旧格式新的不同代码的数据进行较好的适应性自动更 新运转,ETL技术是必不可少的技术之一。ETL是Extraction、 Transformation、Loading数据抽取、转换、装载系统,该系统整合 不同的数据源过来的数据,并对数据进行初步的规格化整理,清 洗除杂。 OLAP技术:OLAP技术联机分析处理(OLAP)的概念最早是由关系 数据库之父E.F.Codd于1993年提出的。
主要技术(二)
元数据管理技术:所谓元数据meta data是关于数据的数据 ,指在数据仓库建设过程中所产生的有关数据源定义,目标定 义,转换规则等相关的关键数据。同时元数据还包含关于数据 含义的商业信息,所有这些信息都应当妥善保存,并很好地管 理。为数据仓库的发展和使用提供方便。 前台展现技术:主要是具有对集成的数据模型(比如:仓 库模型、多维CUBE等)具有数据探查、检索、灵活的图表、 甚至影像多媒体的展现技术。前台展现技术主要的技术目的是 将没有感情的、枯燥的结构化数据,用友好的方式、灵活的方 式、可定义的方式展现出来,使不懂数据结构的人一眼就可以 理解其中数据的含义和业务表现。目前已经进行很好实践该技 术的产品,主流主要有:Cognos Powerplay,Bo,Brio等等。 报表技术:该技术主要是将集成的数据模型(比如:仓库 模型、多维CUBE等)里的数据,按照复杂的格式、指定行列 统计项形成的特殊的报表。一般简单的报表可以使用前台展现 技术实现,而复杂的报表则需要报表技术来满足要求。目前主 要的主流产品有:Cognos ,Brio, Crystal Reports, Oracle Reports等等。
国内外发展现状(一)
国内外数据仓库的发展现状和趋势
随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断 进步,数据仓库技术也不断发展,并在实际应用中发挥了巨大的作用。 IDC在1996年的一次对90年代前期进行的62个数据仓库项目的调查结果 表明:进行数据仓库项目开发的公司在平均2.73年的时间内获得了平均 为321%的投资回报率。使用数据仓库所产生的巨大效益同时又刺激了对 数据仓库技术的需求,数据仓库市场正以迅猛势头向前发展:一方面, 数据仓库市场需求量越来越大,每年约以400%的速度扩张;另一方面, 数据仓库产品越来越成熟,生产数据仓库工具的厂家也越来越多。
国内外的应用情况
1998 年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有 30 多家软件公司展示了数据挖掘软件产品 不少软件已经在北美和欧洲的 国家得到了广泛的应用 并收到明显的效益 目前国内真正应用数据挖掘的公司还不多 比较成功的有菲奈特一融通公 司和广州华工 菲奈特一融通在 IBM 数据挖掘软件的基础上开发了商业智 能套件 B1 O 航 ce 广州华工明天科技有限公司开发了多功能数据挖掘器 (AFDMl.0) 此外 一些外国公司的相关软件也开始在国内销售 如 Platinum BO 以及 IBM
数据仓库与数据挖掘
主要内容: ① 发展历程 ② 主要应用 ③ 框架结构 ④ 构造模式 ⑤ 主要技术 ⑥ 国内外发展现状 ⑦ 未来展望 ⑧ 经典案例 ⑨ 参考文最早可追溯到20世纪70年代,MIT的研究员致力于研究一种 优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理 和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,MIT的 研究员认为这两种信息处理的方式具有显著差别,以至于必须采取完全不同的 架构和设计方法。但受限于当时的信息处理能力,这个研究仅仅停留在理论层 面。 (2)探索阶段 20世纪80年代中后期,DEC公司结合MIT的研究结论,建立了TA2 (Technical Architecture2)规范,该规范定义了分析系统的四个组成部分:数 据获取、数据访问、目录和用户服务。这是系统架构的一次重大转变,第一次 明确提出分析系统架构并将其运用于实践。
发展历程(二)
(3)雏形阶段 1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库 (InformationWarehouse)的概念,并称之为VITAL规范(VirtuallyIntegrated Technical Architecture Lifecycle)。VITAL定义了85种信息仓库组件,包括PC、 图形化界面、面向对象的组件以及局域网等。至此,数据仓库的基本原理、技 术架构以及分析系统的主要原则都已确定,数据仓库初具雏形。 (4)确立阶段 1991年Bill Inmon出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。该书指出,数据仓库 (DataWarehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、 相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持 管理决策(Decision-Making Support)。该书还提供了建立数据仓库的指导意见 和基本原则。凭借着这本书,Bill Inmon被称为数据仓库之父。
主要技术的应用
数据仓库技术是基于信息系统业务发展的需要,基于数据库 系统技术发展而来,并逐步独立的一系列新的应用技术。使用这 些技术建设的信息系统我们称为数据仓库系统。随着数据仓库 技术应用的不断深入,近几年数据仓库技术得到长足的发展。 典型的数据仓库系统,比如:经营分析系统,决策支持系统等 等。也随着数据仓库系统带来的良好效果,各行各业的单位, 已经能很好的接受“整合数据,从数据中找知识,运用数据知 识、用数据说话”等新的关系到改良生产活动各环节、提高生 产效率、发展生产力的理念。 数据仓库技术就是基于数学及统计学严谨逻辑思维的并达 成“科学的判断、有效的行为”的一个工具。数据仓库技术也 是一种达成“数据整合、知识管理”的有效手段。 数据仓库是面向主题的、集成的、与时间相关的、不可修 改的数据集合。这是数据仓库技术特征的定位。
主要应用
主要应用之基于Internet
Web 信息中除了丰富的文本、图形图像、声音等媒体信息外还包括链接结构信息 和使用记录信息。挖掘 Web 内容、结构、记录等可以快速获得有效信息方便查询 ,发现权威页面优化网站组织结构录,从而提高用户访问效率,聚集同类用户。 数据挖掘技术在互联网的应用主要表现在以下几方面: (1)网络检索:采用数据挖掘信息处理技术 ,通过目标样本的特征提取、分词处理 、文本的自动分类与聚类等方法从网络信息资源中发掘用户所需信息。 (2)网络入侵监测系统:应用时间序列模式的挖掘方法通过对网络传输数据包和系 统日志分析来判断是否有非授权使用计算机的个体或计算机系统合法用户非法访 问系统以企图实施上述行为的个体。 (3)网络教育:分析学习者特征,辅助决策;跟踪学习者特点,提供个性化服务; 分析需求趋势,挖掘潜在客户;改进网站设计优化网络教育资源组织。 (4)网络信息安全管理:对各类网络信息安全事件信息深度关联分析,描述网络提 供政策支持和安全态势,为网络安全的主动防御能力提供技术支撑。 (5)电子商务:发现潜在客户、客户的驻留、改进站点设计、聚类客户等。 (6)通信网络管理:主要应用移动与固定通讯设备网络,通过大量的数据分析获得 有价值的信息,定位检测网络故障,预测严重故障等。
国内外发展现状(二)
数据仓库技术及市场将向以下方向发展:
1、并行化和可扩展性 为提高数据仓库的性能和可扩展能力,数据仓库已趋向并行化。在硬件层次 上,已越来越明显地采用多处理器并行结构;在数据库层次上,许多数据库 厂商已推出并行产品,以适应数据仓库市场的需要。 2、集中化 数据仓库项目将越来越大,GartnerGroup预测:到2000年,约有70%的集 中化信息管理将依赖于数据仓库市场。 3、数据仓库与Internet/Intranet的集成 随着Internet/Intranet技术的广泛应用和发展,数据仓库将Internet/Intranet进 行很好的集成,即前台是Web服务器,后台是数据仓库系统。 4、数据挖掘工具的成熟和广泛使用 数据挖掘工具和人工智能代理将是以后5年推动决策支持演变过程的主要力 量。 5、通用数据库 数据仓库将支持多媒体、支持结构化和非结构化数据,即向通用数据库发展, 具有面向对象的能力。 6、数据仓库打包应用 数据仓库将集成一些工具和应用,打包推向用户。
框架架构(二)
两层数据仓库体系结构
基于独立数据集市的 数据仓库体系结构
框架架构(三)
基于依赖型数据集市和操作型 数据存储(ODS)的数据仓库体系结构
逻辑型数据集市和实时 数据仓库的体系结构
构造模式(一)
数据仓库数据模型架构 数据仓库的数据模型的架构和数据仓库的整体架构是紧密关联 在一起的,我们首先来了解一下整个数据仓库的数据模型应该 包含的几个部分。从下图我们可以很清楚地看到,整个数据模 型的架构分成 5 大部分,每个部分其实都有其独特的功能。
图 . 数据仓库数据模型架构
构造模式(二)
从上图我们可以看出,整个数据仓库的数据模型可以分为大概 5 大部分:
•系统记录域(System of Record):这部分是主要的数据仓库业务数据存储区,数 据模型在这里保证了数据的一致性。 •内部管理域(Housekeeping):这部分主要存储数据仓库用于内部管理的元数据 ,数据模型在这里能够帮助进行统一的元数据的管理。 •汇总域(Summary of Area):这部分数据来自于系统记录域的汇总,数据模型在 这里保证了分析域的主题分析的性能,满足了部分的报表查询。 •分析域(Analysis Area):这部分数据模型主要用于各个业务部分的具体的主题业 务分析。这部分数据模型可以单独存储在相应的数据集市中。 •反馈域(Feedback Area):可选项,这部分数据模型主要用于相应前端的反馈数
框架架构(一)
数据仓库系统的体系结构的分类 (1)两层架构(Generic Two-Level Architecture)。 (2)独立型数据集市(Independent Data Mart)。 (3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。 (4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。
主要技术(三)
挖掘技术:该技术能实现找出数据库中隐藏的信息,用模 型来拟合数据,探索型数据分析(Exploratory data analysis),数据 驱动型的发现(Data driven discovery),演绎型学习(Deductive learning)功能。使用挖掘技术建立的数据模型我们称为挖掘 模型。挖掘模型的精度是挖掘模型的生命。 目前主流的挖掘 工具主要有:Data Miner for Java,DB2 Intelligent Miner,Analysis Services(Miner Engine),SAS Enterprise Miner,Clementine等等。 仿真优化技术:仿真优化技术是利用一系列参数化的条件 来模拟现实复杂环境中的人和物,根据各活动实体的内在复 杂关系的相互作用,在试验室中就可以预知未来的一种技术 方法。仿真技术是对现实场景的模拟,然后,利用模拟的模 型,推演未来。影响仿真推演,取得最优化方案的主要因素 有:对现实环境中各种因素及影响权重的充分考虑并得到技 术表示;对各种因素之间复杂联系充分定义;数据充分且质 量可靠;仿真及优化算法及参数运用得当。目前市面主要有 的产品有:SIMUL 8,Matlab等等。