数据仓库技术与应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】
文章编号 :5(2004 03
收稿日期 :27
基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28
作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。数据仓库技术与应用
项军 , 雷英杰
(空军工程大学导弹学院 , 陕西三原 713800
摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :A
The T echnique and Application of Data W arehouse
XI ANGJun ,LEI Y ing 2jie
(Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China
Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system.
K ey w ords :data warehouse ;on 2line analytical processing ;data mining
0引言
近年来 , 随着企业计算机应用的不断深入 , 大部
分企业已经投入了大量的时间和资源建立了庞大而复杂的信息系统 , 积累了大量的宝贵数据资源。面对日益激烈的市场竞争和潜在的金融风险 , 这些企业迫切希望能有一个强而有力的分析工具来帮助他们从这些海量的数据中充分挖掘有意义的信息 , 以辅助高层领导者进行计划和指导决策活动。
数据仓库的目的是为了建立一种体系化的数据存储环境 , 将分析决策所需要的大量数据从传统的操作环境中分离出来 , 使分散、不一致的操作数据转成集成、统一的信息 , 进而支持决策。完整的数据仓库包括三个方面的技术内容 :数据仓库技术、联机分析处理技术和数据挖掘技术。该文对数据仓库技术及其决策支持工具进行了详尽的讨论 , 并提出适用电信行业的方案设计思想。
1数据仓库及其决策支持工具的概述
1. 1数据仓库 (Data W arehouse
根据 W. H. Inm on 的定义:“ 数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合 , 用以支持决策制定过程。” 数据仓库是一个专门的数据仓储对象 [1]。它通过清理、转移、分析、映射和综合 , 形成统一的存储格式 , 最终为用户特别是决策支持者提供对公用数据的更好的访问支持。数据仓库有四个显着特点 [2]:
(1 数据仓库的面向主题性。
主题是一个抽象的概念 , 是在较高的层次上对企业信息系统中的数据综合、归类后进行分析利用的抽象。在逻辑意义上 , 它是对应企业中某一宏观分析领域的分析对象 , 是针对某个决策问题而设置的。
(2 数据仓库的数据是集成的。
数据仓库中存储的数据从原来的分散、异构的数据库数据经过抽取、统一、综合转换成全局统一的定义消除不一致和错误之处。
(3 数据仓库的数据是不可更新的。
数据仓库中的数据通常是一起载入与访问的 , 在
计算机与现代化
2004年第 11期
J IS UAN J I Y U XI ANDAIH UA
总第 111期
数据仓库环境中不进行一般意义上的数据更新。所以数据在一定的时间间隔是稳定的 , 并且能反映企业当前和历史的数据。
(4 数据仓库的数据是随时间变化的。
数据仓库的数据随时间变化不断增加新的数据内容和删去旧的数据内容。数据仓库中含有大量与时间有关的综合数据。
粒度是数据元素中包含的信息的确切性程度 , 分为细粒度和粗粒度 [3]。它深深地影响存放在数据仓库中的数据量的大小 , 影响存储介质大小和查询效率 ; 同时影响数据仓库所能回答的查询类型 , 即所能满足的信息分析的功能需求。
1. 2联机分析处理 (OLAP 技术
O LAP 是 On 2Line Analytical Processing (联机分析处理的首字母缩写 , 是与数据仓库密切相关的一种决策支持工具 , 是使管理人员和分析人员或执行人员能从多角度对原始数据转化出来的 , 能够真正为用户所理解的并真实反映企业特性的信息进行快速、一致、交互的存取 , 从而获得对数据的更深入了解的一类软件技术。其目标是决策支持和多维环境特定的查询和报表需求 , 其技术核心是“维” 这个概念 , 维是人们观察事物的角度 , 所以 O LAP 也可以说是多维数据分析工具的集合。操作数据存储的两种方式分别为多维数据存储和关系数据存储 , 由此形成
了 O LAP 的两种实现结构 :基于多维数据库的 O LAP (M O LAP 实现和基于关系数据库的 O LAP (RO LAP 实现 [4]。 M O LAP 是以多维数据库 (M DD 为基础 ,M DD 将数据存放在一个 n 维数组中 , 存在着大量的稀疏数据 , 在事件发生的部位 , 数据聚合在一起 , 密度很大 , 成为稠密数据 [5]。 M DD 对稀疏数据进行压缩存储 , 以减少存储空间占有量 , 而且数据综合速度快。但多维数据库管理系统缺乏标准且功能不强。
RO LAP 是以成熟的关系数据管理系统上 , 在灵活性和处理数据能力方面有优势。其不足是存放了大量细节数据和较少的综合数据 , 有时需要牺牲效率为代价动态地综合数据。
1. 3数据挖掘 (DM 技术
数据挖掘是一种决策支持过程 , 利用某些特定的知识从企业原有的数据中挖掘出潜在的模式 , 预测客户的行为 , 帮助企业的决策者做出正确的决策。作为分析型工具 ,O LAP 和 DM 在系统中占有相当重要的地位 , 但它们的应用范围和侧重点不同 ,O LAP 是一种验证型的分析工具 , 而 DM 是一种挖掘型的分析工具 , 它能自动地发现隐藏在数据中的模式。从对数据分析的深度的角度来看 ,O LAP 位于较浅的层次 ,DM 所处的位置较深。
尽管 DM 与 O LAP 存在差异 , 但作为数据仓库的工具层的组成部分 , 两者相辅相成 , 相互结合 , 多维数据挖掘 (O LAM 是 O LAP 和 DM 相结合的产物。
2电信系统数据仓库技术应用方案随着电信市场的逐渐开放 , 传统的电信厂商面临着国内外厂商的挑战 , 电信厂商间的竞争将日趋激烈。因此必须依靠技术手段 , 建立一套良好的电信业务管理系统 , 使之能在不断变化的市场需要中把握商机 , 满足需要。建立基于数据仓库的决策支持系统 , 是实现这一目标的保障。以往的电信行业中各个部门已经建立自己的信息系统 , 经过多年的运行 , 已经保存大量的实时系统运行信息、原始营业数据及其它详细资料。但由于这些系统间的分散、独立不仅无法为管理决策提供科学依据 , 也无法满足信息一体化的要求。为了提供全面的客户跟踪和决策分析 , 提出了建立数据仓库的构想。