数据仓库技术与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 2 数据仓库的设计 数据仓库的建立是至关重要的 ,它是管理人员管
理决策和预测分析的基础 ,是实现系统功能的关键之 一 ,必须保证正确的数据以正确的模式被抽取到数据 仓库中 。
(1) 确定主题 。 如表 1 不难看出 ,五个主题构成了数据仓库的结 构框架 。数据仓库中的基层数据随着时间日积月累 , 来源非常复杂 ,不仅有内部数据 ,也有外部数据 ,其数
(1) 综合数据组织 。 进行数据汇总查询之前 ,MOLAP 需要预先按概 要文件中定义的数据汇总关系进行计算 ,这个计算通 常以批处理方式运行 。计算结果存在数据文件中 ,当 用户查询时 ,直接调用计算结果 ,速度非常快 。 (2) 数据访问和生成方式 。 利用旋转 、切片或切块 、向上归纳 、向下钻取等操 作剖析数据 ,结果可用多种可视化方式呈现 ,并通过 报表输出 ,使用户能从多个角度 、多侧面观察数据 ,从 而深入了解其信息含义 ,为决策打下良好基础 。 2. 4 建立 DM 应用 在建立应用之前 ,首要任务就是建立一个数据挖 掘模型和训练这个模型 。实现这个任务有多种方法 , 最容易的 一 种 方 法 就 是 利 用 SQL Server 的 Analysis Manager 的数据模型向导 ,这个向导将产生数据挖掘 模型和训练查询 ,并通过 OLE DB for DM 接口向数据
(4) 数据仓库的数据是随时间变化的 。 数据仓库的数据随时间变化不断增加新的数据 内容和删去旧的数据内容 。数据仓库中含有大量与 时间有关的综合数据 。 粒度是数据元素中包含的信息的确切性程度 ,分 为细粒度和粗粒度[3] 。它深深地影响存放在数据仓 库中的数据量的大小 ,影响存储介质大小和查询效 率 ;同时影响数据仓库所能回答的查询类型 ,即所能 满足的信息分析的功能需求 。 1. 2 联机分析处理( OLAP) 技术 OLAP 是 On2Line Analytical Processing ( 联机分析 处理) 的首字母缩写 ,是与数据仓库密切相关的一种 决策支持工具 ,是使管理人员和分析人员或执行人员 能从多角度对原始数据转化出来的 ,能够真正为用户 所理解的并真实反映企业特性的信息进行快速 、一 致 、交互的存取 ,从而获得对数据的更深入了解的一 类软件技术 。其目标是决策支持和多维环境特定的 查询和报表需求 ,其技术核心是“维”这个概念 ,维是 人们观察事物的角度 ,所以 OLAP 也可以说是多维数 据分析工具的集合 。操作数据存储的两种方式分别 为多维数据存储和关系数据存储 ,由此形成了 OLAP 的两种实现结构 :基于多维数据库的 OLAP (MOLAP) 实现和基于关系数据库的 OLAP(ROLAP) 实现[4] 。 MOLAP 是以多维数据库 (MDD) 为基础 ,MDD 将 数据存放在一个 n 维数组中 ,存在着大量的稀疏数 据 ,在事件发生的部位 ,数据聚合在一起 ,密度很大 , 成为稠密数据[5] 。MDD 对稀疏数据进行压缩存储 , 以减少存储空间占有量 ,而且数据综合速度快 。但多 维数据库管理系统缺乏标准且功能不强 。 ROLAP 是以成熟的关系数据管理系统上 ,在灵 活性和处理数据能力方面有优势 。其不足是存放了 大量细节数据和较少的综合数据 ,有时需要牺牲效率 为代价动态地综合数据 。 1. 3 数据挖掘( DM) 技术 数据挖掘是一种决策支持过程 ,利用某些特定的 知识从企业原有的数据中挖掘出潜在的模式 ,预测客 户的行为 ,帮助企业的决策者做出正确的决策 。作为 分析型工具 ,OLAP 和 DM 在系统中占有相当重要的 地位 ,但它们的应用范围和侧重点不同 ,OLAP 是一种 验证型的分析工具 ,而 DM 是一种挖掘型的分析工 具 ,它能自动地发现隐藏在数据中的模式 。从对数据
(1) 数据仓库的面向主题性 。 主题是一个抽象的概念 ,是在较高的层次上对企 业信息系统中的数据综合 、归类后进行分析利用的抽 象 。在逻辑意义上 ,它是对应企业中某一宏观分析领 域的分析对象 ,是针对某个决策问题而设置的 。 (2) 数据仓库的数据是集成的 。 数据仓库中存储的数据从原来的分散 、异构的数 据库数据经过抽取 、统一 、综合转换成全局统一的定 义消除不一致和错误之处 。 (3) 数据仓库的数据是不可更新的 。 数据仓库中的数据通常是一起载入与访问的 ,在
The Technique and Application of Data Warehouse
XIANGJ un ,LEI Ying2jie
(Missile Institute of Air Force Engineering University ,Sanyuan 713800 ,China)
Abstract :This paper introduces the concepts of data warehouse ,on2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub2system. Key words :data warehouse ;on2line analytical processing ;data mining
数据仓库的目的是为了建立一种体系化的数据 存储环境 ,将分析决策所需要的大量数据从传统的操 作环境中分离出来 ,使分散 、不一致的操作数据转成 集成 、统一的信息 ,进而支持决策 。完整的数据仓库 包括三个方面的技术内容 :数据仓库技术 、联机分析 处理技术和数据挖掘技术 。该文对数据仓库技术及 其决策支持工具进行了详尽的讨论 ,并提出适用电信 行业的方案设计思想 。
2004 年第 11 期 文章编号 :100622475 (2004) 1120086203
计算机与现代化 J ISUANJ I YU XIANDAIHUA
数据仓库技术与应用
总第 111 期
项 军 ,雷英杰
(空军工程大学导弹学院 ,陕西 三原 713800)
摘要 :对数据仓库 、联机分析处理和数据挖掘等几个概念做了详细的介绍 ,在此基础上提出适用于电信系统应用的设计 思想 ,详细介绍了该系统的系统结构 、关键技术的实现和各子系统功能 。 关键词 :数据仓库 ;联机分析处理 ;数据挖掘 中图分类号 :TP311. 13 文献标识码 :A
数据进行更高意义的概括 。同时 ,按照决策的需要组 织成面向主题的二维表 ,每个表描述主题的不同部分 的信息 ,而表与表之间通过主码键和公共码键联系 。
表 1 数据仓库的主题域
主题
属性组
公共码键
客户
客户分类 、个体客户 、集体客户 、 客户基本档案信息
客户 ID 号
业务
业务类别 、业务项目
业务号
费用
客户费用 、业务费用
计价费用号
话费记录 话费分类 、长途电话 、市话 、移动通话 话费项目号
缴费记录 缴费项目分类 、客户缴费项目 缴费项目号
(2) 粒度的划分 。 考虑到电信部门的数据仓库中拥有大量数据 ,采
用双重粒度级来设计 。将部门每天的细节操作型数
据 (细粒度的数据) 存放在数据仓库的真实档案层 ,并 每隔一个时间周期 (一个月) 将这些数据从数据仓库 中转移到一个价格低廉的存储介质保存 。这样可以
系统可分为四个部分 :数据源 (包括来自源于电 信部门的内部业务数据和其它结构的外部数据) 、数 据仓库系统 、决策支持层 (OLAP 工具和 DM 工具) 和 用户界面 。它们之间相互作用共同构成层次分明的 决策支持系统 。如图 1 。系统的工作流程 :底层数据 源的数据经抽取 、转换后进入数据仓库 。数据仓库中 的多维数据经 OLAP 系统直接提供给一般的管理人 员和高层的管理人员 。同时数据挖掘工具从数据仓 库挖掘出有用的信息可供高层人员做出预测信息性 分析 。通过用户界面供用户使用 。
收稿日期 :2003212227 基金项目 :教育部高等学校骨干教师资助计划项目 ( GG281029003921003) 作者简介 :项军 (19792) ,男 ,四川绵阳人 ,空军工程大学导弹学院计算机工程系硕士研究生 ,研究方向 :智能信息处理与人工 智能 ;雷英杰 (19562) ,男 ,陕西渭南人 ,教授 ,博士生导师 ,研究方向 :智能信息处理 ,模式识别 ,人工智能 。
提高查询内容的范围 。将每月的或是每年的综合分 析型数据 (粗粒度的数据) 存放在数据仓库中 ,供分析 人员使用 ,这些数据是经常被用到的 ,可以提高查询 效率 ,同时节省存储费用 。 2. 3 OLAP 系统的建立
OLAP 系统的设计重点在于如何组织数据仓库中 的综合性数据 ,如何满足前端用户的多维数据分析需 要 。基于上面两点考虑 ,选用基于多维数据组织的 OLAP(MOLAP) 实现 。
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
ቤተ መጻሕፍቲ ባይዱ
2004 年第 11 期
项军等 :数据仓库技术与应用
87
数据仓库环境中不进行一般意义上的数据更新 。所 以数据在一定的时间间隔是稳定的 ,并且能反映企业 当前和历史的数据 。
0 引 言
近年来 ,随着企业计算机应用的不断深入 ,大部 分企业已经投入了大量的时间和资源建立了庞大而 复杂的信息系统 ,积累了大量的宝贵数据资源 。面对 日益激烈的市场竞争和潜在的金融风险 ,这些企业迫 切希望能有一个强而有力的分析工具来帮助他们从 这些海量的数据中充分挖掘有意义的信息 ,以辅助高 层领导者进行计划和指导决策活动 。
分析的深度的角度来看 ,OLAP 位于较浅的层次 ,DM 所处的位置较深 。
尽管 DM 与 OLAP 存在差异 ,但作为数据仓库的 工具层的组成部分 ,两者相辅相成 ,相互结合 ,多维数 据挖掘 (OLAM) 是 OLAP 和 DM 相结合的产物 。
2 电信系统数据仓库技术应用方案
随着电信市场的逐渐开放 ,传统的电信厂商面临 着国内外厂商的挑战 ,电信厂商间的竞争将日趋激 烈 。因此必须依靠技术手段 ,建立一套良好的电信业 务管理系统 ,使之能在不断变化的市场需要中把握商 机 ,满足需要 。建立基于数据仓库的决策支持系统 , 是实现这一目标的保障 。以往的电信行业中各个部 门已经建立自己的信息系统 ,经过多年的运行 ,已经 保存大量的实时系统运行信息 、原始营业数据及其它 详细资料 。但由于这些系统间的分散 、独立不仅无法 为管理决策提供科学依据 ,也无法满足信息一体化的 要求 。为了提供全面的客户跟踪和决策分析 ,提出了 建立数据仓库的构想 。 2. 1 系统的体系结构
挖掘供应者发送这个查询 。 通过数据挖掘得到的信息 ,可以清楚电信业务中
1 数据仓库及其决策支持工具的概述
1. 1 数据仓库( Data Warehouse) 根据 W. H. Inmon 的定义 “: 数据仓库是面向主题
的 、集成的 、稳定的 、随时间变化的数据集合 ,用以支 持决策制定过程 。”数据仓库是一个专门的数据仓储 对象[1] 。它通过清理 、转移 、分析 、映射和综合 ,形成 统一的存储格式 ,最终为用户特别是决策支持者提供 对公用数据的更好的访问支持 。数据仓库有四个显 著特点[2 ] :
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
88
计 算 机 与 现 代 化
2004 年第 11 期
据结构也不尽相同 ,必须经过抽取 、转换 、传输和上载 的数据采集过程 ,集成到数据仓库中 ,数据仓库包含 原子数据层和具体历史数据 。而多维数据库则是对
相关文档
最新文档